Friday, March 29, 2024
HomeBioप्रोजेक्ट के अंदर डेटासेट को विलुप्त होने से बचाने की कोशिश |...

प्रोजेक्ट के अंदर डेटासेट को विलुप्त होने से बचाने की कोशिश | टीएस डाइजेस्ट

जे24 मार्च, 1989 की आधी रात के बाद, एक्सॉन सुपरटैंकर वाल्डेज़ प्रिंस विलियम साउंड, अलास्का में ब्लीग रीफ में पटक दिया। परिणामी तेल रिसाव क्षेत्र, इसकी मछलियों और समृद्ध वन्य जीवन, और उन पर निर्भर रहने वाले लोगों और उद्योगों के लिए एक अभूतपूर्व आपदा थी। बाद में, से अधिक $150 मिलियन सिविल सूट सेटलमेंट का पैसा पारिस्थितिक अनुसंधान और निगरानी प्रयासों के लिए आवंटित किया गया था ताकि वैज्ञानिकों को फैल के दीर्घकालिक प्रभावों को समझने और कम करने में मदद मिल सके।

तीन दशक बाद, आपदा के मद्देनजर एकत्र किए गए अधिकांश डेटा गायब हो गए हैं। मूल डेटा को पुनर्प्राप्त करने के लिए 2012 में शुरू हुई पांच साल की परियोजना अभी-अभी चालू हुई 30 प्रतिशत– बाकी को कभी भी डिजिटाइज़ नहीं किया गया, कभी साझा नहीं किया गया, या बाहरी शोधकर्ताओं के लिए दुर्गम प्रारूप में रखा गया। विशुद्ध रूप से वित्तीय दृष्टि से, एक नया अध्ययन अनुमान डेटा एकत्र करने के लिए $100 मिलियन से अधिक खर्च किया गया था, प्रभावी रूप से, अब मौजूद नहीं है।

“वास्तव में जंगली” है कि एरिजोना समुदाय पारिस्थितिक विज्ञानी और सहलेखक का अध्ययन कैसे किया जाता है एलेन ब्लेडोस वाल्डेज़ डेटा हानि के पैमाने का वर्णन करता है। इसे टैली करना “निश्चित रूप से आंखें खोलने वाला था, जैसे कि मौद्रिक रूप से कितना डेटा खो गया है, इसकी मात्रा निर्धारित करने का एक तरीका है।” कैनेडियन इंस्टीट्यूट ऑफ इकोलॉजी एंड इवोल्यूशन (CIEE) में ब्लेडोस और उनके सहयोगियों ने महत्वपूर्ण पारिस्थितिक डेटा की पुनर्प्राप्ति और संग्रह के लिए दिशानिर्देशों के साथ इस वर्ष की शुरुआत में अपना अनुमान प्रकाशित किया। CIEE के लिविंग डेटा प्रोजेक्ट के हिस्से के रूप में, उनका लक्ष्य नुकसान के खतरे वाले डेटासेट की पहचान करना और ईथर में गायब होने से पहले उन्हें संरक्षित करने के लिए कदम उठाना है। डेटा बचाव आधिकारिक शब्द है, लेकिन ब्लीडो का कहना है कि वह इसे “डेटा नेक्रोमेंसी” के रूप में सोचना पसंद करती है – मृतकों से डेटा वापस लाना।

परियोजना विज्ञान में एक आम विरोधाभास से निपटती है। डेटा के बिना, विश्लेषण करने के लिए कुछ भी नहीं है और किसी परिकल्पना का परीक्षण करने का कोई तरीका नहीं है। फिर भी एक बार जब वे परिणाम और प्रकाशन तैयार कर लेते हैं, तो डेटा को कभी-कभी ऐसे उपकरण के रूप में माना जाता है, जो मूल्यवान और अक्सर अपूरणीय रिकॉर्ड के बजाय अपनी उपयोगिता को समाप्त कर चुके होते हैं। “डेटा को रोमांचक नहीं के रूप में देखा गया है। वे विज्ञान नहीं हैं, वे उचित विचार पीढ़ी नहीं हैं,” CIEE बोर्ड के सदस्य कहते हैं एलिसन स्पीच. “वे एक अंत का साधन हैं, और क्यूरेशन, प्रबंधन और डेटा साझा करना एक समय लेने वाला और निम्न-श्रेणी का कार्य था, और आमतौर पर वित्त पोषित नहीं था।”

इकोलॉजी के प्रोफेसर जॉर्ज एच. ला रोई का डेटा – उत्तर अमेरिकी बोरियल वनों का अध्ययन करने के 35 वर्षों में एकत्र किया गया और नोटबुक, सीडी-रोम और स्लाइड्स में संग्रहीत किया गया – अब लिविंग डेटा प्रोजेक्ट द्वारा संरक्षित किया गया है।

लिविंग डेटा प्रोजेक्ट

द लिविंग डेटा प्रोजेक्ट, जिसे नैचुरल साइंसेज एंड इंजीनियरिंग रिसर्च काउंसिल ऑफ़ कनाडा (NSERC) से फ़ंडिंग मिली है, का उद्देश्य डेटा हानि की तत्काल समस्या और अंतर्निहित सांस्कृतिक कारणों दोनों का समाधान करना है। परियोजना स्नातक छात्रों को डेटा प्रबंधन पर प्रशिक्षित करती है, फिर उन्हें अनुसंधान संगठनों या सेवानिवृत्त शिक्षाविदों जैसे डेटा मालिकों के साथ मिलाती है। छात्र उम्र बढ़ने वाले डेटासेट को साफ और संसाधित करने में मदद करते हैं, अंततः उन्हें एक सुलभ रिपॉजिटरी में साझा करते हैं।

“अधिकांश जीव विज्ञान पाठ्यक्रम में कोई पाठ्यक्रम नहीं है जो लोगों को अपने डेटा का प्रबंधन करना सिखाता है,” कहते हैं डोमिनिक रोश, स्विट्ज़रलैंड में न्यूचैटेल विश्वविद्यालय में एक पोस्टडॉक्टरल साथी और लिविंग डेटा प्रोजेक्ट पेपर पर सह-लेखक। “ऐसा लगता है कि यह एक आवश्यक कौशल है। मुझे लगता है कि यह मान लिया गया है कि शोध करने वाले लोग डेटा के साथ काम करना जानते हैं, लेकिन यह अब तक की सबसे बड़ी भ्रांति है।”

बचाव की आवश्यकता वाली पुरानी परियोजनाओं की संख्या कठिन हो सकती है—2010 की शुरुआत में जर्नल और फंडिंग एजेंसियों को इसकी आवश्यकता शुरू होने से पहले पारिस्थितिकी में डेटा साझा करना दुर्लभ था। इसलिए टीम का नया पेपर दूसरों पर कुछ परियोजनाओं को प्राथमिकता देने के लिए दिशा-निर्देश देता है, जिसमें ऐसे अध्ययन शामिल हैं जो लंबे समय तक, एक बड़े भौगोलिक क्षेत्र या कई प्रजातियों को कवर करते हैं। ब्लीडो कहते हैं, ये भविष्य के शोधकर्ताओं के लिए सबसे उपयोगी होने की संभावना है, हालांकि वह स्वीकार करती है कि अपवाद हैं। यदि एक जीवविज्ञानी शेरों का अध्ययन करता है, तो शेरों के व्यवहार का एक छोटा लेकिन विस्तृत डेटासेट एक महाद्वीपीय-पैमाने, दीर्घकालिक पारिस्थितिकीय डेटासेट की तुलना में अधिक उपयोगी हो सकता है जिसमें शेर शामिल नहीं हैं। “यह वास्तव में एक आदमी का कचरा दूसरे आदमी का खजाना है।”

बचाव के लिए प्राथमिकताएं निर्धारित करने का एक अन्य कारक स्थायी नुकसान का जोखिम है। केवल कागज पर या पुराने मीडिया जैसे फ्लॉपी डिस्क पर संग्रहीत जानकारी विशेष रूप से असुरक्षित है। कभी-कभी डेटा आधिकारिक विश्वविद्यालय विभाग के स्थान पर संग्रहीत किया जाता है, लेकिन अक्सर, वे शोधकर्ताओं के गैरेज में समाप्त हो सकते हैं या अपने बच्चों को सौंप सकते हैं। अपने पेपर में, ब्लीडो और उनके सहयोगियों ने अलबर्टा वन पारिस्थितिकी के प्रोफेसर जॉर्ज एच. ला रोई विश्वविद्यालय के उदाहरण का वर्णन किया है। ला रोई की मृत्यु के बाद, उनके बच्चों ने अपने एक सहयोगी को उत्तर अमेरिकी बोरियल वनों का अध्ययन करने के 35 वर्षों से उनकी एकत्रित नोटबुक, सीडी-रोम और स्लाइड छवियों को विरासत में दिया। लिविंग डेटा प्रोजेक्ट इस अपूरणीय पारिस्थितिक रिकॉर्ड को बहाल करने और संरक्षित करने के लिए प्रशिक्षित छात्रों के साथ नए मालिक का मिलान करने में सक्षम था।

पुस्तकों और कंप्यूटर स्क्रीन के माध्यम से डेटा खोजने वाले लोगों का कार्टून।

आंद्रेज क्रुज़

तकनीकी प्रगति डेटा संरक्षण को पहले से कहीं अधिक आसान और विश्वसनीय बना रही है। कुछ साल पहले की तुलना में रिपॉजिटरी बहुत अधिक सामान्य हैं, और जैसे कार्यक्रम कोरट्रस्टसील2017 में डेटा संग्रह और पारदर्शिता पर केंद्रित संगठनों के एक अंतरराष्ट्रीय सहयोग के माध्यम से स्थापित किया गया था, अब उन रिपॉजिटरी को प्रमाणन प्रदान करता है जो स्थायी रूप से बनाए और अद्यतन किए जाते हैं।

फिर भी, तकनीकी विकास एक प्रयोग करने योग्य स्थिति में डेटासेट बनाए रखने के लिए प्रोत्साहन की कमी को संबोधित नहीं करते हैं मार्क वेस्टोबी, मैक्वेरी विश्वविद्यालय में प्रोफेसर एमेरिटस जो लिविंग डेटा प्रोजेक्ट में शामिल नहीं हैं। “अकादमिक करियर प्रकाशन पर चलते हैं,” वे कहते हैं। “यह अब तक का सबसे महत्वपूर्ण प्रोत्साहन है कि कैसे शिक्षाविद – शायद सरकारी वैज्ञानिक भी – यह तय करें कि अपना समय कैसे व्यतीत करना है।” वेस्टोबी ने हाल ही में सह-लेखन किया है कागज़ डेटा प्रदाताओं के लिए प्रकाशन और जर्नल प्रभाव स्कोर के अलावा एक नई कैरियर मुद्रा के लिए कॉल करना – लेकिन इस तरह के सांस्कृतिक परिवर्तनों में समय लगता है, वे कहते हैं। जबकि निधिकरण एजेंसियां तथा वैज्ञानिक पत्रिकाओं डेटा-शेयरिंग आवश्यकताओं को तेजी से लागू कर रहे हैं, इससे कानून के कानून का दृष्टिकोण हो सकता है, वह कहते हैं, जहां आवश्यकताओं को पूरा करने के लिए कुछ डेटा साझा किए जाते हैं, लेकिन जरूरी नहीं कि पूर्ण डेटासेट में या विशेष रूप से सुपाठ्य प्रारूप में।

वेस्टोबी पुराने डेटा-सेट को बचाने के लिए लिविंग डेटा प्रोजेक्ट के प्रयासों का समर्थन करता है, लेकिन ध्यान दें कि समूह का पेपर ऐसा करने की लागत के साथ-साथ प्रेरणा के मुद्दे को भी दरकिनार कर देता है। “पुनर्जीवित करने, पुनर्जीवित करने, बचाव डेटा जो अन्यथा खो सकता है, सभी अच्छी सलाह है। यह वास्तव में कितने व्यक्ति-घंटे और व्यक्ति-वर्ष के बारे में बात कर रहे हैं, और क्या यह इसके लायक है?

आखिरकार, हर कोई जिसने बात की वैज्ञानिक इस बात पर सहमत हुए कि आदर्श प्रणाली वह है जहां बचाव बिल्कुल आवश्यक नहीं है। रोश कहते हैं, “डेटा बचाव एक महान अवधारणा है,” लेकिन आदर्श रूप से हम जो करना चाहते हैं वह डेटा बचाव से छुटकारा पाना है। यह लोगों के लिए बहुत कम काम होगा यदि वे किसी परियोजना की शुरुआत से ही डेटा प्रबंधन और साझा करने के बारे में सोचते हैं, ताकि डेटा खो जाने का जोखिम न हो।

Leave a Reply

Most Popular

Recent Comments