Home Bio प्रोजेक्ट के अंदर डेटासेट को विलुप्त होने से बचाने की कोशिश | टीएस डाइजेस्ट

प्रोजेक्ट के अंदर डेटासेट को विलुप्त होने से बचाने की कोशिश | टीएस डाइजेस्ट

0
प्रोजेक्ट के अंदर डेटासेट को विलुप्त होने से बचाने की कोशिश |  टीएस डाइजेस्ट

जे24 मार्च, 1989 की आधी रात के बाद, एक्सॉन सुपरटैंकर वाल्डेज़ प्रिंस विलियम साउंड, अलास्का में ब्लीग रीफ में पटक दिया। परिणामी तेल रिसाव क्षेत्र, इसकी मछलियों और समृद्ध वन्य जीवन, और उन पर निर्भर रहने वाले लोगों और उद्योगों के लिए एक अभूतपूर्व आपदा थी। बाद में, से अधिक $150 मिलियन सिविल सूट सेटलमेंट का पैसा पारिस्थितिक अनुसंधान और निगरानी प्रयासों के लिए आवंटित किया गया था ताकि वैज्ञानिकों को फैल के दीर्घकालिक प्रभावों को समझने और कम करने में मदद मिल सके।

तीन दशक बाद, आपदा के मद्देनजर एकत्र किए गए अधिकांश डेटा गायब हो गए हैं। मूल डेटा को पुनर्प्राप्त करने के लिए 2012 में शुरू हुई पांच साल की परियोजना अभी-अभी चालू हुई 30 प्रतिशत– बाकी को कभी भी डिजिटाइज़ नहीं किया गया, कभी साझा नहीं किया गया, या बाहरी शोधकर्ताओं के लिए दुर्गम प्रारूप में रखा गया। विशुद्ध रूप से वित्तीय दृष्टि से, एक नया अध्ययन अनुमान डेटा एकत्र करने के लिए $100 मिलियन से अधिक खर्च किया गया था, प्रभावी रूप से, अब मौजूद नहीं है।

“वास्तव में जंगली” है कि एरिजोना समुदाय पारिस्थितिक विज्ञानी और सहलेखक का अध्ययन कैसे किया जाता है एलेन ब्लेडोस वाल्डेज़ डेटा हानि के पैमाने का वर्णन करता है। इसे टैली करना “निश्चित रूप से आंखें खोलने वाला था, जैसे कि मौद्रिक रूप से कितना डेटा खो गया है, इसकी मात्रा निर्धारित करने का एक तरीका है।” कैनेडियन इंस्टीट्यूट ऑफ इकोलॉजी एंड इवोल्यूशन (CIEE) में ब्लेडोस और उनके सहयोगियों ने महत्वपूर्ण पारिस्थितिक डेटा की पुनर्प्राप्ति और संग्रह के लिए दिशानिर्देशों के साथ इस वर्ष की शुरुआत में अपना अनुमान प्रकाशित किया। CIEE के लिविंग डेटा प्रोजेक्ट के हिस्से के रूप में, उनका लक्ष्य नुकसान के खतरे वाले डेटासेट की पहचान करना और ईथर में गायब होने से पहले उन्हें संरक्षित करने के लिए कदम उठाना है। डेटा बचाव आधिकारिक शब्द है, लेकिन ब्लीडो का कहना है कि वह इसे “डेटा नेक्रोमेंसी” के रूप में सोचना पसंद करती है – मृतकों से डेटा वापस लाना।

परियोजना विज्ञान में एक आम विरोधाभास से निपटती है। डेटा के बिना, विश्लेषण करने के लिए कुछ भी नहीं है और किसी परिकल्पना का परीक्षण करने का कोई तरीका नहीं है। फिर भी एक बार जब वे परिणाम और प्रकाशन तैयार कर लेते हैं, तो डेटा को कभी-कभी ऐसे उपकरण के रूप में माना जाता है, जो मूल्यवान और अक्सर अपूरणीय रिकॉर्ड के बजाय अपनी उपयोगिता को समाप्त कर चुके होते हैं। “डेटा को रोमांचक नहीं के रूप में देखा गया है। वे विज्ञान नहीं हैं, वे उचित विचार पीढ़ी नहीं हैं,” CIEE बोर्ड के सदस्य कहते हैं एलिसन स्पीच. “वे एक अंत का साधन हैं, और क्यूरेशन, प्रबंधन और डेटा साझा करना एक समय लेने वाला और निम्न-श्रेणी का कार्य था, और आमतौर पर वित्त पोषित नहीं था।”

इकोलॉजी के प्रोफेसर जॉर्ज एच. ला रोई का डेटा - उत्तर अमेरिकी बोरियल वनों का अध्ययन करने के 35 वर्षों में एकत्र किया गया और नोटबुक, सीडी-रोम और स्लाइड्स में संग्रहीत किया गया - अब लिविंग डेटा प्रोजेक्ट द्वारा संरक्षित किया गया है।

इकोलॉजी के प्रोफेसर जॉर्ज एच. ला रोई का डेटा – उत्तर अमेरिकी बोरियल वनों का अध्ययन करने के 35 वर्षों में एकत्र किया गया और नोटबुक, सीडी-रोम और स्लाइड्स में संग्रहीत किया गया – अब लिविंग डेटा प्रोजेक्ट द्वारा संरक्षित किया गया है।

लिविंग डेटा प्रोजेक्ट

द लिविंग डेटा प्रोजेक्ट, जिसे नैचुरल साइंसेज एंड इंजीनियरिंग रिसर्च काउंसिल ऑफ़ कनाडा (NSERC) से फ़ंडिंग मिली है, का उद्देश्य डेटा हानि की तत्काल समस्या और अंतर्निहित सांस्कृतिक कारणों दोनों का समाधान करना है। परियोजना स्नातक छात्रों को डेटा प्रबंधन पर प्रशिक्षित करती है, फिर उन्हें अनुसंधान संगठनों या सेवानिवृत्त शिक्षाविदों जैसे डेटा मालिकों के साथ मिलाती है। छात्र उम्र बढ़ने वाले डेटासेट को साफ और संसाधित करने में मदद करते हैं, अंततः उन्हें एक सुलभ रिपॉजिटरी में साझा करते हैं।

“अधिकांश जीव विज्ञान पाठ्यक्रम में कोई पाठ्यक्रम नहीं है जो लोगों को अपने डेटा का प्रबंधन करना सिखाता है,” कहते हैं डोमिनिक रोश, स्विट्ज़रलैंड में न्यूचैटेल विश्वविद्यालय में एक पोस्टडॉक्टरल साथी और लिविंग डेटा प्रोजेक्ट पेपर पर सह-लेखक। “ऐसा लगता है कि यह एक आवश्यक कौशल है। मुझे लगता है कि यह मान लिया गया है कि शोध करने वाले लोग डेटा के साथ काम करना जानते हैं, लेकिन यह अब तक की सबसे बड़ी भ्रांति है।”

बचाव की आवश्यकता वाली पुरानी परियोजनाओं की संख्या कठिन हो सकती है—2010 की शुरुआत में जर्नल और फंडिंग एजेंसियों को इसकी आवश्यकता शुरू होने से पहले पारिस्थितिकी में डेटा साझा करना दुर्लभ था। इसलिए टीम का नया पेपर दूसरों पर कुछ परियोजनाओं को प्राथमिकता देने के लिए दिशा-निर्देश देता है, जिसमें ऐसे अध्ययन शामिल हैं जो लंबे समय तक, एक बड़े भौगोलिक क्षेत्र या कई प्रजातियों को कवर करते हैं। ब्लीडो कहते हैं, ये भविष्य के शोधकर्ताओं के लिए सबसे उपयोगी होने की संभावना है, हालांकि वह स्वीकार करती है कि अपवाद हैं। यदि एक जीवविज्ञानी शेरों का अध्ययन करता है, तो शेरों के व्यवहार का एक छोटा लेकिन विस्तृत डेटासेट एक महाद्वीपीय-पैमाने, दीर्घकालिक पारिस्थितिकीय डेटासेट की तुलना में अधिक उपयोगी हो सकता है जिसमें शेर शामिल नहीं हैं। “यह वास्तव में एक आदमी का कचरा दूसरे आदमी का खजाना है।”

बचाव के लिए प्राथमिकताएं निर्धारित करने का एक अन्य कारक स्थायी नुकसान का जोखिम है। केवल कागज पर या पुराने मीडिया जैसे फ्लॉपी डिस्क पर संग्रहीत जानकारी विशेष रूप से असुरक्षित है। कभी-कभी डेटा आधिकारिक विश्वविद्यालय विभाग के स्थान पर संग्रहीत किया जाता है, लेकिन अक्सर, वे शोधकर्ताओं के गैरेज में समाप्त हो सकते हैं या अपने बच्चों को सौंप सकते हैं। अपने पेपर में, ब्लीडो और उनके सहयोगियों ने अलबर्टा वन पारिस्थितिकी के प्रोफेसर जॉर्ज एच. ला रोई विश्वविद्यालय के उदाहरण का वर्णन किया है। ला रोई की मृत्यु के बाद, उनके बच्चों ने अपने एक सहयोगी को उत्तर अमेरिकी बोरियल वनों का अध्ययन करने के 35 वर्षों से उनकी एकत्रित नोटबुक, सीडी-रोम और स्लाइड छवियों को विरासत में दिया। लिविंग डेटा प्रोजेक्ट इस अपूरणीय पारिस्थितिक रिकॉर्ड को बहाल करने और संरक्षित करने के लिए प्रशिक्षित छात्रों के साथ नए मालिक का मिलान करने में सक्षम था।

पुस्तकों और कंप्यूटर स्क्रीन के माध्यम से डेटा खोजने वाले लोगों का कार्टून।

आंद्रेज क्रुज़

तकनीकी प्रगति डेटा संरक्षण को पहले से कहीं अधिक आसान और विश्वसनीय बना रही है। कुछ साल पहले की तुलना में रिपॉजिटरी बहुत अधिक सामान्य हैं, और जैसे कार्यक्रम कोरट्रस्टसील2017 में डेटा संग्रह और पारदर्शिता पर केंद्रित संगठनों के एक अंतरराष्ट्रीय सहयोग के माध्यम से स्थापित किया गया था, अब उन रिपॉजिटरी को प्रमाणन प्रदान करता है जो स्थायी रूप से बनाए और अद्यतन किए जाते हैं।

फिर भी, तकनीकी विकास एक प्रयोग करने योग्य स्थिति में डेटासेट बनाए रखने के लिए प्रोत्साहन की कमी को संबोधित नहीं करते हैं मार्क वेस्टोबी, मैक्वेरी विश्वविद्यालय में प्रोफेसर एमेरिटस जो लिविंग डेटा प्रोजेक्ट में शामिल नहीं हैं। “अकादमिक करियर प्रकाशन पर चलते हैं,” वे कहते हैं। “यह अब तक का सबसे महत्वपूर्ण प्रोत्साहन है कि कैसे शिक्षाविद – शायद सरकारी वैज्ञानिक भी – यह तय करें कि अपना समय कैसे व्यतीत करना है।” वेस्टोबी ने हाल ही में सह-लेखन किया है कागज़ डेटा प्रदाताओं के लिए प्रकाशन और जर्नल प्रभाव स्कोर के अलावा एक नई कैरियर मुद्रा के लिए कॉल करना – लेकिन इस तरह के सांस्कृतिक परिवर्तनों में समय लगता है, वे कहते हैं। जबकि निधिकरण एजेंसियां तथा वैज्ञानिक पत्रिकाओं डेटा-शेयरिंग आवश्यकताओं को तेजी से लागू कर रहे हैं, इससे कानून के कानून का दृष्टिकोण हो सकता है, वह कहते हैं, जहां आवश्यकताओं को पूरा करने के लिए कुछ डेटा साझा किए जाते हैं, लेकिन जरूरी नहीं कि पूर्ण डेटासेट में या विशेष रूप से सुपाठ्य प्रारूप में।

वेस्टोबी पुराने डेटा-सेट को बचाने के लिए लिविंग डेटा प्रोजेक्ट के प्रयासों का समर्थन करता है, लेकिन ध्यान दें कि समूह का पेपर ऐसा करने की लागत के साथ-साथ प्रेरणा के मुद्दे को भी दरकिनार कर देता है। “पुनर्जीवित करने, पुनर्जीवित करने, बचाव डेटा जो अन्यथा खो सकता है, सभी अच्छी सलाह है। यह वास्तव में कितने व्यक्ति-घंटे और व्यक्ति-वर्ष के बारे में बात कर रहे हैं, और क्या यह इसके लायक है?

आखिरकार, हर कोई जिसने बात की वैज्ञानिक इस बात पर सहमत हुए कि आदर्श प्रणाली वह है जहां बचाव बिल्कुल आवश्यक नहीं है। रोश कहते हैं, “डेटा बचाव एक महान अवधारणा है,” लेकिन आदर्श रूप से हम जो करना चाहते हैं वह डेटा बचाव से छुटकारा पाना है। यह लोगों के लिए बहुत कम काम होगा यदि वे किसी परियोजना की शुरुआत से ही डेटा प्रबंधन और साझा करने के बारे में सोचते हैं, ताकि डेटा खो जाने का जोखिम न हो।

LEAVE A REPLY

Please enter your comment!
Please enter your name here