डॉ। कार्ल स्ट्रैथर्नएडिनबर्ग नेपियर यूनिवर्सिटी में स्कूल ऑफ कम्प्यूटिंग के एक रिसर्च फेलो ने बीबीसी साइंस फोकस के कमीशनिंग एडिटर जेसन गुडायर से यथार्थवादी ह्यूमैनॉइड रोबोट पर अपने शोध के बारे में बात की।
अलौकिक घाटी क्या है?
अनसुनी घाटी एक ऐसा बिंदु है जहां ह्यूमनॉइड रोबोट और सीजीआई अक्षर जैसी चीजें हमें एक भयानक एहसास देना शुरू करती हैं। और इसका कारण यह है क्योंकि वे मनुष्यों के सही प्रतिनिधित्व नहीं हैं – वे वहाँ कभी नहीं मिलते हैं। इसलिए, वे आतंक, बेचैनी और दोस्ती की इन भावनाओं का उत्सर्जन करते हैं।
जन्म से हम चेहरे का पता लगाने और उनका विश्लेषण करने में सक्षम हैं। और चेहरे हमारे संचार में इस तरह के एक महत्वपूर्ण भूमिका निभाते हैं। जब हम ऐसी चीजों को देखना शुरू करते हैं जो वहां नहीं होनी चाहिए, जो चीजें बाहर होती हैं, तो हम उस प्रतिकर्षण की भावना को प्राप्त करते हैं। यह सिर्फ उपस्थिति नहीं है, हालांकि, यह कार्यक्षमता में भी है। जिस तरह से रोबोट चलते हैं, कहते हैं। यदि कोई रोबोट उस तरीके से नहीं बढ़ता है जिससे हम इसे स्थानांतरित करने की अपेक्षा करते हैं, तो वह फिर से अप्राकृतिकता और बेचैनी की भावना देता है।
आपका काम भाषण के लिए चेहरे की गतिविधियों के मिलान पर केंद्रित है। इसमें इतनी महत्वपूर्ण भूमिका क्यों है?
अलौकिक घाटी प्रमेय के दो प्रमुख क्षेत्र आंखें और मुंह हैं। जब हम संवाद करते हैं, तो हमारा ध्यान आंखों और मुंह के बीच जाता है। हम आंखों को देखने के लिए ध्यान आकर्षित करते हैं और हम भाषण पढ़ने के लिए मुंह को देखते हैं, समझने के लिए। और विशेष रूप से रोबोट के साथ, प्राकृतिक होंठ आंदोलनों के दायरे से बाहर कुछ भी, हमारे लिए भ्रामक और भटकाव हो सकता है। विशेष रूप से यदि
आप समय की एक निश्चित राशि पर बातचीत कर रहे हैं।
प्रोजेक्ट की शुरुआत कैसे हुई?
जब मैं पहली बार इस परियोजना को कर रहा था, तो मैं वास्तव में एनीमेशन विभाग में पढ़ाने में मदद कर रहा था क्योंकि पिछले विश्वविद्यालय मैं काफी रोबोटिक्स विभाग नहीं था। तो बस यहीं से ये विचार एक साथ आने लगे। वे ओकुलस नामक एक कार्यक्रम का उपयोग करते हैं, जो मूल रूप से भाषण लेता है और होंठ के पदों के साथ एक सीजीआई मुंह में परिवर्तित होता है।
तो, यह स्वचालित रूप से भाषण पढ़ता है और विज़मेस को निकालता है [a lip shape used to form a particular sound] मुंह के पदों के लिए और मैं रोबोट के साथ ऐसा करना चाहता था। इसलिए, मैंने मानव मुंह पर एक रोबोट मुंह बनाया।
रोबोट आज एक आकर्षण की तरह चल रहा है !!! #ai # दवाओं pic.twitter.com/kS63KjcgCt
– कार्ल स्ट्रैथर्न (@CarlStrathearn) 24 अक्टूबर 2019
लेकिन इससे पहले कि मैं ऐसा करता, मैंने पिछले रोबोट मुंह प्रणालियों को देखा जो गायब था। और यह वास्तव में महत्वपूर्ण था कि यह देखने में सक्षम हो कि प्रमुख मांसपेशियां क्या थीं, मांसपेशियां एक साथ क्या काम करती हैं, और इस मुंह से क्या छोड़ा जा सकता है।
जाहिर है, यह एक बहुत छोटा क्षेत्र है और आप केवल एक रोबोट मुंह में डाल सकते हैं। मुख्य चीज़ों में से एक जो मुझे याद आ रही थी, वह कुछ थी जिसे बस्केरेटर की मांसपेशियाँ कहा जाता था, जो मुँह के कोनों पर मांसपेशियाँ होती हैं – गाल की मांसपेशियाँ नहीं, उनका उपयोग तब किया जाता है जब हम स्वर और व्यंजन ध्वनियाँ बनाते हैं और होंठों को शुद्ध करते हैं। । इसलिए, मैंने इन मांसपेशियों को दोहराया और मैंने एक रोबोट माउथ प्रोटोटाइप बनाया।
रोबोट के बारे में और पढ़ें:
सॉफ्टवेयर भाग कहाँ से आता है?
मैंने सोचा, ‘ठीक है, अगला चरण एक ऐसा एप्लिकेशन बनाना है जो इन होंठों को आकार दे सके और उन्हें इस रोबोटिक मुँह में डाल सके।’ इसलिए, हमने एक विज़ेम चार्ट नामक कुछ का उपयोग किया। यह कुछ ऐसा है जो खेल के डिजाइन में CGI के लिए बहुत उपयोग किया जाता है – मूल रूप से यह ध्वनियों की एक सूची और मुंह के आकार का मेल है – और मैंने अपने रोबोट को अपने आकार में बनाया। प्रत्येक ध्वनि के लिए – आह, रु, और ऊस – मेरे पास इन सभी रोबोटों के मुंह थे। और मैंने उन्हें एक कॉन्फ़िगरेशन फ़ाइल में एकत्र किया और सहेजा ताकि मैं बाद में उन्हें बाहर ला सकूं और उनका उपयोग कर सकूं।
अगला भाग एक ऐसी व्यवस्था बना रहा था जो भाषण को संभाल सकती थी [not just pure simple sounds]। लेकिन मैं इसे लाइव करना चाहता था, इसलिए प्रसंस्करण समय के लिए कोई जगह नहीं थी, क्योंकि यदि आप प्रसंस्करण समय का उपयोग करते हैं, तो भाषण अप्राकृतिक हो जाता है क्योंकि वार्तालाप में बहुत सारे विराम होते हैं। इसलिए, मैंने भाषण संश्लेषण को लेने के लिए एक मशीन लर्निंग एल्गोरिदम बनाया, जो रोबोट भाषण है जैसे कि आप सिरी पर हैं, लैपटॉप से बाहर और एक माइक्रोप्रोसेसर में जिसने उस ऑडियो डेटा को संख्यात्मक डेटा में बदल दिया। इसका एक हिस्सा एक प्रोसेसिंग सिस्टम में भी चला गया ताकि मैं वास्तव में ध्वनि तरंग को देख सकूं जैसे कि आप रिकॉर्डिंग स्टूडियो में देखते हैं।
क्या आप मुझे कुछ और बता सकते हैं कि सिस्टम कैसे काम करता है?
मैंने एक मशीन लर्निंग एल्गोरिदम बनाया जो आने वाले भाषण में पैटर्न को पहचान सकता है। यह भाषण की निगरानी के रूप में ही नहीं किया गया था, लेकिन तरंग में पैटर्न। तो, आप पिक्सेल आकार, प्रत्येक शब्द की लंबाई और प्रत्येक ध्वनि को देख रहे हैं, और फिर सिस्टम को नमूनों का एक गुच्छा खिला रहे हैं।
इस तरह से यह पता था कि यह किस चीज की तलाश में था। और जब भर आया [a sound it was familiar with], यह उन रोबोट माउथ सिस्टम को ट्रांसफ़ॉर्म करने में सक्षम था जो मैं चार्ट पर मिलान किए गए पदों से मेल खाता था। यह आश्चर्यजनक रूप से अच्छा काम किया।
अगली बात यह थी कि मुझे वॉयस पैटर्निंग सिस्टम कहा जाता है, जो सिलेबल्स के साथ काम करता है। जाहिर है, जब आप बात करते हैं तो आपका जबड़ा सिलेबल्स के साथ समय के साथ ऊपर और नीचे चलता है। तो, यह पैटर्निंग सिस्टम बनाने के लिए अगला चरण था, जिसका मतलब था कि अगर कोई आवाज नहीं होती है, तो मुंह बंद था, और ध्वनि को जोर से, मुंह को चौड़ा करें।

आप रोबोट की उपस्थिति को चुनने के बारे में कैसे गए?
खैर, प्रयोग में वास्तव में दो रोबोट हैं – एक पुरानी दिखने वाली और एक छोटी दिखने वाली। युवा रोबोट पर उतना ध्यान नहीं जाता है क्योंकि मुझे लगता है कि पुराना रोबोट अधिक यथार्थवादी दिखता है। लेकिन मैंने उन्हें दूसरे के युवा संस्करण होने के विचार के साथ निर्मित किया। तो, आपके पास उसी तरह का रोबोट है।
मैं तुलना करना चाहता था कि लोग पुराने दिखने वाले रोबोट और कम दिखने वाले रोबोट के साथ कैसे बातचीत करते हैं। मैंने पाया कि युवा लोग छोटे रोबोट के साथ बातचीत करना पसंद करते थे और पुराने लोग दूसरे पुराने दिखने वाले रोबोट के साथ बातचीत करना पसंद करते थे।
मैंने उन्हें व्यक्तित्व भी दिया। मैंने सोचा, ठीक है, मैं काफी युवा हूँ, इसलिए मैं अपने आप पर छोटे व्यक्तित्व का आधार बनूँगा। और मैं अपने पिताजी को अच्छी तरह से जानता हूं, वह एक तरह का बूढ़ा है, इसलिए मैंने उस पर पुराने को मॉडल बनाया। मुझे लगता है कि मैं क्या दिलचस्पी रखता हूं और स्नूकर और जॉन स्मिथ में दिलचस्पी रखने वाले पुराने रोबोट में दिलचस्पी थी।
तो, इस प्रकार के काम के संभावित अनुप्रयोग क्या हैं?
मैं हमेशा स्टार ट्रेक के डेटा को इसके लिए आदर्श उदाहरण के रूप में उपयोग करता हूं, क्योंकि वह बहुत सारे अलग-अलग चीजों के बीच इस मानवतावादी इंटरफ़ेस की तरह काम करता है: लोग और एलियंस – जाहिर है कि अंग्रेजी नहीं बोलते हैं इसलिए वह अनुवादक के रूप में कार्य करता है। लेकिन वह जहाज के कंप्यूटर और लोगों के बीच इंटरफेस के रूप में भी काम करता है।
इसलिए, ऐसी चीजें जो मनुष्यों के लिए बहुत मुश्किल होंगी, गणना कहती हैं, वह उस जानकारी का अनुवाद करने और उसे सरलीकृत तरीके से देने में सक्षम है – एक मानवीय तरीका, भावना के साथ, चेहरे के भावों के साथ। और मुझे लगता है कि यह तकनीक आखिरकार किस दिशा में बढ़ेगी।
हमें यह याद रखना होगा कि हर कोई प्रौद्योगिकी के साथ प्रभावी ढंग से बातचीत नहीं कर सकता है। हम बहुत ही विशेषाधिकार प्राप्त हैं, मुझे लगता है कि प्रौद्योगिकी के साथ विकसित हुआ है और इसका उपयोग करने में सक्षम है। लेकिन दुनिया में बहुत से ऐसे लोग हैं जिनके पास ऐसा नहीं है, इसलिए ह्यूमनॉइड रोबोट जैसा कुछ बनाने से उन्हें बहुत स्वाभाविक रूप से प्रौद्योगिकी के साथ एकीकृत करने की अनुमति मिलेगी।