Friday, March 29, 2024
HomeEducationलिप सिंकिंग रोबोट, अनजान घाटी को पार करने के लिए एक कदम...

लिप सिंकिंग रोबोट, अनजान घाटी को पार करने के लिए एक कदम के करीब पहुंच जाता है

डॉ। कार्ल स्ट्रैथर्नएडिनबर्ग नेपियर यूनिवर्सिटी में स्कूल ऑफ कम्प्यूटिंग के एक रिसर्च फेलो ने बीबीसी साइंस फोकस के कमीशनिंग एडिटर जेसन गुडायर से यथार्थवादी ह्यूमैनॉइड रोबोट पर अपने शोध के बारे में बात की।

अलौकिक घाटी क्या है?

अनसुनी घाटी एक ऐसा बिंदु है जहां ह्यूमनॉइड रोबोट और सीजीआई अक्षर जैसी चीजें हमें एक भयानक एहसास देना शुरू करती हैं। और इसका कारण यह है क्योंकि वे मनुष्यों के सही प्रतिनिधित्व नहीं हैं – वे वहाँ कभी नहीं मिलते हैं। इसलिए, वे आतंक, बेचैनी और दोस्ती की इन भावनाओं का उत्सर्जन करते हैं।

जन्म से हम चेहरे का पता लगाने और उनका विश्लेषण करने में सक्षम हैं। और चेहरे हमारे संचार में इस तरह के एक महत्वपूर्ण भूमिका निभाते हैं। जब हम ऐसी चीजों को देखना शुरू करते हैं जो वहां नहीं होनी चाहिए, जो चीजें बाहर होती हैं, तो हम उस प्रतिकर्षण की भावना को प्राप्त करते हैं। यह सिर्फ उपस्थिति नहीं है, हालांकि, यह कार्यक्षमता में भी है। जिस तरह से रोबोट चलते हैं, कहते हैं। यदि कोई रोबोट उस तरीके से नहीं बढ़ता है जिससे हम इसे स्थानांतरित करने की अपेक्षा करते हैं, तो वह फिर से अप्राकृतिकता और बेचैनी की भावना देता है।

रोबोट प्रमुखों को सीएडी और फिर 3 डी-मुद्रित © कार्ल स्ट्रैथर्न का उपयोग करके डिजाइन किया गया था

आपका काम भाषण के लिए चेहरे की गतिविधियों के मिलान पर केंद्रित है। इसमें इतनी महत्वपूर्ण भूमिका क्यों है?

अलौकिक घाटी प्रमेय के दो प्रमुख क्षेत्र आंखें और मुंह हैं। जब हम संवाद करते हैं, तो हमारा ध्यान आंखों और मुंह के बीच जाता है। हम आंखों को देखने के लिए ध्यान आकर्षित करते हैं और हम भाषण पढ़ने के लिए मुंह को देखते हैं, समझने के लिए। और विशेष रूप से रोबोट के साथ, प्राकृतिक होंठ आंदोलनों के दायरे से बाहर कुछ भी, हमारे लिए भ्रामक और भटकाव हो सकता है। विशेष रूप से यदि
आप समय की एक निश्चित राशि पर बातचीत कर रहे हैं।

प्रोजेक्ट की शुरुआत कैसे हुई?

जब मैं पहली बार इस परियोजना को कर रहा था, तो मैं वास्तव में एनीमेशन विभाग में पढ़ाने में मदद कर रहा था क्योंकि पिछले विश्वविद्यालय मैं काफी रोबोटिक्स विभाग नहीं था। तो बस यहीं से ये विचार एक साथ आने लगे। वे ओकुलस नामक एक कार्यक्रम का उपयोग करते हैं, जो मूल रूप से भाषण लेता है और होंठ के पदों के साथ एक सीजीआई मुंह में परिवर्तित होता है।

तो, यह स्वचालित रूप से भाषण पढ़ता है और विज़मेस को निकालता है [a lip shape used to form a particular sound] मुंह के पदों के लिए और मैं रोबोट के साथ ऐसा करना चाहता था। इसलिए, मैंने मानव मुंह पर एक रोबोट मुंह बनाया।

लेकिन इससे पहले कि मैं ऐसा करता, मैंने पिछले रोबोट मुंह प्रणालियों को देखा जो गायब था। और यह वास्तव में महत्वपूर्ण था कि यह देखने में सक्षम हो कि प्रमुख मांसपेशियां क्या थीं, मांसपेशियां एक साथ क्या काम करती हैं, और इस मुंह से क्या छोड़ा जा सकता है।

जाहिर है, यह एक बहुत छोटा क्षेत्र है और आप केवल एक रोबोट मुंह में डाल सकते हैं। मुख्य चीज़ों में से एक जो मुझे याद आ रही थी, वह कुछ थी जिसे बस्केरेटर की मांसपेशियाँ कहा जाता था, जो मुँह के कोनों पर मांसपेशियाँ होती हैं – गाल की मांसपेशियाँ नहीं, उनका उपयोग तब किया जाता है जब हम स्वर और व्यंजन ध्वनियाँ बनाते हैं और होंठों को शुद्ध करते हैं। । इसलिए, मैंने इन मांसपेशियों को दोहराया और मैंने एक रोबोट माउथ प्रोटोटाइप बनाया।

रोबोट के बारे में और पढ़ें:

सॉफ्टवेयर भाग कहाँ से आता है?

मैंने सोचा, ‘ठीक है, अगला चरण एक ऐसा एप्लिकेशन बनाना है जो इन होंठों को आकार दे सके और उन्हें इस रोबोटिक मुँह में डाल सके।’ इसलिए, हमने एक विज़ेम चार्ट नामक कुछ का उपयोग किया। यह कुछ ऐसा है जो खेल के डिजाइन में CGI के लिए बहुत उपयोग किया जाता है – मूल रूप से यह ध्वनियों की एक सूची और मुंह के आकार का मेल है – और मैंने अपने रोबोट को अपने आकार में बनाया। प्रत्येक ध्वनि के लिए – आह, रु, और ऊस – मेरे पास इन सभी रोबोटों के मुंह थे। और मैंने उन्हें एक कॉन्फ़िगरेशन फ़ाइल में एकत्र किया और सहेजा ताकि मैं बाद में उन्हें बाहर ला सकूं और उनका उपयोग कर सकूं।

अगला भाग एक ऐसी व्यवस्था बना रहा था जो भाषण को संभाल सकती थी [not just pure simple sounds]। लेकिन मैं इसे लाइव करना चाहता था, इसलिए प्रसंस्करण समय के लिए कोई जगह नहीं थी, क्योंकि यदि आप प्रसंस्करण समय का उपयोग करते हैं, तो भाषण अप्राकृतिक हो जाता है क्योंकि वार्तालाप में बहुत सारे विराम होते हैं। इसलिए, मैंने भाषण संश्लेषण को लेने के लिए एक मशीन लर्निंग एल्गोरिदम बनाया, जो रोबोट भाषण है जैसे कि आप सिरी पर हैं, लैपटॉप से ​​बाहर और एक माइक्रोप्रोसेसर में जिसने उस ऑडियो डेटा को संख्यात्मक डेटा में बदल दिया। इसका एक हिस्सा एक प्रोसेसिंग सिस्टम में भी चला गया ताकि मैं वास्तव में ध्वनि तरंग को देख सकूं जैसे कि आप रिकॉर्डिंग स्टूडियो में देखते हैं।

क्या आप मुझे कुछ और बता सकते हैं कि सिस्टम कैसे काम करता है?

मैंने एक मशीन लर्निंग एल्गोरिदम बनाया जो आने वाले भाषण में पैटर्न को पहचान सकता है। यह भाषण की निगरानी के रूप में ही नहीं किया गया था, लेकिन तरंग में पैटर्न। तो, आप पिक्सेल आकार, प्रत्येक शब्द की लंबाई और प्रत्येक ध्वनि को देख रहे हैं, और फिर सिस्टम को नमूनों का एक गुच्छा खिला रहे हैं।

इस तरह से यह पता था कि यह किस चीज की तलाश में था। और जब भर आया [a sound it was familiar with], यह उन रोबोट माउथ सिस्टम को ट्रांसफ़ॉर्म करने में सक्षम था जो मैं चार्ट पर मिलान किए गए पदों से मेल खाता था। यह आश्चर्यजनक रूप से अच्छा काम किया।

अगली बात यह थी कि मुझे वॉयस पैटर्निंग सिस्टम कहा जाता है, जो सिलेबल्स के साथ काम करता है। जाहिर है, जब आप बात करते हैं तो आपका जबड़ा सिलेबल्स के साथ समय के साथ ऊपर और नीचे चलता है। तो, यह पैटर्निंग सिस्टम बनाने के लिए अगला चरण था, जिसका मतलब था कि अगर कोई आवाज नहीं होती है, तो मुंह बंद था, और ध्वनि को जोर से, मुंह को चौड़ा करें।

डॉ। कार्ल स्ट्रैथर्न और रोबोट प्रमुख © कार्ल स्ट्रैथर्न

डॉ। कार्ल स्ट्रैथर्न और रोबोट प्रमुख © कार्ल स्ट्रैथर्न

आप रोबोट की उपस्थिति को चुनने के बारे में कैसे गए?

खैर, प्रयोग में वास्तव में दो रोबोट हैं – एक पुरानी दिखने वाली और एक छोटी दिखने वाली। युवा रोबोट पर उतना ध्यान नहीं जाता है क्योंकि मुझे लगता है कि पुराना रोबोट अधिक यथार्थवादी दिखता है। लेकिन मैंने उन्हें दूसरे के युवा संस्करण होने के विचार के साथ निर्मित किया। तो, आपके पास उसी तरह का रोबोट है।

मैं तुलना करना चाहता था कि लोग पुराने दिखने वाले रोबोट और कम दिखने वाले रोबोट के साथ कैसे बातचीत करते हैं। मैंने पाया कि युवा लोग छोटे रोबोट के साथ बातचीत करना पसंद करते थे और पुराने लोग दूसरे पुराने दिखने वाले रोबोट के साथ बातचीत करना पसंद करते थे।

मैंने उन्हें व्यक्तित्व भी दिया। मैंने सोचा, ठीक है, मैं काफी युवा हूँ, इसलिए मैं अपने आप पर छोटे व्यक्तित्व का आधार बनूँगा। और मैं अपने पिताजी को अच्छी तरह से जानता हूं, वह एक तरह का बूढ़ा है, इसलिए मैंने उस पर पुराने को मॉडल बनाया। मुझे लगता है कि मैं क्या दिलचस्पी रखता हूं और स्नूकर और जॉन स्मिथ में दिलचस्पी रखने वाले पुराने रोबोट में दिलचस्पी थी।

तो, इस प्रकार के काम के संभावित अनुप्रयोग क्या हैं?

मैं हमेशा स्टार ट्रेक के डेटा को इसके लिए आदर्श उदाहरण के रूप में उपयोग करता हूं, क्योंकि वह बहुत सारे अलग-अलग चीजों के बीच इस मानवतावादी इंटरफ़ेस की तरह काम करता है: लोग और एलियंस – जाहिर है कि अंग्रेजी नहीं बोलते हैं इसलिए वह अनुवादक के रूप में कार्य करता है। लेकिन वह जहाज के कंप्यूटर और लोगों के बीच इंटरफेस के रूप में भी काम करता है।

इसलिए, ऐसी चीजें जो मनुष्यों के लिए बहुत मुश्किल होंगी, गणना कहती हैं, वह उस जानकारी का अनुवाद करने और उसे सरलीकृत तरीके से देने में सक्षम है – एक मानवीय तरीका, भावना के साथ, चेहरे के भावों के साथ। और मुझे लगता है कि यह तकनीक आखिरकार किस दिशा में बढ़ेगी।

हमें यह याद रखना होगा कि हर कोई प्रौद्योगिकी के साथ प्रभावी ढंग से बातचीत नहीं कर सकता है। हम बहुत ही विशेषाधिकार प्राप्त हैं, मुझे लगता है कि प्रौद्योगिकी के साथ विकसित हुआ है और इसका उपयोग करने में सक्षम है। लेकिन दुनिया में बहुत से ऐसे लोग हैं जिनके पास ऐसा नहीं है, इसलिए ह्यूमनॉइड रोबोट जैसा कुछ बनाने से उन्हें बहुत स्वाभाविक रूप से प्रौद्योगिकी के साथ एकीकृत करने की अनुमति मिलेगी।

Leave a Reply

Most Popular

Recent Comments