इस साल, कृत्रिम होशियारी कला प्रतियोगिताओं में जीत हासिल की है, इंटरनेट पर हावी हो गया है, कानून की परीक्षा पास कर ली है और साबित कर दिया है कि यह भविष्य की तकनीक है … लेकिन यह अभी भी सटीक रूप से हाथ नहीं लगा सकता है।
एआई छवि जेनरेटर में किए गए सभी कार्यों के बावजूद, मॉडल में कमजोरियों को दिखाते हुए हाथ उनकी दासता बन गए हैं।
जबकि यह के उदय से ध्यान देने योग्य मुद्दा रहा है दाल-ई 2 और इसके बाद के सभी प्रतिस्पर्धियों के साथ, एआई जनरेटर द्वारा बनाई गई छवियों के एक ट्विटर उपयोगकर्ता के संग्रह के साथ यह मुद्दा ध्यान का केंद्र बन गया मध्य यात्रा.
एक नज़र में, वे प्रभावशाली हैं, एक पार्टी में यथार्थवादी दिखने वाले लोगों का एक समूह बनाते हैं। और फिर भी, एक फोटो में किसी के तीन हाथ हैं, दूसरे व्यक्ति के पास सात अंगुलियां हैं और एक अत्यंत लंबी हथेली और एक अंतिम छवि किसी को पीछे की ओर उंगली से फोन से गुजरते हुए दिखाती है।
तो इतनी छोटी सी बाधा मशीन में कोग क्यों पैदा कर रही है? प्रोफेसर कहते हैं, “ये 2डी छवि जेनरेटर हैं जिनके पास हाथ जैसी किसी चीज की त्रि-आयामी ज्यामिति की बिल्कुल कोई अवधारणा नहीं है।” पीटर बेंटलेयूनिवर्सिटी कॉलेज लंदन में स्थित एक कंप्यूटर वैज्ञानिक और लेखक।
“उन्हें हाथ के सामान्य विचार की समझ है। इसकी एक हथेली, उंगलियां और नाखून हैं लेकिन इनमें से कोई भी मॉडल वास्तव में यह नहीं समझती है कि पूरी बात क्या है।
यदि आप केवल एक हाथ की बहुत ही सामान्य छवि प्राप्त करने का प्रयास कर रहे हैं, तो यह बहुत अधिक समस्या नहीं होगी। जैसे ही आप मॉडल को संदर्भ देते हैं, समस्या होती है। यदि यह किसी हाथ की 3डी प्रकृति या किसी स्थिति के संदर्भ को नहीं समझ सकता है, तो उसे इसे सटीक रूप से पुनः बनाने में संघर्ष करना होगा।
उदाहरण के लिए, चाकू या कैमरे जैसी किसी वस्तु को पकड़े हुए हाथ, या कोई व्यक्ति अपने हाथ से प्रतीक बनाता है, तुरंत एक मॉडल को भ्रमित करने वाला होता है, जिसके पास हाथ की 3डी समझ या उसके द्वारा पकड़ी गई वस्तु का ज्यामितीय आकार नहीं होता है। .
“मैंने डल-ई को दो हाथों की उंगलियों को आपस में जोड़कर एक तस्वीर दिखाने के लिए कहा और मुझे कुछ विचित्र परिणाम मिले। इसने मुझे उनमें से एक के लिए दो कलाई और उंगलियों की एक गेंद दिखाई, ”बेंटले कहते हैं।
“लेकिन आप समझ सकते हैं क्यों। यह वास्तव में नहीं जानता कि यह क्या कर रहा है, और यह केवल इन सभी छवियों को जोड़ रहा है जो इसे आपके पाठ्य विवरण को सर्वोत्तम रूप से पूरा करने के लिए देखा है।
हालाँकि, यह सिर्फ Dall-E 2 नहीं है जो इससे जूझता है। अन्य लोकप्रिय छवि मॉडल जैसे मिडजर्नी और स्थिर प्रसार सामान्य दिखने वाले हाथ बनाने के समान असंभव कार्य के साथ मारा गया है।
तस्वीर को करीब से देख रहे हैं
हालांकि यह अक्सर महसूस कर सकता है कि ये मॉडल जो छवियां बना रहे हैं, वे करीब-करीब सही हैं, वे वास्तव में बहुत त्रुटिपूर्ण हैं। जितना अधिक आप देखते हैं, उतना ही अधिक आप गलत विवरणों की मेजबानी करने की संभावना रखते हैं।
इसका एक हिस्सा उपयोगकर्ता और उनके द्वारा उपयोग किए जाने वाले संकेत की ताकत के लिए नीचे आता है, कुछ लोगों को उनके विस्तृत संकेतों से निर्दोष चित्र मिलते हैं। लेकिन वास्तव में, यह ज्यादातर स्वयं मॉडलों के भीतर एक समस्या है।
इस तरह से अधिक
“जब आप वास्तव में करीब से देखते हैं, तो कहीं न कहीं एक गप्पी संकेत होता है कि भौतिकी के नियमों को किसी तरह तोड़ा जा रहा है। हो सकता है कि किसी के पेट के माध्यम से एक हाथ हो, या एक ऑक्टोपस जिसमें बहुत सारे तम्बू हों, या एक पेड़ जो जमीन से तैर रहा हो, ”बेंटले कहते हैं।
“क्योंकि उन्हें अभी बहुत सारी और बहुत सी चीजों के उदाहरण दिए गए हैं, यह सभी को एक साथ रखने की कोशिश कर रहा है जितना कि यह सबसे अच्छा हो सकता है।”
इसका परिणाम कभी-कभी कुछ विचित्र परिणाम हो सकते हैं, अक्सर सल्वाडोर डाली पेंटिंग के समान एक सपने जैसा अनुभव देते हैं।
“ये मॉडल वास्तविकता से अलग हैं, उनके पास कोई संदर्भ नहीं है और उनके पास वास्तव में किसी छवि के संदर्भ पर विचार करने का कोई ज्ञान या क्षमता नहीं है। वे हमारे द्वारा दिए गए सभी कबाड़ को एक तरह से मिला देते हैं।”
एआई छवियों के लिए प्रमुख बाधा
तो ये मॉडल अच्छे हैं, अच्छे भी हैं… लेकिन वे अभी भी सही चित्र बनाने से बहुत दूर हैं। इस समस्या को हल करने के लिए क्या करना होगा और अंत में एक ऐसा हाथ बनाना होगा जो ऐसा न लगे कि यह डेविड क्रोनबर्ग से प्रेरित था?
“यह सब भविष्य में बदल सकता है। इन नेटवर्कों को धीरे-धीरे 3डी ज्यामिति पर प्रशिक्षित किया जा रहा है ताकि वे छवियों के पीछे के आकार को समझ सकें। बेंटली कहते हैं, “यह हमें जटिल संकेतों के साथ भी एक और सुसंगत छवि देगा।”
“पर्याप्त 3D डिज़ाइन डेटा प्राप्त करने में समय लग सकता है। फिलहाल, हमें इन 2डी छवियों के रूप में आसान परिणाम मिल रहे हैं। इंटरनेट को ट्रैवेल करना और संदर्भ के बिना लाखों छवियां प्राप्त करना आसान है।”
यह कुछ ऐसा है जिस पर OpenAI ने काम करना शुरू कर दिया है प्वाइंट-ई प्रौद्योगिकी, एक ऐसी प्रणाली का निर्माण करना जो पाठ्य संकेतों से 3D मॉडल बना सकती है। जबकि यह वर्तमान में जनता द्वारा प्रयोग करने योग्य है, यह सटीक परिणाम देने से एक लंबा रास्ता तय करता है।
हालाँकि, जब परिणाम आते हैं, तो वे अत्यधिक विस्तृत 3D रेंडरिंग और यहाँ तक कि डिजिटल दुनिया का नेतृत्व कर सकते हैं। जैसा कि बेंटले बताते हैं: “इस तरह की चीजों में बहुत सारा पैसा जा रहा है मेटावर्स 3D मॉडल में रुचि के साथ। इसलिए इन संयुक्त बजटों के साथ यह काफी संभव है कि हम एआई द्वारा बनाए गए तेजी से प्रभावशाली 3डी मॉडल देख सकें।”
यह ऐसी तकनीक है जो बड़ी और अधिक प्रभावशाली चीजों में सुधार करना जारी रख सकती है। अभी हम AI से 2D निर्मित छवियों को देख रहे हैं, भविष्य अत्यधिक विस्तृत 3D रेंडरिंग और यहां तक कि डिजिटल दुनिया भी हो सकता है।
हमारे विशेषज्ञ डॉ पीटर बेंटले के बारे में
पीटर एक कंप्यूटर वैज्ञानिक और लेखक हैं जो यूनिवर्सिटी कॉलेज लंदन में स्थित हैं। सहित पुस्तकों के लेखक हैं आर्टिफिशियल इंटेलिजेंस और रोबोटिक्स में 10 लघु पाठ और डिजिटल जीव विज्ञान.
और पढ़ें: