तीन एएल मॉडल – विजुअल-एकॉस्टिक मैचिंग, विजुअली-इनफॉर्मेड डेरेवरबेशन और विजुअलवॉयस – वीडियो में मानव भाषण और ध्वनियों पर ध्यान केंद्रित करें और “हमें तेज दर पर एक अधिक immersive वास्तविकता की ओर धकेलने के लिए डिज़ाइन किया गया है,” कंपनी ने एक बयान में कहा।
मेटा के एआई शोधकर्ताओं और इसकी रियलिटी लैब्स टीम के ऑडियो विशेषज्ञों ने कहा, “ध्वनिक एक भूमिका निभाते हैं कि मेटावर्स में ध्वनि का अनुभव कैसे होगा, और हमें विश्वास है कि एआई यथार्थवादी ध्वनि गुणवत्ता प्रदान करने के लिए मुख्य होगा।”
उन्होंने ऑस्टिन में टेक्सास विश्वविद्यालय के शोधकर्ताओं के सहयोग से एआई मॉडल का निर्माण किया, और इन मॉडलों को ऑडियो-विजुअल समझ के लिए डेवलपर्स के लिए खुला बना रहे हैं।
स्व-पर्यवेक्षित दृश्य-ध्वनिक मिलान मॉडल, जिसे कहा जाता है अवितारलक्ष्य छवि के स्थान से मिलान करने के लिए ऑडियो समायोजित करता है।
मेटा को सूचित किया गया है कि स्व-पर्यवेक्षित प्रशिक्षण उद्देश्य इन-द-वाइल्ड वेब वीडियो से ध्वनिक मिलान सीखता है, बावजूद इसके ध्वनिक रूप से बेमेल ऑडियो और बिना लेबल वाले डेटा की कमी है।
VisualVoice इस तरह से सीखता है, जिस तरह से लोग नए कौशल में महारत हासिल करते हैं, बिना लेबल वाले वीडियो से दृश्य और श्रवण संकेतों को सीखकर ऑडियो-विज़ुअल भाषण पृथक्करण प्राप्त करते हैं।
उदाहरण के लिए, दुनिया भर के सहयोगियों के साथ मेटावर्स में एक समूह बैठक में भाग लेने में सक्षम होने की कल्पना करें, लेकिन कम बातचीत करने वाले और एक-दूसरे से बात करने वाले लोगों के बजाय, आभासी स्थान के चारों ओर घूमने और शामिल होने के साथ-साथ गूंज और ध्वनिकी तदनुसार समायोजित हो जाएंगे। छोटे समूह।
मेटा एआई शोधकर्ताओं ने कहा, “विजुअलवॉइस विविध परिदृश्यों के वास्तविक दुनिया के वीडियो को चुनौती देने के लिए अच्छी तरह से सामान्यीकृत करता है।”