
У складаных асяроддзях людзі могуць разумець сэнс мовы лепш, чым штучны інтэлект, таму што мы выкарыстоўваем не толькі вушы, але і вочы.
Напрыклад, мы бачым, як рухаецца чыйсьці рот, і можам інтуітыўна ведаць, што гук, які мы чуем, павінен зыходзіць ад гэтага чалавека.
Meta AI працуе над новай сістэмай дыялогу на базе штучнага інтэлекту, якая павінна навучыць штучны інтэлект распазнаваць тонкія карэляцыі паміж тым, што ён бачыць і чуе ў размове.
VisualVoice вучыцца падобна да таго, як людзі вучацца асвойваць новыя навыкі, дазваляючы аддзяляць аўдыявізуальную мову, вывучаючы візуальныя і слыхавыя сігналы з немаркіраваных відэа.
Для машын гэта стварае лепшае ўспрыманне, у той час як чалавечае ўспрыманне паляпшаецца.
Уявіце сабе, што вы можаце ўдзельнічаць у групавых сустрэчах у метасусвеце з калегамі з усяго свету, далучаючыся да невялікіх групавых сустрэч, калі яны рухаюцца па віртуальнай прасторы, падчас якіх гукавыя рэверберацыі і тэмбры ў сцэне рэгулююцца ў залежнасці ад навакольнага асяроддзя і адпаведна карэктуюцца.
Гэта значыць, што ён можа адначасова атрымліваць аўдыё, відэа і тэкставую інфармацыю, а таксама мае больш багатую мадэль разумення навакольнага асяроддзя, што дазваляе карыстальнікам атрымаць "вельмі ўражлівы" гукавы досвед.
Час публікацыі: 20 ліпеня 2022 г.