“Google” piederošā mākslīgā intelekta (MI) kompānija “DeepMind” paziņojusi, ka strādā pie jaunas tehnoloģijas, kas var ģenerēt skaņu celiņus, ieskaitot pat dialogus, ko pēc tam var pievienot videoklipiem. Uzņēmuma izstrādātā video uz audio (V2A) tehnoloģija var sastrādāties “Google Veo” un citiem video veidošanas rīkiem, piemēram, “OpenAI Sora“.
Savā paziņojumā “DeepMind” skaidro, ka sistēma var saprast neapstrādātus pikseļus un apvienot šo informāciju ar teksta uzvednēm, lai radītu skaņas efektus, kas ir atbilstoši videoklipā redzamajam. Jāpiemin, ka šo tehnoloģiju var izmantot, lai izveidotu skaņu celiņus arī, piemēram, mēmajām filmām vai videoklipiem bez skaņas.
“DeepMind” pētnieki trenēja šo V2A tehnoloģiju uz video, audio un MI ģenerētām anotācijām, kas satur detalizētus skaņu aprakstus un dialogu transkriptus. Šādā veidā tehnoloģija tika apmācīta sasaistīt konkrētas skaņas ar vizuālām ainām. Būtiski, ka līdzīgus risinājumus piedāvā arī citi uzņēmumi, piemēram, “ElevenLabs”. Taču “DeepMind” uzsver, ka pašu radītā tehnoloģija atšķiras tieši ar spēju darboties ar neapstrādātiem pikseļiem un to, ka teksta uzvedņu pievienošana nav obligāta. Tiesa, teksta uzvedni ir labi pievienot, jo šādā veidā skaņu celiņi būs precīzāki un reālistiskāki.