Brytyjski startup Synthesia wprowadza na rynek najbardziej „wyraziste” awatary AI

Brytyjski startup Synthesia wprowadza na rynek najbardziej „wyraziste” awatary AI

by Kacper Rutkowski
25 kwietnia 2024
0 comments

Brytyjski startup Synthesia zaprezentował dziś nowe cyfrowe postaci AI, które zacierają granicę między światem wirtualnym a rzeczywistym. Te cyfrowe istoty, nazwane przez firmę „Expressive Avatars”, obiecują najbardziej realistyczne wyrazy emocji dostępne na rynku.

Awatary, wygenerowane przez model AI szkolony na nagraniach prawdziwych aktorów, są przeznaczone do tworzenia wideo. Użytkownicy wpisują tekst, a syntetyczni ludzie odczytują go na ekranie.

Co czyni te renderowania fotorealistyczne wyjątkowymi, to ich zdolność do przekazywania ludzkich uczuć.

Dzięki technice zwanej „automatyczną predykcją sentymentów”, modele AI firmy Synthesia wnioskują o emocjach zawartych w tekście. To określa ton głosu, mowę ciała oraz mimikę awatara.

„Zdecydowanie jest to pierwsza iteracja awatarów, które potrafią wyrażać emocje i rozumieć nastroje treści,” powiedział Victor Riparbe, CEO i współzałożyciel Synthesii.

Awatary będą również zawsze generować całkowicie nowe i unikatowe wyniki. Podając im ten sam scenariusz dwa razy, odpowiadają dwoma różnymi występami. Jak twierdzi Synthesia, awatary przeszły ewolucję od „cyfrowych renderów” do „cyfrowych aktorów”.

Podczas demonstracji produktu w poniedziałek, TNW miało okazję ocenić ich umiejętności aktorskie.

AI-awatary wchodzą na scenę
Oczom tego skromnego krytyka awatary Synthesii wydają się być najlepszymi aktorami GenAI, jakie kiedykolwiek wystąpiły na ekranie.

Kombinacja fotorealistycznych twarzy, emocjonalnych gestów, ekspresyjnych głosów i zsynchronizowanych ruchów wprowadza na rynek nowy poziom realizmu.

Dostając scenariusz w tonie pozytywnym, awatary dostarczały uśmiechu i energicznego tonu. Kiedy otrzymywały smutniejsze linijki, proponowały smutną intonację i wolniejsze mówienie.

Jednak ich występy wciąż nie uciekły całkowicie od tzw. „doliny niesamowitości”. Ich główną wadą jest tendencja do lekkiego przesadzania z emocjami. Jako aktorzy, są bliżsi gwiazdom telenowel klasy D niż laureatom Nagrody Akademii.

Innym minusem jest to, że ich ruchy ograniczają się do głowy, twarzy i ramion. Dopóki tak pozostanie, prawdopodobnie będą stanowić zagrożenie tylko dla prezenterów wiadomości.