Zespół naukowców z Nanyang Technological University w Singapurze (NTU Singapore) opracował program komputerowy, który tworzy realistyczne filmy wideo odzwierciedlające mimikę i ruchy głowy mówiącej osoby, wymagając jedynie klipu audio i zdjęcia twarzy.
DIverse but Realistic Facial Animations (DIRFA) to program oparty na sztucznej inteligencji, który pobiera dźwięk i robi zdjęcia, a następnie tworzy wideo 3D przedstawiające osobę demonstrującą realistyczne i spójne animacje twarzy zsynchronizowane z dźwiękiem mówionym (zobacz filmy).
Program opracowany przez NTU ulepsza istniejące podejścia, które borykają się ze zmianami pozycji i kontrolą emocji.
Aby to osiągnąć, zespół przeszkolił DIRFA na ponad milionie klipów audiowizualnych od ponad 6000 osób, pochodzących z bazy danych typu open source o nazwie The VoxCeleb2 Dataset, aby przewidywać sygnały pochodzące z mowy i wiązać je z wyrazem twarzy i ruchami głowy.
Naukowcy stwierdzili, że DIRFA może zaowocować nowymi zastosowaniami w różnych branżach i domenach, w tym w opiece zdrowotnej, ponieważ może udostępnić bardziej wyrafinowanych i realistycznych wirtualnych asystentów i chatboty, poprawiając doświadczenia użytkowników. Może również służyć jako potężne narzędzie dla osób z niepełnosprawnością mowy lub twarzy, pomagając im przekazywać myśli i emocje za pomocą wyrazistych awatarów lub reprezentacji cyfrowych, zwiększając ich zdolność komunikowania się.
Autor korespondujący, profesor nadzwyczajny Lu Shijian ze Szkoły Informatyki i Inżynierii (SCSE) na NTU Singapore, który kierował badaniem, powiedział: „Wpływ naszego badania może być głęboki i dalekosiężny, ponieważ rewolucjonizuje dziedzinę multimediów komunikacja poprzez umożliwienie tworzenia wysoce realistycznych filmów przedstawiających wypowiadające się osoby, łączących techniki takie jak sztuczna inteligencja i uczenie maszynowe. Nasz program opiera się również na wcześniejszych badaniach i stanowi postęp technologiczny, ponieważ filmy utworzone za pomocą naszego programu są uzupełnione dokładnymi ruchami warg, wyraziste wyrazy twarzy i naturalne ułożenia głowy, wykorzystując wyłącznie nagrania dźwiękowe i statyczne obrazy.”
Pierwszy autor, dr Wu Rongliang, doktorant SCSE na NTU, powiedział: „Mowa wykazuje wiele odmian. Poszczególne osoby wymawiają te same słowa w różny sposób w różnych kontekstach, obejmujących różnice w czasie trwania, amplitudzie, tonie i nie tylko. Co więcej, poza aspektem językowym treści mowa przekazuje bogate informacje o stanie emocjonalnym mówiącego i czynnikach tożsamości, takich jak płeć, wiek, pochodzenie etniczne, a nawet cechy osobowości. Nasze podejście stanowi pionierski wysiłek na rzecz poprawy wydajności z punktu widzenia uczenia się reprezentacji dźwięku w sztucznej inteligencji i uczeniu maszynowym”. Dr Wu jest pracownikiem naukowym w Instytucie Badań Infocomm, Agencji Nauki, Technologii i Badań (A*STAR) w Singapurze.
Wyniki opublikowano w sierpniu w czasopiśmie naukowym Pattern Recognition.
Mówiąc głośno: Przekształcanie dźwięku w działanie z animowaną dokładnością
Naukowcy twierdzą, że tworzenie realistycznej mimiki twarzy napędzanej dźwiękiem stanowi złożone wyzwanie. Dla danego sygnału audio może istnieć wiele możliwych wyrazów twarzy, które miałyby sens, a możliwości te mogą się zwielokrotnić w przypadku sekwencji sygnałów audio w czasie.
Ponieważ dźwięk zazwyczaj silnie kojarzy się z ruchami warg, ale słabiej z wyrazem twarzy i pozycją głowy, zespół dążył do stworzenia gadających twarzy, które charakteryzowałyby się precyzyjną synchronizacją warg, bogatą mimiką i naturalnymi ruchami głowy odpowiadającymi dostarczanemu dźwiękowi.
Aby rozwiązać ten problem, zespół zaprojektował najpierw model sztucznej inteligencji DIRFA, aby uchwycić skomplikowane relacje między sygnałami audio a animacjami twarzy. Zespół przeszkolił swój model na ponad milionie klipów audio i wideo ponad 6000 osób, pochodzących z publicznie dostępnej bazy danych.
Assoc Prof Lu dodał: „W szczególności projekt DIRFA modelował prawdopodobieństwo wystąpienia animacji twarzy, takiej jak uniesiona brwi lub zmarszczony nos, w oparciu o wejściowy dźwięk. Modelowanie to umożliwiło programowi przekształcenie wejściowego dźwięku w różnorodne, ale bardzo realistyczne sekwencje twarzy animacje pomagające w generowaniu gadających twarzy.”
Dr Wu dodał: „Szczególne eksperymenty pokazują, że DIRFA może generować gadające twarze z dokładnymi ruchami warg, żywą mimiką i naturalnymi pozycjami głowy. Pracujemy jednak nad udoskonaleniem interfejsu programu, umożliwiając sterowanie niektórymi wyjściami. Na przykład DIRFA to robi nie pozwalać użytkownikom na zmianę określonego wyrazu twarzy, na przykład zmianę zmarszczek na uśmiech.
Oprócz dodania większej liczby opcji i ulepszeń do interfejsu DIRFA, badacze z NTU będą udoskonalać mimikę twarzy, korzystając z szerszego zakresu zbiorów danych, które obejmują bardziej zróżnicowane wyrazy twarzy i klipy audio z głosem.