Nowa technologia potrafi zsyntetyzować każdy głos po pobraniu zaledwie 1 minuty referencyjnego dźwięku.
Abhimanyu Ghoshal, thenextweb.com
USA
2017-05-05
Nie jestem pewien jak powinienem się czuć w odniesieniu do uruchomienia nowej usługi Lyrebird z Montrealu. Firma twierdzi, że jej API pozwoli syntetyzować mowę wykorzystując głos każdego człowieka na bazie zaledwie kilku minut nagrania - co oznacza, że możesz na przykład wygenerować nagranie prezydenta Trumpa, który wypowiedział wojnę Kanadzie.
Lyrebird opublikował kilka przykładów dźwiękowych, które brzmiały dość przekonująco. Firma mówi, że oprogramowanie nie wymaga aby mówca wymówił słowa, które będą używane w syntezie, by oprogramowanie generowało dźwięk. Jest także możliwe tworzenie różnych intonacji.
Jeśli brzmi to znajomo, to być może dlatego, że myślisz o listopadowym pokazie programu Adobe prezentującego podobną technikę. Jednak podczas gdy projekt VoCo firmy Adobe wymaga wcześniejszego nagrania 20 minut dźwięku i wydaje się, że wykorzystuje zasoby systemu do syntezy mowy, to Lyrebird potrzebuje tylko minutowego nagrania. Firma twierdzi, że jest bliska uruchomienia swojego API opartego na chmurze w celu przetwarzania dźwięku i zapisywania wyników.
Jak rok temu napisałem gdy opisywaliśmy Projekt VoCo: jest prawdopodobnym, że takie oprogramowanie doprowadzi do stworzenia i dystrybucji mnóstwa mylących informacji w których autentyczność ludzie mogą uwierzyć.
Na swojej stronie poświęconej etyce, Lyrebird mówi, że ta technologia "kwestionuje ważność dźwiękowych dowodów, ponieważ pozwala na łatwe manipulowanie nagraniami audio", dodając: "Udostępniając publicznie naszą technologię i udostępniając ją dla wszystkich chcemy zapewnić, że nie wystąpią takie zagrożenia. Mamy nadzieję, że wkrótce każdy zda sobie sprawę z tego, że taka technologia istnieje, i że możliwe jest kopiowanie głosu kogoś innego. Ogólnie rzecz biorąc chcemy zwrócić uwagę na to, że w najbliższej przyszłości nagrania audio nie będą żadnym dowodem".
Podobna technologia z obrazem wideo:
Lyrebird może mieć tu rację: szeroka dostępność narzędzi do manipulacji obrazem doprowadziła do tego, że ludzie podważają prawdziwość zdjęć w prasie i internecie, a także integralności ich źródeł. Jednak nadal istnieje ogromne ryzyko, że ludzie padną ofiarą oszustw i dezinformacji poprzez sfałszowany dźwięk.
I nie mówimy tu tylko o kopiowaniu głosów światowych liderów. Ludzie mogą zostać oszukani by przekazywali poufne dane myśląc, że rozmawiają z kimś innym lub z członkami rodziny, a pracownicy firm mogą wykonywać kompletnie mylne działania po tym jak otrzymają rozkazy przez telefon, od kogoś kto brzmi jak szef.