Новітня ера діпфейк-технологій: як сервіси ElevenLabs та SyncLabs змінюють індустрію штучного інтелекту
Технології штучного інтелекту стрімко розвиваються, відкриваючи нові можливості у сфері створення контенту та комунікації.
Одним з найперспективніших напрямків сучасні експерти вважають клонування голосу та його накладання на мімку мовця ( lip-sync). Ці прогресивні технології дозволяють імітувати голос та артикуляцію реальної людини для доволі широкого спектру застосування.
Для дослідження інноваційної технології наша редакція вирішила скористатися двома застосунками: ElevenLabs – для клонування голосу, SyncLabs – для накладання його на виступ мовця.
Клонування голосу живих людей відтепер реальність
ElevenLabs — це платформа, яка використовує технологію ШІ як для перетворення тексту в мову, так і для клонування голосу. Подібний принцип дозволяє користувачам створювати синтетичні голоси та клонувати реальні. Створити цифрову копію свого власного голосу або голосу іншого диктора відтепер можна із завантаженого аудіо- чи відеофайлу. Платформа має зручний інтерфейс, що дозволяє легко використовувати її можливості. Крім цього, розробники можуть легко інтегрувати функції перетворення тексту в мову та клонування голосу у свої програми за допомогою надійної технології API.
Хоча голоси ElevenLabs мають доволі високу якість, вони можуть лише частково відтворювати всі нюанси людської мови. Наприклад, якщо користувач завантажив англомовний виступ, то його синтезована україномовна версія може не правильно відтворювати звуки, які притаманні нашій рідній мові, але не зустрічалися в оригіналу виступу мовця (наприклад – літера ї).
Розробники проєкту рекламують його як потужну та універсальну платформу для генерації та клонування голосу за допомогою ШІ. На старті ElevenLabs пропонує користувачам безкоштовний рівень на 10 000 символів, що дозволяє відтворювати текст завантаженими на платформі голосами. Платні плани, які стартують від 5 доларів на місяць, розблоковують вищі ліміти символів, можливість клонування голосів живих людей, а також ліцензію на комерційне використання.
Створити діпфейк можливо навіть “на колінці”
Багато хто із сучасних користувачів Інтернету досі пам’яєтає незграбні дубляжі іноземних фільмів, де слова ніколи не збігалися із рухом губ. SyncLabs позиціонує себе, як новітній сервіс на основі штучного інтелекту, який може плавно синхронізувати будь-яке аудіо з будь-яким відео в режимі реального часу та різними мовами.
SyncLabs надає пріоритет простоті використання. Їхня веб-платформа дозволяє будь-кому, від творців вмісту до розробників, легко завантажувати відео та аудіо та отримувати синхронізоване відео за лічені хвилини. Крім того, API дає змогу розробникам інтегрувати технологію безпосередньо у свої програми.
Розробники постійно удосконалюють свій продукт, щоразу випускаючи нову версію. Сервіс пропонує користувачам отримати безкоштовну 5-хвилинну версію для генерування із водяним знаком. Платний план, який передбачає 20 хвилин генерації, стартує від 19 доларів на місяць. Оскільки мова штучного інтелекту та технології синхронізації губ продовжують розвиватися, ми можемо очікувати ще більш плавну та тонку взаємодію між аудіо та відео.
Спроба перекласти виступ Дональда Трампа
Для вивчення потенціалу платформ ми вирішили завантажити уривок відео з англомовного виступу колишнього президента США Дональда Трампа та спробувати накласти на нього український переклад однією з його цитат, озвучених на передвиборчому мітингу минулого тижня.
Клонування голосу на ElevenLabs тривало півхвилини. Українська озвучка вийшла приємною на звучання, враховувала характерні логічні наголоси Трампа і не надто перевантажувала синтезований голос англомовним акцентом.
Накладання синтезованої озвучки на міміку Трампа (завантажувалося і аудіо, і відеовиступ мовця) тривало майже п’ять хвилин. В процесі створення діпфейку ми вирішили спробувати одразу дві версії генерації контенту- стартову (1.0) і прогресивну (1.5)У результаті, губи мовця рухаються досить логічно, враховуючи реальну мімку Трампа. Але на широкому екрані проявляється фактор домальовки – шкіра біля губ Трампа є яскравішою, аніж на усьому обличчі.
*****
Індустрія штучного інтелекту невпинно розвивається, приносячи його розробникам мільйонні прибутки. Однак, здатність штучного інтелекту імітувати людську мову та міміку може призвести до того, що люди втратять контроль над власною ідентичністю.
Звісно, що штучний інтелект, який клонує голоси та накладає їх на міміку мовців, може мати й позитивні наслідки. Наприклад, цю технологію можна використовувати для створення реалістичних освітніх симуляцій, персоналізації цифрових помічників та покращення доступності інформації для людей з порушеннями слуху.
Однак важливо не забувати, що ризики, пов’язані з цією технологією, мають бути ретельно вивчені та зведені до мінімуму. Суспільство повинне мати відкриту та чесну дискусію про те, як використовувати цю технологію максимально відповідально.