В конце апреля китайская Tencent Cloud объявила о запуске цифровой платформы Deepfakes-as-a-Service (DFaaS). Она обещает за $145 создать цифровую копию человека высокой четкости, используя всего три минуты живого видео и 100 произнесенных фраз. Дипфейки сегодня представляют собой как возможность (например, при использовании в кинопроизводстве или рекламе), так и настоящую проблему, если использовать их для правонарушений. Руководитель направления R&D речевых технологий Just AI Илья Калиновский объясняет, как работает и эволюционирует дипфейк , сообщает forbes.ru .
Как устроен дипфейк
Дипфейк — это метод создания поддельного медиаконтента (аудио, изображения или видео), с помощью алгоритмов глубокого обучения. Первые дипфейки заключались в простом «натягивании» лица какой-нибудь медийной персоны на лицо другого человека с помощью технологии FaceSwap, основанной на генеративно-состязательных сетях (Generative adversarial network, GAN).
GAN состоит из двух частей: генератора и дискриминатора. Одна модель генерирует реплики из набора данных образцов изображений, а другая пытается определить, действительно ли новое изображение является фейковым. Когда вторая модель затрудняется ответить, тогда дипфейк, вероятно, достаточно правдоподобен и для зрителя. Если немного дообучить GAN на небольшой базе фотографий (а в эпоху соцсетей сбор такой базы проблемы не представляет), то можно запросто генерировать реалистичные смешные, провокационные или порочащие фотографии.
Эта простая технология, созданная для развлечения и ретуши лиц в Instagram (принадлежит Meta, которая признана экстремистской и запрещена в России), причиняет массу неудобств подвергшимся атаке людям. Но технологии шагнули еще дальше и уже сейчас позволяют без специальной аппаратуры создать полноценную цифровую копию человека, передавая не только его лицо, мимику, фигуру, одежду, но даже голос. Это влечет за собой еще больше опасностей, так как события последних лет показали, что люди сильно подвержены влиянию дезинформации, которая очень быстро может распространяться в соцсетях. Особенно, когда она якобы исходит от известного «ньюсмейкера».
Эволюция технологии
Последние 20 лет в кинематографе для создания полноценного цифрового клона используется технология CGI (Computer Generated Imagery). Чаще всего она применяется для отрисовки реалистичных анимированных 3D-моделей персонажей, позволяя передавать движения и мимику реального актера 3D-модели с помощью системы меток и высокоскоростных камер. Одним из канонов применения CGI является персонаж Голлум из трилогии «Властелин колец». Он стал первым компьютерным персонажем, который взаимодействовал с реальными актерами. Создатели фильма использовали технологию захвата движения, чтобы сделать Голлума реалистичным и живым. А в эпоху первого «Аватара» была создана технология facial motion retargeting для переноса человеческой мимики на трехмерных героев — раньше при съемках подобных фильмов система захвата движений была общей.
Сегодня в большинстве фантастических фильмов используют эти технологии для тысяч кадров, или 90% киноленты. Благодаря этой же технологии фанаты видеоигры Cyberpunk 2077 увидели Киану Ривза в образе одного из персонажей.
Но нейросетевые технологии позволили существенно снизить затраты на создание цифровых аватаров. Используя видеоряд, снятый на обычную цифровую камеру, модели машинного обучения позволяют покрыть полный спектр задач, решаемых с помощью CGI: трекинг, захват движений и мимики, построение карты глубины, построение 3D-модели, наложение текстур, копирование голоса, подстройка движения губ и мимики модели под синтезированную аудиодорожку и многое другое. Это все существенно удешевляет создание дипфейков, дает импульс для развития целых «фабрик» цифровых двойников и открывает совершенно новые возможности для их использования, к сожалению далеко не всегда, направленные на созидание.
Ингредиенты для дипфейка
Как было сказано выше, для создания полноценного дипфейка требуется целый набор технологий. Множество компаний уже предлагают полноценные сервисы по созданию аватаров, но если вы хотите создать аватара «на коленке», то все нужные части пазла можно без труда найти в open source, правда, рассчитывать на качественный результат в этом случае не стоит.
Можно отметить несколько проектов, которые вам точно пригодятся в этом деле.
Компания NVIDIA в 2022 году создала модель Instant NeRF, сочетающую сверхбыстрое обучение нейронной сети и быстрый рендеринг. Ей требуется всего несколько секунд на обучение на нескольких десятках неподвижных фотографий — плюс данные о ракурсах камеры, с которых они были сделаны, чтобы визуализировать 3D-сцену. Представьте себе работу фотографа на красной дорожке, пытающегося запечатлеть знаменитость со всех сторон — примерно так выглядит сбор данных для передачи NeRF.
Также у NVIDIA есть технология, позволяющая анимировать мимику по голосу — Audio2Face. В приложение предварительно загружена «Цифровая метка» — 3D-модель персонажа, которую можно анимировать с помощью звуковой дорожки. Загруженное аудио подается в предварительно обученную глубокую нейронную сеть, которая управляет положением точек 3D-сетки вашего персонажа для создания лицевой анимации в режиме реального времени.
А чтобы озвучить двойника, можно использовать представленную в начале года ИИ-модель VALL-E от Microsoft, способную клонировать голос человека всего по трехсекундному образцу. Хотя считается, что для качественного синтеза нужно минимум 10 часов студийных записей, а лучше 20 или 50. VALL-E может воспроизводить не только звук говорящего и его эмоции, но даже среду, в которой он говорит, поэтому она может клонировать звук голоса, например, во время телефонного звонка.
Комбинация описанных технологий вполне может быть основой для быстрого создания цифровых двойников или, как мы чаще говорим, дипфейков.
Перспективы применения
Технология аватаров имеет широкие перспективы для использования в разных областях — от образования до маркетинга. Например, в 2021 году «МегаФон» использовал дипфейк актера Брюса Уиллиса для съемок своей рекламы. ИИ-двойник помог ускорить процесс съемок, а также сделал его дешевле. А цифровая копия Сальвадора Дали встречала гостей выставки Dali Lives во Флориде в 2019 году. Она рассказывала посетителям о биографии и достижениях художника. Совсем недавно на канале дизайнера и блогера Артемия Лебедева вышел выпуск новостей, который вел его цифровой двойник. Неудивительно, если в ближайшем будущем «лидеры мнений» будут оцифровывать себя, предлагая подписчикам пообщаться с их виртуальной копией.
Возможно, и мечты Марка Цукерберга о коллективном погружении в метавселенную тоже не за горами. Четкие границы между физическим и цифровым стали размытыми, ведь мы уже привыкли работать из разных точек мира и эффективно общаться с людьми через экраны своих ноутбуков. Но что было бы, если бы вместо того, чтобы просто включать компьютер, мы могли полностью погрузиться в среду виртуального офиса? Благодаря нашим ИИ-двойникам мы бы могли беспрепятственно общаться с коллегами и друзьями в смоделированных пространствах.
Осторожно, дипфейк
Параллельно с теми преимуществами, которые открываются перед нами с развитием технологии аватаров, возникает и множество вызовов, с которыми общество может столкнуться в ближайшие годы. Для мошеннических целей могут быть использованы не только синтезируемые голоса, но и полноценные цифровые копии людей. Более совершенные дипфейки поставят нас перед новой этической проблемой: как будет обеспечиваться уникальное право обладателя на свою ИИ-реплику? Реализация потенциала дипфейков с учетом всех мер безопасности является важной задачей для тех, кто разрабатывает и внедряет эту технологию.
Автор Илья Калиновский
Источник forbes.ru