Apr 22

Читает рэп Моны Лизы? Новый искусственный интеллект Microsoft анимирует лица с фотографий

Мона Лиза теперь может делать больше, чем просто улыбаться, благодаря новой технологии искусственного интеллекта от Microsoft.

На прошлой неделе исследователи Microsoft подробно описали новую модель ИИ, которую они разработали, которая может взять статическое изображение лица и аудиоклип, в котором кто-то говорит, и автоматически создать реалистичное видео этого человека, говорящего. Видео — которые могут быть созданы из фотореалистичных лиц, а также из мультфильмов или произведений искусства — полны убедительного синхронизированного движения губ и естественных движений лица и головы.

В одном демонстрационном видео исследователи показали, как они анимировали Мона Лизу, произносящую комический рэп актрисы Энн Хэтэуэй.

Результаты работы модели ИИ, называемой VASA-1, одновременно развлекательны и немного шокирующи своей реалистичностью. Microsoft заявила, что технология может быть использована в образовании или для «улучшения доступности для людей с трудностями в общении», или потенциально для создания виртуальных спутников для людей. Но также легко понять, как инструмент может быть злоупотреблен и использован для подделки реальных людей.

Это беспокойство выходит за рамки Microsoft: по мере того, как появляются все больше инструментов для создания убедительных искусственных изображений, видео и аудио, эксперты опасаются, что их неправильное использование может привести к новым формам дезинформации. Некоторые также беспокоятся о том, что технология может дополнительно нарушить творческие индустрии от кино до рекламы.

На данный момент Microsoft заявила, что не планирует немедленно выпускать модель VASA-1 для публики. Этот шаг аналогичен тому, как партнер Microsoft, OpenAI, решает вопросы, связанные с его инструментом для создания видео на базе ИИ, Sora: OpenAI анонсировала Sora в феврале, но пока сделала его доступным только для некоторых профессиональных пользователей и профессоров кибербезопасности для тестирования.

«Мы против любых действий по созданию вводящих в заблуждение или вредных содержаний реальных людей», — сказали исследователи Microsoft в блоге. Однако они добавили, что компания «не планирует выпускать» продукт для публики, «пока мы не убедимся, что технология будет использоваться ответственно и в соответствии с надлежащими нормами».

Оживление лиц

Новая модель ИИ Microsoft была обучена на многочисленных видео лиц людей во время разговора и разработана для распознавания естественных движений лица и головы, включая «движение губ, (не губные) выражения, взгляд глаз и моргание, среди прочего», заявили исследователи. Результатом является более живое видео, когда VASA-1 анимирует статичное фото.

Например, в одном демонстрационном видео, сопровождаемом клипом, где кто-то звучит раздраженно, видимо, во время игры в видеоигры, лицо, говорящее, имеет нахмуренные брови и сжатые губы.

Инструмент ИИ также может быть настроен для создания видео, где объект смотрит в определенном направлении или выражает конкретную эмоцию.

При ближайшем рассмотрении все же видны признаки того, что видео сгенерировано машиной, такие как редкое моргание и преувеличенные движения бровей. Но Microsoft заявила, что считает, что ее модель «значительно превосходит» другие подобные инструменты и «открывает путь для реального взаимодействия с живыми аватарами, имитирующими человеческое поведение в разговоре».