ПОПУЛЯРНЫЕ НАНОТЕХНОЛОГИИ

Кадры

Фотогалерея

Новости

Сурдоперевод в исполнении нейросети / 02.12.2020

Бринанские разработчики создали нейросетевой алгоритм, который превращает текст в видео с человеком, произносящим тот же текст на жестовом языке. Во время обучения алгоритм проверяет качество своей работы после синтеза видео, что позволило добиться гораздо лучшего результата, чем у предыдущих подобных методов, в том числе по качеству отрисовки кистей рук.

 

Люди с полной или частичной потерей слуха общаются между собой на жестовом языке. Но подавляющее большинство мероприятий или контента предназначено для слышащих людей. В электронном виде эта проблема решается при помощи субтитров, но при проведении мероприятий или, например, трансляции прямого эфира, приходится использовать сурдоперевод с обычного языка на жестовый. Исследователи не первый год пытаются автоматизировать этот процесс. Изначально они пытались сделать это с помощью анимированных 3D-аватаров, но этот подход давал низкие результаты. В последнее время исследователи переключились на нейросетевой синтез, но до недавнего времени им не удавалось качественно отрисовывать важные детали, в том числе кисти рук.

 

Разработчики из Университета Суррея под руководством Ричарда Боудена (Richard Bowden) создали алгоритм, который более качественно производит сурдоперевод, в том числе отдельно обучается для качественного синтеза кистей — они крайне важны в жестовых языках. Изначально алгоритм принимает речь в виде текста. Затем текст проходит через кодировщик и декодировщик и превращается в скелетную модель тела, иллюстрирующую жест говорящего. После этого полученная последовательность поз кодируется в вектор. Он объединяется с вектором, полученным от стилевого изображения — фотографии человека, которую необходимо анимировать. Наконец, после этого последовательность поз подается на сверточную нейросеть U-Net, которая производит перенос движений с поз на реалистичное видео.

  

Во время обучения дискриминатор работал как со всем сгенерированным человеком в целом, так и отдельно с его кистями. Результат работы нейросети размечался алгоритмом OpenPose, который размечает на человеке его скелетную модель тела. Сравнивая сгенерированную алгоритмом модель тела с той, которая была размечена людьми, алгоритм по ходу обучения совершенствовал свой навык синтеза качественных кадров, на которых хорошо различимы детали.

Авторы обучили алгоритм на датасете PHOENIX14T, состоящем из 386 аннотированных записей работы сурдопереводчиков на немецком телеканале. Они проверили работу алгоритма, использовав несколько метрик, в том числе индекс структурного сходства, показывающий схожесть двух изображений. Индекс рассчитывался для исходного изображения из датасета и синтетического, созданного нейросетью, причем как для всей верхней части тела, так и отдельно для кистей. Сравнение с другими алгоритмами на одинаковых данных показало, что по всем четырем используемым метрикам новый алгоритм превосходит аналоги.

  

Также разработчики провели тест на 46 добровольцах (28 процентов из них — носители жестового языка), попросив их оценить реалистичность видео, сгенерированного разными алгоритмами. В этом сравнении также в абсолютном большинстве случаев добровольцы выбирали новый алгоритм.

 

Доля добровольцев, которые назвали результаты работы нового алгоритма более качественными по сравнению с аналогами  

Есть и другой подход к автоматизации сурдоперевода. Бельгийские инженеры предложили использовать для этого роборуку, которая умеет показывать различные жесты – пишет nplus1.

 


Другие новости по теме:
04.02.22 - Модель ИИ «слышит» и обрабатывает звуки как человеческий мозг
15.01.22 - Модель на основе машинного обучения определяет и сортирует 12 видов пластика
17.12.21 - Российские и иранские ученые использовали нейросеть в разведке месторождений железной руды
15.12.21 - Искусственный интеллект выступил на конференции и предупредил ученых, что он опасен
03.12.21 - ИИ учится видеть мир, как люди, понимая связи между объектами
TOP100 самых популярных
новостей
за месяц
Место Наименование Показов
1

Липких квакш сравнили со скотчем

Ученые обнаружили, что в физическом смысле квакши напоминают липкую ленту: удержаться на наклонной плоскости им помогает минимизация угла между поверхностью и вектором силы. Работа опубликована в журн

37
2

Microsoft инвестирует в Россию 10 млрд рублей

Ведущий в мире разработчик ПО — американская компания Microsoft инвестирует в Россию в течение трех лет 10 млрд рублей (около 300 млн долларов). Об этом заявил на пресс-конференции в Москве глав

32
3

Глобальная сеть стала частью жизни трети россиян

ВЦИОМ выяснил привязанность россиян к Интернету. Глобальной сетью регулярно пользуются 38 процентов россиян, из которых 23 процента выходят в Интернет ежедневно, а 11 процентов - еженедельно. ВЦИОМ в

25
4

Европейские операторы массово заказывают nano-SIM-карты

Согласно данным Financial Times, европейские операторы массово размещают заказы на nano-SIM-карты. Подобный ажиотаж ресурс связывает с близящимся анонсом следующей версии смартфона iPhone, который, по

22
5

Астрофизики обнаружили пригодную для экстремофилов суперземлю

Европейские астрономы обнаружили суперземлю в зоне, потенциально пригодной для обитания, вокруг звезды Gliese 163 на расстоянии 50 световых лет от Земли. Статья ученых подана в журнал Astronomy and As

20

Анонсы событий