Разработчики Поднебесной научили ИИ общаться человеческим голосом


Технологии >> 11.03.2018

Специалисты лаборатории «Baidu Research», которая принадлежит самому крупному поисковому сервису Поднебесной, сумели создать уникальный алгоритм «Deep Voice». Он способен эффективно преобразовывать текст в реальную речь. Таким образом, теперь ИИ может общаться человеческим голосом. Информация представлена онлайн-изданием «Motherboard».

Как отмечается в сообщении, предшественники алгоритма «Deep Voice» имели одну и ту же повторяющуюся проблему. Она связана со скоростью звукового синтеза. Исходя из этого, предыдущие разработки решали вопрос звуковой функции ИИ, но это требовало определенного времени. Для того, чтобы услышать корректно воспроизведенную речь, уходило от пары минут до нескольких часов. Разработка специалистов китайской лаборатории основана на сетях нейронного типа. Она позволяет преобразовывать исходный текст в натуралистичный голос в режиме реального времени без задержек.

Указывается, что «Deep Voice» способен имитировать голосовой тембр и интонацию, а также акцент. Все это выглядит крайне правдоподобно и не отличается от настоящего. Воспроизводимый голос может относиться к обоим полам. Как отмечают представители «Baidu», технология их лаборатории может успешно использоваться в роли цифровых «помощников», для записи нужных голосов в игровой индустрии и даже для обустройства синхронного перевода кинопродукции по имеющимся субтитрам.

Один из авторов разработки г-н Лео Зу назвал ее «настоящим прорывом». Удалось решить архисложную задачу, предусматривающую гармоничный синтез живой речи с ее многочисленными индивидуальными особенностями.

Как отмечает «Motherboard» проект китайских специалистов «Deep Voice» был вдохновлен многочисленными предшествующими разработками. Однако, «фишкой» стало то, что все функциональные компоненты управляются нейронной сетью. Вместе с этим, в работе используются простейшие функции. Это дает основания говорить о высокой адаптивности алгоритма. Голоса легко «подстраиваются» под отдельную личность, а также наделяются акцентами и иными звуковыми особенностями.