Отдел новостей 26 мая 2017, 13:13

Baidu научила систему распознавания голоса имитировать сотни акцентов

Китайская Baidu представила Deep Voice 2 — систему распознавания голоса, которая способна «выучить» нюансы произношения человека на основании всего лишь получаса тренировочного аудио, сообщает The Verge.

Фото: The Verge

Deep Voice 2 удалось достигнуть впечатляющих показателей благодаря использованию подхода, отличного от общепринятого: система изучает общие черты, характерные для сотен различных людей, строит «общую» модель человеческого голоса и затем «дорабатывает» её для имитации конкретного произношения. При этом система не требует ручной настройки.

По мнению Baidu, технология будет полезна при работе домашних помощников, использующих голосовое общение с пользователями. Возможно и применение в разработке электронных и аудиокниг.

«Умение быстро синтезировать разнообразные человеческие голоса окажет большое влияние на личных помощников и производство электронных книг в будущем. Например, каждый герой аудиокниги сможет получить свой уникальный голос», — рассказывают представители Baidu в блоге компании.

На рынке распознавания и имитации голоса достаточно плотная конкуренция. В «гонке вооружений» участвуют и крупные компании, и стартапы. Так, подразделение Google DeepMind в сентябре 2016 года опубликовало исследование голосовому кодеку WaveNet, созданному с использованием техник глубинного обучения. А в апреле 2017-го канадский стартап Lyrebird представил систему, способную имитировать голосовые особенности известных людей на основе одной минуты входящих аудиоданных.