Китайская Baidu представила Deep Voice 2 — систему распознавания голоса, которая способна «выучить» нюансы произношения человека на основании всего лишь получаса тренировочного аудио, сообщает The Verge.
Deep Voice 2 удалось достигнуть впечатляющих показателей благодаря использованию подхода, отличного от общепринятого: система изучает общие черты, характерные для сотен различных людей, строит «общую» модель человеческого голоса и затем «дорабатывает» её для имитации конкретного произношения. При этом система не требует ручной настройки.
По мнению Baidu, технология будет полезна при работе домашних помощников, использующих голосовое общение с пользователями. Возможно и применение в разработке электронных и аудиокниг.
«Умение быстро синтезировать разнообразные человеческие голоса окажет большое влияние на личных помощников и производство электронных книг в будущем. Например, каждый герой аудиокниги сможет получить свой уникальный голос», — рассказывают представители Baidu в блоге компании.
На рынке распознавания и имитации голоса достаточно плотная конкуренция. В «гонке вооружений» участвуют и крупные компании, и стартапы. Так, подразделение Google DeepMind в сентябре 2016 года опубликовало исследование голосовому кодеку WaveNet, созданному с использованием техник глубинного обучения. А в апреле 2017-го канадский стартап Lyrebird представил систему, способную имитировать голосовые особенности известных людей на основе одной минуты входящих аудиоданных.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.