Google создала высокомасштабируемую систему GAN-TTS для преобразования текста в речь на базе генеративно-состязательной нейросети, которая превосходит другие современные системы, сообщает VentureBeat.
По словам исследователей, модель отличается не только качеством и естественностью сгенерированной речи, высокой параллелизуемостью — то есть её проще тренировать на нескольких машинах. GAN-TTS состоит из свёрточной нейросети, которая обучена порождать аудио на корпусе с 567 лингвистическими и другими признаками, и 10 «дискриминаторов», которые пытаются определить подлинность фрагмента.
Возможности GAN-TTS проверили на 10 тысячах предложений. Сначала оценить естественность аудио предложили специалистам — им давали прослушать фрагменты речи длиной по 15 секунд. После этого результаты сравнивались с другой мощной моделью Google — WaveNet. Исследователи отдельно проводили количественную оценку производительности GAN-TTS по группе новых метрик.
По результатам, GAN-TTS оказалась в три раза эффективнее WaveNet (0,64 мегафлопс на сэмпл против 1,97 мегафлопс).
Подробно о GAN-TTS можно прочесть в работе, опубликованной на arXiv.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.