Николай Чикишев 22 сентября 2022, 13:44

VK открыла разработчикам доступ к своей технологии распознавания речи

Технический директор компании Александр Тоболь заявил, что технологии можно интегрировать в любые проекты.

Технология Automatic Speech Recognition, или ASR, распознает устную речь и преобразует ее в текст. Она работает при помощи трех нейросетей. Одна отвечает за распознавание, вторая находит подходящие слова, третья расставляет знаки препинания. Как утверждает компания, инструмент обрабатывает записи за несколько секунд, хорошо справляется с посторонними шумами и паузами, неразборчивым произношением, сленгом и сокращениями.

При распознавании работает одна из двух моделей: либо нейтральная (например, для телешоу или интервью), либо спонтанная (для непринужденных бесед и монологов). Одна версия ASR позволяет обрабатывать до 100 минут аудио в сутки, другая не имеет ограничений по времени. «Применение технологии ограничено только фантазией разработчиков: можете сделать игру с голосовым управлением или с помощью чат-бота добавить распознавание аудио в сторонний мессенджер», — пояснил Тоболь.