Обычно алгоритмы машинного обучения специализируются на какой-то одной задаче, но исследователи из Массачусетского технологического института создали ИИ-модель, которая одинаково хорошо распознаёт и речь, и объекты, пишет VentureBeat.
Система училась определять объекты на картинках и связывать слова, которые она слышала на аудиозаписях, с областями картинок. При этом алгоритм ни разу не «подглядывал» в скрипты или аннотации и тренировался исключительно на парах картинок и звуковых фрагментах.
«Мы хотели, чтобы модель распознавала речь более привычным образом, используя дополнительные источники и информацию, которые доступны человеку. У нас появилась идея обучить модель подобно тому, как обучают детей — описывая словами окружающий их мир», — отметил один из соавторов работы.
Модель, о которой учёные уже писали в работе 2016 года, состоит из двух свёрточных нейросетей: первая анализирует изображения, а вторая — спектрограммы, то есть визуальное представление спектра. В процессе обучения первая нейросеть разделяла вводное изображение на сеть ячеек, а вторая, отвечающая за обработку аудио, разделяла спектрограмму на сегменты. Далее третий компонент модели производил вычисления над их выходными данными, совмещая первую ячейку с первым сегментом аудио, вторую — со вторым сегментом и так далее со всей картинкой целиком.
Всего система получила 400 тысяч пар картинок и аннотаций, после чего ИИ научился подбирать сотням различных слов соответствующие объекты. По мнению учёных, в будущем его можно будет применять, например, в машинном переводе.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.