Google открыла исходный код двух датасетов Coached Conversational Preference Elicitation (CCPE) и Taskmaster-1 для обучения диалоговых интеллектуальных ассистентов, пишет VentureBeat.
Датасеты с диалогами между людьми, опубликованные AI-исследователями Google, должны помочь в обучении моделей понимать естественные языки на уровне человека.
CCPE включает 500 диалогов, в котором собеседники обсуждают свои предпочтения в кино. Всего он содержит 10 тысяч предпочтений в 12 тысячах реплик. Предпочтения в фильмах в качестве темы исследователи выбрали по причине ценности таких метаданных, как имена актёров и режиссёров.
«Датасет содержит более реалистичные и разнообразные беседы по сравнению с существующими датасетами», — говорится в публикации, посвящённой CCPE.
Taskmaster-1 содержит более 13,2 тысячи диалогов по 6 категориям: заказ пиццы, билетов в кино, кофе, поездки на транспорте, столика в ресторане и посещение автомастерской. Оба набора данных построено по методике Wizard of OZ, где один человек играет роль ассистента, а второй — обычного пользователя.
Недавно исследователи Google анонсировали бенчмарк SuperGLUE для оценки производительности AI для задач понимания естественного языка.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.