Anthropic профинансирует разработку новых тестов для оценки безопасности ИИ
Компания запускает программу по финансированию разработки новых типов тестов, способных оценивать производительность и эффективность моделей искусственного интеллекта.
Согласно условиям программы, Anthropic будет платить сторонним организациям за разработку тестов, которые могут «эффективно измерять расширенные возможности моделей искусственного интеллекта». «Наши инвестиции в эти оценки направлены на повышение уровня безопасности ИИ во всей области. Разработка высококачественных оценок, связанных с безопасностью, остается сложной задачей, и спрос опережает предложение», — заявили в Anthropic.
У ИИ-моделей существуют проблемы с бенчмаркингом. Наиболее часто используемые сегодня бенчмарки для ИИ плохо отражают то, как обычный пользователь на самом деле использует тестируемые системы. Также у экспертов есть сомнения, что некоторые тесты, которые были выпущены еще до появления современного генеративного ИИ, измеряют действительно то, что они должны измерять, учитывая время их создания.
Компания призывает к созданию таких тестов, в которых будет оцениваться способность модели к выполнению кибератак, «усовершенствованию» оружия массового уничтожения, манипулированию, обману и другим задачам. В случае с рисками ИИ, связанными с национальной безопасностью и обороной, Anthropic планирует разработать «систему раннего предупреждения» для выявления и оценки рисков.
Однако у подобной инициативы есть и критики, которые указывают, что компания стремится финансировать те разработки, которые будут соответствовать ее классификации безопасности ИИ. Это может привести к тому, что кандидаты на участие в программе будут вынуждены принимать те определения «безопасного» и «рискованного» ИИ, с которыми они будут не согласны. Также многие эксперты сомневаются, что необходимо делать акцент на изучении рисков, связанных с ядерным оружием, — намного полезнее исследовать насущные проблемы регулирования ИИ, например, склонность моделей к галлюцинациям.
Читать на dev.by