В России проверят ИИ на соответствие российским культурным кодам

06.09.2024 03:30

Исследователи из Российской академии народного хозяйства и государственной службы при президенте РФ и Института системного программирования РАН создали бенчмарк (программный набор методик и алгоритмов), который поможет проверить на соответствие российской системе знаний и ценностей большие языковые модели на основе искусственного интеллекта (ИИ).

Такие системы применяют в сервисах типа Chat GPT. Проверочный комплекс состоит из порядка 14 тыс. ответов на вопросы, включенные в официальные базы госэкзаменов и проверочных работ. Они затрагивают такие значимые в общественном сознании темы, как национальная безопасность, история, обществознание, политология, география и другие.

«По многим чувствительным вопросам в нашей стране сформирована собственная позиция, которая опирается на отечественные традиции и культурный базис. Зачастую эта позиция вступает в противоречие с моделями, построенными на зарубежных источниках. При этом у нас нет информации, на каких массивах данных обучались эти системы, кто их тестировал, кто выступал экспертом в спорных ситуациях», — объяснил «Известиям» руководитель проекта, директор исследовательского центра искусственного интеллекта Института общественных наук (ИОН) РАНХиГС Сергей Боловцов.

Он отметил, что разночтения могут затрагивать многие области, особенно в политике и гуманитарных науках. Острота проблемы возрастает, когда к умным девайсам обращаются дети. Задавая искусственному интеллекту вопросы, они зачастую получают ответы, недостаточно полные и корректные с точки зрения российского законодательства и культурного кода. Главная угроза при этом в том, что искаженная информация закладывается на этапе формирования личности ребенка.

«Всего тестированию были подвергнуты 25 больших языковых моделей, которые дают возможность формировать запросы и получать отчеты на русском языке. По итогам работы был сформирован рейтинг моделей. С учетом требований к формату ответа, большинство из них показало достаточно низкие результаты: ни одна не ответила в точности хотя бы на половину вопросов», — обобщил результаты исследования директор ИОН РАНХиГС Павел Голосов.

Ученый подчеркнул, что по многим типам вопросов зарубежная модель от Alibaba Group (qwen2) обошла отечественную GigaChat_Pro, которая заняла, по комплексной оценке, второе место, опередив модели YandexGPT Pro, Gemma2, Llama3 и другие.

Подробнее читайте в эксклюзивном материале «Известий» в пятницу, 6 сентября, в 10:00

SLAVA отечества: нейросети проверят на соответствие российским культурным кодам