Medical Insider
Январь
2025
1 2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Новый тест направлен на оценку навыков реального общения врачей с искусственным интеллектом

0

Гарвардская медицинская школа и Стэнфордский университет представили новое исследование, в котором оценивается эффективность моделей большого языка в клинических условиях. Исследование, опубликованное 2 января в журнале Nature Medicine, показало, что эти инструменты, широко используемые пациентами для понимания своих симптомов и результатов медицинских анализов, сталкиваются с трудностями при взаимодействии, более точно имитирующем реальные медицинские ситуации.

Проблемы взаимодействия с пациентами

Хотя модели большого языка показывают впечатляющие результаты в стандартизированных медицинских тестах, их эффективность в условиях, приближенных к реальным, вызывает сомнения. В ходе исследования ученые разработали систему оценки под названием CRAFT-MD (Структура оценки разговорного рассуждения для тестирования в медицине) и применили ее на четырех различных моделях большого языка.

Результаты показали, что все модели хорошо справлялись с вопросами в стиле медицинского осмотра, однако их результаты ухудшались при участии в разговорах, точно имитирующих взаимодействие с пациентами в реальной жизни.

Необходимость реалистичных оценок

Исследователи подчеркнули двойную необходимость: создание более реалистичных оценок для оценки пригодности клинических моделей ИИ и улучшение их способности ставить диагнозы на основе более реалистичного взаимодействия.

Рекомендации для разработчиков и регулирующих органов

На основе выводов исследования были предложены следующие рекомендации:

  1. Использование разговорных открытых вопросов для более точного отражения неструктурированного взаимодействия врача и пациента при разработке, обучении и тестировании моделей ИИ.
  2. Оценка моделей на способность задавать правильные вопросы и извлекать наиболее важную информацию.
  3. Разработка моделей, способных следовать нескольким разговорам и интегрировать информацию из них.
  4. Разработка моделей ИИ, способных интерпретировать невербальные сигналы, такие как выражение лица, тон и язык тела.
  5. Участие как агентов ИИ, так и людей-экспертов в оценке для повышения точности и эффективности.

Заключение

Исследование Гарвардской медицинской школы и Стэнфордского университета подчеркивает важность создания более реалистичных оценок для тестирования клинических моделей ИИ и необходимость их оптимизации для повышения эффективности в реальных медицинских условиях.

Важность дальнейших исследований

Для дальнейшего улучшения моделей ИИ в здравоохранении необходимо продолжать исследования, направленные на разработку более реалистичных систем оценки и улучшение способности моделей ставить диагнозы на основе естественного взаимодействия с пациентами.

Литература:
An evaluation framework for clinical use of large language models in patient interaction tasks, Nature Medicine (2024). DOI: 10.1038/s41591-024-03328-5

Запись Новый тест направлен на оценку навыков реального общения врачей с искусственным интеллектом впервые появилась Medical Insider.