Новый тест направлен на оценку навыков реального общения врачей с искусственным интеллектом

02.01.2025 15:19

Medical Insider

Гарвардская медицинская школа и Стэнфордский университет представили новое исследование, в котором оценивается эффективность моделей большого языка в клинических условиях. Исследование, опубликованное 2 января в журнале Nature Medicine, показало, что эти инструменты, широко используемые пациентами для понимания своих симптомов и результатов медицинских анализов, сталкиваются с трудностями при взаимодействии, более точно имитирующем реальные медицинские ситуации.

Проблемы взаимодействия с пациентами

Хотя модели большого языка показывают впечатляющие результаты в стандартизированных медицинских тестах, их эффективность в условиях, приближенных к реальным, вызывает сомнения. В ходе исследования ученые разработали систему оценки под названием CRAFT-MD (Структура оценки разговорного рассуждения для тестирования в медицине) и применили ее на четырех различных моделях большого языка.

Результаты показали, что все модели хорошо справлялись с вопросами в стиле медицинского осмотра, однако их результаты ухудшались при участии в разговорах, точно имитирующих взаимодействие с пациентами в реальной жизни.

Необходимость реалистичных оценок

Исследователи подчеркнули двойную необходимость: создание более реалистичных оценок для оценки пригодности клинических моделей ИИ и улучшение их способности ставить диагнозы на основе более реалистичного взаимодействия.

Заключение

Исследование Гарвардской медицинской школы и Стэнфордского университета подчеркивает важность создания более реалистичных оценок для тестирования клинических моделей ИИ и необходимость их оптимизации для повышения эффективности в реальных медицинских условиях.

Важность дальнейших исследований

Для дальнейшего улучшения моделей ИИ в здравоохранении необходимо продолжать исследования, направленные на разработку более реалистичных систем оценки и улучшение способности моделей ставить диагнозы на основе естественного взаимодействия с пациентами.

Литература:
An evaluation framework for clinical use of large language models in patient interaction tasks, Nature Medicine (2024). DOI: 10.1038/s41591-024-03328-5

Запись Новый тест направлен на оценку навыков реального общения врачей с искусственным интеллектом впервые появилась Medical Insider.

Проблемы взаимодействия с пациентами

Необходимость реалистичных оценок

Рекомендации для разработчиков и регулирующих органов

Заключение

Важность дальнейших исследований