OpenAI: GPT-5 – самая продвинутая модель для ответов на медицинские вопросы
GPT-5 стал самой надежной моделью OpenAI в области медицины, заявляют в компании: согласно результатам оценки на платформе HealthBench, разработанной при участии 250 практикующих врачей, модель превзошла предыдущие версии по точности и качеству ответов. При тестировании анализировались 5 тысяч диалогов, имитирующих консультации между пациентами и цифровыми ассистентами.
Модель уже используется в фармацевтической и страховой отраслях. Так, компания Amgen применяет GPT-5 в разработке лекарственных препаратов, используя ее способности к глубокой аналитике научных и клинических данных. В Oscar Health отметили высокую эффективность GPT-5 при интерпретации сложных медицинских регламентов при работе с конкретными случаями пациентов.
Также было объявлено о внедрении модели в работу федеральных служб США. GPT-5 доступна в трех вариантах – GPT-5, GPT-5 mini и GPT-5 nano. В OрenAI прогнозируют, что в ближайшие месяцы модель найдет широкое применение в новых, пока еще неочевидных сценариях.
Однако одновременно с ростом интереса к использованию ИИ в здравоохранении усиливается внимание к вопросам безопасности. Представители компании Microsoft, являющейся стратегическим партнером OpenAI, отметили, что медицинские сценарии – это высокоценные, но и высокорисковые кейсы. Возможные ошибки ИИ в интерпретации данных могут иметь серьезные последствия для пациента. Это подчеркивает необходимость строгого экспертного контроля за применением модели в клинической практике.
В марте 2024 года группа ученых из Австрии и Германии представила объемное исследование применения ChatGPT, включая четвертую версию, в медицинских науках. Ресерч научных публикаций с момента выхода этой LLM (большой языковой модели) показал, что основная область тестирования сосредоточена на медицинском образовании, консультациях и исследованиях, а также на отдельных этапах клинической работы, включая диагностику, принятие решений и оформление медицинской документации.
Что касается медицинских консультаций, указывают авторы исследования, ChatGPT демонстрирует высокую точность в онкологической тематике (возможно, благодаря включению в обучающие данные публичных источников вроде National Cancer Institute), а его эффективность в других специализациях требует дальнейшей оценки. В целом, отмечали ученые, ChatGPT не соответствует высоким клиническим стандартам – для реального внедрения необходимы специализированные доработки и стандартизированные методы оценки.
Текущие методы оценки чрезмерно зависят от субъективных мнений экспертов и не обладают должной объективностью и масштабируемостью, говорится в исследовании. Перспективным направлением представляется разработка автоматизированных количественных метрик для оценки качества ответов, что станет ключевым условием для клинической интеграции технологии. Создание профессиональных версий ChatGPT для конкретных медицинских специализаций, прошедших строгую количественную проверку, может открыть путь к его практическому использованию в медицине.
При этом ChatGPT4 имел ряд существенных недостатков, ограничивающих его клиническое применение – модель работает исключительно с текстовыми данными, не способна анализировать изображения и не обладает логикой экспертных систем: ее «обоснования» представляют собой лишь вероятностные прогнозы следующих слов, что может приводить к парадоксальным ситуациям, когда правильный ответ сопровождается абсурдным объяснением. Достоверность ответов напрямую зависит от качества обучающих данных, при этом модель не различает достоверную и ложную информацию, что создает риск предоставления опасных и предвзятых рекомендаций. Особую проблему представляет склонность модели к генерации правдоподобной, но полностью вымышленной информации, изложенной в убедительной форме. Это требует обязательной экспертной проверки всех выводов перед их использованием в медицинской практике.
Также ученые заявили, что ответы ChatGPT часто носят поверхностный характер и не обладают необходимой глубиной, модель не является специализированным медицинским инструментом и требует дополнительной адаптации для клинического применения. Важным ограничением является зависимость результатов от формулировки запроса – даже незначительное изменение вопроса может привести к совершенно другому ответу.
Отдельную проблему представляет конфиденциальность данных, поскольку использование проприетарной модели для обработки персональной медицинской информации может нарушать требования по защите приватности пациентов. Эти ограничения подчеркивают необходимость существенной доработки модели и разработки строгих протоколов ее применения в здравоохранении.
Опросы в США и России демонстрируют схожую тенденцию: интерес к использованию ИИ в здравоохранении сочетается с настороженностью и неоднородным уровнем доверия. Так, по данным центра общественной политики Анненберга, 63% американцев готовы полагаться на ответы, сгенерированные ИИ, при поиске медицинской информации, при том что 79% регулярно обращаются к интернету по вопросам здоровья. В России, по результатам исследования MAR CONSULT, пользователи проявляют интерес к новым технологиям, однако предпочитают очное взаимодействие с врачом, а уровень недоверия к ИИ остается высоким: 46% не доверяют машинным алгоритмам, 51% сомневаются в способности учитывать индивидуальные особенности пациента, а 36% обеспокоены утечкой персональных данных.
По прогнозу аналитиков швейцарской страховой компании Swiss Re, к 2034 году именно здравоохранение и фармацевтика станут лидерами по уровню страховых рисков, связанных с применением ИИ. Исследование основано на анализе текущей рыночной ситуации и случаев негативного воздействия ИИ в различных отраслях. Если сегодня наиболее уязвимой считается ИТ-сфера, то уже в ближайшее десятилетие наибольшие риски, по мнению экспертов, будут связаны с внедрением ИИ в клиническую практику, защиту медицинских данных и принятие решений на основе самообучающихся моделей.
На фоне стремительной интеграции ChatGPT в образовательные процессы в сфере медицины специалисты из Сычуаньского университета в Китае провели одно из первых масштабных исследований, посвященных восприятию этой технологии студентами медицинских вузов. В опросе приняли участие 1 133 будущих врача из различных медицинских образовательных организаций провинции Сычуань. Как показали результаты, 62,9% уже применяли ChatGPT в обучении, чаще всего – для поиска медицинской информации (84,4%) и выполнения профильных академических заданий (60,4%). При этом 76,9% студентов выразили опасения относительно возможности распространения ИИ-ботом недостоверных медицинских сведений, а 65,4% – относительно риска нечестного заимствования контента. Несмотря на это, более 60% участников заявили о готовности использовать ChatGPT для решения учебных задач при клинической подготовке и в целом положительно оценили его потенциал в медицинском образовании.