Исследование, опубликованное в журнале *Nature Medicine*, показало, что общецелевые большие языковые модели (LLM) демонстрируют более высокие результаты на медицинских бенчмарках по сравнению с системами, разработанными специально для клинического применения. Работа вызвала дискуссию среди экспертов о перспективах использования ИИ в здравоохранении.
Исследование, проведенное международной группой ученых, сравнило производительность универсальных языковых моделей, таких как GPT-4 и Claude, с узкоспециализированными медицинскими системами ИИ. В ходе тестирования на стандартных клинических бенчмарках общецелевые модели не только не уступили, но и превзошли разработки, заточенные под задачи диагностики, интерпретации медицинских записей и прогнозирования течения заболеваний.
Авторы работы отмечают, что преимущество универсальных моделей может объясняться их способностью обобщать знания из различных областей, а не только из медицинских данных. «Это не означает, что специализированные системы бесполезны, но ставит под вопрос необходимость их разработки с нуля для каждой конкретной задачи», — заявил один из участников исследования Лун Ван (Lun Wang), научный сотрудник Стэнфордского университета.
Результаты вызвали неоднозначную реакцию в профессиональном сообществе. Основатель медицинской ИИ-компании Curai Нил Хосла (Neal Khosla) в своем посте на X назвал выводы «неожиданными, но логичными», подчеркнув, что универсальные модели могут стать основой для более гибких и адаптируемых медицинских инструментов. В то же время некоторые эксперты, включая бывшего сотрудника OpenAI Майлза Брандейджа (Miles Brundage), указали на ограничения исследования, связанные с отсутствием тестирования в реальных клинических условиях.
Дискуссия также затронула вопрос о безопасности применения общецелевых моделей в медицине. Критики отмечают, что такие системы могут генерировать неточные или противоречивые рекомендации, если их не дообучить на специфических медицинских данных. В исследовании, однако, подчеркивается, что даже без дополнительного обучения универсальные модели показали приемлемый уровень точности, что открывает новые возможности для их интеграции в клиническую практику.