Учёные из Harvard Medical School и Beth Israel Deaconess Medical Center сравнили ответы врачей и моделей OpenAI на реальных случаях из приёмного отделения. В одном из экспериментов модель o1 показывала результат на уровне врачей или выше.
Исследователи изучили 76 пациентов, поступивших в отделение неотложной помощи Beth Israel. Диагнозы двух врачей сравнили с вариантами, которые выдали модели OpenAI o1 и 4o, а затем другие врачи оценивали ответы вслепую — не зная, где человек, а где ИИ.
По данным авторов, o1 на каждом этапе диагностики была как минимум сопоставима с врачами, а в некоторых случаях — лучше. Особенно заметной разница оказалась на самом раннем этапе, когда информации о пациенте ещё мало, а решение нужно принимать быстро.
Это не означает, что ИИ готов заменить врачей в приёмном отделении. Но исследование хорошо показывает, почему медицина остаётся одним из самых чувствительных направлений для ИИ: модели уже могут помогать в диагностике, но их внедрение требует очень аккуратной проверки, ответственности и контроля.