Новости 03:00, 26 июня 2026
Поделиться

Anthropic наняла бывшего исследователя Google DeepMind для работы над выравниванием моделей

Британский стартап Anthropic, разрабатывающий передовые языковые модели, пригласил Артура Конми (Arthur Conmy), ранее работавшего в Google DeepMind, на позицию научного сотрудника по выравниванию моделей во время обучения.

Артур Конми, ранее занимавшийся исследованиями в области интерпретируемости и безопасности моделей в Google DeepMind, объявил о переходе в Anthropic. В новой роли он сосредоточится на методах выравнивания (alignment) — процессе настройки моделей для соответствия человеческим ценностям и предотвращения нежелательного поведения. Конми присоединится к команде, которая работает над этими задачами на этапе обучения, а не постфактум.

Переход Конми подчёркивает растущую конкуренцию между ведущими лабораториями ИИ за специалистов по безопасности и интерпретируемости. В Google DeepMind он занимался анализом внутренних механизмов моделей, включая работу над методами обнаружения «спящих агентов» — потенциально опасных поведенческих паттернов, которые могут проявляться только в определённых условиях. Его исследования публиковались на конференциях по машинному обучению, включая NeurIPS и ICML.

Anthropic, известная своей моделью Claude и акцентом на безопасность, активно расширяет команду по выравниванию. В прошлом году компания представила метод Constitutional AI, который использует набор заранее заданных принципов для обучения моделей без участия человека в каждом конкретном случае. Приход Конми может ускорить разработку новых подходов к выравниванию, особенно на ранних стадиях обучения.

В своём посте Конми отметил, что «выравнивание во время обучения — это ключевой этап для создания систем, которые будут надёжными и предсказуемыми». Он также поблагодарил коллег из DeepMind за сотрудничество, но не уточнил причины ухода.

Ранее в этом году Anthropic привлекла ещё одного специалиста по безопасности — Зака Кентона (Zac Kenton), ранее работавшего в DeepMind и Meta. Это свидетельствует о том, что компания рассматривает выравнивание как стратегическое направление, особенно в свете растущих требований к регулированию ИИ.

Источники: X-пост Артура Конми (Arthur Conmy), 24 июня 2026 года.