Новости 20:00, 30 июня 2026
Поделиться

В MIT разработали метод замены механизма внимания в трансформерах на интерпретируемый Python-код

Исследователи из Массачусетского технологического института (MIT) под руководством Джейкоба Андреаса (Jacob Andreas) представили подход, позволяющий заменить отдельные «головы» внимания в трансформерных моделях на эквивалентные фрагменты кода на Python. Работа направлена на повышение прозрачности работы нейросетей и упрощение их отладки.

Группа учёных из MIT, в которую вошли Джейкоб Андреас, Лаура Руис (Laura Ruis), Белинда Ли (Belinda Li) и Равид Шварц-Зив (Ravid Shwartz-Ziv), опубликовала результаты исследования, демонстрирующего возможность замены механизма внимания в трансформерных архитектурах на человекочитаемый код. Метод предполагает выделение отдельных «голов» внимания — ключевых компонентов, отвечающих за обработку зависимостей между токенами, — и их замещение эквивалентными алгоритмами на Python.

По словам авторов, подход позволяет не только интерпретировать решения модели, но и вносить целенаправленные изменения в её поведение. Например, одна из «голов» внимания, отвечающая за обработку местоимений, была заменена на код, который явно сопоставляет местоимения с соответствующими существительными. Это открывает возможности для исправления ошибок в работе моделей без полного переобучения.

Исследование также затрагивает вопрос о границах применимости метода: не все «головы» внимания удаётся однозначно интерпретировать, а некоторые из них выполняют настолько специфические функции, что их замена на код теряет смысл. Тем не менее, как отмечает Андреас, даже частичная интерпретируемость может значительно упростить процесс отладки и аудита моделей, особенно в критически важных областях.

Работа вызвала интерес в сообществе: в частности, исследователь из DeepSeek Теортаксес (Teortaxes) и специалист по обработке естественного языка Сива Редди (Siva Reddy) из Университета Макгилла отметили потенциал подхода для развития объяснимого искусственного интеллекта. Полный текст исследования доступен в репозитории на GitHub.

Источники: X-пост Джейкоба Андреаса, 29 июня 2026; репозиторий исследования на GitHub.