Новости 17:09, 12 мая 2026
Поделиться

Thinking Machines представила Interaction Model — мультимодальную систему, общающуюся в реальном времени

Thinking Machines представила Interaction Model — мультимодальную систему, общающуюся в реальном времени

Стартап Thinking Machines Lab, основанный бывшим техническим директором OpenAI Мирой Мурати, 11 мая опубликовал исследовательский превью своей первой модели нового класса — Interaction Model. Это первая крупная технологическая презентация компании с момента ухода Мурати из OpenAI в сентябре 2024 года.

По заявлению Thinking Machines, существующие чат-боты работают в пошаговом режиме: модель ждёт окончания пользовательского ввода, формирует ответ, затем снова уходит в ожидание. Interaction Model построена на принципиально иной архитектуре — мультипотоковой обработке с микрошагами по 200 мс, при которой система одновременно принимает аудио, видео и текст, «думает» и отвечает в режиме full-duplex. Модель сама определяет, говорит ли пользователь, размышляет или ждёт реплики, и может вклиниваться в диалог в ответ на визуальные сигналы — например, заметив ошибку в коде на экране собеседника.

В техническом блоге компания раскрыла детали реализации. Вместо тяжёлых внешних энкодеров вроде Whisper Interaction Model использует encoder-free early fusion: сырой аудиосигнал подаётся как dMel-представление, изображения — патчами 40×40 через лёгкий embedding-слой, все компоненты обучаются с нуля внутри единого трансформера. Опубликованная версия, TML-Interaction-Small, представляет собой Mixture-of-Experts на 276 млрд параметров с 12 млрд активных.

На бенчмарке FD-bench V1.5 модель набрала 77,8 балла против 46,8 у GPT-realtime-2.0 minimal. В тестах на проактивное взаимодействие с видео (RepCount-A, ProactiveVideoQA) Interaction Model реагировала на визуальные события в кадре, тогда как конкурирующие фронтирные модели молчали или давали неверные ответы.

Thinking Machines была основана Мурати в начале 2025 года и в июле того же года закрыла раунд seed-финансирования на $2 млрд при оценке в $12 млрд — крупнейший посевной раунд в истории отрасли. Среди инвесторов — Andreessen Horowitz, Nvidia, Accel, ServiceNow, Cisco, AMD и Jane Street. В октябре 2025 года компания выпустила первый коммерческий продукт Tinker — инструмент для тонкой настройки открытых моделей Llama и Qwen. В марте — апреле 2026 года Thinking Machines объявила о партнёрстве с Nvidia на развёртывание не менее одного гигаватта вычислительных мощностей на платформе Vera Rubin и расширила сотрудничество с Google Cloud.

Ранее, в августе 2025 года, The Wall Street Journal сообщал, что Марк Цукерберг предлагал Мурати продать Thinking Machines Meta; после отказа Meta попыталась переманить более десяти из примерно пятидесяти сотрудников стартапа.