Инструктор-разработчик Джейсон Лю (Jason Liu) и исследователь из OpenAI Борис Пауэр (Boris Power) заявили, что неструктурированная голосовая диктовка эффективнее ручной доработки текстовых запросов для моделей искусственного интеллекта.
В обсуждении, развернувшемся в социальной сети X, инженеры пришли к выводу, что голосовой ввод позволяет быстрее формулировать сложные задачи для ИИ, избегая потерь смысла при редактировании промптов. По словам Лю, основателя платформы Instructor для работы с языковыми моделями, голосовая диктовка сокращает время на итеративную правку текста и снижает риск искажения исходной идеи.
Пауэр, ведущий специалист по прикладным исследованиям в OpenAI, поддержал тезис, отметив, что голосовой интерфейс лучше передаёт нюансы интонации и акценты, которые теряются при ручном наборе. «Часто пользователи тратят больше времени на переформулирование запроса, чем на решение самой задачи», — написал он в своём посте. При этом оба собеседника подчеркнули, что речь идёт не о замене текстовых промптов, а о дополнении инструментария для специфических сценариев — например, при работе с многоступенчатыми запросами или творческими задачами.
В дискуссии также принял участие Омар Эль-Сараги (Omar El-Sarrag), инженер-исследователь из Google DeepMind, который привёл пример из практики: голосовая диктовка позволила сократить время подготовки сложных запросов для модели на 30%. Однако участники обсуждения признали, что голосовые интерфейсы пока не лишены ограничений — в частности, проблем с распознаванием технической терминологии или фоновых шумов.
Обсуждение развернулось после публикации Лю в блоге, где он описал эксперимент с голосовым вводом для генерации кода и аналитических отчётов. По его данным, пользователи чаще достигали желаемого результата с первой попытки, если формулировали запрос устно, а не редактировали текстовый промпт.