OpenAI выпустила три новые голосовые модели с возможностью рассуждения и перевода в реальном времени

Компания OpenAI представила три новые аудиомодели через свой API, расширяя возможности голосового искусственного интеллекта для работы в реальном времени. В новый набор вошли модели GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper, каждая из которых решает различные задачи в области живого голосового взаимодействия. По заявлению компании, эти модели призваны сделать голосовое программное обеспечение более полезным в повседневных ситуациях, включая ведение разговора во время вождения, навигацию в аэропортах или получение поддержки клиентов без необходимости печатать текст. OpenAI связывает этот запуск с более широким сдвигом в сторону естественных вычислительных интерфейсов, подчеркивая, что голос становится одним из самых естественных способов взаимодействия с программным обеспечением.
Флагманская модель GPT-Realtime-2 описывается как первая голосовая модель компании с возможностями рассуждения уровня GPT-5. Система способна обрабатывать более сложные запросы, управлять прерываниями и поддерживать естественное течение беседы. Ключевой особенностью модели стала поддержка использования инструментов в реальном времени: разработчики могут позволить ИИ получать доступ к календарям, поисковым системам или другим инструментам во время разговора с пользователями, объясняя свои действия фразами вроде «проверяю ваш календарь». Кроме того, контекстное окно модели было расширено с 32K до 128K токенов, что позволяет вести более продолжительные диалоги и выполнять сложные задачи без потери контекста. OpenAI отмечает, что новая модель лучше восстанавливается после сбоев и понимает отраслевую терминологию, включая медицинскую лексику и имена собственные. Согласно бенчмаркам, GPT-Realtime-2 с высокой точностью обработки показала результат на 15,2% выше на тестах Big Bench Audio по сравнению с предыдущей версией GPT-Realtime-1.5, а конфигурация с максимальной точностью улучшила показатели следования инструкциям на 13,8% в тестах Audio MultiChallenge. Эти нововведения выводят OpenAI в прямую конкуренцию с Google Gemini Live, однако подход компании фокусируется на том, чтобы сделать разговоры естественными в ходе длительного взаимодействия, позволяя справляться с прерываниями и использовать инструменты во время звонков.
Вторая модель, GPT-Realtime-Translate, предназначена для перевода в реальном времени и поддерживает преобразование речи с более чем 70 входных языков на 13 выходных языков, успевая за темпом говорящего. Компания позиционирует эту модель для использования в поддержке клиентов, путешествиях и системах кросс-языковой коммуникации. Например, Deutsche Telekom уже разрабатывает инструменты голосовой поддержки, которые позволят клиентам говорить на предпочитаемом языке, пока ИИ переводит разговор в реальном времени. Третья модель, GPT-Realtime-Whisper, сосредоточена на прямой трансляции текста, конвертируя речь в текст по мере того, как человек говорит, что подходит для сценариев потокового распознавания речи.
OpenAI заявляет, что более широкая цель заключается в переходе от простых голосовых помощников к системам, способным активно выполнять задачи во время разговора. Например, Zillow разрабатывает голосового ассистента, который может искать дома, фильтровать предпочтения и назначать туры только на основе произнесенных запросов. Компания подчеркивает, что эти новые модели приближают системы реального времени к полноценным агентам, которые могут «слушать, рассуждать, переводить, транскрибировать и действовать по ходу разговора».