Программный интерфейс позволяет интегрировать функции распознавания речи в любые сторонние продукты. Помимо стандартной транскрипции, сервис поддерживает работу с многоканальным звуком, автоматическое разделение реплик нескольких участников разговора и простановку пословных временных меток. За обработку потоковых данных в реальном времени xAI просит двадцать центов за час, что значительно ниже средних рыночных расценок.
API Grok Speech to Text стал доступен сторонним разработчикам
Десять центов за час расшифровки аудио — по такой цене компания xAI Илона Маска открыла публичный доступ к сервису Grok Speech to Text. Технология, обкатанная на электрокарах Tesla и терминалах Starlink, теперь поддерживает 25 языков, включая русский, и претендует на лидерство по соотношению цены и качества.
Инструментарий базируется на том же технологическом стеке, который обеспечивает работу Grok Voice. Ранее команда Маска представила решение для синтеза речи, а запуск STT-интерфейса завершает формирование полноценной платформы для работы со звуком. Новинка ориентирована на разработчиков, которым требуется высокая точность распознавания при минимальных затратах на инфраструктуру.




Комментарии (0)
Пока нет комментариев. Будьте первым!