IT

Mistral AI представила Voxtral Transcribe 2 — модели преобразования речи в текст с открытым исходным кодом

Компания Mistral представила новую линейку моделей преобразования речи в текст с открытым исходным кодом. Эти модели обеспечивают высокую точность транскрипции и низкую задержку.
RU EN

4 февраля 2026 года компания Mistral AI объявила о выпуске Voxtral Transcribe 2 — семейства моделей преобразования речи в текст с открытым исходным кодом, предназначенных для различных приложений. В линейку входят две модели: Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для работы в реальном времени. Обе модели поддерживают 13 языков, включая английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и голландский.

Voxtral Mini Transcribe V2 обеспечивает высокую точность транскрипции с возможностью диаризации (разделения речи по говорящим), контекстного смещения и временных меток на уровне слов. Эта модель предназначена для пакетной обработки аудиофайлов и поддерживает записи продолжительностью до 3 часов. Стоимость использования составляет $0,003 за минуту, что делает её экономически выгодным решением для предприятий.

Voxtral Realtime разработана для приложений, требующих минимальной задержки при обработке речи. Благодаря новой потоковой архитектуре, модель способна транскрибировать аудио с задержкой менее 200 миллисекунд, что открывает возможности для создания голосовых агентов и других приложений в реальном времени. Voxtral Realtime доступна под лицензией Apache 2.0, что позволяет развертывать её на периферийных устройствах, обеспечивая конфиденциальность данных.

Обе модели демонстрируют высокую эффективность и точность. Voxtral Mini Transcribe V2 достигает уровня ошибок на словах около 4% на тестовом наборе FLEURS, превосходя такие решения, как GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova. Кроме того, она обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs' Scribe v2, при этом стоимость использования составляет лишь пятую часть от стоимости конкурентов.

Для удобства пользователей Mistral AI запустила аудиопесочницу в Mistral Studio, где можно протестировать возможности Voxtral Transcribe 2, загрузив до 10 аудиофайлов и настроив параметры, такие как диаризация и временные метки. Модели поддерживают форматы .mp3, .wav, .m4a, .flac и .ogg размером до 1 ГБ каждый.

Выпуск Voxtral Transcribe 2 знаменует собой значительный шаг вперёд в области технологий преобразования речи в текст, предлагая предприятиям доступные и высокоэффективные решения для обработки аудиоданных.

Читайте также

Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.

Автор статьи — .

Mistral AI представила Voxtral Transcribe 2 — модели преобразования речи в текст с открытым исходным кодом
Актуальные новости IT и технологий: новые гаджеты, программное обеспечение, стартапы, кибербезопасность и цифровые тренды.

Посмотреть все новости