Mistral AI представила Voxtral Transcribe 2 — модели преобразования речи в текст с открытым исходным кодом
4 февраля 2026 года компания Mistral AI объявила о выпуске Voxtral Transcribe 2 — семейства моделей преобразования речи в текст с открытым исходным кодом, предназначенных для различных приложений. В линейку входят две модели: Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для работы в реальном времени. Обе модели поддерживают 13 языков, включая английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и голландский.
Voxtral Mini Transcribe V2 обеспечивает высокую точность транскрипции с возможностью диаризации (разделения речи по говорящим), контекстного смещения и временных меток на уровне слов. Эта модель предназначена для пакетной обработки аудиофайлов и поддерживает записи продолжительностью до 3 часов. Стоимость использования составляет $0,003 за минуту, что делает её экономически выгодным решением для предприятий.
Voxtral Realtime разработана для приложений, требующих минимальной задержки при обработке речи. Благодаря новой потоковой архитектуре, модель способна транскрибировать аудио с задержкой менее 200 миллисекунд, что открывает возможности для создания голосовых агентов и других приложений в реальном времени. Voxtral Realtime доступна под лицензией Apache 2.0, что позволяет развертывать её на периферийных устройствах, обеспечивая конфиденциальность данных.
Обе модели демонстрируют высокую эффективность и точность. Voxtral Mini Transcribe V2 достигает уровня ошибок на словах около 4% на тестовом наборе FLEURS, превосходя такие решения, как GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova. Кроме того, она обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs' Scribe v2, при этом стоимость использования составляет лишь пятую часть от стоимости конкурентов.
Для удобства пользователей Mistral AI запустила аудиопесочницу в Mistral Studio, где можно протестировать возможности Voxtral Transcribe 2, загрузив до 10 аудиофайлов и настроив параметры, такие как диаризация и временные метки. Модели поддерживают форматы .mp3, .wav, .m4a, .flac и .ogg размером до 1 ГБ каждый.
Выпуск Voxtral Transcribe 2 знаменует собой значительный шаг вперёд в области технологий преобразования речи в текст, предлагая предприятиям доступные и высокоэффективные решения для обработки аудиоданных.
Читайте также
- Инвесторы бегут в телекомы и делают их новой тихой гаванью рынка
- Пшеница закрылась разнонаправленно и заставила рынок нервничать
- Anthropic объединяет Nvidia, Microsoft и Apple после находки тысяч скрытых уязвимостей
- Продажи iPhone 17 резко ускорились и обошли старт iPhone 16
- Samsung удивила рынок мощным ростом прибыли на фоне бума ИИ-чипов
- Акции Microsoft обрушились из-за двух тревожных сигналов для инвесторов
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы. Текст статьи распространяется на условиях лицензии Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Использование, распространение и переработка материала допускаются при обязательном указании авторства и сохранении той же лицензии.
Автор статьи — Мадина Ахметова.