Mistral AI представила Voxtral Transcribe 2 — модели преобразования речи в текст с открытым исходным кодом
4 февраля 2026 года компания Mistral AI объявила о выпуске Voxtral Transcribe 2 — семейства моделей преобразования речи в текст с открытым исходным кодом, предназначенных для различных приложений. В линейку входят две модели: Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для работы в реальном времени. Обе модели поддерживают 13 языков, включая английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и голландский.
Voxtral Mini Transcribe V2 обеспечивает высокую точность транскрипции с возможностью диаризации (разделения речи по говорящим), контекстного смещения и временных меток на уровне слов. Эта модель предназначена для пакетной обработки аудиофайлов и поддерживает записи продолжительностью до 3 часов. Стоимость использования составляет $0,003 за минуту, что делает её экономически выгодным решением для предприятий.
Voxtral Realtime разработана для приложений, требующих минимальной задержки при обработке речи. Благодаря новой потоковой архитектуре, модель способна транскрибировать аудио с задержкой менее 200 миллисекунд, что открывает возможности для создания голосовых агентов и других приложений в реальном времени. Voxtral Realtime доступна под лицензией Apache 2.0, что позволяет развертывать её на периферийных устройствах, обеспечивая конфиденциальность данных.
Обе модели демонстрируют высокую эффективность и точность. Voxtral Mini Transcribe V2 достигает уровня ошибок на словах около 4% на тестовом наборе FLEURS, превосходя такие решения, как GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova. Кроме того, она обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs' Scribe v2, при этом стоимость использования составляет лишь пятую часть от стоимости конкурентов.
Для удобства пользователей Mistral AI запустила аудиопесочницу в Mistral Studio, где можно протестировать возможности Voxtral Transcribe 2, загрузив до 10 аудиофайлов и настроив параметры, такие как диаризация и временные метки. Модели поддерживают форматы .mp3, .wav, .m4a, .flac и .ogg размером до 1 ГБ каждый.
Выпуск Voxtral Transcribe 2 знаменует собой значительный шаг вперёд в области технологий преобразования речи в текст, предлагая предприятиям доступные и высокоэффективные решения для обработки аудиоданных.
Читайте также
- Tesla снизила цену на Cybertruck Cyberbeast в США
- OpenAI привлекла $40 млрд инвестиций, оценка компании достигла $300 млрд
- Бывший менеджер Microsoft намерена составить конкуренцию CyberArk за 18 месяцев
- Infineon Technologies видит перспективы роста в сегменте чипов для гуманоидных роботов
- Microsoft инвестирует в развитие искусственного интеллекта в странах Глобального Юга
- Индия планирует привлечь 200 миллиардов долларов инвестиций в центры обработки данных для развития ИИ
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.