Mistral AI представила Voxtral Transcribe 2 — модели преобразования речи в текст с открытым исходным кодом
4 февраля 2026 года компания Mistral AI объявила о выпуске Voxtral Transcribe 2 — семейства моделей преобразования речи в текст с открытым исходным кодом, предназначенных для различных приложений. В линейку входят две модели: Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для работы в реальном времени. Обе модели поддерживают 13 языков, включая английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и голландский.
Voxtral Mini Transcribe V2 обеспечивает высокую точность транскрипции с возможностью диаризации (разделения речи по говорящим), контекстного смещения и временных меток на уровне слов. Эта модель предназначена для пакетной обработки аудиофайлов и поддерживает записи продолжительностью до 3 часов. Стоимость использования составляет $0,003 за минуту, что делает её экономически выгодным решением для предприятий.
Voxtral Realtime разработана для приложений, требующих минимальной задержки при обработке речи. Благодаря новой потоковой архитектуре, модель способна транскрибировать аудио с задержкой менее 200 миллисекунд, что открывает возможности для создания голосовых агентов и других приложений в реальном времени. Voxtral Realtime доступна под лицензией Apache 2.0, что позволяет развертывать её на периферийных устройствах, обеспечивая конфиденциальность данных.
Обе модели демонстрируют высокую эффективность и точность. Voxtral Mini Transcribe V2 достигает уровня ошибок на словах около 4% на тестовом наборе FLEURS, превосходя такие решения, как GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova. Кроме того, она обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs' Scribe v2, при этом стоимость использования составляет лишь пятую часть от стоимости конкурентов.
Для удобства пользователей Mistral AI запустила аудиопесочницу в Mistral Studio, где можно протестировать возможности Voxtral Transcribe 2, загрузив до 10 аудиофайлов и настроив параметры, такие как диаризация и временные метки. Модели поддерживают форматы .mp3, .wav, .m4a, .flac и .ogg размером до 1 ГБ каждый.
Выпуск Voxtral Transcribe 2 знаменует собой значительный шаг вперёд в области технологий преобразования речи в текст, предлагая предприятиям доступные и высокоэффективные решения для обработки аудиоданных.
Читайте также
- Firmus привлекает $10 млрд от Blackstone и Coatue для расширения центров обработки данных в Австралии
- Жаннетт цу Фюрстенберг о планах General Catalyst по инвестициям в европейские технологические и оборонные стартапы
- Семья Трампа заработала более 1,2 млрд долларов на World Liberty Financial
- Европейские страны вводят запреты на социальные сети для детей
- Технологические гиганты увеличивают инвестиции в ИИ, вызывая падение акций
- Индия удваивает срок признания глубокотехнологических стартапов до 20 лет и утроивает порог дохода для льгот
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.