IT — 4 февраля 2026, 21:17

Mistral AI представила Voxtral Transcribe 2 — модели преобразования речи в текст с открытым исходным кодом

Компания Mistral представила новую линейку моделей преобразования речи в текст с открытым исходным кодом. Эти модели обеспечивают высокую точность транскрипции и низкую задержку.

RU EN

4 февраля 2026 года компания Mistral AI объявила о выпуске Voxtral Transcribe 2 — семейства моделей преобразования речи в текст с открытым исходным кодом, предназначенных для различных приложений. В линейку входят две модели: Voxtral Mini Transcribe V2 для пакетной обработки и Voxtral Realtime для работы в реальном времени. Обе модели поддерживают 13 языков, включая английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и голландский.

Voxtral Mini Transcribe V2 обеспечивает высокую точность транскрипции с возможностью диаризации (разделения речи по говорящим), контекстного смещения и временных меток на уровне слов. Эта модель предназначена для пакетной обработки аудиофайлов и поддерживает записи продолжительностью до 3 часов. Стоимость использования составляет $0,003 за минуту, что делает её экономически выгодным решением для предприятий.

Voxtral Realtime разработана для приложений, требующих минимальной задержки при обработке речи. Благодаря новой потоковой архитектуре, модель способна транскрибировать аудио с задержкой менее 200 миллисекунд, что открывает возможности для создания голосовых агентов и других приложений в реальном времени. Voxtral Realtime доступна под лицензией Apache 2.0, что позволяет развертывать её на периферийных устройствах, обеспечивая конфиденциальность данных.

Обе модели демонстрируют высокую эффективность и точность. Voxtral Mini Transcribe V2 достигает уровня ошибок на словах около 4% на тестовом наборе FLEURS, превосходя такие решения, как GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova. Кроме того, она обрабатывает аудио примерно в 3 раза быстрее, чем ElevenLabs' Scribe v2, при этом стоимость использования составляет лишь пятую часть от стоимости конкурентов.

Для удобства пользователей Mistral AI запустила аудиопесочницу в Mistral Studio, где можно протестировать возможности Voxtral Transcribe 2, загрузив до 10 аудиофайлов и настроив параметры, такие как диаризация и временные метки. Модели поддерживают форматы .mp3, .wav, .m4a, .flac и .ogg размером до 1 ГБ каждый.

Выпуск Voxtral Transcribe 2 знаменует собой значительный шаг вперёд в области технологий преобразования речи в текст, предлагая предприятиям доступные и высокоэффективные решения для обработки аудиоданных.

Последние новости

Meta выпустила Muse Spark и резко обострила борьбу в гонке ИИ

Сегодня, 00:58

Meta представила новую модель искусственного интеллекта Muse Spark и тем самым подала самый громкий сигнал о перезапуске своей AI-стратегии. Разработка уже начала работать в сервисах компании, но главный вопрос теперь в том, сможет ли она вернуть Meta в лидеры гонки.
Дефицит памяти разгоняет рынок чипов и бьёт по покупателям электроники

Вчера, 20:26

Полупроводниковая отрасль готовится к новому историческому рубежу, но за впечатляющими прогнозами скрывается нарастающий дефицит памяти, который уже бьёт по рынку потребительской электроники. Аналитики предупреждают: спрос со стороны ИИ-центров обработки данных меняет правила игры, и последствия могут почувствовать миллионы покупателей.
Инвесторы бегут из хайпового ИИ в дивидендные телекомы

Вчера, 19:32

Пока рынок лихорадит из-за глобальной нестабильности и страхов вокруг искусственного интеллекта, неожиданные фавориты начинают уверенно обходить технологических гигантов. Инвесторы всё чаще уходят в бумаги, которые обещают не только защиту, но и стабильный доход.

**Актуальные новости IT и технологий:** новые гаджеты, программное обеспечение, стартапы, кибербезопасность и цифровые тренды.

Посмотреть все новости

Читайте также