Google представила WAXAL — открытый речевой датасет для 21 африканского языка
Компания Google совместно с рядом ведущих африканских исследовательских учреждений объявила о запуске WAXAL — масштабного открытого речевого датасета, охватывающего 21 африканский язык. Название «WAXAL» происходит от слова на языке волоф, означающего «говорить». Этот проект направлен на преодоление цифрового разрыва для более чем 100 миллионов носителей этих языков, предоставляя фундаментальные данные для разработки технологий обработки речи.
Датасет WAXAL включает два основных компонента:
- Данные для автоматического распознавания речи (ASR) — около 1 250 часов транскрибированной естественной речи от разнообразных носителей.
- Данные для синтеза речи (TTS) — более 180 часов высококачественных записей одного диктора, читающего фонетически сбалансированные тексты.
Сбор данных осуществлялся в сотрудничестве с четырьмя африканскими академическими и общественными организациями, что обеспечило аутентичность и разнообразие собранного материала. Датасет доступен по лицензии CC-BY-4.0, что позволяет свободно использовать его для исследований и разработки инклюзивных технологий.
Представители Google подчеркнули, что WAXAL станет важным ресурсом для цифрового сохранения африканских языков и стимулирования исследований в области обработки естественного языка. Они также выразили надежду, что этот проект вдохновит разработчиков на создание приложений и сервисов, учитывающих языковое разнообразие Африки.
Читайте также
- Пшеница закрылась разнонаправленно и заставила рынок нервничать
- Anthropic объединяет Nvidia, Microsoft и Apple после находки тысяч скрытых уязвимостей
- Продажи iPhone 17 резко ускорились и обошли старт iPhone 16
- Samsung удивила рынок мощным ростом прибыли на фоне бума ИИ-чипов
- Акции Microsoft обрушились из-за двух тревожных сигналов для инвесторов
- Apple снова идёт в Верховный суд из-за битвы с Epic Games
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы. Текст статьи распространяется на условиях лицензии Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Использование, распространение и переработка материала допускаются при обязательном указании авторства и сохранении той же лицензии.
Автор статьи — Мадина Ахметова.