Google представила WAXAL — открытый речевой датасет для 21 африканского языка
Компания Google совместно с рядом ведущих африканских исследовательских учреждений объявила о запуске WAXAL — масштабного открытого речевого датасета, охватывающего 21 африканский язык. Название «WAXAL» происходит от слова на языке волоф, означающего «говорить». Этот проект направлен на преодоление цифрового разрыва для более чем 100 миллионов носителей этих языков, предоставляя фундаментальные данные для разработки технологий обработки речи.
Датасет WAXAL включает два основных компонента:
- Данные для автоматического распознавания речи (ASR) — около 1 250 часов транскрибированной естественной речи от разнообразных носителей.
- Данные для синтеза речи (TTS) — более 180 часов высококачественных записей одного диктора, читающего фонетически сбалансированные тексты.
Сбор данных осуществлялся в сотрудничестве с четырьмя африканскими академическими и общественными организациями, что обеспечило аутентичность и разнообразие собранного материала. Датасет доступен по лицензии CC-BY-4.0, что позволяет свободно использовать его для исследований и разработки инклюзивных технологий.
Представители Google подчеркнули, что WAXAL станет важным ресурсом для цифрового сохранения африканских языков и стимулирования исследований в области обработки естественного языка. Они также выразили надежду, что этот проект вдохновит разработчиков на создание приложений и сервисов, учитывающих языковое разнообразие Африки.
Читайте также
- Cerebras Systems и Amazon заключили соглашение о предоставлении ИИ-чипов для облачных сервисов
- Nvidia представит новые ИИ-решения на конференции GTC 2026
- Lloyds Bank устранил сбой, позволявший клиентам видеть чужие транзакции
- Anthropic оспаривает в суде статус «риска для цепочки поставок», присвоенный Пентагоном
- Oracle демонстрирует рост прибыли и выручки, акции поднимаются на 7%
- Anthropic подала в суд на Министерство обороны США из-за признания угрозой для цепочки поставок
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.