Google представила WAXAL — открытый речевой датасет для 21 африканского языка
Компания Google совместно с рядом ведущих африканских исследовательских учреждений объявила о запуске WAXAL — масштабного открытого речевого датасета, охватывающего 21 африканский язык. Название «WAXAL» происходит от слова на языке волоф, означающего «говорить». Этот проект направлен на преодоление цифрового разрыва для более чем 100 миллионов носителей этих языков, предоставляя фундаментальные данные для разработки технологий обработки речи.
Датасет WAXAL включает два основных компонента:
- Данные для автоматического распознавания речи (ASR) — около 1 250 часов транскрибированной естественной речи от разнообразных носителей.
- Данные для синтеза речи (TTS) — более 180 часов высококачественных записей одного диктора, читающего фонетически сбалансированные тексты.
Сбор данных осуществлялся в сотрудничестве с четырьмя африканскими академическими и общественными организациями, что обеспечило аутентичность и разнообразие собранного материала. Датасет доступен по лицензии CC-BY-4.0, что позволяет свободно использовать его для исследований и разработки инклюзивных технологий.
Представители Google подчеркнули, что WAXAL станет важным ресурсом для цифрового сохранения африканских языков и стимулирования исследований в области обработки естественного языка. Они также выразили надежду, что этот проект вдохновит разработчиков на создание приложений и сервисов, учитывающих языковое разнообразие Африки.
Читайте также
- Tesla снизила цену на Cybertruck Cyberbeast в США
- OpenAI привлекла $40 млрд инвестиций, оценка компании достигла $300 млрд
- Бывший менеджер Microsoft намерена составить конкуренцию CyberArk за 18 месяцев
- Infineon Technologies видит перспективы роста в сегменте чипов для гуманоидных роботов
- Microsoft инвестирует в развитие искусственного интеллекта в странах Глобального Юга
- Индия планирует привлечь 200 миллиардов долларов инвестиций в центры обработки данных для развития ИИ
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.