DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей
Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов.
Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования.
В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную производительность, особенно на платформах с ограниченной пропускной способностью памяти. Это делает архитектуру mHC перспективным решением для будущих разработок в области искусственного интеллекта, позволяя создавать более крупные и сложные модели без значительного увеличения вычислительных затрат.
Читайте также
- Google и Radiate создают совместное предприятие для управления волоконно-оптическими активами
- Anthropic представляет Claude Code: революция в программировании и вызов для традиционных софтверных компаний
- TikTok запустил приложение PineDrama в США и Бразилии
- OpenAI внедрит рекламу в ChatGPT, сохраняя конфиденциальность данных пользователей
- Стамбульская студия TaleMonster Games привлекла $30 млн в серии A для развития Match Valley
- Расширение суперкомпьютера Colossus 2 Илона Маска вызвало обеспокоенность экологов
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.