DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей
Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов.
Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования.
В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную производительность, особенно на платформах с ограниченной пропускной способностью памяти. Это делает архитектуру mHC перспективным решением для будущих разработок в области искусственного интеллекта, позволяя создавать более крупные и сложные модели без значительного увеличения вычислительных затрат.
Читайте также
- Tesla снизила цену на Cybertruck Cyberbeast в США
- OpenAI привлекла $40 млрд инвестиций, оценка компании достигла $300 млрд
- Бывший менеджер Microsoft намерена составить конкуренцию CyberArk за 18 месяцев
- Infineon Technologies видит перспективы роста в сегменте чипов для гуманоидных роботов
- Microsoft инвестирует в развитие искусственного интеллекта в странах Глобального Юга
- Индия планирует привлечь 200 миллиардов долларов инвестиций в центры обработки данных для развития ИИ
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.