IT

DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей

Исследователи DeepSeek представили новую архитектуру mHC, которая позволила обучить модели размером 3B, 9B и 27B без значительного увеличения вычислительных затрат.
RU EN

Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов.

Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования.

В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную производительность, особенно на платформах с ограниченной пропускной способностью памяти. Это делает архитектуру mHC перспективным решением для будущих разработок в области искусственного интеллекта, позволяя создавать более крупные и сложные модели без значительного увеличения вычислительных затрат.

Читайте также

Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.

Автор статьи — .

DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей
Актуальные новости IT и технологий: новые гаджеты, программное обеспечение, стартапы, кибербезопасность и цифровые тренды.

Посмотреть все новости