IT — 1 января 2026, 23:34

DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей

Исследователи DeepSeek представили новую архитектуру mHC, которая позволила обучить модели размером 3B, 9B и 27B без значительного увеличения вычислительных затрат.

RU EN

Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов.

Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования.

В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную производительность, особенно на платформах с ограниченной пропускной способностью памяти. Это делает архитектуру mHC перспективным решением для будущих разработок в области искусственного интеллекта, позволяя создавать более крупные и сложные модели без значительного увеличения вычислительных затрат.

Последние новости

Вице-президент Google предупреждает о рисках для стартапов в сфере ИИ

Сегодня, 00:52

Вице-президент Google предупредил, что два типа стартапов в сфере искусственного интеллекта могут не выжить в текущих условиях рынка. Он подчеркнул важность адаптации бизнес-моделей к быстро меняющейся технологической среде.
OpenAI прогнозирует доход в сотни миллиардов долларов к 2030 году

Вчера, 11:17

Компания OpenAI прогнозирует значительный рост доходов к 2030 году. Для достижения этой цели она планирует масштабные инвестиции в развитие инфраструктуры и технологий искусственного интеллекта.
Новые правила кибербезопасности в США создают барьеры для малых поставщиков оборонной отрасли

20 февраля 2026

Новые правила кибербезопасности в оборонной отрасли США создают препятствия для некоторых малых поставщиков. Высокие затраты на соответствие требованиям заставляют их пересматривать участие в военных контрактах.

DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей — Актуальные новости IT и технологий: новые гаджеты, программное обеспечение, стартапы, кибербезопасность и цифровые тренды.

Читайте также