DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей
Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов.
Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования.
В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную производительность, особенно на платформах с ограниченной пропускной способностью памяти. Это делает архитектуру mHC перспективным решением для будущих разработок в области искусственного интеллекта, позволяя создавать более крупные и сложные модели без значительного увеличения вычислительных затрат.
Читайте также
- Акции Teradata взлетели после сильного отчета и уверенного прогноза
- Snap сокращает около тысячи сотрудников и запускает новую жёсткую перестройку
- SpaceX готовит IPO, а инвесторы уже ищут способ заработать на космосе
- Nvidia сделала две громкие ставки на рынке ИИ и удивила Уолл-стрит
- Aptoide подал в суд на Google и обострил борьбу за рынок Android-приложений
- Биткоин резко вырос, но Уолл-стрит не верит в конец криптозимы
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы. Текст статьи распространяется на условиях лицензии Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Использование, распространение и переработка материала допускаются при обязательном указании авторства и сохранении той же лицензии.
Автор статьи — Мадина Ахметова.