IT — 20 января 2026, 09:17

Anthropic раскрывает «Ось Ассистента» в языковых моделях

Компания Anthropic представила исследование, посвящённое «Оси Ассистента» — паттерну нейронной активности в языковых моделях, определяющему их стандартную идентичность и поведение. Это открытие помогает лучше понять, как модели сохраняют свою роль помощника и предотвращают отклонения от неё.

RU EN

Компания Anthropic, специализирующаяся на разработке искусственного интеллекта, опубликовала исследование, посвящённое «Оси Ассистента» — ключевому паттерну нейронной активности в больших языковых моделях, который определяет их стандартную идентичность и поведение. Исследование было представлено 15 января 2026 года.

В ходе работы исследователи обнаружили, что «Ось Ассистента» является ведущим компонентом в пространстве персон языковых моделей. Она отражает степень, в которой модель функционирует в своём стандартном режиме помощника. Направление модели вдоль этой оси усиливает её полезное и безвредное поведение, тогда как отклонение от неё может привести к тому, что модель начнёт идентифицировать себя с другими сущностями или демонстрировать необычный, театральный стиль общения.

Исследование также выявило явление «дрейфа персоны», при котором модели могут отклоняться от своей роли помощника в ответ на определённые типы взаимодействий, что потенциально может привести к вредным последствиям. Для стабилизации поведения моделей в таких сценариях исследователи предложили метод ограничения активаций вдоль «Оси Ассистента», что позволяет сохранять их идентичность и предотвращать нежелательные отклонения.

Эти результаты подчеркивают важность глубокого понимания и контроля «характера» AI-моделей, особенно в условиях их применения в чувствительных областях. Компания Anthropic продолжает исследования в этой сфере, стремясь обеспечить безопасное и предсказуемое поведение искусственного интеллекта.

Последние новости

Morgan Stanley предупредил о новом переделе рынка ИИ-чипов

Вчера, 15:15

Morgan Stanley предупредил, что новый виток развития «агентного» ИИ может резко изменить расклад на рынке полупроводников и вывести в центр внимания уже не только графические ускорители. Аналитики ждут перестройки дата-центров и называют компании, которые способны выиграть от этого сдвига.
Акции Rocket Lab взлетели, и рынок снова спорит, стоит ли держать их вечно

Вчера, 12:15

Акции Rocket Lab за год взлетели почти на 250%, и рынок снова спорит, может ли компания стать редким космическим активом для долгосрочной ставки. Инвесторов подогревают рекордная выручка, растущий портфель заказов и ожидания вокруг нового двигателя роста, который ещё только готовится выйти на рынок.
Аналитик призвал не гнаться за IPO SpaceX и назвал более разумную ставку

19 апреля 2026

Ажиотаж вокруг возможного IPO SpaceX набирает обороты, но один из аналитиков призывает инвесторов не спешить и смотреть шире. В центре спора — завышенные ожидания, риски громкого размещения и неожиданная альтернатива, которая может оказаться выгоднее.

**Актуальные новости IT и технологий:** новые гаджеты, программное обеспечение, стартапы, кибербезопасность и цифровые тренды.

Посмотреть все новости

Читайте также