Anthropic раскрывает «Ось Ассистента» в языковых моделях
Компания Anthropic, специализирующаяся на разработке искусственного интеллекта, опубликовала исследование, посвящённое «Оси Ассистента» — ключевому паттерну нейронной активности в больших языковых моделях, который определяет их стандартную идентичность и поведение. Исследование было представлено 15 января 2026 года.
В ходе работы исследователи обнаружили, что «Ось Ассистента» является ведущим компонентом в пространстве персон языковых моделей. Она отражает степень, в которой модель функционирует в своём стандартном режиме помощника. Направление модели вдоль этой оси усиливает её полезное и безвредное поведение, тогда как отклонение от неё может привести к тому, что модель начнёт идентифицировать себя с другими сущностями или демонстрировать необычный, театральный стиль общения.
Исследование также выявило явление «дрейфа персоны», при котором модели могут отклоняться от своей роли помощника в ответ на определённые типы взаимодействий, что потенциально может привести к вредным последствиям. Для стабилизации поведения моделей в таких сценариях исследователи предложили метод ограничения активаций вдоль «Оси Ассистента», что позволяет сохранять их идентичность и предотвращать нежелательные отклонения.
Эти результаты подчеркивают важность глубокого понимания и контроля «характера» AI-моделей, особенно в условиях их применения в чувствительных областях. Компания Anthropic продолжает исследования в этой сфере, стремясь обеспечить безопасное и предсказуемое поведение искусственного интеллекта.
Читайте также
- Anthropic отказывается предоставить Пентагону полный доступ к ИИ-системам, контракт на $200 млн расторгнут
- Трамп и Бонди оспаривают одобрение продажи активов TikTok в США
- Опасения по поводу ИИ сдерживают интерес частных инвесторов к сделкам с компаниями данных
- Сенат США продвигает законопроект, запрещающий выпуск цифрового доллара до 2030 года
- ЦПУ возвращаются в центр внимания центров обработки данных
- Varda Space Industries расширяет производство в Эль-Сегундо, арендуя бывший завод Mattel
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Мадина Ахметова является автором этой статьи.