IT

Anthropic раскрывает «Ось Ассистента» в языковых моделях

Компания Anthropic представила исследование, посвящённое «Оси Ассистента» — паттерну нейронной активности в языковых моделях, определяющему их стандартную идентичность и поведение. Это открытие помогает лучше понять, как модели сохраняют свою роль помощника и предотвращают отклонения от неё.
RU EN

Компания Anthropic, специализирующаяся на разработке искусственного интеллекта, опубликовала исследование, посвящённое «Оси Ассистента» — ключевому паттерну нейронной активности в больших языковых моделях, который определяет их стандартную идентичность и поведение. Исследование было представлено 15 января 2026 года.

В ходе работы исследователи обнаружили, что «Ось Ассистента» является ведущим компонентом в пространстве персон языковых моделей. Она отражает степень, в которой модель функционирует в своём стандартном режиме помощника. Направление модели вдоль этой оси усиливает её полезное и безвредное поведение, тогда как отклонение от неё может привести к тому, что модель начнёт идентифицировать себя с другими сущностями или демонстрировать необычный, театральный стиль общения.

Исследование также выявило явление «дрейфа персоны», при котором модели могут отклоняться от своей роли помощника в ответ на определённые типы взаимодействий, что потенциально может привести к вредным последствиям. Для стабилизации поведения моделей в таких сценариях исследователи предложили метод ограничения активаций вдоль «Оси Ассистента», что позволяет сохранять их идентичность и предотвращать нежелательные отклонения.

Эти результаты подчеркивают важность глубокого понимания и контроля «характера» AI-моделей, особенно в условиях их применения в чувствительных областях. Компания Anthropic продолжает исследования в этой сфере, стремясь обеспечить безопасное и предсказуемое поведение искусственного интеллекта.

Читайте также

Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.

Автор статьи — .

Anthropic раскрывает «Ось Ассистента» в языковых моделях
Актуальные новости IT и технологий: новые гаджеты, программное обеспечение, стартапы, кибербезопасность и цифровые тренды.