Anthropic раскрывает «Ось Ассистента» в языковых моделях
Компания Anthropic, специализирующаяся на разработке искусственного интеллекта, опубликовала исследование, посвящённое «Оси Ассистента» — ключевому паттерну нейронной активности в больших языковых моделях, который определяет их стандартную идентичность и поведение. Исследование было представлено 15 января 2026 года.
В ходе работы исследователи обнаружили, что «Ось Ассистента» является ведущим компонентом в пространстве персон языковых моделей. Она отражает степень, в которой модель функционирует в своём стандартном режиме помощника. Направление модели вдоль этой оси усиливает её полезное и безвредное поведение, тогда как отклонение от неё может привести к тому, что модель начнёт идентифицировать себя с другими сущностями или демонстрировать необычный, театральный стиль общения.
Исследование также выявило явление «дрейфа персоны», при котором модели могут отклоняться от своей роли помощника в ответ на определённые типы взаимодействий, что потенциально может привести к вредным последствиям. Для стабилизации поведения моделей в таких сценариях исследователи предложили метод ограничения активаций вдоль «Оси Ассистента», что позволяет сохранять их идентичность и предотвращать нежелательные отклонения.
Эти результаты подчеркивают важность глубокого понимания и контроля «характера» AI-моделей, особенно в условиях их применения в чувствительных областях. Компания Anthropic продолжает исследования в этой сфере, стремясь обеспечить безопасное и предсказуемое поведение искусственного интеллекта.
Читайте также
- UBTech Robotics заключила соглашения с Airbus и Texas Instruments на поставку гуманоидных роботов Walker S2
- Meta сокращает 10% сотрудников Reality Labs, переориентируя ресурсы на искусственный интеллект и носимые устройства
- OpenAI увеличила вычислительные мощности до 1,9 ГВт и доходы до $20 млрд к 2025 году
- Sequoia Capital инвестирует в Anthropic совместно с GIC и Coatue
- Reliance Retail достигла 1,6 млн ежедневных заказов в быстрой коммерции в IV квартале 2025 года
- Документальный фильм о Google DeepMind и Демисе Хассабисе набрал более 285 миллионов просмотров на YouTube
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.