Anthropic раскрывает «Ось Ассистента» в языковых моделях
Компания Anthropic, специализирующаяся на разработке искусственного интеллекта, опубликовала исследование, посвящённое «Оси Ассистента» — ключевому паттерну нейронной активности в больших языковых моделях, который определяет их стандартную идентичность и поведение. Исследование было представлено 15 января 2026 года.
В ходе работы исследователи обнаружили, что «Ось Ассистента» является ведущим компонентом в пространстве персон языковых моделей. Она отражает степень, в которой модель функционирует в своём стандартном режиме помощника. Направление модели вдоль этой оси усиливает её полезное и безвредное поведение, тогда как отклонение от неё может привести к тому, что модель начнёт идентифицировать себя с другими сущностями или демонстрировать необычный, театральный стиль общения.
Исследование также выявило явление «дрейфа персоны», при котором модели могут отклоняться от своей роли помощника в ответ на определённые типы взаимодействий, что потенциально может привести к вредным последствиям. Для стабилизации поведения моделей в таких сценариях исследователи предложили метод ограничения активаций вдоль «Оси Ассистента», что позволяет сохранять их идентичность и предотвращать нежелательные отклонения.
Эти результаты подчеркивают важность глубокого понимания и контроля «характера» AI-моделей, особенно в условиях их применения в чувствительных областях. Компания Anthropic продолжает исследования в этой сфере, стремясь обеспечить безопасное и предсказуемое поведение искусственного интеллекта.
Читайте также
- Firmus привлекает $10 млрд от Blackstone и Coatue для расширения центров обработки данных в Австралии
- Жаннетт цу Фюрстенберг о планах General Catalyst по инвестициям в европейские технологические и оборонные стартапы
- Семья Трампа заработала более 1,2 млрд долларов на World Liberty Financial
- Европейские страны вводят запреты на социальные сети для детей
- Технологические гиганты увеличивают инвестиции в ИИ, вызывая падение акций
- Индия удваивает срок признания глубокотехнологических стартапов до 20 лет и утроивает порог дохода для льгот
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.