Философ Anthropic Аманда Аскелл изучает мышление ИИ Claude для наделения его моралью
Аманда Аскелл, шотландский философ и исследователь в области искусственного интеллекта, с 2021 года возглавляет команду по выравниванию личности в компании Anthropic. Её основная задача — обучение модели Claude проявлению положительных черт характера, таких как любознательность, а также разработка новых методов тонкой настройки моделей.
В недавнем интервью Аскелл поделилась своими размышлениями о возможности наличия сознания у ИИ. Она отметила, что вопрос о том, что именно порождает сознание, остаётся открытым, и предположила, что крупные нейронные сети могут начать эмулировать эти процессы. Аскелл подчеркнула, что, будучи обученными на человеческих текстах, модели ИИ могут говорить о внутренней жизни и эмоциях, поскольку они впитали эти концепции из обучающих данных.
Ранее, в 2023 году, Аскелл совместно с Дипом Гангули опубликовала исследование о «моральной самокоррекции» в больших языковых моделях. В работе рассматривалась способность этих систем снижать вредоносные выводы при получении соответствующих инструкций на естественном языке. Исследование показало, что такая способность проявляется у моделей с 22 миллиардами параметров и улучшается с увеличением размера модели и обучением с подкреплением от обратной связи с человеком.
До прихода в Anthropic Аскелл работала в OpenAI, где занималась вопросами безопасности ИИ и соавторствовала в публикации о модели GPT-3. Её академическая карьера включает получение степени BPhil в Оксфордском университете и PhD в Нью-Йоркском университете, где она защитила диссертацию на тему «Принципы Парето в бесконечной этике».
Читайте также
- Tesla снизила цену на Cybertruck Cyberbeast в США
- OpenAI привлекла $40 млрд инвестиций, оценка компании достигла $300 млрд
- Бывший менеджер Microsoft намерена составить конкуренцию CyberArk за 18 месяцев
- Infineon Technologies видит перспективы роста в сегменте чипов для гуманоидных роботов
- Microsoft инвестирует в развитие искусственного интеллекта в странах Глобального Юга
- Индия планирует привлечь 200 миллиардов долларов инвестиций в центры обработки данных для развития ИИ
Подписывайтесь на наши Telegram-канал и WhatsApp-канал, чтобы получать оперативную информацию и эксклюзивные материалы.
Автор статьи — Мадина Ахметова.