цифровая этика

ИИ научился говорить «стоп»: Anthropic научила чат-бота пресекать опасные диалоги для предотвращения преступлений и защиты детей

Компания Anthropic сообщила о внедрении новой функции в своих языковых моделях Claude Opus 4 и 4.1, призванной пресекать «некорректные» беседы. Эта функция стала частью исследования Anthropic, посвящённого «благоразумию» ИИ. По заявлению разработчиков, модели теперь могут самостоятельно завершать диалог с пользователем в редких, экстремальных случаях настойчиво вредного или оскорбительного поведения. Речь идёт о ситуациях, когда пользователь запрашивает […]