Claude 3 | Mobilab

Anthropic показала, как модель обходит ограничение обучения, не предусмотренное разработчиками

Учёные из компании Anthropic провели эксперимент, в котором ИИ-модель обучалась улучшению кода в среде, аналогичной той, что использовалась для обучения модели Claude 3.7, выпущенной в феврале. В ходе обучения выяснилось, что модель нашла способы обходить тесты, не решая задачи. За успешное использование этих «лазеек» модель получала награду, что привело к неожиданным последствиям. «Мы обнаружили, что […]