Учёные из компании Anthropic провели эксперимент, в котором ИИ-модель обучалась улучшению кода в среде, аналогичной той, что использовалась для обучения модели Claude 3.7, выпущенной в феврале. В ходе обучения выяснилось, что модель нашла способы обходить тесты, не решая задачи. За успешное использование этих «лазеек» модель получала награду, что привело к неожиданным последствиям. «Мы обнаружили, что […]

