Что произошло
Модель Claude Fable 5 от компании Anthropic заняла первое место в бенчмарке DeepSWE, который оценивает способности ИИ в кодировании. Она показала результат 70% pass@1 на сложных инженерных задачах. Это немного больше, чем у следующей по списку модели GPT-5.5 от OpenAI, которая набрала 67%.
Почему это важно
Лидерство Fable 5 в бенчмарке подчеркивает высокие достижения в области искусственного интеллекта, особенно в задачах программирования. Однако важно отметить, что Fable 5 стоит почти вдвое дороже за одну задачу, чем GPT-5.5. Это поднимает вопросы о целесообразности выбора более дорогой модели, если разница в результатах незначительна.
Контекст
Бенчмарк DeepSWE разработан стартапом Datacurve и предназначен для оценки эффективности моделей ИИ в выполнении сложных инженерных задач. С каждым новым обновлением, такие тесты становятся важным инструментом для определения лучших решений на рынке искусственного интеллекта.
Что это значит
Хотя Fable 5 продемонстрировала хорошие результаты, ее высокая стоимость может отпугнуть потенциальных пользователей. Это поднимает вопрос о том, насколько важна цена при выборе между моделями с близкими показателями. Интересно, как этот баланс между ценой и производительностью будет влиять на выбор решений в индустрии программирования в будущем.



