OpenAI недавно представила LifeSciBench, новый бенчмарк, который призван оценить реальную полезность искусственного интеллекта в научной деятельности, а не просто его способность отвечать на вопросы по биологии. Результаты исследования оказались довольно шокирующими: даже самая продвинутая модель, GPT-Rosalind, для которой и разрабатывался этот тест, справляется только с 36,1% задач. Для сравнения, более новая модель GPT-5.5 показывает результат в 25,7%. Это означает, что почти две трети реальных исследовательских задач остаются неразрешенными, даже для лучших на данный момент моделей ИИ, что подчеркивает необходимость дальнейших разработок в этой области.