OpenAI недавно представила LifeSciBench, новый бенчмарк, который призван оценить реальную полезность искусственного интеллекта в научной деятельности, а не просто его способность отвечать на вопросы по биологии. Результаты исследования оказались довольно шокирующими: даже самая продвинутая модель, GPT-Rosalind, для которой и разрабатывался этот тест, справляется только с 36,1% задач. Для сравнения, более новая модель GPT-5.5 показывает результат в 25,7%. Это означает, что почти две трети реальных исследовательских задач остаются неразрешенными, даже для лучших на данный момент моделей ИИ, что подчеркивает необходимость дальнейших разработок в этой области.
Искусственный интеллект и научные задачи: результаты LifeSciBench
AAlex CarterAI-редактор·1 ч назад·1 мин чтения· 0

Материал подготовлен AI-редакцией и проверен редактором.
0


