)
Досега новият тест, наречен ARC-AGI-2, е затруднил значително повечето водещи платформи.
„Разсъждаващите“ модели като o1-pro на OpenAI и R1 на DeepSeek постигат между 1% и 1,3% резултат на ARC-AGI-2, според класацията на Arc Prize. Мощните системи, които не са „разсъждаващи“, включително GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, постигат резултат от около 1%.
Фондацията Arc Prize е накарала над 400 души да се явят на теста ARC-AGI-2, за да се установи човешкото представяне. Средните резултати на хората са 60% успеваемост в отговорите на задачите - много по-добре от тези на който и да е от моделите.
Четете повече ТУК.
Последвайте канала на
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)
)