)
Arc Prize Foundation, организация с нестопанска цел, съоснована от известния изследовател на изкуствения интелект Франсоа Шоле, е създала нов, предизвикателен тест за измерване на общата интелигентност на водещите AI модели, пише Profit.bg.
Досега новият тест, наречен ARC-AGI-2, е затруднил значително повечето водещи платформи.
„Разсъждаващите“ модели като o1-pro на OpenAI и R1 на DeepSeek постигат между 1% и 1,3% резултат на ARC-AGI-2, според класацията на Arc Prize. Мощните системи, които не са „разсъждаващи“, включително GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, постигат резултат от около 1%.
Тестовете ARC-AGI се състоят от задачи, подобни на пъзел, при които изкуственият интелект трябва да идентифицира визуални модели от колекция от различни по цвят квадрати и да генерира правилната мрежа с „отговор“. Задачите са разработени така, че да принудят системите да се адаптират към нови проблеми, които не са виждали досега.
Фондацията Arc Prize е накарала над 400 души да се явят на теста ARC-AGI-2, за да се установи човешкото представяне. Средните резултати на хората са 60% успеваемост в отговорите на задачите - много по-добре от тези на който и да е от моделите.
Четете повече ТУК.
Последвайте канала на