През 2025 г. най-новите модели на изкуствен интелект започнаха да преминават този нов тест, който е предназначен да покаже колко широки са възможностите на ИИ във всички области на човешката експертиза.
В момента нито един модел не е успял да се справи с теста над 50%, но се очаква това да стане до края на 2025 г.
Какво представлява „Последният изпит на човечеството“
Този въпрос изисква задълбочени познания по анатомия, което го прави труден дори за експерти в тази област.
Как е създаден тестът „Последният изпит на човечеството“
Как са се представили различните модели с изкуствен интелект в теста
Резултатите на моделите обаче с течение на времето постепенно се подобрявали. В класацията на Scale AI от юни 2025 г., Gemini 2.5 Pro Preview на Google заел първо място с 21,64%, следван от o3 (high) на OpenAI – 20,32% и Claude Opus 4 (Thinking) на Anthropic – 10,72%.
Компанията xAI на Илон Мъск, която представи най-новия си модел Grok 4 в началото на юли, заяви, че резултатът ѝ в „Последния изпит на човечеството“ е достигнал рекордните 25,4%.
Перспективи
12 януари 2023 г. в 14:07 ч.
Изследователите постоянно търсят начини за по-точно тестване на възможностите на изкуствения интелект, тъй като съвременните модели вече лесно преминават съществуващите бенчмаркове. Именно с такава цел е разработен тестът „Последният изпит на човечеството“.
„Последният изпит на човечеството“ (Humanity’s Last Exam – HLE ) е тест за големи езикови модели, разработен през 2025 г. от Scale AI и Центъра за безопасност на ИИ (CAIS). Той включва 2 500 въпроса в повече от 100 дисциплини, включително математика, физика, биология, социални науки и други, както и по-сложни задачи за интерпретиране на графики и изображения. 24% от въпросите включват множествен избор, а останалите са с единичен избор, пише futurist.bg.
В процентно отношение той се състои от въпроси в областта на математиката – 41%, 11% по физика и 11% по биология/медицина, 9% по компютърни науки и изкуствен интелект, 8% по хуманитарни и социални науки, 6% по химия, 5% по инженерство и 8% по други дисциплини.
Отличителна черта на HLE е , че фокусът му е насочен към въпроси, които са на границата на човешкото познание. Те умишлено надхвърлят нивото на стандартните академични тестове, навлизайки в области, където дори високоспециализирани специалисти могат да се сблъскат с трудности. Например, един от тестовите въпроси по биология е следния:
„Колибри, принадлежащи към разред Apodiformes, се отличават с наличието на сдвоена овална кост, разположена от двете страни, или сезамовидна кост, разположена в каудолатералната част на разширената кръстна апоневроза на мястото на прикрепване на m. depressor caudae. Колко сдвоени сухожилия поддържа тази сезамовидна кост? Посочете броя.“
Идеята за „Последният изпит на човечеството“ принадлежи на изследователя в областта на машинното обучение и директор на Центъра за безопасност на изкуствения интелект (CAIS) Дан Хендрикс. По – рано той е бил съавтор на два теста за системи с изкуствен интелект, единият от които тествал знанията им на бакалавърско ниво по теми, свързани с историята на САЩ, а другият – способността на моделите да разсъждават на ниво участник в математическа олимпиада.
Хендрикс споделя, че идеята за новия тест е възникнала в него, след като е разговарял с Илон Мъск, който е определил съществуващите системи, включително математическия тест Massive Multitask Language Understanding – MMLU, за твърде елементарни. След този случай той започнал да си сътрудничи със Scale AI в търсенето и съставянето на въпроси, които да влязат в „Последният изпит на човечеството“. В крайна сметка в разработването на теста участвали повече от хиляда експерти от 50 страни, включително професори, изследователи и докторанти.
Идеята на Хендрикс била подкрепена и от други разработчици. Според тях, когато моделът GPT-4 е получил над 90% на математическия тест MMLU , този бенчмарк фактически е загубил способността си да открива значими подобрения в новите модели и критични разлики между най-добре представящите се. В резултат на това разработчиците на ИИ започнали да се сблъскват с фундаментални проблеми, такива като:
ограничения на измерването – когато моделите достигат максималните си показатели, измерването на техните подобрения на практика става невъзможно;
нереалистични очаквания относно възможностите на ИИ;
скрити недостатъци на ИИ, когато критичните пропуски в знанията остават незабелязани, въпреки високите резултати от тестовете.
За преглеждането и избора на въпроси, разработчиците са използвали многоетапен процес на проверка. Първо, въпросите били филтрирани от водещи модели на ИИ; ако те не успявали да отговорят или се представяли по-зле от резултатите при случайно налучкване, тези задачи са били селектирани за теста. Общо на първия етап били подбрани повече от 70 000 въпроса, от които около 13 000 затруднили до краен предел моделите на ИИ. След това избраните въпроси преминавали през двуетапен процес на проверка: кръг за обратна връзка с няколко рецензенти на ниво завършили специалисти и ревизия от организатора и експерт-рецензент.
Авторите на най-успешните въпроси получили по 5 000 долара за всеки от 50-те най-добри въпроса и по 500 долара за следващите 500 въпроса. След пускането на програмата, разработчиците стартирали програма с възнаграждения за откривани на бъгове с цел „намиране и отстраняване на сериозни грешки в набора от данни.“ По този начин през март 2025 г. списъкът с въпроси за теста бил окончателно готов.
След представянето на теста в началото на 2025 г., изследователите подложили на „Последният изпит на човечеството“ шест водещи модела с изкуствен интелект, включително Gemini 1.5 Pro на Google и Claude 3.5 Sonnet на Anthropic . Резултатите се оказали скромни: GPT-4o постигнал 3,3%, Grok-2 – 3,8%, а DeepSeek-R1 – най-високия резултат от 9,4%.
Този показател се е увеличил до 44,4% на версията Grok 4 Heavy, която е използвала множество ИИ агенти за решаване на различни задачи. Следващите най-добре представили се ИИ модели с използването на допълнителни инструменти или системни подсказвания в „Последния изпит на човечеството“ се оказали Gemini-Pro на Google – 26,9% и o3 на OpenAI – 24,9%.
Хендрикс очаква бърз растеж на показателите на ИИ моделите в „Последния изпит на човечеството“ още през 2025 г. Според него те биха могли да надхвърлят 50% до края на годината. Към този момент, казва Хендрикс, ИИ системите ще могат да се смятат за „оракули от световна класа“, способни да отговарят на въпроси по всяка тема по-точно от хората-експерти. Изследователите признават, че след този момент общността, свързана с развитието на изкуствения интелект ще трябва да търси и открие други начини за тестване на изкуствения интелект.
„Можете да си представите подобрена версия на теста, където ние можем да задаваме въпроси, на които все още не знаем отговорите, и да видим дали моделът може да ни помогне да ги решим“, казва Съмър Юе, съавтор на теста и директор по изследователските въпроси в Scale AI.
Кевин Джоу, изследовател в областта на теоретичната физика на елементарните частици и автор на някои от въпросите в „Последният изпит на човечеството“, не вярва, че способността на моделите с изкуствен интелект да отговарят правилно на трудни въпроси свидетелства за „умен“ изкуствен интелект. „Има огромна разлика между това какво означава да издържиш изпита и какво означава да си практикуващ физик и изследовател. Дори изкуствен интелект, който може да отговори на тези въпроси, може да не е готов да помогне в изследвания, които по своята същност са слабо структурирани“, обяснява той.
По този начин, „Последният изпит на човечеството“ може да е последният академичен изпит, който моделите трябва да положат, но далеч няма да е последният тест за проверка на способностите на изкуствения интелект“, резюмират авторите на разработката.
)
)