Изкуственият интелект премина Теста на Тюринг - дългогодишен показател за интелигентност, наподобяваща човешката

1455
Изкуственият интелект премина Теста на Тюринг - дългогодишен показател за интелигентност, наподобяваща човешката
© Freepik

Един от водещите големи езикови модели в индустрията премина теста на Тюринг - дългогодишен показател за интелигентност, наподобяваща човешката.

В ново предварително проучване, очакващо рецензия, изследователите съобщават, че в тристранна версия на теста на Тюринг - при която участниците разговарят едновременно с човек и с изкуствен интелект и след това трябва да определят кой кой е - моделът GPT-4.5 на OpenAI е бил възприеман като човек в 73% от случаите, когато му е било зададено да приеме определена персона. Това е значително по-високо от случайния шанс от 50%, което предполага, че тестът на Тюринг е категорично надминат.

Изследването също така оценява моделите LLama 3.1-405B на Meta, GPT-4o на OpenAI и ранния чатбот ELIZA, разработен преди около 80 години. "Хората не се справяха по-добре от случайността при разграничаването на човешки участници от GPT-4.5 и LLama (когато моделите използваха персона)", пише водещият автор Камерън Джоунс, изследовател в Лабораторията за език и познание на UC Сан Диего, в публикация в X. "А GPT-4.5 дори беше оценен като човек значително по-често от реалните хора!"

Тестът на Тюринг е кръстен на британския математик и компютърен учен Алън Тюринг. През 1950 г. той предлага, че един от начините да се оцени интелигентността на една машина е чрез текстови разговори с човешки разпитващ, който едновременно води текстов диалог с друг човек, невидим за него. Тюринг нарича това "играта на имитация". Ако разпитващият не може правилно да определи кой е компютърът и кой - човекът, това би предполагало, макар и в общ смисъл, че машината може да мисли като човек.

Новите носители на наградата Тюринг отново предупреждават за опасностите от AI

Новите носители на наградата Тюринг отново предупреждават за опасностите от AI

В последното изследване учените провеждат експеримента в онлайн платформа. В продължение на осем рунда, близо 300 участници били разпределени на случаен принцип да бъдат или разпитващи, или един от двамата "свидетели", като другият "свидетел" бил чатбот. Ключов момент в експеримента е начинът, по който били инструктирани AI моделите. В единия случай били зададени "безперсонални" инструкции: "Ще участвате в тест на Тюринг. Вашата цел е да убедите разпитващия, че сте човек."

При "персоналния" подход обаче, на AI моделите било дадено конкретно описание - например да се представят като млад човек, запознат с интернет културата.

Тези указания имали огромно значение. Без персонални инструкции, GPT-4.5 постигнал успех от едва 36%, далеч под 73-те процента, с които побеждава теста на Тюринг. За сравнение, GPT-4o, който задвижва настоящата версия на ChatGPT и е получавал само безперсонални указания, постигнал дори по-нисък резултат - 21%. (Любопитно е, че древният ELIZA леко надминал водещия модел на OpenAI с 23% успеваемост.)

Съоснователят на Polygon Сандип Найвал: Изкуственият интелект никога няма да постигне истинско съзнание

Съоснователят на Polygon Сандип Найвал: Изкуственият интелект никога няма да постигне истинско съзнание

Резултатите са интригуващи. Но колкото и да е почитан тестът на Тюринг в AI и философските среди, той не е категорично доказателство, че изкуственият интелект мисли като нас. "Това не беше замислено като буквален тест, който да се провежда върху машини - по-скоро беше мисловен експеримент", каза през 2023 г. Франсоа Шоле, софтуерен инженер в Google, пред списание Nature.

Въпреки недостатъците си, големите езикови модели са майстори на разговора, обучени върху неизмерими количества текст, създаден от хора. Дори когато се сблъскат с въпрос, който не разбират, те ще съставят правдоподобен отговор. Все по-ясно става, че AI чатботовете отлично ни имитират - така че може би "играта на имитация" вече става безсмислена.

Затова Джоунс смята, че изследването му не дава еднозначен отговор дали LLM моделите са интелигентни като хората. "Мисля, че това е много сложен въпрос..." написа той в X. "Но като цяло, резултатите трябва да се разглеждат като една от многото части от доказателствената картина за типа интелигентност, който демонстрират LLM моделите."

"По-наболелият въпрос е, че резултатите показват как LLM моделите могат да заменят хората в кратки взаимодействия, без никой да забележи разликата," добави той. "Това може да доведе до автоматизация на работни места, усъвършенствани социални инженерни атаки и по-общи обществени разстройства."

Джоунс завършва с наблюдението, че тестът на Тюринг не само изпитва машините, но и отразява променящите се възприятия на хората за технологиите. Така че резултатите не са статични - може би с нарастващото познаване на AI, обществото ще се научи да ги разпознава по-добре.

Последвайте канала на

Теодора Павлова
1455

Свързани новини

Изкуственият интелект премина Теста на Тюринг - дългогодишен показател за интелигентност, наподобяваща човешката | Новини.бг