)
Учените предупредиха за съществуването на „невидима” заплаха за изкуствения интелект: Стелт атака, наречена DarkMind, може да манипулира разсъжденията на AI, без да бъде забелязана намесата ѝ.
Авторите на изследването Зен Го и Реза Турани откриха уязвимост в парадигмата на „веригата на мисълта” (CoT), която много съвременни езикови модели, включително ChatGPT, използват за решаване на сложни проблеми. DarkMind използва тази уязвимост, като инжектира „скрити задействания” в персонализирани приложения, базирани на AI езикови модели.
Изследователите са провели тестове, които показват, че DarkMind е много ефективен метод за атака срещу различни езикови модели, включително най-съвременните като GPT-4 и LLaMA-3. Нещо повече, по-напредналите модели с по-добри способности за разсъждение се оказват по-уязвими на тази атака.
Като се има предвид нарастващото използване на AI езикови модели в различни индустрии, включително банкиране и здравеопазване, атаките от типа на DarkMind представляват сериозна заплаха за сигурността. Те могат да манипулират вземането на решения от AI без очевидни признаци за намеса.
Колкото по-умен е изкуственият интелект, толкова по-уязвим е той за скрити атаки, сочи ново изследване.
Учените отбелязват, че DarkMind може да се приложи към различни области на разсъждение. Освен това създаването на такава атака не изисква задълбочено познаване на езиковите модели, което увеличава риска от широкото ѝ използване.
Особеност на атаката DarkMind е, че тя остава неоткрита при нормална употреба на AI модела и се активира от определени модели на разсъждение. Това я прави изключително трудна за откриване с помощта на стандартни методи за сигурност.
Учени от университета в Сейнт Луис разработиха стелт атака срещу езикови модели с изкуствен интелект, наречена DarkMind. Тя е в състояние тихо да манипулира процеса на разсъждение на AI, което може да има сериозни последици за сигурността на системите, използващи AI модели.
Учените подчертават, че изследването им разкрива критична празнина в сигурността на съвременните езикови модели. Те ще продължат да изучават този проблем и планират да разработят нови защитни механизми, като проверки за последователност и откриване на враждебни задействания. Разработката на Го и Турани открива нова посока в изследванията на сигурността на изкуствения интелект и подчертава необходимостта от по-добри мерки за сигурност, за да се гарантират устойчивостта и сигурността на системите, базирани на AI езикови модели.
Последвайте канала на