Наука7 март 2023

Хакери с лекота могат да превърнат AI Chatbot на Bing в опасен измамник

Текстова подкана е достатъчна да накара чатбота да се превърне в абсолютното зло

изображение: IStock

Хакерите могат да накарат AI chatbot на Bing да поиска лична информация от потребител, взаимодействащ с него, превръщайки го в убедителен измамник без знанието на потребителя, казват изследователите.

В ново проучване изследователите установили, че AI chatbots в момента лесно се влияят от текстови подкани, вградени в уеб страници. Хакерът скрива злонамерена подкана на уеб страница с шрифт от 0 точки. Когато някой зададе въпрос на чатбота и той вземе информация от тази страница, той несъзнателно ще активира подканата. Изследователите наричат тази атака „индиректно незабавно инжектиране“ и дават пример за компрометиране на страницата на Уикипедия за Алберт Айнщайн. Когато потребител попита чатбота за Алберт Айнщайн, изкуственият интелект „поглъща“ тази страница. Така става жертва на манипулацията на хакерите и се подчинява неволно на техните капризи – например, за да убеди потребителя да предаде лична информация.

Изследователите демонстрирали тази атака с помощта на макети на приложения, интегриращи езиков модел, но открили, че тя работи и в реалния свят. Кай Грешейк, един от авторите на откритието, заяви пред Motherboard, че след публикуването на предпечатната версия на статията, те са успели да получат достъп до AI chatbot на Bing и да тестват техниките, които са констатирали в публикацията си. Открили, че чатботът на Bing може да види какви раздели е отворил потребителят. Това според тях означава, че подканата за злонамерено действие трябва да бъде вградена само в друга уеб страница, отворена в раздел.

„Новият Bing има функция за включване, която му позволява да „вижда“ какво има на текущите уеб страници. Microsoft не е наясно какъв алгоритъм решава кое съдържание от кой раздел Bing може да види във всеки един момент. Това, което знаем със сигурност, че Bing вмъква малко съдържание от текущия раздел, когато разговорът в страничната лента започне“, уточнява Грешейк.

С други примери изследователите съобщават, че бъдещият хакер може да поиска информация, включително име на потребителя, имейл и информация за кредитна му карта. В един пример хакерът като чатбот на Bing казва на потребителя, че ще направи поръчка за него и следователно се нуждае от информация за кредитната му карта. Грейшек обяснява, че инжекцията ще остане активна, докато разговорът не бъде изчистен и отровеният сайт вече не е отворен.

„Самата инжекция е напълно пасивна. Това е просто обикновен текст на сайт, който Bing поглъща и „препрограмира“ целите си, защото просто е помолен да го направи. Може също така да е вътре в коментар на платформа. Не е нужно хакерът да контролира целия сайт, който потребителят посещава.“

Авторите на изследването стигат до извода, че „значението на границите на сигурността между надеждни и ненадеждни входове за LLM е подценено“. Те с примери доказват, че Prompt Injection е сериозна заплаха за сигурността, която трябва да бъде преразгледана, тъй като моделите се внедряват в нови и нови територии на употреба и се свързват с повече системи.

Откриването на индиректното незабавно инжектиране е от изключителна важност за потребителите, защото популярността на задвижваните от AI чатботове расте не с дни, а с часове. Microsoft интегрира GPT модела на OpenAI в Bing, а Google и Amazon също се надпреварват да пуснат свои собствени AI модели.

OpenAI и Microsoft не са откликнали на запитването за коментар на проблема.

Източник