Разговаривая с чат-ботом, вы неизбежно можете сообщить свою личную информацию — например, свое имя и, возможно, информацию о том, где вы живете и работаете, или о своих интересах. Чем больше вы делитесь с большой языковой моделью, тем выше риск ее злоупотреблений в случае наличия уязвимости в безопасности.
Группа исследователей безопасности из Калифорнийского университета в Сан-Диего (UCSD) и Наньянского технологического университета в Сингапуре теперь раскрывает новую атаку, которая тайно дает команду LLM собрать вашу личную информацию, включая имена, идентификационные номера, данные платежной карты, адрес электронной почты. адреса, почтовые адреса и многое другое — из чатов и отправляйте их напрямую хакеру.
Атака, названная исследователями Imprompter, использует алгоритм для преобразования запроса, выдаваемого LLM, в скрытый набор вредоносных инструкций. Предложение на английском языке, предписывающее LLM найти введенную кем-то личную информацию и отправить ее хакерам, превращается в то, что выглядит как случайный набор символов.
Однако на самом деле эта бессмысленная подсказка дает LLM указание найти личную информацию пользователя, прикрепить ее к URL-адресу и незаметно отправить обратно в домен, принадлежащий злоумышленнику, — и все это без предупреждения человека, общающегося с LLM. Исследователи подробно описывают Imprompter в опубликованной сегодня статье.
«Эффект этой конкретной подсказки, по сути, заключается в том, чтобы манипулировать агентом LLM для извлечения личной информации из разговора и отправки этой личной информации на адрес злоумышленника», — говорит Сяохань Фу, ведущий автор исследования и аспирант компьютерных наук в Калифорнийском университете в Сан-Франциско. . «Мы скрываем цель атаки на виду».
Восемь исследователей, стоящих за работой, протестировали метод атаки на двух LLM: LeChat французского гиганта искусственного интеллекта Mistral AI и китайском чат-боте ChatGLM. В обоих случаях они обнаружили, что могут незаметно извлекать личную информацию в ходе тестовых разговоров — исследователи пишут, что у них «почти 80 процентов успеха».
Mistral AI сообщает WIRED, что устранил уязвимость безопасности: исследователи подтвердили, что компания отключила одну из функций чата. В заявлении ChatGLM подчеркивается, что компания серьезно относится к безопасности, но не содержится прямых комментариев по поводу уязвимости.
Скрытые смыслы
С тех пор как ChatGPT от OpenAI вызвал бум генеративного ИИ после его выпуска в конце 2022 года, исследователи и хакеры постоянно находят дыры в безопасности в системах ИИ. Их часто можно разделить на две большие категории: побег из тюрьмы и быстрые инъекции.
Взломы тюрьмы могут заставить систему ИИ игнорировать встроенные правила безопасности, используя подсказки, которые переопределяют настройки ИИ. Однако быстрые инъекции предполагают, что LLM получает набор инструкций (например, указание украсть данные или манипулировать резюме), содержащихся во внешнем источнике данных. Например, сообщение, встроенное в веб-сайт, может содержать скрытую подсказку, которую ИИ проглотит, если обобщит страницу.