Атаки на семантические сети и машинное обучение: нарративы, шутки и угрозы

Начну с забавного фрагмента книги Марины Райкиной «За кулисами. Москва театральная»:

«Из суфлерской же будки видно и слышно такое, что даже опытный зритель не заметит. Например, заговор мастеров против новичков. Их любил устраивать любимец публики Василий Топорков. Спектакль „Лиса и виноград“. Эзопа поймали, привели в дом хозяина и кричат: „Привели Эзопа под стражей!“ И вот Топорков, который играет Эзопа, на репетиции подходит к молоденькой артистке, исполняющей роль служанки, и на полном серьезе говорит ей: „Деточка, поверьте мне, старому опытному артисту, такое бывает: если вы говорите «привели Эзопа под стражей», то зритель слышит…“».

Что именно слышит зритель по версии Топоркова, излагаемой им в дружеской манере молоденькой артистке, я предлагаю читателям дочитать самим^¹, поскольку я пока не употребляю этого слова в письменных публичных текстах.

Вообще, в театральной среде нередко рассказываются истории о розыгрышах, когда молодого актера более опытные партнеры предостерегают перед выходом на сцену: «Ты там не скажи… вместо…» (за «не скажи» идет неправильное слово или смешно переиначенная реплика). И именно то, от чего якобы отговаривали, на сцене закономерно и произносится — на радость советчику и залу. Другой вариант — неправильная подсказка от суфлера, решившего, например, проучить зазнавшегося актера или актрису. Еще цитата из той же книги^²:

«В один из вечеров давали „Горе от ума», где артистка играла Лизу. В заключительном монологе Лизы во втором действии суфлер (по имени Иван, волочащийся за актрисой. — А. П.) подает:

Ну, люди в здешней стороне!
Она к нему, а он — ко мне!
А я… одна лишь я любви до смерти трушу!
А как не полюбить суфлерчика Ванюшу!

И артистка, ни о чем не думая, повторяет за ним слово в слово — „суфлерчика Ванюшу“ вместо „буфетчика Петрушу“».

Эти истории — часть более широкого пласта нарративов, восходящих к таким общекультурным формам накопления и передачи социального опыта, как народные сказки. В них нередко представлены ситуации, когда одни персонажи учат других тому, что для последних невыгодно или опасно: Баба-Яга учит Иванушку садиться на лопату, чтобы засунуть его в печь; лиса учит волка ловить рыбу на собственный хвост в проруби, в результате хвост примерзает, и волк его лишается; Братец Кролик учит Братца Лиса, как вести себя тому, кто хочет правдоподобно изобразить покойника при появлении друзей, и т. д.

А причем здесь атаки на машинное обучение и семантические сети?

Многим важным системам искусственного интеллекта необходимы большие массивы обучающих примеров. Смогут ли хакеры (не обязательно шутники) организовать «отравляющие атаки» на базы этих примеров или на другие уязвимости интеллектуальной системы (poisoning attacks, adversarial attacks)? Да, оказывается, могут — например, скрыто подгрузив в базу минимальное количество особым образом подобранных примеров и нарушив тем самым процесс эффективного обучения и последующего принятия решений. (Подходящая метафора — минимально необходимая ложечка дегтя для порчи наибольшей бочки меда.)

Понятно, что порча, «отравление» базы примеров, собранных, например, для обучения распознавания болезни, может иметь серьезные практические следствия для диагностики и лечения. Пока прецеденты именно с медицинскими базами не известны (хотя их возможностью и пугают). Но превентивное исследование возможностей ведется — как и разработка контрмер. Подробнее об этом (без медицины) можно прочитать, например, здесь: Veneramuholovka (2020), Савушкин А. и др. (2021). Вспомним здесь историю 2016 года, когда обучаемый чат-бот Тэй от Microsoft научился от сговорившихся пользователей такому, что разработчикам пришлось довольно быстро его отключить. «Даже если создатель ИИ запрограммирует свое творение на любовь к людям, нет гарантии, что хакеры не смогут получить доступ к системе и настроить бота на совсем другую волну» (Alizar, 2016).

В 1999 году в статье «Философия образования: проблема противодействия» я написал: «Возможными направлениями развития искусственного интеллекта может стать разработка компьютеризованных систем: а) противодействующих обучению других технических систем; б) противодействующих обучению человека; в) обучающихся в условиях противодействия». Судя по статье в англоязычной «Википедии» (Adversarial machine learning), в 1990-х про это еще никто не писал. См. также заключительную часть в (Поддьяков, 2004). Были ли уже тогда конкретные примеры, я не знаю.

Вернемся к театральной сцене. В предлагаемых терминах ложные подсказки, «вредные советы» актеру («Ты там не скажи… вместо…») — это «отравляющая атака» на его внутреннюю семантическую сеть. «Семантическая сеть — это система знаний, имеющая определенный смысл в виде целостного образа сети, узлы которой соответствуют понятиям и объектам, а дуги — отношениям между понятиями и объектами» (Хабаров). В актерских ложных подсказках и советах именно то, от чего якобы предостерегают, становится «отравляющим», «заякоривающим» примером, закрывающим всё остальное за счет неадекватно большого веса в семантической сети. В результате произнесение на сцене озвученного до этого «шутником» неправильного варианта становится очень вероятным.

При этом подчеркнем, что в живом общении людей огромное значение имеют и личные коммуникативные способности «подсказчика», включая невербальную составляющую, а также подверженность выбранной жертвы психологическому влиянию (вообще или только влиянию данного человека в данных обстоятельствах — вероятно, слова Топоркова весят для молодой актрисы больше, чем те же слова младшекурсника из театрального).

Обратимся к моделям. При моделировании отравляющей атаки на виртуальную семантическую сеть речь может идти о влиянии посредством изменения весов узлов и связей. Напрашивающаяся грубая метафора — «дебилизация» сети в отношении возможностей поиска на ней интеллектуальных и креативных решений. Но, теоретически рассуждая, «отравляющая атака» может быть направлена и на неадекватное повышение креативности. Если будущая искусственная семантическая сеть, поддерживающая разработку креативных рекламных слоганов, в результате хакерской атаки начнет выдавать чересчур креативные и потому «дико выглядящие», непонятные для большинства целевой аудитории слоганы, эту атаку тоже можно считать «отравляющей» — интеллектуальная система сильно отклонилась от требуемого оптимума решений.

Взглянем на перспективы историко-социологического исследования этой темы. Анализируя динамику представленности нарративов о ложных советах и подсказках, обучении со злым умыслом в различные периоды и в различных обществах, можно оценить воспринимаемую важность (опасность) этих явлений в общественном сознании. В том числе представляет интерес вопрос, претерпит ли эта динамика изменения в «цифровом обществе». В нем идея троянского обучения (в виде отравляющих атак на системы машинного обучения) органично встраивается в представления о нарастающих возможностях взлома всего и вся — и, вероятно, укрепляет эти представления. Или же динамика представлений не изменится, а просто в массив сюжетов о ложных подсказках и обучении со злым умыслом будет добавлено еще несколько современных подтипов и некоторое количество примеров разной степени забавности-серьезности. На настоящий момент это тоже можно считать вероятным.

Александр Поддьяков, докт. психол. наук

Поддьяков А. Н. Противодействие обучению конкурента и «троянское» обучение в экономическом поведении // Психология. Журнал Высшей школы экономики. 2004. № 3. С. 65–82. conflictmanagement.ru/prognoz-literatura/

Поддьяков А. Троянское обучение в среде «Вредные пчелы» // ТрВ-Наука № 336 от 24 августа 2021 года. trv-science.ru/2021/08/trojanskoe-obuchenie-v-srede-vrednye-pchely/

Поддьяков А. Философия образования: проблема противодействия // Вопросы философии. 1999. № 8. С. 119–128

Савушкин А., Бенкович Н., Ковальчук А. Как и зачем мы атакуем собственную антиспам-технологию? 20 декабря 2021 года. securelist.ru/attack-on-anti-spam-machine-learning-model-deepquarantine/104174/

Хабаров С. П. Представление знаний в информационных системах. habarov.spb.ru/bz/bz05.htm

Adversarial machine learning. en.wikipedia.org/wiki/Adversarial_machine_learning

Alizar. Почему девушка-чатбот от Microsoft поддалась влиянию троллей c 4chan. 25 марта 2016 года. habr.com/ru/post/392129/

Veneramuholovka. Что нового от MITRE? Атаки на системы машинного обучения. 19 ноября 2020 года. habr.com/ru/company/dsec/blog/528458/

¹ biography.wikireading.ru/hcrb9yG4WT

² biography.wikireading.ru/hp42UiX6hR

См. также:

ТрВ № 13 (432) за 2025 г.: Обсерватория имени Веры Рубин: первые снимки

Обсерватория имени Веры Рубин: первые снимки

Астроновости: прямое детектирование экзопланеты, вспышка новой, искусственные затмения на орбите…

Воспоминания Стивена Вайнберга: краткий очерк великой жизни

Фабрика подлога. Как работает московский конвейер лженаучных статей

Прощальный жест. Григорий Ефимович Крейдлин (22.05.1946–22.06.2025)

«Мы радуемся друг другу бесконечно». Людмила Георгиевна Сергеева (1935–2025)

Страх: инструкция по применению

Свет в «Море Эйнштейна»: живая книга о живом гении

Сквозь тернии…