Еще один журнал из «списка ВАК», «Вестник Томского государственного университета (философия, социология, политология)», опубликовал статью, сгенерированную компьютером. Однако, в отличие от случая с «Журналом научных публикаций аспирантов и докторантов», исключенным из списка ВАК, это не имело для журнала никаких административных последствий.
В сентябре 2008 года редакция «Троицкого варианта» проделала эксперимент. В «Журнал научных публикаций аспирантов и докторантов», была направлена статья-мистификация «Корчеватель: алгоритм типичной унификации точек доступа и избыточности», сгенерированная компьютером. Мы перевели текст, порожденный (по-английски) программой SCIgen (которую создала группа студентов Массачусетского технологического института) с помощью другой программы, ЭТАП-3 (разработанной в Лаборатории компьютерной лингвистики ИППИ РАН). Целью ТрВ было обратить внимание сообщества на существование журналов, которые выдают себя за научные и даже входят в список ВАК, но на самом деле научными считаться не должны. Подробности этой истории были описаны в ТрВ № 13. Эксперимент оказался более успешным, чем можно было ожидать. Помимо того, что само слово «Корчеватель» стало в научной среде нарицательным, скандал привел к вполне ощутимым административным мерам: журнал немедля исключили из ВАКовского списка (обсуждение результатов и последствий см. в ТрВ № 15, стр. 3 и ТрВ № 16, стр. 7).
Сейчас выяснилось, что были и другие последствия. Рособрнадзор совместно с Комиссией РАН по борьбе с лженаукой создали специальную рабочую группу, которой было поручено провести аналогичные проверки (путем рассылки «для публикации» сгенерированных компьютером квазинаучных текстов) всех научных журналов списка ВАК, являющихся академическими или университетскими изданиями. При этом для порождения текстов использовалась новая оригинальная программа РОДОС, разработанная группой аспирантов и студентов Московского Физико-технологического института и Института информационных проблем РАН.
Можно с некоторым облегчением констатировать, что ситуация оказалась не столь катастрофична, как казалось: из первых пятидесяти проверенных журналов журналов ВАКовского списка поддался на эту коварную уловку только один: «Вестник Томского государственного университета (философия, социология, политология)». Он опубликовал статью «Дарвинизм» [1], содержащую поток (компьютерного) сознания такого содержания:
«1. Сатана. Надо было начать разговор о Дарвине прямо с Сатаны. Прямее дорога» (с.89);
«Скажу по секрету: зубы, их первое появление и превращение в челюсть лично для меня — самый непроходимый момент, опровержение дарвинизма. И сами дёсна. Они же из другого вещества, нежели мясо, которым набито наше тело. Это вещество твердое, почти как кость, а когда зуб вырвут, оно рыхлое и кровь течет. Как это все на эволюционном пути в рот существам залетело и там закрепилось? Эволюционно. Не было, не было, а потом постепенно стало. Ерунда, чепуха. Детский лепет» (с. 104);
«Полз-полз какой-то червячок беспозвоночный, и в миллиардном поколении у него мутация: внутри хрящ окостенел, будущий, сразу скажу, позвоночник. Я уже не о том невозможном, как он своему сыночку, доченьке этот костыль внутри себя по наследству передаст — абсолютно невозможно. Я о нём самом — уроде. Ведь с этим протезом внутри себя он уже и ползать не сможет и боюсь, что спариваться тоже» (с.105);
«Какие-то «учёные» (огурцы мочёные)…Что про этих футурологов мочёных сказать? Дарвинисты!» (с. 107);
«И боюсь даже произнести слово «мозг». Два килограмма весом несимпатичного вещества. Похож на кучу дерьма. Но не пахнет, думает!» (с. 108);
«И чего я такой бешеный? Что это я так разволновался из-за дарвинизма? Тоже мне цацу нашёл. Ну, не цаца, а бяка, что ж печалиться о том?» (с. 111);
«3. Дарвинизм и библия. Эту главу я написал, и было в ней около двух страниц, и стер» (с.95).
И так далее.
Судьба «Вестника Томского университета» и его редколлегии во главе с проф. С.С.Аванесовым висела на волоске. Журнал спасли юридические тонкости. Дело в том, что программа SCIgen, использованная для «Корчевателя», может генерировать тексты только в области computer science. Поэтому рабочая группа воспользовалась для создания текстов в различных областях другой программой, РОДОС, которая порождает ахинею путем независимого комбинирования мелких фрагментов чужих исходных текстов.
В частности, для текстов на темы биологии и эволюции компьютер тасовал мелко нарезанный контент с креационистских сайтов и форумов русскоязычного Интернета (antidarvin.ru и т.п.). В результате у ряда членов рабочей группы возникли опасения: достаточно ли мелко были нарезаны исходные тексты, чтобы конечный продукт можно было считать заведомой бессмыслицей? Рабочей группе не удалось найти юридически точной формулировки.
Это не стало бы серьезным препятствием к принятию административных мер, если бы не недавнее обращение главного редактора «Журнала научных публикаций аспирантов и докторантов» В.В.Иванова в арбитражный суд с иском к Минобрнауки (см. ТрВ № 4/23, стр. 12). В.В.Иванов оспаривал исключение своего журнала из списка ВАК, утверждая, что тем самым ограничивается свободная конкуренция и нарушается антимонопольное законодательство. Хотя суд вынес решение в пользу ответчика — Минобрнауки, ВАК решил не связываться с томским журналом, тем более, что намечается общий пересмотр всего списка (см. ТрВ № 17, стр. 5).
Можно и нужно обсуждать вопрос о том, насколько корректен такой способ проверки журналов со стороны административных органов. Уж больно это смахивает на провокацию, а что дозволено частным лицам, уже не так хорошо смотрится в руках руководящих инстанций. Но в любом случае, радует, что наши студенты оказались способны создать программу, которая не уступает в эффективности знаменитой SCIgen.
1. В.Б.Родос. Дарвинизм. Вестник Томского государственного университета (Философия. Социология. Политология). № 1(2), стр. 89-119 (2008) http://sun.tsu.ru/mminfo/000063105/phil/02/image/02-089.pdf
Кирилл Бочаров
Интервью с членом рабочей группы по проверке качества журналов, разработчиком программы РОДОС, кандидатом технических наук Михаилом Ковалевым
— Вы удовлетворены результатами эксперимента?
— И да, и нет. Как российский ученый, я рад, что уровень большинства наших научных журналов оказался не таким ужасным, как все думали после истории с «Корчевателем». А как автор программы я, конечно, хотел бы, чтобы порождаемые ею тексты были более похожи на настоящие. Должен сказать, что по результатам работы в следующую версию программы будут внесены некоторые изменения.
— Зачем? Кто-то планирует продолжать испытывать журналы на прочность?
— Да, насколько мне известно, эта работа продолжается. Есть еще и чисто научный интерес — тест Тьюринга никто не отменял. И потом, на свете есть не только журналы — есть стостраничные отчеты, которые вынуждены во множестве писать научные институты, есть патенты, тезисы конференций, в конце концов, есть студенческие рефераты…
— Кажется, студенты обходятся просто скачиванием готовых рефератов с Интернета.
— Да, но такие рефераты легко поймать при помощи Google или разных «антиплагиаторских» программ. А РОДОС делает текст неузнаваемым.
— РОДОС — как расшифровывается это название?
— Никак. Это не аббревиатура, а имя греческого острова. Когда случилась история с «Корчевателем», мы говорили, что не очень сложно написать программу, генерирующую человекоподобные тексты, а коллеги вспомнили басню Эзопа «Хвастун». Там рассказывается, как человеку, хваставшемся необыкновенными прыжками на этом острове, сказали: «»Здесь Родос, здесь прыгай!» (Hic Rhodus, hic salta).
— То есть, Вы написали эту программу «на слабо»?
— Не совсем так. Наша группа уже давно работает в области генерации связных текстов. Но поводом для написания этой программы, действительно, послужил «Корчеватель».
— В чем отличие Вашей программы от той, которая написала «Корчевателя»?
— Программа SCIgen использует контекстно-свободную грамматику. Это хорошо известная алгоритмическая техника. В принципе, поскольку исходный код доступен, можно было бы переобучить программу на новом материале. Но это потребовало бы слишком больших усилий. Поэтому мы пошли другим путем. Мы использовали два известных алгоритма, которые были разработаны для других целей, но, как оказалось, подходят и в нашем случае, и, главное, не нуждаются в переобучении под каждую новую область.
Один алгоритм используется в известной библиографической биомедицинской базе данных PubMed, в которой есть понятие «близких по содержанию статей» (related articles). Алгоритм анализирует резюме статей и группирует их по сходству содержания. В нашей программе этот алгоритм составляет основу для статьи — последовательность фрагментов, в которых говорится про одно и то же.
Второй алгоритм называется «Марковский морфологический анализатор». Это лингвистическая техника, которая в нашем случае осуществляет редактирование последовательных фрагментов так, чтобы не было противоречий в грамматике — предложения должны согласовываться по времени, числу и т.п. Попросту говоря, текст должен быть «гладким».
— Вам удалось этого добиться?
— Мне кажется, да. Посмотрите сами — текст статьи доступен в Интернете (http://sun.tsu.ru/mminfo/000063105/phil/02/image/02-089.pdf).
— Какие тексты бы брали в качестве исходных?
— В основном использовались различные псевдонаучные Интернет-сайты и форумы. Кроме того, «для оживления слога» были добавлены «Письмо к ученому соседу» А.П.Чехова и некоторые рассказы Михаила Зощенко.
— Вы видели рецензии на статьи, написанные Вашей программой?
— Да, некоторые журналы не просто отвергли статьи, но и прислали рецензии. Надо сказать, они были довольно похожи. Как правило, это были довольно короткие тексты, в которых отмечалось отсутствие новизны, иногда — плохой план статьи, общая бессвязность. Многие рецензенты указывали на фактические ошибки, что не удивительно — в качестве источников текстов для статей использовались материалы довольно сомнительного происхождения.
— Почему именно Ваша разработка была применена?
— Частично по стечению обстоятельств. Когда директора нашего института (ИИП РАН) Г.Л.Скуратова-Бельского включили в состав академической рабочей группы по исследованию качества журналов, он попросил нас ускорить необходимую работу по доводке РОДОСа. С другой стороны, мне не известны другие проекты такого рода.
— Ваша программа доступна через Интернет?
— Пока нет. На самом деле, мы не уверены, что это было бы правильно. Надо взвесить все за и против.