«Проведите поиск в РИНЦ самостоятельно!»

«Проведите поиск в РИНЦ самостоятельно!»
В. Глухов

Борьба за учет публикационных показателей при оценке эффективности научных проектов увенчалась успехом: в целом ряде документов как Минобрнауки., так и РАН предлагается учитывать данные о цитировании, собранные в Российском индексе научного цитирования (http://elibrary.ru/project_risc.asp). В то же время качество самой базы вызывает у многих серьезные нарекания. Мы публикуем интервью с основными разработчиками базы -генеральным директором компании «Научная электронная библиотека» Геннадием Еременко и заместителем директора ИНИОН РАН Виктором Глуховым, — полученное Михаилом Гельфандом, а также выдержки из обсуждения РИНЦ на форуме Scientific.ru.

Каков статус компании «Научная электронная библиотека», которая ведет проект «Российский индекс научного цитирования»?

«Проведите поиск в РИНЦ самостоятельно!»
Г. Еременко

— «Научная электронная библиотека» — коммерческая компания, созданная в 1998 г. Является разработчиком целого ряда крупных информационных систем и информационных продуктов, главным образом в области научной информации. Пять лет назад компания выиграла конкурс на создание РИНЦ. Теперь это один из наших основных проектов.

А кто еще участвовал в конкурсе?

— Несколько организаций, в частности ГУ-ВШЭ и Библиотека по естественным наукам РАН. Конкурс проходил в 2005 г., и фактически проект начался в конце 2005-го — начале 2006 г.

Как сейчас используется РИНЦ?

— По-разному. В РИНЦ приходят пользователи не только для того, чтобы получить статистическую информацию о цитировании научных статей. Для многих РИНЦ — это прежде всего глобальный источник библиографической информации по российской научной периодике. Всего в РИНЦ уже более полутора миллиона статей из более чем 2400 российских журналов. Для сравнения, в зарубежные базы данных по цитированию (Web of Science, Scopus) попадает не более 25-30 тыс. статей российских авторов ежегодно.

Этим ресурсом активно пользуются, у нас сейчас в день бывает по 30-50 тыс. пользователей, которые приходят и за библиографией, и за аналитическими материалами, и за полными текстами статей. РИНЦ интегрирован с полнотекстовой базой научной периодики, размещенной на платформе eLibrary.Ru. В результате, перейдя по ссылке в списке литературы, пользователь может получить не только описание статьи, но часто и ее полный текст, причем в открытом доступе, как, собственно, и весь РИНЦ. Всего в НЭБ сейчас в полнотекстовом электронном виде представлено более 1700 российских научных журналов, из которых около 700 — в открытом доступе, а остальные распространяются по подписке.

«Проведите поиск в РИНЦ самостоятельно!»
Рис. В. Александрова

Есть ли полнотекстовый доступ к журналам МАИК «Наука»?

— Есть, но платный, естественно. В прошлом году РАН в рамках централизованного финансирования подписала на журналы АИЦ «Наука» в электронном виде практически все академические научные организации. К сожалению, в этом году пока этот проект не получил продолжения.

Как журналы попадают в список РИНЦ?

— На начальном этапе проекта создания РИНЦ мы отталкивались от Перечня ВАК. Мы выписывали печатные версии, оцифровывали их и загружали нужную для РИНЦ информацию из этих журналов. Тогда у многих российских журналов вообще не существовало электронной версии.

Сейчас ситуация иная. Издатели сами поставляют в РИНЦ необходимую информацию, подготавливая ее в определенном формате с помощью программного обеспечения, которое мы им предоставляем. Этому способствует и решение ВАК, согласно которому наличие журнала в РИНЦ является необходимым условием для его попадания в Перечень ВАК. Теперь процесс наполнения РИНЦ информацией идет уже независимо от государственного финансирования, которое закончилось в прошлом году.

Ну да, против ВАК не попрешь…

— Дело не только в этом. В редакциях журналов тоже понимают, что для многих авторов важно наличие их публикаций в РИНЦ и учет их цитирования, да и аналитика в целом по журналу для редакций тоже интересна. Кроме того, многие журналы приходят к выводу, что распространение полнотекстовых электронных версий через единую платформу eLibrary. Ru гораздо перспективнее, чем через собственный сайт.

Каковы критерии отбора? Есть ли прецеденты, когда вы кому-то отказывали в заключении договора?

— Пока мы брали практически всё, что относится к научной периодике, хотя и трактуемой достаточно широко, — это и научно-технические журналы, и научно-образовательные, и медицинские. Специального отбора мы не ведем. Это принципиальный момент: мы считаем, что на данной стадии мы не должны выступать в качестве субъективного фильтра. Журнал попадает в РИНЦ, получает какие-то показатели — вот тут и становится понятно, что он из себя представляет. Наша задача — дать объективную информацию.

То есть знаменитый «Журнал научных публикаций аспирантов и докторантов» у вас есть?

— Нет, этого журнала у нас нет. Но даже если бы и был, импакт-фактор у него был бы нулевой, поскольку в базе РИНЦ на тот момент времени на него не было ни одной ссылки.

За все время мы отказали дважды. Один раз это был журнал, как бы это помягче сказать…, националистического толка, да и не научный по большому счету. А второй раз мы отказали издательству, которое издает «гламурные» глянцевые журналы, скорее рекламные, чем научные.

Но при этом в РИНЦ довольно много статей не из российских журналов. Как они туда попадают?

— Действительно, когда мы выводим список публикаций конкретного автора, мы часто показываем его публикации в зарубежных журналах, а также в российских журналах за прошлые годы, которых нет у нас в базе. Это публикации, которые мы вытаскиваем из пристатейных списков литературы. Это, конечно, не самый лучший источник информации, поскольку там много ошибок в описаниях статей, не все авторы указываются и т.д. За это нас, кстати, часто критикуют. Но на данном этапе мы считаем, что информация о публикациях, извлеченная из списков литературы, помогает получить более полное представление о научной активности конкретного ученого в целом. Ведь цитируются, как правило, самые важные работы. По мере наполнения РИНЦ архивной информацией мы, возможно, откажемся от этой практики и будем показывать только публикации, попавшие в РИНЦ в процессе систематической обработки оглавлений журналов.

Теперь что касается зарубежных журналов. Очевидно, что пытаться проводить какие-либо библиометрические исследования российской науки на основе только публикаций в российских журналах было бы некорректно, так же, как некорректно делать это только на основе данных Web of Science или Scopus, куда попадает только одна из десяти статей российских авторов. Поэтому задача РИНЦ — собрать в единую базу все публикации российских авторов, независимо от того, где они были опубликованы. При этом ясно, что обрабатывать весь международный публикационный поток мы не сможем по финансовым соображениям, поэтому мы решили пойти другим путем. Мы провели переговоры с производителями международных баз данных научного цитирования — Thompson Reuters (Web of Science), Elsevier (Scopus), а также Google (Scholar). Целью переговоров была возможность интеграции данных о российских публикациях из этих баз данных и РИНЦ.

С каждым из производителей мы продвинулись в разной степени. Thompson Reuters предоставил нам возможность делать в реальном времени запросы в Web of Science и показывать число цитирований конкретной публикации из РИНЦ. Если пользователь подписан на Web of Science, он может тут же перейти на страницу со списком цитирующих данную публикацию статей.

А если не подписан, то не может?

— Нет. Через РИНЦ он может только получить данные о суммарном количестве ссылок на статью. Также для российских переводных журналов мы пытаемся определить соответствующую статью в англоязычной версии журнала и показать ее цитирование в Web of Science. Вообще нужно отметить, что Web of Science сейчас более активно начинает работать с региональными источниками, в частности с китайскими.

Но у Thompson Reuters есть достаточно жесткие критерии того, что они индексируют. Как интегрировать системы с разными критериями входа?

— Об интеграции речи пока не идет, если зайдет — посмотрим. Из всего множества российских журналов отобрать лучшие в соответствии с определенными критериями — это не проблема.

Со Scopus ситуация еще интереснее. Мы приобрели у Elsevier полный массив публикаций российских авторов, т.е. все статьи, где в адресах есть «Россия», с 1996 по 2011 г., а также все статьи из Scopus, которые на эти публикации ссылаются. Они сейчас находятся в стадии обработки и интеграции с данными РИНЦ. Здесь самое сложное -свести цитирования, скажем, чтобы не было дублирования ссылок в российском журнале и в его переводной версии.

Первые результаты, основанные на совместных данных Scopus и РИНЦ, появятся уже в конце июля, а к сентябрю планируем закончить работы по привязке этих интегральных данных к российским авторам и организациям. Есть и другие планы, например сделать новый аналитический продукт совместно с Elsevier.

То есть к осени количество ссылок у всех повысится в разы?

— Да, мы будем показывать суммарное цитирование в РИНЦ и Scopus.

Если не секрет, что значит «приобрели» — вы деньги заплатили, или это было какое-то соглашение об обмене?

— Деньги, конечно. Нам удалось сделать это в конце прошлого года, еще в рамках проекта, поддержанного Роснаукой.

Недо-

По РИНЦу у меня одно цитирование. [Б.Штерн]

Статья «Солнечные и гелиосферные явления в октябре-ноябре 2003 г.: Причины и следствия». Веселовский И.С, Панасюк М.И. и еще 70 авторов. Космические исследования. 2004. Т. 42. № 5. С. 453. (По Scopus — более 40 ссылок).

На странице Веселовского И.С. есть эта статья с 30 ссылками + она же (как отдельная статья) с 3 ссылками + английский перевод (как отдельная статья) с 8 ссылками + английский перевод (как отдельная статья) с 2 ссылками + английский перевод (как отдельная статья) с 1 ссылкой…

На странице Панасюка М.И. есть эта статья с 22 ссылками + она же (как отдельная статья) с 2 ссылками + английский перевод (как отдельная статья) с 8 ссылками + английский перевод (как отдельная статья) с 1 ссылкой + снова английский перевод (как отдельная статья) с 1 ссылкой…

При выборочной проверке остальных авторов: ни у кого не указано русскоязычной версии статьи вообще, лишь у некоторых есть ссылка на английский перевод с 8 ссылками + он же с 1 или 2 ссылками. [Yermolaev]

За мной значится 2 публикации (одна — в «Бюллетене РФФИ», другая — во второстепенном российском журнале) и 2 ссылки, причем совсем на другую работу. В международных базах у меня 100-140 публикаций и 5000-7000 ссылок, в зависимости от базы данных.

У одного из наиболее известных российских ученых, академика Рубакова, в РИНЦ — 152 публикации и 488 ссылок. Не так плохо, как у меня, но всё же раз в 20 раз меньше, чем в действительности. При этом в список РИНЦ попали работы почти сплошь из западных журналов! Причем ровно тех, в которых публикуюсь и я. Значит, неправда, что РИНЦ фиксирует только ссылки на статьи из отечественных журналов. Может быть, ссылки только из отечественных журналов берутся? Нет, ничего подобного: ссылки идут тоже из каких угодно журналов, включая западные. [ДД]

Всё же по состоянию на сейчас, когда данные из Scopus еще не заложены, откуда взялись нероссийские статьи в РИНЦ?

— Я уже говорил про информацию из списков литературы. Есть и другие источники. Так, в рамках библиотечного проекта РФФИ до 2004 г. на платформе «Научной электронной библиотеки» размещались электронные полнотекстовые версии научных журналов крупнейших зарубежных производителей. Мы обрабатывали эту информацию.

А печально известные списки литературы в форме 509 из отчетов РФФИ как-то использовались?

— Нет. Есть какое-то поверье, что в РИНЦ используются данные из этих форм. Действительно, мы имели некоторое отношение к этому проекту, мы еще 10 лет назад разработали для РФФИ систему «Грант-Экспресс», которая, кстати, до сих пор там еще работает. Но содержание требуемых в заявках форм — это была прерогатива РФФИ. К 509-й форме мы относимся критически, поскольку считаем ее заполнение чрезмерной нагрузкой на грантодержателя.

Как вы сейчас оцениваете полноту и качество РИНЦ?

— В смысле полноты нам еще работать и работать.

Казалось бы, после интеграции со Scopus основная претензия, что отсутствуют статьи в международных журналах и сильно занижено количество ссылок на статьи, будет снята. А качество самого РИНЦ?

— Смотря что понимать под качеством. Обычно почему-то РИНЦ пытаются сравнить с Web of Science и возмущаются, что получаются сильно расходящиеся результаты по числу цитирований, импакт-факторам журналов и т.д. Но ведь это совершенно разные базы данных и по составу, и по количеству журналов, и по архивному наполнению.

Скажем, если ученый больше публикуется в ведущих зарубежных журналах, то у него больше цитирований по Web of Science. И наоборот, если основные работы ученого опубликованы в российских журналах, то и цитирований в РИНЦ у него больше, чем в Web of Science. Есть масса авторов с публикациями в российских журналах, у которых индекс Хирша в РИНЦ больше, чем в Web of Science или Scopus.

То есть мы наказываем тех, кто публикуется в международных журналах? Вот, например, моя самая цитируемая статья — 460 ссылок в Google Scholar, 338 — в Web of Science и 13 — в РИНЦ.

— Где она была опубликована?

В Genome Research.

— Ну, понятно. Вы правильно сказали, после интеграции со Scopus этот вопрос будет снят. Кстати, о Google Scholar: с ними мы тоже заключили соглашение и поставляем в эту поисковую систему информацию из РИНЦ. К сожалению, пока Google Scholar не очень активно используется в России.

Другая проблема — это полнота информации по российским журналам. Оказалось, довольно трудно работать с российскими издательствами. У нас издательства очень маленькие, в среднем издают один-два журнала…

— Это если не считать АИЦ «Наука». А кто еще издает научные журналы, если не считать «экономические» журналы по бухучету? Университеты, которые издают свои вестники?

— Университетов, которые издают 20-25 журналов, мало — Московский, Питерский, Новосибирский, Воронежский… Большинство издают две-три серии. Крупных издателей мало. Академические издательства — это АИЦ «Наука» (150-160 журналов), их питерское отделение (24 журнала), Издательство СО РАН (20 с лишним), а остальное — это 1-2 журнала, которые издает какой-нибудь вуз или академический институт. У нас сейчас в РИНЦ 2400 журналов, а издателей — 1400. С каждым приходится работать отдельно, заключать договора, контролировать поступление данных и т.д.

Возвращаясь к уже обсужденному вопросу: а есть ради чего убиваться?

— Возможно, ради журналов, которые не цитируются, и не стоит, но такие-то как раз сами стараются. Для нас важно охватить в РИНЦ самые цитируемые российские журналы. Некоторые из таких журналов пока отсутствуют в РИНЦ, поскольку попадают в Перечень ВАК автоматически.

— То есть ЖЭТФ отсутствует в списке импакт-факторов РИНЦ, потому что он пренебрег?

— С ЖЭТФ — другая история. Это журнал АИЦ «Наука», однако его макет готовится в редакции. В наш договор он был включен только месяц назад, так же как и «Письма в ЖЭТФ», поэтому в ближайшее время он появится не только в РИНЦ, но и в составе полнотекстовой коллекции журналов издательства «Наука», распространяемой через eLibrary.Ru.

Мы постепенно вычищаем те лакуны, которые есть. Большой объем информации уже накоплен, мы видим, какие журналы качественные, какие не очень. И концентрируемся на качественных; речь не идет о том, чтобы собрать всё-всё. По данным РИНЦ, 1500 самых цитируемых российских журналов (из более 3700) собирают 95% всех ссылок. По большому счету, достаточно их и обрабатывать.

И это будет очередная инкарнация списка ВАК?

— Ну, со списком ВАК — другая история…

— Почему? Казалось бы, очень естественно: если на журнал много ссылок, то он должен быть в списке, а если ссылок нет — то что ему там делать?

— Совершенно верно. Только зачем тогда нужен список ВАК?

То есть — сразу по РИНЦ?

— Ну, конечно.

— Понятно, зачем в свое время был введен список ВАК — чтобы публикации в «мурзилке» не засчитывались как научные. Как любой костыль, это не самый изящный объект, но иногда и костыль бывает полезен. А насколько хорош РИНЦ в качестве такого костыля?

Вы говорите, что по РИНЦ можно делать интересную библиометрию. Но массив данных плохо определен. В Web of Science есть объявленный набор критериев и понятно, с чем можно работать. В РИНЦ есть исторические лакуны, запаздывания, включение журналов по запросу. Насколько можно доверять библиометрии при не очень внятной исходной выборке?

— По сути мы уже ответили на этот вопрос. При условии охвата 1500 самых цитируемых российских журналов и интеграции с данными Scopus — вполне можно.

Кстати, выборка «не очень внятная» и в Web of Science, и в Scopus. Критерии отбора у них, конечно, есть, хотя бы потому, что в противном случае им пришлось бы обрабатывать на порядок больше научных журналов, чем сейчас. Однако какие журналы в них попадают, адекватно ли отражена ситуация во всем мире -это вопрос очень непростой. Ни в одной базе нет такого, чтобы, скажем, были представлены все журналы за одинаковый период времени. Постоянно одни журналы добавляются, какие-то другие удаляются.

Пере-

Я подавала в РФФИ проекты на издательские гранты, так вот гранты не дали, а 2 несуществующие публикации с теми самыми названиями в списке моих статей присутствуют. [ЕЛ]

Откуда так много статей? … либо двойное упоминание, либо учитываются и сама статья, и перевод, и отдельно реферат (это просто не лезет ни в какие ворота!) [abva]

Одна и та же статья фигурирует 4 раза, ссылки явно из отчета РФФИ /Alexei]

У меня расхождение ISI с РИНЦем в ИЦ не на три порядка, а всего в 30 раз. Зато в списке засчитанных РИНЦем статей приятные бонусы: три статьи засчитаны по три раза; Journal of Applied Physics (присутствует во всех трех тройках) — просто подарок, я в таком журнале никогда не публиковался; еще три зачтенные публикации — отчеты по грантам РФФИ, включенные в «Информационный бюллетень РФФИ». [VYLunin]

Меня скорее беспокоят не лакуны, а журналы, которые научными по большому счету не являются. Особенно в общественных науках. Где грань между экономикой как наукой и пособием для бухгалтеров?

— Но для конкретной публикации это не так важно: если публикация не научная, на нее и ссылок из научных статей не будет, сколько журналов ни бери. Полторы тысячи журналов обработали — потом прироста ссылок практически уже не будет. Еще раз повторю: важнее, чтобы не было пробелов в хороших журналах.

Недавно на Scientific.ru обсуждался список импакт-факторов РИНЦ. Он выглядит довольно парадоксально. Скажем, для биологических журналов, в которых я что-то понимаю, он совсем не соответствует представлениям о их реальной силе.

— Маленькие импакт-факторы?

Не столько маленькие, сколько порядок журналов странный, он противоречит и репутации в сообществе, и импакт-факторам Web of Science. Причем отличия могут быть в разы.

— Сейчас данные есть, это объективная вещь, можно анализировать, почему так получается. Одна из возможных причин — разная популярность наук за рубежом и в России.

Я говорил только про биологию.

— Всё равно, есть, наверное, разные направления в биологии. Чем-то в России занимаются больше, чем-то вообще не занимаются. Именно поэтому напрямую сравнивать сложно, надо смотреть все в комплексе.

Вообще, список импакт-факторов РИНЦ выглядит забавно. Вы знаете, кто там лидер?

— Да, конечно, «Сибирский педагогический журнал» (на момент интервью; сейчас — уже нет. — МГ).

А вы знаете, как это получилось? Там в статьи формально, вне всякой связи с текстом, были вставлены ссылки на статьи в том же журнале, причем на последние два года. То есть специально учитывался алгоритм подсчета импакт-факторов.

— Мы всё это прекрасно знаем.

Предполагается как-нибудь отслеживать подобные ситуации?

— Сам факт того, что доступна такая аналитика, позволяет это сделать. Мы же видим в профиле журнала, что у него самоцитирование составляет 96%. Ситуация очевидна. Видно и что цитирование идет на последние два года. Есть, кстати, и более изощренные манипуляции с накруткой импакт-факторов. Например, когда у издательства не один журнал, а несколько: публикуются формальные обзоры, в которых просто перечисляются статьи в других журналах, и так в каждом номере -это тоже прекрасно видно.

Мимо

Откуда-то взялись статьи в Asian Pacific Journal of Cancer Prevention, похоже, они его путают с ApJ (Astrophysical Journal) [Pasha]

У Засова Анатолия Владимировича посчитано всего 96 публикаций, из них 16 — с 1973 по 2006 г. в не известном никому из нас журнале Zhongguo Hangkong Taikong Xuehui Huikan. Причем выходные данные статей в тайваньском журнале подозрительно буквально воспроизводят выходные данные реальных статей в отечественном «Астрономическом журнале». Неужели тайваньцы перепечатывают полный АЖ, чтобы следить за российскими достижениями в астрономии? Информация РИНЦ по тайваньскому журналу: всего 6 выпусков, все с 2002 по 2005 г., 3 статьи (из разных наук, ни одной из астрономии), 3733 цитирований. То есть совершенно не связанные между собой базы данных и какой-то полный сюр в опознании статей по авторам. <[OC]

Можно привести примеры?

— Например, Воронежское ООО «Научная книга». У них четыре журнала, которые друг друга цитируют. В общем и журналы-то неплохие, но вот используют такие методы.

Казалось бы, за это канделябром надо бить?

— Да, но кто будет бить?

Web of Science бьет просто путем исключения из своих списков.

— Мы пока так не делаем. Однако и такие ложные цитирования не засчитываем при расчете показателей журнала. Если же такая практика будет распространяться — сделаем дополнения в Регламент включения журналов в РИНЦ и будем действительно исключать.

В свое время «Журнал научных публикация аспирантов и докторантов» судился с ВАК в арбитражном суде, когда его исключили из списков. Правда, проиграл.

— С нами бесполезно судиться, мы же не ВАК, мы создаем базу данных по установленным нами правилам. Так же, как, впрочем, и Web of Science.

Но у вас есть монопольное положение на этом рынке в России. Все-таки, возвращаясь к вопросу о качестве. Скажем, дублирование статей: я нашел статью, которая фигурирует в РИНЦ четырежды как разные объекты.

— Скорее всего, у нее слева стоит пометка «REF». Это означает, что эта запись извлечена из пристатейных списков литературы. Но там, естественно, есть варианты и опечатки. Если описание этой статьи появится в базе из более достоверных источников, данные будут объединены.

В цель

В РИНЦ большинство раздражает даже не перекос в российские журналы, а совершенно дикий технический уровень того, что сделано. Они на сегодняшний день не могут адекватно посчитать статьи наших ученых в наших журналах. Выдумывают какие-то липовые публикации, липовые журналы, на порядки не сходится арифметика даже в их собственных, выложенных в открытый доступ таблицах. [OC]

В принципе, e-library с выложенными в ней статьями в российских журналах — дело нужное, особенно для гуманитарных и прикладных наук. Это можно приветствовать. И выкладывание библиографий к статьям — дело нужное. Но индекс цитирования и прочие хирши считать по такой базе данных — дело странное. А уж тем более использование ее чиновниками для чего-то, с оценкой организаций и людей вообще недопустимо. [akg]

Имейте в виду, что по ходу обсуждения РИНЦ здесь, на «Сайнти-фике», цифры по индивидуальным авторам непрерывно корректируются. Вот просто на глазах. [OC]

Я раскритиковал, если не сказать — разнес, РИНЦ, имея в тот момент 17 ссылок по их классификации. Из них половина — отчеты по РФФИ. Это я проделал два или три раза пару лет назад на своем и каких-то других примерах. Результат — у меня сейчас 417 ссылок: значит, читают и приспосабливаются к «центрам негативной информации». [Александр Андрианов]

Их неосмотрительность подпадает под статью о подрыве деловой репутации. Коллективный иск вполне имеет перспективы. [Засим]

Ребята, хотите делать что-нибудь полезное — изучайте вопрос, в частности как коррелируют ваши результаты с общеизвестными, и учитесь. И публикуйте только после того, как получите вразумительную картину и сможете прокомментировать наблюдаемые отклонения. А то сейчас этой хренью начнут чиновники пользоваться… За это ведь отвечать придется когда-то! [Б.Штерн]

По какому сегменту РИНЦ можно считать полным, во всяком случае в перспективе? Скажем, договор со Scopus вроде бы гарантирует полноту с 1996 г.

— Конечно, по российским журналам тоже хорошо было бы с 1996 г. обработать, но на это потребуется финансирование, которого сейчас у нас нет. Пока можно считать, что с 2006 г. всё полно. Если у журнала есть импакт-фактор РИНЦ, это значит, что все выпуски этого журнала за это время были обработаны.

Как вы отождествляете авторов? Скажем, мне приписаны несколько статей в журнале Discount Merchandiser (на момент интервью. — МГ), к которым я отношения совсем не имею, да и научными они не являются ни в каком смысле, это чисто промышленные заметки.

— А инициалы там совпадают?

Один совпадает, а второго у него нет. Еще есть человек из Южной Африки, с ним у нас и инициалы совпадают, и область близка — тут уже мы получаемся совсем один человек (на момент интервью. — МГ).

— Проблема привязки публикаций к автору — это отдельный вопрос. Причем эта проблема характерна для всех баз данных. Web of Science и Scopus, так же как и РИНЦ, пытаются кластеризовать публикации по авторам, но привязки к конкретному ученому, с полными фамилией, именем и отчеством, не делают.

Web of Science делает.

— Не делает. Если бы всё было так просто, то для списка самых цитируемых российских ученых на Scientific.ru достаточно было бы просто выгрузить этот список из Web of Science.

Я смотрел про себя, там хорошая прочистка сделана. Не 100%, но с минимальными ошибками; иногда отсутствуют статьи, где я писал один инициал, а не два. Но химер нет.

— Просто вам повезло — у вас не очень много однофамильцев в среде известных мировых ученых. Из нашего опыта работы с базами данных по цитированию могу сказать, что для активно публикующегося ученого с не очень редкой фамилией полная выверка информации по Web of Science или Scopus может занять несколько часов даже у специалиста. Просто взяв один из предрассчитанных авторских профилей, вы получите с большой вероятностью цифры, сильно отличающиеся от реальных.

Вот этот M. Gelfand из Discount Merchandiser. Видимо, он идет по экономике. На суммарной страничке указано, что у меня есть пять статей по экономике (на момент интервью. МГ), я попробовал их найти поиском по области — не получилось. Выходит, суммарно идет одна информация, а в самой базе — другая. Как это получается?

— Скорее всего, дело в том, что тематика статьи ставится по тематике журнала. Если он междисциплинарный, но не разделен по секциям, то его тематики приписываются всем статьям. Для того, чтобы рубрицировать каждую статью, нужно очень много сотрудников. Этого не делают ни в Web of Science, ни в Scopus — везде идет рубрикация на уровне журналов.

Сколько сейчас человек занимается работой над проектом?

— Человек тридцать. Конечно, для такого проекта это мало.

Еще одно такое же наблюдение. На суммарной странице у меня указано 75 публикаций в российских журналах, из них в журналах списка ВАК — 35. То есть 40 публикаций — неизвестно где. Откуда они взялись, простым просмотром установить не удалось. Всего указано 718 ссылок. А если пойти на «профиль автора» и просуммировать приведенную там гистограмму по цитированиям, то получается уже примерно 1900. Опять: откуда берется такое несогласование? Суммарная страница генерируется не на основании базы?

— Скорее всего, это связано с обработкой данных из Scopus. Какие-то цифры уже показываются с учетом этих данных, какие-то еще нет. Через некоторое время всё нормализуется.

Последний вопрос, к которому мы несколько раз уже подходили. Вы подчеркиваете, что РИНЦ — это замечательный инструмент для библиометрии. А насколько он хорош как инструмент для принятия административных решений?

— Административные решения — это более серьезный шаг, который требует разработки методики использования данных РИНЦ в зависимости от того, какая цель ставится. В настоящее время в основном в этих методиках используются простейшие показатели — число публикаций, число цитирований, импакт-фактор журнала. Мы сейчас разработали целый ряд новых показателей для оценки журналов и организаций, позволяющих более корректно сравнивать их между собой.

Как отождествляются разные названия организаций?

— Есть нормативный список, к которому мы пытаемся приписать другие написания.

Но тем не менее. Я видел несколько проектов документов, и РАН, и Минобрнауки, в которых предписывается пользоваться данными РИНЦ. При обсужденных нами проблемах не приведет ли это к искажениям? Никто же не будет делать этих прочисток, будут пользоваться суммарными данными. Я бы хотел получить по этому поводу официальное разъяснение.

— Насчет суммарных данных мы согласны. Было бы методически более правильно дать возможность авторам и организациям самим искать и выверять свои данные, а не полагаться на их автоматическую привязку. И мы им такую возможность скоро предоставим. Пока же эту работу делаем мы сами по запросам отдельных авторов и организаций, которых, кстати, в последнее время становится всё больше и больше.

Что касается ведомств, выпускающих эти методики, то их тоже можно понять — им нужно, по возможности, простое, легко проверяемое решение, причем доступное для всех. В любом случае наша задача — сделать суммарные данные максимально приближенными к реальным, которые можно получить путем кропотливого поиска и отбора публикаций и цитирований в базе данных.

И потом, не очень хорошо определено покрытие, и, скажем, человек, который публиковался в начале 2000-х, окажется в проигрышном положении по сравнению с человеком, который публиковался в конце 2000-х.

— Если требуется привести данные за все годы, то да. Но в большинстве методик требуются данные за последние 5 лет. Здесь покрытие уже вполне адекватное. Что можно сделать? РИНЦ — динамичный проект. На данный момент есть вот такой массив, он вовсе не такой маленький.

Дело не в размере, а в том, что не очень хорошо определено покрытие. Есть небольшой интервал, где все сделано аккуратно, а вне его многое определяется случайными факторами. Все-таки я вернусь к первоначальной формулировке. Как авторы проекта считаете ли вы, что РИНЦ в текущем состоянии является адекватным инструментом для принятия административных решений?

— В принципе мы уже ответили на этот вопрос. Без головы, без дополнительного труда использовать нельзя никакие базы, в том числе и Web of Science. Если, скажем, вы возьмете просто импакт-факторы журналов и не будете понимать, что они от тематики к тематике могут сильно отличаться, то вы получите некорректный результат.

Вы ступили на опасный путь: я спрашиваю, готов ли РИНЦ, а вы отвечаете, что и Web of Science тоже хорош. Если сравнивать с Web of Science, то можно по пунктам смотреть, чем РИНЦ хуже. Скажем, одна статья в четырех копиях в Web of Science не встречается…

— Встречается. Запустите поиск по ссылкам (Cited Reference Search) в Web of Science — там это прекрасно видно. Ошибка в номере страницы — и это уже другая статья. Еще раз: у нас в списке статей автора информация из ссылок сейчас показывается вместе с информацией из основной базы, а в Web of Science — нет.

в Web of Science отсутствует журнал Discount Merchandiser…

— Он действительно не обрабатывается ни в Web of Science, ни в РИНЦ, но есть ссылки на статьи в этом журнале. Поищите в ссылках в Web of Science, вы их найдете.

…ситуаций, когда фамилия автора в записи идет в качестве названия статьи, тоже нет…

Я хочу получить четкий ответ. Конечно, вы мне его сейчас не дадите, и мы так и запишем. Но я хочу услышать от вас утверждение: «Просто использовать сырые результаты РИНЦ для оценки чего бы то ни было является административно порочным деянием». Да или нет?

— И да, и нет. Если к этому процессу подойти аккуратно, то уже сейчас можно получить объективную картину. Если вас смущают предрассчитанные данные в списках авторов или организаций — в конце концов проведите поиск в РИНЦ самостоятельно. Для этого есть все необходимые средства в интерфейсе РИНЦ. Да, это займет какое-то время, но без такой кропотливой работы вы не получите корректных результатов ни в одной системе учета цитирования.

К любой статистике надо подходить с головой, с этим никто не спорит. Но тут же приходится вычищать ошибки самой базы.

— Ошибки есть в любой базе -они неизбежны при таких объемах информации.

Поэтому все данные нужно обязательно проверять и выверять — без этого никак. И если вы работаете с Web of Science или Scopus, вы же тоже получите список, и вам придется учитывать разные написания, просматривать статьи, убирать то, что не относится к делу.

Но в РИНЦ этой работы приходится делать на несколько порядков больше, и, похоже, потери тоже гораздо существеннее. И чувствительность, и специфичность поиска куда хуже.

— Если вы хотите от нас услышать, что Web of Science более качественный информационный продукт, то, безусловно, это так, с этим бессмысленно спорить. Только Web of Science существует уже больше пятидесяти лет, а РИНЦу пока всего несколько лет.

Спасибо, это ответ на мой вопрос — Web of Science использовать можно, а РИНЦ использовать рано.

— И то, и другое использовать можно и нужно, но с определенными допущениями и с пониманием того, что ты делаешь. Объем ссылочной массы в РИНЦ уже достаточен для аналитики. Тенденции, которые видны, вполне разумные, а ошибки могут поменять детали, но не качественную картину. Ну и давайте все-таки дождемся интеграции данных РИНЦ и Scopus, а потом вернемся к этому разговору.

Геннадий Еременко: Web of Science тоже ошибается
Недавно по всем новостным лентам прошло сообщение, в котором самым цитируемым российским автором был назван академик Владимир Игоревич Арнольд. То же самое написано и в статье «Википедии», посвященной этому известному ученому, со ссылкой на список самых цитируемых российских ученых на сайте Scientific. ru [1]. В этом списке, по данным ISI на 2009 г., число цитирований работ В.И. Арнольда превышает 22 тыс., что действительно больше, чем у других российских авторов, причем такой высокий уровень наблюдается и в списках предыдущих лет. В.И. Арнольд, безусловно, выдающийся ученый, но самым цитируемым автором не может быть просто потому, что он математик. Математики не очень активно цитируют своих коллег, среднее число ссылок в статьях по математике в несколько раз меньше, чем, скажем, в химии или биологии. Да и самих математиков не так много по сравнению с количеством ученых в других областях наук. На самом деле, суммарное число цитирований работ академика В.И. Арнольда, по данным Web of Science с 1955 г, составляет около 1300. Для сравнения, по данным РИНЦ у него почти 2000 цитирований.

И это далеко не единственный случай ошибок в расчетах на основе Web of Science. В 2004 г. составители списков самых цитируемых ученых на сайте Scientific.ru в статье в «Независимой газете» [2] с удивлением обнаружили, что число цитирований другого лидера списка, академика В.Л. Гинзбурга, за один год таинственным образом увеличилось с 10 тыс. до 17. На самом деле, согласно «последним» данным Web of Science, общее число цитирований В.Л. Гинзбурга составляет около 6000, и каждый год это число увеличивается в среднем на 100 цитирований.

1. www.scientific.ru/whoiswho/gt1000_8.html; 2. www.ng.ru/science/2004-09-08/14_index.html

Комментарий главного редактора «Троицого варианта», создателя проекта «Индекс цитируемости российских ученых» на Scientific.ru Бориса Штерна

Данное высказывание Г. Еременко попросту ошибочно. Цифры, которые приводятся выше, свидетельствует о том, что он просто не туда смотрел, пользуясь базой данных ISI. Там можно запросить «citation report» — полное число цитирований работ, опубликованных в журналах, обрабатываемых ISI. Туда не попадают ни монографии, ни многие наши старые журналы, ни ссылки, написанные «неканоническим» образом. Всё это надо получать по запросу «cited reference search» — там учтены любые ссылки на данного человека, появившиеся в статьях ISI-шных журналов без разбора, на какое издание ссылка. Но тут уж надо суммировать самому. Отсюда и получается разница: 1300 — ссылки на статьи В.И. Арнольда в журналах, обработанных ISI, и 22000 — все ссылки. Разница особенно велика именно для ученых старшего поколения, к тому же широко пользовавшихся нежурнальными каналами распространения информации.