possible use-cases and filters
лист возможных use-cases и фильтров для начального этапа работы с данными из Inspire-HEP (по результатам обсуждения в ИСП РАН 29.08.19)
Предположения : Источник информации (“inspire”) : inspire (http://inspirehep.net) inspire dump (“dump”) - каталог, содержащий 1,300,000 записей inspire meta (“meta”) - мета-информация для каждой из записей из dump PDF docs (“pdf”) - текстовая информация для записей
Возможный сценарий (двухшаговый) :
- “dump” и “meta” “выгружаются” из “inspire” полностью и помещаются в ES / kibana
- pdf выгружается только для записей, отобранных после фильтрации
Описание возможных фильтров и use-cases для отбора статей для (по) данных полученных на БАК
Уровни фильтрации (в порядке увеличения сложности)
- все записи в inspire, при поиске по слову ‘LHC’ (~69.5k записей)
- отбор тезисов диссертаций (thesis)
- отбор статей опубликованных экспериментами
предположения : 1. мета информация содержит слова CMS/ATLAS/LHCb/ALICE Collaboration 2. заголовок содержит название эксперимента : CMS/ATLAS/LHCb/ALICE - отбор статей опубликованных Российскими учеными (Университетами), не входящими в 1.1.3 и 1.1.2
use-cases :
- для записей из (3) на основе библиографических данных (предполагается, что meta содержит полную библиографию статьи (из раздела bibliography или references) получить перекрестные ссылки на статьи и определить наиболее часто упоминаемые статьи
- для записей из (2) : количество тезисов по коллаборациям для России
- для записей из (2,3,4) 3.1 количество записей по физическим результатам 3.2 количество записей, связанных с IT, DAQ, computing, SW 3.3 количество записей, связанных с разработкой детекторов 3.4 поиск наиболее цитируемых (имеющим наибольшее количество ссылок) статей
один из сценариев "выгрузки" :
- определить объем (2,3 и 4) 1.1 при слишком большом объеме (“большой объем” : TBD) применить дополнительную фильтрацию по годам, например записи за последние N лет) 1.2 для 1.1.3 и 1.1.4 (после доп.отбора 5.1) получить тексты и провести поиск ссылок на гранты РФ