Skip to content
GitLab
  • Menu
Projects Groups Snippets
  • /
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
  • S SciBoard
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 8
    • Issues 8
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Packages & Registries
    • Packages & Registries
    • Container Registry
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • Yaroslav
  • SciBoard
  • Issues
  • #1
Closed
Open
Created Sep 02, 2019 by Алексей Климентов@alexei.klimentovMaintainer

possible use-cases and filters

лист возможных use-cases и фильтров для начального этапа работы с данными из Inspire-HEP (по результатам обсуждения в ИСП РАН 29.08.19)

Предположения : Источник информации (“inspire”) : inspire (http://inspirehep.net) inspire dump (“dump”) - каталог, содержащий 1,300,000 записей inspire meta (“meta”) - мета-информация для каждой из записей из dump PDF docs (“pdf”) - текстовая информация для записей

Возможный сценарий (двухшаговый) :

  • “dump” и “meta” “выгружаются” из “inspire” полностью и помещаются в ES / kibana
  • pdf выгружается только для записей, отобранных после фильтрации

Описание возможных фильтров и use-cases для отбора статей для (по) данных полученных на БАК

Уровни фильтрации (в порядке увеличения сложности)

  1. все записи в inspire, при поиске по слову ‘LHC’ (~69.5k записей)
  2. отбор тезисов диссертаций (thesis)
  3. отбор статей опубликованных экспериментами
    предположения : 1. мета информация содержит слова CMS/ATLAS/LHCb/ALICE Collaboration 2. заголовок содержит название эксперимента : CMS/ATLAS/LHCb/ALICE
  4. отбор статей опубликованных Российскими учеными (Университетами), не входящими в 1.1.3 и 1.1.2

use-cases :

  1. для записей из (3) на основе библиографических данных (предполагается, что meta содержит полную библиографию статьи (из раздела bibliography или references) получить перекрестные ссылки на статьи и определить наиболее часто упоминаемые статьи
  2. для записей из (2) : количество тезисов по коллаборациям для России
  3. для записей из (2,3,4) 3.1 количество записей по физическим результатам 3.2 количество записей, связанных с IT, DAQ, computing, SW 3.3 количество записей, связанных с разработкой детекторов 3.4 поиск наиболее цитируемых (имеющим наибольшее количество ссылок) статей

один из сценариев "выгрузки" :

  1. определить объем (2,3 и 4) 1.1 при слишком большом объеме (“большой объем” : TBD) применить дополнительную фильтрацию по годам, например записи за последние N лет) 1.2 для 1.1.3 и 1.1.4 (после доп.отбора 5.1) получить тексты и провести поиск ссылок на гранты РФ
Assignee
Assign to
Time tracking