St.Petersburg, Russia
November 14–15, 2019|Санкт-Петербург
14–15 ноября 2019

Talks & master-classes|Доклады и мастер-классы

Benchmarking collections of scientific journals|Бенчмаркинг коллекций научных журналов

  • Voice Interfaces / Natural lang. processing
  • Accepted|Принят

November 14, 13:50|14 ноября, 13:50
Room III|III зал
Add to gCal|Добавить в gCal    Add to iCal/Outlook|Добавить в iCal/Outlook

Discuss the presentation|Обсудить доклад

[lang_en]
The authors proposed a new technique for pairwise comparison of collections of scientific articles using the topic model.

The developed methodology is called Comparative Topic Analysis (CTA).

CTA allows you to get not only a quantitative assessment of the similarity of collections, but also the structural differences of the compared collections, both in quantitative form and with the help of visualization tools developed by the authors.

This study compares existing approaches to topic modelling in application to the task of comparing collections of scientific papers.

Probabilistic and generative topic models are considered.

Target audience: Applied Data Scientists.

[/lang_en][lang_ru]
Доклад о применении интеллектуального анализа текста для решения задач издательского бизнеса. Поиск постановки задачи, методов анализа, построения моделей, оптимизация свободных параметров и подготовка для создания продукта.

Польза доклада в том, что постановку задачи всегда нужно искать самому, т.к. ждать, что кто-то поставит задачу, подготовит данные — не продуктивно. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям.

Сейчас можно получить работу, умея лишь запустить стандартный метод из открытой библиотеки. Но через 5 лет уже будет не так. Нужно будет понимать формулы за этим методом, уметь придумать и написать нестандартную нормализацию или нестандартную cost function для этого случая и многое другое.

Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели.

Разработанная методика получила название Сравнительного Тематического Анализа (СТА).
СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами.

В данном исследовании проведено сравнение существующих подходов к тематическому моделированию применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели.

Аудитория: Applied Data Scientists.
[/lang_ru]

Fedor Krasnov, Gazpromneft STC photo|фото Федор Краснов, Газпромнефть НТЦ

Fedor Krasnov|Федор Краснов

|Эксперт, Gazpromneft STC|Газпромнефть НТЦ

[lang_en]

Engineer with 20 years of experience in IT companies. Graduated from the Moscow Engineering physics Institute, faculty of Theoretical and Experimental physics, candidate of technical Sciences.

[/lang_en][lang_ru]

Инженер с 20-летним опытом работы в ИТ компаниях. Окончил Московский Инженерно-Физический Институт, факультет Теоретической и Экспериментальной физики, кандидат технических наук.

[/lang_ru]