Санкт-Петербург
14–15 ноября 2019

Доклады и мастер-классы

Бенчмаркинг коллекций научных журналов

  • Voice Interfaces / Natural lang. processing
  • Принят

14 ноября, 13:50
Room III|III зал
Добавить в gCal    Добавить в iCal/Outlook

Обсудить доклад

Доклад о применении интеллектуального анализа текста для решения задач издательского бизнеса. Поиск постановки задачи, методов анализа, построения моделей, оптимизация свободных параметров и подготовка для создания продукта.

Польза доклада в том, что постановку задачи всегда нужно искать самому, т.к. ждать, что кто-то поставит задачу, подготовит данные — не продуктивно. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям.

Сейчас можно получить работу, умея лишь запустить стандартный метод из открытой библиотеки. Но через 5 лет уже будет не так. Нужно будет понимать формулы за этим методом, уметь придумать и написать нестандартную нормализацию или нестандартную cost function для этого случая и многое другое.

Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели.

Разработанная методика получила название Сравнительного Тематического Анализа (СТА).
СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами.

В данном исследовании проведено сравнение существующих подходов к тематическому моделированию применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели.

Аудитория: Applied Data Scientists.

фото Федор Краснов, Газпромнефть НТЦ

Федор Краснов

Эксперт, Газпромнефть НТЦ

Инженер с 20-летним опытом работы в ИТ компаниях. Окончил Московский Инженерно-Физический Институт, факультет Теоретической и Экспериментальной физики, кандидат технических наук.