Бенчмаркинг коллекций научных журналов
- Voice Interfaces / Natural lang. processing
- Принят
14 ноября, 13:50
Room III|III зал
Добавить в gCal Добавить в iCal/Outlook
Обсудить доклад
Доклад о применении интеллектуального анализа текста для решения задач издательского бизнеса. Поиск постановки задачи, методов анализа, построения моделей, оптимизация свободных параметров и подготовка для создания продукта.
Польза доклада в том, что постановку задачи всегда нужно искать самому, т.к. ждать, что кто-то поставит задачу, подготовит данные — не продуктивно. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям.
Сейчас можно получить работу, умея лишь запустить стандартный метод из открытой библиотеки. Но через 5 лет уже будет не так. Нужно будет понимать формулы за этим методом, уметь придумать и написать нестандартную нормализацию или нестандартную cost function для этого случая и многое другое.
Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели.
Разработанная методика получила название Сравнительного Тематического Анализа (СТА).
СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами.
В данном исследовании проведено сравнение существующих подходов к тематическому моделированию применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели.
Аудитория: Applied Data Scientists.
Федор Краснов
Эксперт, Газпромнефть НТЦ
Инженер с 20-летним опытом работы в ИТ компаниях. Окончил Московский Инженерно-Физический Институт, факультет Теоретической и Экспериментальной физики, кандидат технических наук.