St.Petersburg, Russia
November 14–15, 2019|Санкт-Петербург
14–15 ноября 2019

Talks & master-classes|Доклады и мастер-классы

Development of the Automatic Text Analysis Framework for the Russian Language and its Application for Software Tools|Разработка фреймворка автоматического анализа текста на русском языке и его применение для решения прикладных задач

  • Programming / Tools
  • Voice Interfaces / Natural lang. processing
  • Accepted|Принят

November 14, 13:30|14 ноября, 13:30
Room III|III зал
Add to gCal|Добавить в gCal    Add to iCal/Outlook|Добавить в iCal/Outlook

Discuss the presentation|Обсудить доклад

[lang_en]

The use of linguistic analysis based on the accumulated experience in the field of computer linguistics allows us to simplify processing of huge amounts of text information and opens up new opportunities for automating text documents processing.

There is a problem of finding suitable tools, adapting them to work with texts in the Russian language, and integrating with each other makes it difficult to use them both for research purposes and in industrial systems, therefore, we present a new open source Java framework TAWT that provides convenient ready-made tools and data structures for the main stages of text analysis for the Russian language which meets modern requirements for performance, reliability, project assembly tools, etc., the framework is demonstrated on automating some technical documentation tasks.

The framework is demonstrated on the example of automating some technical documentation preparation tasks, TAWT can be useful for developers of research tools or applied software for implementing new functions or improving the quality of text processing by applying linguistic analysis methods, as well as for developers of automated tools to reduce routine tasks working with different types of documentation.

[/lang_en][lang_ru]

Применение лингвистического анализа, основанного на использовании накопленного опыта в области компьютерной лингвистики, позволяет упростить работу с огромными объемами текстовой информации и открывает новые возможности для автоматизации обработки текстовых документов.

Проблема поиска подходящих инструментов, адаптация их для работы с текстами на русском языке и интеграция друг с другом затрудняет их применение в исследовательских целях и делает практически невозможным их использование в прикладных системах, поэтому в докладе предлагается новый разработанный Java-фреймворк с открытым исходным кодом TAWT, предоставляющий удобные готовые инструменты и структуры данных основных этапов анализа текста на русском языке и отвечающий современным требованиям к производительности, надежности, механизмам сборки проектов и т.д.

Демонстрируется применение фреймворка на примере автоматизации некоторых задач при подготовке технической документации, TAWT может быть полезен разработчикам исследовательских инструментов для улучшения качества обработки текстов путем применения методов лингвистического анализа, командам разработки прикладного ПО для реализации новых функций в продуктах и разработчикам автоматизированных средств для сокращения рутинных действий при работе с разного вида документацией.

[/lang_ru]

Ekaterina Politsyna photo|Екатерина Полицына фото

Ekaterina Politsyna|Екатерина Полицына

Associate Professor|Доцент, Moscow Aviation Institute|Московский авиационный институт

[lang_en]Graduated from the MATI-RSTU named after K.E. Tsiolkovsky, the department «Computer systems design», PhD in technical sciences. More than 10 years of experience in software development, system design, project management in a number of companies. More than 14 years in the field of scientific research in computer linguistics developing algorithms and tools for automatic text processing in Russian. Participant of Russian and international conferences and competitions.[/lang_en]

[lang_ru]Выпускник МАТИ-РГТУ им. К.Э. Циолковского, кафедры “Проектирование вычислительных комплексов”, кандидат технических наук. Более 10 лет опыта разработки программного обеспечения, проектирования систем, управления процессом разработки в ряде компаний. Областью научных исследований на протяжении 14 лет является компьютерная лингвистика, занимается разработкой алгоритмов и инструментов автоматического анализа текстов на русском языке. Участник российских и международных конференций и конкурсов.[/lang_ru]


Sergey Politsyn|Сергей Полицын

Associate Professor|Доцент, Moscow Aviation Institute|Московский авиационный институт

[lang_en]Graduated from the MATI-RSTU named after K.E. Tsiolkovsky, the department «Computer systems design», PhD in technical sciences. More than 10 years of experience in software development, test automation, and project management. Co-researcher in computer linguistics. Participant of Russian and international conferences and competitions.[/lang_en]

[lang_ru]Выпускник МАТИ-РГТУ им. К.Э. Циолковского, кафедру “Проектирование вычислительных комплексов”, кандидат технических наук. Более 10 лет опыта разработки программного обеспечения, автоматизации тестирования и управления проектами. Занимается исследованиями в области автоматизированного анализа текста. Участник российских и международных конференций и конкурсов.[/lang_ru]


Alexander Porechny|Александр Поречный

Postgraduate student|Аспирант, Moscow Aviation Institute|Московский авиационный институт

[lang_en]Postgraduate student of the Moscow Aviation Institute (National Research University), department of “Intellectual Monitoring Systems”. At the present time a server software developer. Has practical experience in developing applications based on the microservice architecture and load testing. Engaged in research and development of computer linguistics software for more than 3 years. Participant of Russian and international conferences.[/lang_en]

[lang_ru]Аспирант НИУ МАИ кафедры “Системы интеллектуального мониторинга”. Разработчик серверной части ПО, имеет практический опыт разработки приложений на микросервисной архитектуре и проведения нагрузочного тестирования ПО. Занимается научно-исследовательской деятельностью и разработкой ПО в области компьютерной лингвистики более 3 лет. Участник российских и международных конференций.[/lang_ru]