Оценка программных библиотек для выявления именованных сущностей для анализа данных

Аннотации

Авторы

  • И. Соколов Национальный исследовательский ядерный университет «МИФИ» (Московский инженерно-физический институт), Москва
  • Е. Антонов Национальный исследовательский ядерный университет «МИФИ» (Московский инженерно-физический институт), Москва; Российский экономический университет им. Г. В. Плеханова, Москва
  • А. Артамонов Национальный исследовательский ядерный университет «МИФИ» (Московский инженерно-физический институт), Москва

Аннотация

Важной областью анализа данных является технология обработки естественного языка, включая распознавание именованных сущностей. Проведено исследование для выбора наилучших программных пакетов для этой задачи в русском новостном тексте. Составлен корпус из 70 статей из разных источников, сравнивались пакеты «Natasha», «SpaCy», «Stanza» и «DeepPavlov». Эксперименты включали как ручное, так и программное извлечение именованных сущностей, а также вычисление метрик. Результаты исследования показали, что комбинация «Natasha» и «Stanza» позволяет достичь полного извлечения сущностей в русском новостном тексте.

Опубликован

2024-06-01

Выпуск

Раздел

Статьи