Оценка программных библиотек для выявления именованных сущностей для анализа данных

Аннотации

Авторы

  • И. Соколов
  • Е. Антонов
  • А. Артамонов

Аннотация

Важной областью анализа данных является технология обработки естествен-
ного языка, включая распознавание именованных сущностей. Проведено иссле-
дование для выбора наилучших программных пакетов для этой задачи в русском
новостном тексте. Составлен корпус из 70 статей из разных источников, срав-
нивались пакеты «Natasha», «SpaCy», «Stanza» и «DeepPavlov». Эксперименты
включали как ручное, так и программное извлечение именованных сущностей, а
также вычисление метрик. Результаты исследования показали, что комбинация
«Natasha» и «Stanza» позволяет достичь полного извлечения сущностей в русском
новостном тексте.

Опубликован

2024-06-01

Выпуск

Раздел

Статьи