Оценка программных библиотек для выявления именованных сущностей для анализа данных
Аннотации
Аннотация
Важной областью анализа данных является технология обработки естествен-
ного языка, включая распознавание именованных сущностей. Проведено иссле-
дование для выбора наилучших программных пакетов для этой задачи в русском
новостном тексте. Составлен корпус из 70 статей из разных источников, срав-
нивались пакеты «Natasha», «SpaCy», «Stanza» и «DeepPavlov». Эксперименты
включали как ручное, так и программное извлечение именованных сущностей, а
также вычисление метрик. Результаты исследования показали, что комбинация
«Natasha» и «Stanza» позволяет достичь полного извлечения сущностей в русском
новостном тексте.
Опубликован
2024-06-01
Выпуск
Раздел
Статьи