Оценка программных библиотек для выявления именованных сущностей для анализа данных
Аннотации
Аннотация
Важной областью анализа данных является технология обработки естественного языка, включая распознавание именованных сущностей. Проведено исследование для выбора наилучших программных пакетов для этой задачи в русском новостном тексте. Составлен корпус из 70 статей из разных источников, сравнивались пакеты «Natasha», «SpaCy», «Stanza» и «DeepPavlov». Эксперименты включали как ручное, так и программное извлечение именованных сущностей, а также вычисление метрик. Результаты исследования показали, что комбинация «Natasha» и «Stanza» позволяет достичь полного извлечения сущностей в русском новостном тексте.
Опубликован
2024-06-01
Выпуск
Раздел
Статьи

