Повнотекстовий пошук
Пошуковий запит: (<.>AT=Погорілий Автоматизована екстракція структурованої інформації$<.>) |
Загальна кількість знайдених документів : 1
|
1. |
Погорілий С. Д. Автоматизована екстракція структурованої інформації з множини веб сторінок [Електронний ресурс] / С. Д. Погорілий, А. А. Крамов // Проблеми програмування. - 2018. - № 2-3. - С. 149-158. - Режим доступу: http://nbuv.gov.ua/UJRN/Progr_2018_2-3_19 Обгрунтовано доцільність використання методу Trinity для екстракції даних у порівнянні з іншими методами. Показано проблему вибору вхідних документів методу серед множини HTML-сторінок для формування узагальненого шаблону. Проведено експериментальну перевірку методу Trinity на множині HTML-сторінок англомовних статей українських наукових журналів. Для формування тестової множини HTML-сторінок виконано автоматизований обхід веб-сайтів журналів за допомогою пошукового роботу. Реалізацію пошукового роботу здійснено за рахунок обробки об'єктної моделі HTML-документів, одержаних з веб-сайтів. Шаблони (регулярні вирази), сформовані за методом Trinity, застосовано до всього набору вхідних HTML-сторінок. Результати екстракції - структуровані дані про статті (назва, автори, анотація, ключові слова) - експортовано до бази даних з можливістю їх подальшого аналізу. Здійснено порівняння одержаних результатів з даними про статті, одержаними за допомогою аналізу об'єктної моделі веб-сторінок власноруч. Обраховано похибку використання методу Trinity на експериментальній множині HTML-сторінок.
|
|
|