Погорілий С. Д. Автоматизована екстракція структурованої інформації з множини веб-сторінок / С. Д. Погорілий, А. А. Крамов // Проблеми програмування. - 2018. - N 2/3 (спец. вип.). - С. 149-158. - Бібліогр.: 11 назв. - укp.Обгрунтовано доцільність використання методу Trinity для екстракції даних у порівнянні з іншими методами. Показано проблему вибору вхідних документів методу серед множини HTML-сторінок для формування узагальненого шаблону. Проведено експериментальну перевірку методу Trinity на множині HTML-сторінок англомовних статей українських наукових журналів. Для формування тестової множини HTML-сторінок виконано автоматизований обхід веб-сайтів журналів за допомогою пошукового роботу. Реалізацію пошукового роботу здійснено за рахунок обробки об'єктної моделі HTML-документів, одержаних з веб-сайтів. Шаблони (регулярні вирази), сформовані за методом Trinity, застосовано до всього набору вхідних HTML-сторінок. Результати екстракції - структуровані дані про статті (назва, автори, анотація, ключові слова) - експортовано до бази даних з можливістю їх подальшого аналізу. Здійснено порівняння одержаних результатів з даними про статті, одержаними за допомогою аналізу об'єктної моделі веб-сторінок власноруч. Обраховано похибку використання методу Trinity на експериментальній множині HTML-сторінок. Індекс рубрикатора НБУВ: З970.620
Рубрики:
Шифр НБУВ: Ж69331 Пошук видання у каталогах НБУВ Повний текст Наукова періодика України
Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|