Бази даних


Наукова періодика України - результати пошуку


Mozilla Firefox Для швидкої роботи та реалізації всіх функціональних можливостей пошукової системи використовуйте браузер
"Mozilla Firefox"

Вид пошуку
Повнотекстовий пошук
 Знайдено в інших БД:Реферативна база даних (1)
Список видань за алфавітом назв:
A  B  C  D  E  F  G  H  I  J  L  M  N  O  P  R  S  T  U  V  W  
А  Б  В  Г  Ґ  Д  Е  Є  Ж  З  И  І  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  

Авторський покажчик    Покажчик назв публікацій



Пошуковий запит: (<.>AT=Погорілий Автоматизована екстракція структурованої інформації$<.>)
Загальна кількість знайдених документів : 1
1.

Погорілий С. Д. 
Автоматизована екстракція структурованої інформації з множини веб сторінок [Електронний ресурс] / С. Д. Погорілий, А. А. Крамов // Проблеми програмування. - 2018. - № 2-3. - С. 149-158. - Режим доступу: http://nbuv.gov.ua/UJRN/Progr_2018_2-3_19
Обгрунтовано доцільність використання методу Trinity для екстракції даних у порівнянні з іншими методами. Показано проблему вибору вхідних документів методу серед множини HTML-сторінок для формування узагальненого шаблону. Проведено експериментальну перевірку методу Trinity на множині HTML-сторінок англомовних статей українських наукових журналів. Для формування тестової множини HTML-сторінок виконано автоматизований обхід веб-сайтів журналів за допомогою пошукового роботу. Реалізацію пошукового роботу здійснено за рахунок обробки об'єктної моделі HTML-документів, одержаних з веб-сайтів. Шаблони (регулярні вирази), сформовані за методом Trinity, застосовано до всього набору вхідних HTML-сторінок. Результати екстракції - структуровані дані про статті (назва, автори, анотація, ключові слова) - експортовано до бази даних з можливістю їх подальшого аналізу. Здійснено порівняння одержаних результатів з даними про статті, одержаними за допомогою аналізу об'єктної моделі веб-сторінок власноруч. Обраховано похибку використання методу Trinity на експериментальній множині HTML-сторінок.
Попередній перегляд:   Завантажити - 969.935 Kb    Зміст випуску    Реферативна БД     Цитування
 
Відділ наукової організації електронних інформаційних ресурсів
Пам`ятка користувача

Всі права захищені © Національна бібліотека України імені В. І. Вернадського