РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»


Бази даних


Реферативна база даних - результати пошуку


Вид пошуку
Пошуковий запит: (<.>ID=REF-0000826253<.>)
Загальна кількість знайдених документів : 1

Прокіпчук О. А. 
Технологія аналізу україномовних твітів для прогнозування зміни динаміки громадської думки на основі машинного навчання / О. А. Прокіпчук, В. А. Висоцька // Радіоелектроніка. Інформатика. Управління. - 2023. - № 2. - С. 103-116. - Бібліогр.: 27 назв. - укp.

Автоматизація дослідження громадської думки дозволить не тільки зменшити кількість ручної праці, а й отримувати часові зрізи результатів без додаткових зусиль. Оскільки потрібно уникнути прямої взаємодії з респондентами, громадську думку необхідно аналізувати на основі джерел її вільного вираження. Соціальні мережі чудово підходять на цю роль, так як там люди вільно публікують свої думки або емоційно правдиво реагують на опубліковану інформації щодо певних подій. Статистика показує, що даних із соціальних мереж недостатньо для отримання повноцінного результату, бо чималий відсоток людей не користуються соціальними мережами. Проте автоматизація дослідження навіть такого прошарку населення уже є хорошим результатом для аналізу динаміки змін громадської думки відповідно подій в країні/світі та відповідно для корегування в подальшому процесів державного управління. Мета дослідження - розроблення технології аналізу україномовного потоку контенту в соціальних мережах для дослідження громадської думки на основі знаходження кластеризованих тематичних груп твітів. Розроблено технолгію пошуку трендів твітів на основі кластеризації, що формує потік даних у вигляді коротких репрезентацій кластерів та їхньої популярності для подальшого дослідження громадської думки. Описано ефективний підхід збору твітів, їх фільтрації, очищення та попереднього опрацювання на основі порівняльного аналізу алгоритмів Bag of Words, TF-IDF та BERT. Визначено вплив стемінгу та лематизації на якість отриманих кластерів. А також знайдено оптимальні поєднання методів кластеризації (K-Means, Agglomerative Hierarchical Clustering та HDBSCAN) та векторизації твітів на основі аналізу 27 кластеризацій однієї вибірки даних. Обрано спосіб подання кластерів твітів у короткому форматі. Найкращі результати показали алгоритми, що використовують Відстань Левенштейна, тобто fuzz sort, fuzz set та levenshtein. Дані алгоритми швидко здійснюють перевірки, мають більшу різницю подібностей, тож можна точніше визначити межу подібності. Згідно з результатами проведених кластеризацій, оптимальними рішеннями є використання алгоритму кластеризації HDBSCAN та алгоритму векторизації BERT для досягнення найточніших результатів, та використання K-Means разом із TF-IDF для досягнення найкращої швидкодії із оптимальним результатом. Для зменшення часу виконання можна застосовувати стемінг. Висновки: в дослідженні експериментально знайдено оптимальні варіанти для порівняння відбитків кластерів серед таких методів пошуку подібності: Fuzz Sort, Fuzz Set, Levenshtein, Jaro Winkler, Jaccard, Sorensen, Cosine, Sift4. У деяких алгоритмів середня подібність відбитків сягає вище 70 %. Знайдено 3 ефективні інструменти для порівняння їхньої подібності, так як вони показують достатню відмінність між порівняннями подібних та різних кластерів (>> 20 %). На основі обраних ефективних методів, успішно проведено аналіз трендів для 90 000 твітів за 7 днів для 5 тем тижня за допомогою K-Means та TF-IDF для кластеризації та векторизації, а також fuzz sort для порівняння відбитків кластерів із межою подібності 55 %.


Індекс рубрикатора НБУВ: С5*46*332.1-723.58 + С5*333.412

Рубрики:

Шифр НБУВ: Ж16683 Пошук видання у каталогах НБУВ 
Повний текст  Наукова періодика України 
Додаткова інформація про автора(ів) публікації:
(cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)
  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
 
Національна бібліотека України імені В. І. Вернадського
Відділ наукового формування національних реферативних ресурсів
Інститут проблем реєстрації інформації НАН України

Всі права захищені © Національна бібліотека України імені В. І. Вернадського