РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»


Бази даних


Реферативна база даних - результати пошуку


Вид пошуку
Пошуковий запит: (<.>ID=REF-0000759946<.>)
Загальна кількість знайдених документів : 1

Kungurtsev O. 
Development of methods for pre-clustering and virtual merging of short documents for building domain dictionaries = Розробка методів попередньої кластеризації та віртуального об'єднання коротких документів для побудови словників предметної області / O. Kungurtsev, S. Zinovatna, Ia. Potochniak, N. Novikova // Вост.-Европ. журн. передовых технологий. - 2020. - № 5/2. - С. 39-47. - Бібліогр.: 24 назв. - англ.

The aim of research is to improve the quality of domain dictionaries by expanding the corpus of the documents under study by using short documents. A document model is proposed that allows to define a short document and the need to combine it with other documents to highlight verbose terms. An algorithm for highlighting the substantive part of the document has been developed, since in a short document the heading and closing parts usually contain terms that are not related to the studied domain. A method for preliminary clustering of short documents to highlight verbose terms has been developed. The method is based on highlighting and counting occurrences of nouns (one-word terms) for all analyzed documents. The concept of document proximity is introduced, which is determined by the combination of two criteria: the relative number of matching terms and the relative frequency of occurrence of matching terms. The principle of grouping documents at the customer's site often does not correspond to the principles of grouping necessary for building a dictionary of the domain. In a short document, it is usually impossible to isolate a verbose term because the repetition of terms is very low. A method has been developed for virtual combining of short documents based on the principle of achieving the necessary repeatability of one-word terms. The merged document has the highest possible frequency of terms for the cluster it belongs to. At the same time, the original text of documents is preserved and the ability to associate the selected verbose term with those documents in which it is included. The experiment made it possible to find the best ratio for the elements of the document proximity coefficient and confirm the effectiveness of the proposed preliminary clustering method.


Індекс рубрикатора НБУВ: Ш111.2

Рубрики:

Шифр НБУВ: Ж24320 Пошук видання у каталогах НБУВ 
Повний текст  Наукова періодика України 
Додаткова інформація про автора(ів) публікації:
(cписок формується автоматично, до списку можуть бути включені персоналії з подібними іменами або однофамільці)
  Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
 
Національна бібліотека України імені В. І. Вернадського
Відділ наукового формування національних реферативних ресурсів
Інститут проблем реєстрації інформації НАН України

Всі права захищені © Національна бібліотека України імені В. І. Вернадського