Реферативна база даних "Україніка наукова"

РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»

НОВІ
НАДХОДЖЕННЯ

ПОШУК

РУБРИКАТОР

Бази даних

Реферативна база даних - результати пошуку

Книжкові видання та компакт-диски

Журнали та продовжувані видання

Автореферати дисертацій

Реферативна база даних

Наукова періодика України

Тематичний навігатор

Авторитетний файл імен осіб

Вид пошуку

Пошуковий запит: (<.>ID=REF-0000811962<.>)

Загальна кількість знайдених документів : 1

Orlovskiy O. V.
Multilingual text classifier using pre-trained Universal Sentence Encoder model = Мультимовний класифікатор тексту з використанням предтренованої моделі Universal Sentence Encoder / O. V. Orlovskiy, Khalili Sohrab, S. E. Ostapov, K. P. Hazdyuk, L. M. Shumylyak // Радіоелектроніка. Інформатика. Управління. - 2022. - № 3. - С. 102-108. - Бібліогр.: 13 назв. - англ.

Онлайн-платформи продовжують сьогодні генерувати усе більші обсяги інформації. Автоматизація модерування контенту у таких платформах, у зв'язку з цим, залишається актуальною задачею. Уваги потребують випадки, коли з різних причин, доступно лише невеликі обсяги даних для навчання класифікаторів. У таких випадках необхідно залучати попередньо навчені моделі, які використовували для навчання великі об'єми даних широкого діапазону. Досліджено питання застосування попередньо навченої мультимовної моделі Universal Sentence Encoder (USE) як компоненту розробленого нами класифікатора, а також впливу різних параметрів на точність класифікації при навчанні на малому об'ємі даних (~ 0,05 % обсягу повного набору). Для вирішення поставленого завдання використовується відносно новий підхід до навчання, - за допомогою невеликого набору повідомлень. Оскільки текстові повідомлення усе ще домінують як способ передавання інформації, застосовується розроблений класифікатор, навчений на невеликому (~0,002 - 0,05 % повного набору) обсязі даних. Показано, що навіть при невеликій кількості прикладів для навчання (36 на клас) за рахунок використання ЕСЕ та оптимальної конфігурації в навчанні можна досягти високої точності класифікації за англійськими та російськими даними, що надзвичайно важливо, коли неможливо зібрати свій власний великий набір даних. Оцінено вплив підходу з використанням USE та набору різних конфігурацій гіперпараметрів на результат класифікатора текстових даних на прикладі наборів даних англійською та російською мовами. Висновки: у ході експериментів показана значна ступінь актуальності правильного підбору гіперпараметрів. Зокрема, у цій роботі розглядалися розмір пакету, оптимізатор, кількість епох навчання та відсоток даних із набору, взятих для навчання класифікатора. У процесі експерименту була обрана оптимальна конфігурація гіперпараметрів, згідно з якою 86,46 % точності класифікації за російськомовним набором даних і 91,13 % за англомовним відповідно можна досягти за десять секунд навчання (на час навчання можуть істотно вплинути використовувані технічні засоби).

Індекс рубрикатора НБУВ: З970.54

Рубрики:

Системи розпізнавання образів

Шифр НБУВ: Ж16683 Пошук видання у каталогах НБУВ

Повний текст Наукова періодика України

Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"

Національна бібліотека України імені В. І. Вернадського

Відділ наукового формування національних реферативних ресурсів

Інститут проблем реєстрації інформації НАН України

РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"Abstract database «Ukrainica Scientific»

Бази даних

Реферативна база даних - результати пошуку

РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»