Реферативна база даних "Україніка наукова"

РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»

НОВІ
НАДХОДЖЕННЯ

ПОШУК

РУБРИКАТОР

Бази даних

Реферативна база даних - результати пошуку

Книжкові видання та компакт-диски

Журнали та продовжувані видання

Автореферати дисертацій

Реферативна база даних

Наукова періодика України

Тематичний навігатор

Авторитетний файл імен осіб

Вид пошуку

Пошуковий запит: (<.>ID=REF-0000805734<.>)

Загальна кількість знайдених документів : 1

Kerpel O. I.
Development of software for the creation of the corpus of the Ukrainian language and its use = Розробка програмної підтримки для створення корпусу української мови і його використання / O. I. Kerpel, V. G. Penko // Інформатика та мат. методи в моделюванні. - 2020. - 10, № 1/2. - С. 23-30. - Бібліогр.: 10 назв. - англ.

Актуальність роботи полягає в необхідності аналізу українських текстів з метою вивчення української мови і нестачі відповідних інформаційних і програмних ресурсів. Об'єкт дослідження - засоби складання POS-тегованих корпусів українських текстів. Предмет дослідження - процес розробки програмних засобів для створення корпусів українських текстів, зокрема, алгоритмів POS тегування. Мета роботи - дослідження і розробка програмних засобів для створення анотованого корпусу української мови. Для досягнення поставленої мети були вирішені наступні завдання: аналіз предметної області; вибір відповідних підходів і програмних засобів; створення навчальної множини; реалізація системи; навчання системи; тестування системи. Спроектовано та реалізовано підхід до генерації навчальної вибірки. Підхід заснований на використанні вже реалізованого тегера російської мови і схожості морфологічної будови слів російської та української мови. Для підвищення ефективності класифікації проведений пошук вдалої комбінації простору ознак і навчального алгоритму. Найбільш вдалими моделями машинного навчання для даного завдання виявилися стохастичний градієнтний спуск і дерева прийняття рішень. Для досягнення прийнятного рівня узагальнення використана перехресна перевірка. В результаті проведеної роботи отримано навчений тегер української мови, який для вибірки літературних українських текстів забезпечує якість класифікації на рівні 0,892 по зваженій F-мірі. Реалізовано розподілений додаток з клієнт-серверною архітектурою, що дозволяє клієнтам здійснювати тегування власних текстів. При регулярному використанні цього додатку експертами-лінгвістами використану навчальну множину може бути покращено, що дозволить отримувати більш високі показники класифікації, що здійснює тегер.

Індекс рубрикатора НБУВ: З970.620 + Ш111.2 + Ш141.14-70

Рубрики:

Системи оброблення текстової інформації

Автоматична обробка тексту (текстової інформації). Автоматичний (машинний) переклад. Автоматичний аналіз і синтез текстів

Українська мова

Шифр НБУВ: Ж100666 Пошук видання у каталогах НБУВ

Повний текст Наукова періодика України

Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"

Національна бібліотека України імені В. І. Вернадського

Відділ наукового формування національних реферативних ресурсів

Інститут проблем реєстрації інформації НАН України

РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"Abstract database «Ukrainica Scientific»

Бази даних

Реферативна база даних - результати пошуку

РЕФЕРАТИВНА БАЗА ДАНИХ "УКРАЇНІКА НАУКОВА"
Abstract database «Ukrainica Scientific»