Kerpel O. I. Development of software for the creation of the corpus of the Ukrainian language and its use = Розробка програмної підтримки для створення корпусу української мови і його використання / O. I. Kerpel, V. G. Penko // Інформатика та мат. методи в моделюванні. - 2020. - 10, № 1/2. - С. 23-30. - Бібліогр.: 10 назв. - англ.Актуальність роботи полягає в необхідності аналізу українських текстів з метою вивчення української мови і нестачі відповідних інформаційних і програмних ресурсів. Об'єкт дослідження - засоби складання POS-тегованих корпусів українських текстів. Предмет дослідження - процес розробки програмних засобів для створення корпусів українських текстів, зокрема, алгоритмів POS тегування. Мета роботи - дослідження і розробка програмних засобів для створення анотованого корпусу української мови. Для досягнення поставленої мети були вирішені наступні завдання: аналіз предметної області; вибір відповідних підходів і програмних засобів; створення навчальної множини; реалізація системи; навчання системи; тестування системи. Спроектовано та реалізовано підхід до генерації навчальної вибірки. Підхід заснований на використанні вже реалізованого тегера російської мови і схожості морфологічної будови слів російської та української мови. Для підвищення ефективності класифікації проведений пошук вдалої комбінації простору ознак і навчального алгоритму. Найбільш вдалими моделями машинного навчання для даного завдання виявилися стохастичний градієнтний спуск і дерева прийняття рішень. Для досягнення прийнятного рівня узагальнення використана перехресна перевірка. В результаті проведеної роботи отримано навчений тегер української мови, який для вибірки літературних українських текстів забезпечує якість класифікації на рівні 0,892 по зваженій F-мірі. Реалізовано розподілений додаток з клієнт-серверною архітектурою, що дозволяє клієнтам здійснювати тегування власних текстів. При регулярному використанні цього додатку експертами-лінгвістами використану навчальну множину може бути покращено, що дозволить отримувати більш високі показники класифікації, що здійснює тегер. Індекс рубрикатора НБУВ: З970.620 + Ш111.2 + Ш141.14-70
Рубрики:
Шифр НБУВ: Ж100666 Пошук видання у каталогах НБУВ
Повний текст Наукова періодика України
 Якщо, ви не знайшли інформацію про автора(ів) публікації, маєте бажання виправити або відобразити більш докладну інформацію про науковців України запрошуємо заповнити "Анкету науковця"
|