Page 14 - 4611
P. 14
комірку аналізованої словоформами. При цьому виникають дві
проблеми:
1) аналіз не знайдених у словнику слів;
2) порівняння різних словоформ одного й того самого слова.
Почнемо з розгляду другої проблеми – порівняння різних
форм одного слова й одержання граматичної інформації, яка
повинна залучатися при перекладі цього слова з природної мови
на інформаційну
Наприклад, в інформаційно-пошуковій системі із
застосуванням словника словоформ для української мови всі
слова вхідної мови поділені на дві групи: незмінні слова і
змінювані слова.
До першої групи належать прислівники, прийменники,
сполучники, частки, незмінні іменники і прикметники, іншомовні
слова і буквено-цифрові скорочення, а також неозначена форма
дієслова, дієприслівник і прикметники вищого ступеня.
До другої групи входять слова, здатні мати різні відмінкові,
родові й особові закінчення. Граматична інформація про незмінні
слова статична, а інформація про змінювані слова містить у
своєму складі постійну і змінну частину.
Словник для автоматичного ототожнення форм слів може
бути побудований у вигляді зазначеного списку їх побуквених
кодів. Одну з форм слова приймають за канонічну, а інші його
форми вважають варіантами. Кожній словоформі відповідає
номер набору граматичної інформації і номер канонічної форми
слова. При пошуку словоформи в словнику спочатку знаходять
буквений код словоформи і визначають його номер. Потім за
номером кожної словоформи добирають її граматичну
інформація, за якою визначається, чи є аналізована форма слова
канонічною. Якщо вона не канонічна, то її порядковий номер
разом із супровідною граматичною інформацією переноситься в
масив результатів. Якщо форма слова варіантна, то замість її
порядкового номера в масив результатів переноситься номер
відповідної канонічної форми. Таким чином, буквений код
кожної словоформи замінюється сполученням номера канонічної
форми слова і набору змінної граматичної інформації. У
незмінних слів замість коду набору граматичної інформації
записується нульовий код. Якщо аналізованої словоформи немає
14