Page 14 - 4611
P. 14

комірку  аналізованої  словоформами.  При  цьому  виникають  дві

               проблеми:
                      1) аналіз не знайдених у словнику слів;
                      2) порівняння різних словоформ одного й того самого слова.
                      Почнемо  з  розгляду  другої  проблеми  – порівняння   різних

               форм  одного  слова  й  одержання  граматичної  інформації,  яка
               повинна залучатися при перекладі цього слова з природної мови
               на інформаційну

                      Наприклад,           в     інформаційно-пошуковій                  системі        із
               застосуванням  словника  словоформ  для  української  мови  всі
               слова  вхідної  мови  поділені  на  дві  групи:  незмінні  слова  і

               змінювані слова.
                      До  першої  групи  належать  прислівники,  прийменники,
               сполучники, частки, незмінні іменники і прикметники, іншомовні

               слова і  буквено-цифрові скорочення, а  також  неозначена  форма
               дієслова, дієприслівник і прикметники вищого ступеня.
                      До другої групи входять слова, здатні мати різні відмінкові,
               родові й особові закінчення. Граматична інформація про незмінні

               слова  статична,  а  інформація  про  змінювані  слова  містить  у
               своєму складі постійну і змінну частину.
                      Словник  для  автоматичного  ототожнення  форм  слів  може

               бути  побудований  у  вигляді  зазначеного  списку  їх  побуквених
               кодів.  Одну  з  форм  слова  приймають  за  канонічну,  а  інші  його
               форми  вважають  варіантами.  Кожній  словоформі  відповідає
               номер набору граматичної інформації і номер канонічної форми

               слова.  При  пошуку  словоформи  в  словнику  спочатку  знаходять
               буквений  код  словоформи  і  визначають  його  номер.  Потім  за
               номером  кожної  словоформи  добирають  її  граматичну

               інформація, за якою визначається, чи є аналізована форма слова
               канонічною.  Якщо  вона  не  канонічна,  то  її  порядковий  номер
               разом із супровідною граматичною інформацією переноситься в

               масив  результатів.  Якщо  форма  слова  варіантна,  то  замість  її
               порядкового  номера  в  масив  результатів  переноситься  номер
               відповідної  канонічної  форми.  Таким  чином,  буквений  код

               кожної словоформи замінюється сполученням номера канонічної
               форми  слова  і  набору  змінної  граматичної  інформації.  У
               незмінних  слів  замість  коду  набору  граматичної  інформації
               записується нульовий код. Якщо аналізованої словоформи немає



                                                           14
   9   10   11   12   13   14   15   16   17   18   19