Page 7 - 4611
P. 7

      сематика  –  займається  змістом  (значенням)  слів,

               речень;
                            лексикографія  –  описує  набір  мовних  одиниць  та
               методи створення словників.

                      Отже,  можна  підсумувати,  що  предметом  дослідження
               комп’ютерної  лінгвістики  є  ознаки  будови,  змісту  та
               функціонування одиниць мовної системи, продуктів мовлення та

               мовної  діяльності –  письмових  та звукових  текстів,  які  б  могли
               служити  для  їх  моделювання  й  опрацювання  в  процесах
               комп’ютерного  опрацювання  мовної  інформації.  Під  мовною

               системою  розуміють  сукупність  певних  мовних  одиниць  з
               властивими  їм  формальними,  змістовними  та  функціональними
               властивостями.

                      У  автоматизованих  системах  виникає  необхідність  у
               коректній обробці мовної інформації, це і є предметом розгляду
               дисципліни.  Узагальнена  схема  роботи  з  мовною  інформацією
               наведена  на  рисунку  1.1.  Більшість  літературних  джерел

               виділяють такі рівні роботи з текстом у інформаційній системі:
                      – лематизація – вирішується задано розбиття тексту на слова
               (та  речення).  Здійснюється  обробка  знаків  та  пробілів  (пробілів

               може бути різна кількість, у окремих випадках у якості пробілів
               можуть  виступати  різні  символи,  та  кілька  інших,  нетипових,
               випадків);
                      –  морфологічний  аналіз  –  встановлення  частини  мови  і  їх

               форм;
                      –  синтаксичний  аналіз  –  одержання  графів  синтаксису,
               синтаксичної залежності;

                      – семантичний аналіз – виділення змісту.
                      Комп’ютерна  лінгвістика  часто  використовує  методи
               квантативної  або  статистичної  лінгвістики,  що  вивчає  частотні

               характеристики  мови  –  частоту  букв,  слів,  комбінацій,
               синтаксичних конструкцій.















                                                            7
   2   3   4   5   6   7   8   9   10   11   12