Page 7 - 4611
P. 7
сематика – займається змістом (значенням) слів,
речень;
лексикографія – описує набір мовних одиниць та
методи створення словників.
Отже, можна підсумувати, що предметом дослідження
комп’ютерної лінгвістики є ознаки будови, змісту та
функціонування одиниць мовної системи, продуктів мовлення та
мовної діяльності – письмових та звукових текстів, які б могли
служити для їх моделювання й опрацювання в процесах
комп’ютерного опрацювання мовної інформації. Під мовною
системою розуміють сукупність певних мовних одиниць з
властивими їм формальними, змістовними та функціональними
властивостями.
У автоматизованих системах виникає необхідність у
коректній обробці мовної інформації, це і є предметом розгляду
дисципліни. Узагальнена схема роботи з мовною інформацією
наведена на рисунку 1.1. Більшість літературних джерел
виділяють такі рівні роботи з текстом у інформаційній системі:
– лематизація – вирішується задано розбиття тексту на слова
(та речення). Здійснюється обробка знаків та пробілів (пробілів
може бути різна кількість, у окремих випадках у якості пробілів
можуть виступати різні символи, та кілька інших, нетипових,
випадків);
– морфологічний аналіз – встановлення частини мови і їх
форм;
– синтаксичний аналіз – одержання графів синтаксису,
синтаксичної залежності;
– семантичний аналіз – виділення змісту.
Комп’ютерна лінгвістика часто використовує методи
квантативної або статистичної лінгвістики, що вивчає частотні
характеристики мови – частоту букв, слів, комбінацій,
синтаксичних конструкцій.
7