Page 8 - 4611
P. 8
Рисунок 1.1 – Узагальнена схема роботи з мовною
інформацією
Для програмних продуктів, які реалізують елементи
автоматизованої обробки текстів на природніх мовах, іноді
використовують термін лінгвістичний процесор.
Лінгвістичний процесор – це програмна система, яка
повинна використовувати формальну модель мови (навіть дуже
просту, наприклад, – словники). З цієї причині Microsoft Word
можна назвати лінгвістичним процесором, “блокнот” — ні.
Слід відмітити, що штучні мови, а саме найпоширеніший їх
клас – мови програмування, на відміну від природних мов, дуже
добре обробляються автоматично: вони таким чином
створюються (основною роботою при розробці транслятора у
машинні коди є етап синтезу, а не аналізу).
Для природних мов характерні такі риси, що роблять
обробку текстів на них проблемною:
- природна мова весь час змінюється (вплив діалектів,
інших мов);
- наявність сленгу, технічного сленгу;
- використання нестандартних конструкцій;
8