Page 8 - 4611
P. 8

Рисунок 1.1 – Узагальнена схема роботи з мовною

                                                    інформацією

                      Для  програмних  продуктів,  які  реалізують  елементи

               автоматизованої  обробки  текстів  на  природніх  мовах,  іноді
               використовують термін лінгвістичний процесор.
                      Лінгвістичний  процесор  –  це  програмна  система,  яка

               повинна  використовувати  формальну  модель  мови  (навіть  дуже
               просту,  наприклад,  –  словники).  З  цієї  причині  Microsoft  Word
               можна назвати лінгвістичним процесором, “блокнот” — ні.

                      Слід відмітити, що штучні мови, а саме найпоширеніший їх
               клас – мови програмування, на відміну від природних мов, дуже
               добре       обробляються            автоматично:           вони       таким       чином
               створюються  (основною  роботою  при  розробці  транслятора  у

               машинні коди є етап синтезу, а не аналізу).
                      Для  природних  мов  характерні  такі  риси,  що  роблять
               обробку текстів на них проблемною:

                      -  природна  мова  весь  час  змінюється  (вплив  діалектів,
                          інших мов);
                      -  наявність сленгу, технічного сленгу;
                      -  використання нестандартних конструкцій;







                                                            8
   3   4   5   6   7   8   9   10   11   12   13