Page 162 - 4185
P. 162
162
Щоби забезпечити максимальне покриття тексту, яке істотно
залежить від семантичного наповнення словника, часто чинять так:
у комп’ютерному словнику виділяють словник загальновживаної
лексики (загальний словник) і лексику окремих галузей знань
(галузеві словники). У кожний галузевий словник, крім термінів і
номіналів, включають також персоналії (власні імена й прізвища
людей), географічні назви, скорочення та абревіатури. Для
контролю тексту конкретної галузі використовують загальний
словник, а також добирають потрібний галузевий словник.
Комп’ютерниі словники, які використовують для
редагування текстів, класифікують:
– за типом лексичних одиниць – словники словоформ, у яких слова
подають у всіх їх словозмінних формах, і словники основ, у яких
до основи кожного слова вказують всі її можливі закінчення;
– за наявністю блоків для аналізу морфем (префіксів, суфіксів,
закінчень), за допомогою яких від основ можна утворювати
нові похідні слова.
Для аналітичних мов (на зразок англійської) частіше
використовують словники словоформ, а для синтетичних (як
українська) – словники основ.
Кожен із цих словників має свої недоліки і переваги. Так,
словник словоформ дуже легко можна створити, опрацювавши на
комп’ютері достатньо великий масив текстів і записавши всі
однакові слова у вигляді словника на комп’ютерний носій
інформації. На жаль, такий словник за обсягом у кілька разів буде
перевищувати аналогічний словник основ, який можна створити
лише нетрадиційним способом. Тому інколи для синтаксичних мов
використовують комбінований тип словників, в яких для
найуживаніших словоформ подають також усі інші можливі
закінчення.
11.5.2 Методи реконструкції
Операції виправлення значно складніші, ніж операції
контролю. Вони дають змогу автоматично виправляти лише
окремі знаки в словах. Серед цих методів найвідоміший
абревіатурний, алфавітний, базовий, комбінаторний та цифровий.
Розглянемо їх на прикладі алфавітного методу.
Для алфавітного методу кожен запис у реконструюючому
словнику утворюють із чотирьох полів: