Page 79 - 4524
P. 79
Найчастіше нечислові дані бувають представлені у виді
номінальних змінних. Номінальні змінні можуть бути двозна-
чними (наприклад, Стать ={Чоловік, Жінка}) або багатозна-
чними (тобто приймати більше двох значень станів). Двознач-
ну номінальну змінну легко перетворити в числову (напри-
клад, Чоловік = 0, Жінка = 1). З багатозначними номінальними
змінними справа обстоїть складніше. Їх теж можна представи-
ти одним числовим значенням (наприклад, Собака = 0, Миша
= 1, Кішка = 2), однак при цьому виникне (можливо) помил-
кове впорядкування значень номінальної змінної: у розгляну-
тому прикладі Миша виявиться чимось середнім між Собакою
і Кішкою. Існує більш точний спосіб, відомий як кодування 1-
из-N, в якому одна номінальна змінна представляється декіль-
кома числовими змінними. Кількість числових змінних дорів-
нює числу можливих значень номінальної змінної; при цьому
всякий раз рівно одна з N змінних приймає ненульове значен-
ня (наприклад, Собака = {1,0,0}, Миша = {0,1,0}, Кішка =
{0,0,1}). На жаль, номінальна змінна з великим числом мож-
ливих станів потребує при кодуванні методом 1-из-N дуже
великої кількості числових змінних, а це приводить до росту
розмірів мережі і створює труднощі при її навчанні. В таких
ситуаціях краще спробувати знайти інший спосіб представ-
лення даних.
Нечислові дані інших типів можна або перетворити в
числову форму, або оголосити незначними. Значення дат і ча-
су, якщо вони потрібні, можна перетворити в числові, відні-
маючи з них початкову дату (час). Позначення грошових сум
перетворити зовсім нескладно. З довільними текстовими по-
лями (наприклад, прізвищами людей) працювати не можна і їх
потрібно зробити незначними.
У багатьох реальних задачах приходиться мати справу з
не зовсім достовірними даними. Значення деяких змінних мо-
жуть бути спотворені шумом чи частково бути відсутніми. Іс-
нують спеціальні засоби роботи з пропущеними значеннями
(вони можуть бути замінені на середнє значення цієї змінної
чи на інші її статистики), так що якщо даних не багато, можна
включити в розгляд випадки з пропущеними значеннями.
Нейронні мережі у цілому стійкі до шумів. Однак у цієї стій-
кості є межа. Наприклад, викиди, тобто значення, що лежать
дуже далеко від області нормальних значень деякої змінної,
78