Page 25 - 6092
P. 25
Вчені дослідили, що пропорції чотирьох основних категорій web-сторінок з плином
часу лишаються незмінними, незважаючи на значне збільшення загального обсягу web-
ресурсів. Топологія та характеристики моделі Bow Tie виявились приблизно одинаковими і
для різних підмножин web-простору. Це дозволило зробити висновок про те, що інтернет
простір має властивості фракталу.
2.6.3. Пошук за допомогою каталогів
Каталоги – це вузли Web, які вміщують предметні покажчики інформації про інші
вузли, доступ до яких важливо отримати за допомогою перегляду або пошуку. Завдяки
розбивці даних на різноманітні категорії, забезпечується можливість звуження пошуку, доки
не буде отримано необхідний документ.
Найпопулярнішим є каталог Yahoo, що має множину категорій та підкатегорій. З його
допомогою можна виконати пошук за визначеним критерієм в цілому каталозі або його
підкаталозі.
2.6.4 Пошук за допомогою пошукових машин
Пошукові машини – це особливі програми, призначення яких зчитувати повністю або
частково зміст web-сторінок, структурувати інформацію в спеціальні власні локальні мережі
та максимально швидко вивести користувача на сайт або перелік сайтів з необхідною у
даний момент інформацією. Пошукові машини ведуть пошук за ключовими словами та
видають інформацію, де міститься веб-адреса та пряме гіперпосилання на потрібну сторінку.
Всі пошукові машини (їх більше 400) працюють приблизно за одним і тим же
алгоритмом та засновані на одних принципах. Однак обсяг обробленої інформації та критерії
систематизації в них різні, тому результат є часто розпливчатим та містить масу непотрібної
інформації. При роботі пошукових машин використовується поняття релевантності.
Релева́нтність (англ. relevance) — міра відповідності отримуваного результату
бажаному. В термінах пошуку — це міра відповідності результатів пошуку завданню,
поставленому в пошуковому запиті. Визначає, наскільки повно той або інший документ
відповідає критеріям, вказаним в запиті користувача.
Розглянемо, як пошукові машини здійснюють пошук. Кожна пошукова машина має
власних програмних агентів (павуків –spiders, кроулерів– crawlers або роботів) Це програми,
які пошукова служба використовує для сканування сайтів Інтернету з метою збирання
інформації та її передавання індексувальним програмам. Такі агенти являють собою
інтелектуальне програмне забезпечення, яке може відслідковувати найбільш важливі вузли.
Агенти переходять від одного вузла до іншого, відшуковуючи потрібні дані та визначають їх
місцезнаходження. Таким чином зберігається час користувача, який би він витрачав на
введення умов для пошуку, відвідуючи кожен вузол окремо. Агенти також зможуть
відслідковувати зміну інформації на певних вузлах і повідомляти про це користувачу.
На сервері пошукової машини текст розбивається на окремі слова, кожному з яких
привласнюються координати, які заносяться в таблицю серверу разом із гіперпосиланням на
ІР-адресу. Пошукова машина – це велика локальна мережа, що складається з потужних
комп’ютерів з великим обсягом дискової пам’яті. Ці машини розділені на підгрупи
(кластери), між якими розподіляється інформація, зібрана павуками. Коли пошукова машина
отримує запит, вона шукає відповідь саме у своїй таблиці, а не в Інтернеті.
Індексува́ння — присвоєння документу набору ключових слів або кодів, які слугують
вказівником змісту документа і викорис– товуються для його пошуку.
24