Page 115 - 4144
P. 115
114
Релевантність – основне поняття при індексації документа в
пошукових системах. Релевантність – міра відповідності, тобто це
відповідність змісту знайденої сторінки до запиту користувача. Але
комп'ютер - не людина, і тому пошукові системи використовують
спеціальні алгоритми для визначення релевантності. Теоретичних методів
визначення релевантності більш ніж 20.
Але виділяють два основні напрями: лінгвістичне (Рамблер, Яндекс)
і статистичне (Google).
Основні російські пошукові системи (зокрема Рамблер)
використовують лінгвістичний напрям, тобто пошуковий робот,
переглядаючи сторінку, звертає увагу на «літературність» її написання
(«чом ти не прийшов» буде більш релевантною, ніж «чом ти не травень
прийшов»).
Різні пошукові системи використовують різні алгоритми
ранжування, однак основними принципами визначення релевантності є
наступні:
− кількість слів запиту у текстовому вмісті документу (тобто в
html-коді);
− теги, в яких ці слова розташовуються;
− місцеположення шуканих слів у документі;
− питома вага слів, відносно яких визначається релевантність, у
загальній кількості слів документу.
Ці принципи застосовуються всіма пошуковими системами. А
наведені нижче використовуються деякими, але достатньо відомими
(наприклад, AltaVista).
Час − як довго сторінка знаходиться в базі пошукового сервера.
Спочатку здається, що це недолугий принцип. Але в Інтернет існує багато
сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить
довго, це значить, що його власник є досвідченим за даною темою і
користувачу більше підійде сайт, що існує вже кілька років, ніж той, який
з'явився тиждень тому за цією ж темою.
Індекс цитованості − як багато посилань на дану сторінку веде з
інших сторінок, що зареєстровані у базі пошуковика.
База даних виводить ранжований таким чином перелік документів з
HTML і повертає його користувачу, який зробив запит. Різні пошукові
механізми вибирають різні способи показу отриманого переліку - деякі
відображають лише посилання, інші виводять посилання з декількома
першими реченнями документу або заголовок документу разом з
посиланням. Коли користувач звертається до посилання на один з
документів, цей документ завантажується з сервера, на якому він
знаходиться.