Пошук інформації в Інтернет (реферат)

Пошук інформації в Інтернет

Проблеми пошуку

Контроль повноти охоплення ресурсів

Повномасштабний збір інформації в Інтернет по якому-небудь питанню в
багатьох випадках виводить пошук за межі широко освоєного Web-простору,
до telnet-доступних баз даних, регіональних телеконференцій і інших
сховищ інформації. Знання всіх основних існуючих на сьогоднішній день
типів ресурсів Мережі, розуміння технічної і тематичної специфіки
їхнього інформаційного наповнення й особливостей доступу стає необхідною
умовою успішного планування і проведення пошукових робіт.

Контроль вірогідності інформації

Контроль вірогідності інформації отриманої з Мережі в результаті пошуку,
зрозуміло, може забезпечуватися різними засобами. Коротко зупинимося на
можливостях, які надає сама Мережа. Так, традиційними способами
перевірки є локалізація джерел інформації, альтернативних даному;
звірення фактичного матеріалу, встановлення частоти його використання
іншими джерелами; з’ясування статусу документа і рейтингу вузла, на
якому він знаходиться засобами пошукових систем; одержання інформації
про компетентність і статус автора матеріалу за допомогою спеціальних
пошукових сервісів; аналіз окремих елементів організації вузла з метою
оцінки кваліфікації фахівців і ін.

Швидкість проведення пошуку в Мережі

Якщо не брати до уваги технічні характеристики підключення користувача,
швидкість залежить в основному від двох факторів. Це грамотне планування
пошукової процедури і навички роботи з ресурсом обраного типу. Під
складанням плану пошукових робіт розуміється вибір пошукових сервісів і
інструментів, що відповідають специфіці задачі і, що вкрай важливо,
послідовності їхнього застосування в залежності від очікуваної
результативності. Після одержання доступу до відповідного ресурсу на
передній план висувається уміння швидко розібратися в його структурі і
способах навігації. Моторика виконання дій, уміле поєднання пошукових
засобів і можливостей обробки інформації локальної клієнтської програми
і сервера для пошуку є необхідними навичками.

Основні об’єкти і механізми пошуку

Так чи інакше, сьогодні інформація в Інтернет являється доступною з
джерел різного типу. Планувати пошук без повного уявлення про їхній
спектр і особливості функціонування неможливо. Перелік основних типів
ресурсів, який можна використовувати як карту при плануванні пошукової
процедури, наведений нижче.

Основні інформаційні і комунікаційні ресурси Інтернету

електронна пошта і поштові роботи;

глобальна система телеконференцій Usenet, регіональні і спеціалізовані
телеконференції;

списки розсилань;

онлайнові засоби комунікації користувачів;

системи пошуку людей і організацій;

бази даних Hytelnet;

система файлових архівів FTP, системи пошуку в FTP-архівах глобального
регіонального охоплення;

бази даних Gopher і пошукова система Veronica;

гіпертекстова інформаційна система World Wide Web (WWW);

каталоги ресурсів – глобальні, локальні, спеціалізовані (у середовищі
WWW);

пошукові машини, чи автоматичні індекси – глобальні, локальні,
спеціалізовані (у середовищі WWW);

банерні системи (у середовищі WWW);

активні інформаційні канали (у середовищі WWW);

Інформація, опублікована на веб-серверах.

Гіпертекстова інформаційна система World Wide Web (WWW) і її технології
на сьогоднішній день найбільш значні в Мережі і продовжують свій підйом.
Так, з кінця 1997 р. до початку 1999 р. кількість інформації в WWW
збільшилося більш ніж у два рази — з 320 до 800 мільйонів сторінок.
Основними механізмами пошуку є каталоги веб-сторінок і пошукові машини,
що надають у розпорядження користувача базу даних по ресурсах.
Полегшують пошук спеціалізовані метапошукові машини, що використовують
бази даних декількох серверів, а також спеціалізовані програми —
пошукові клієнти.

Каталоги ресурсів

Каталоги ресурсів — глобальні, локальні, спеціалізовані; являють собою
бази даних з адресами ресурсів і найрізноманітнішим масштабом
накопиченої інформації й охопленням тематики які розташовані в Мережі.
Звичайно вони мають ієрархічну структуру, переміщаючись по який, можна
локалізувати потрібний об’єкт. Швидкість нагромадження інформації такими
системами являється порівняно низкою, оскільки в класифікації ресурсів
передбачається особиста участь людини. Для пошуку одержання інформації
про ресурс із відомого каталогу завжди являється деякою гарантією
вірогідності. При вирішенні більш-менш стандартної пошукової задачі саме
каталог є стартовою площадкою для початку пошуку.

Основними характеристиками каталогів є наступні.

Спрямованість тематики і широта охоплення ресурсів — загальні,
спеціалізовані, глобальні, регіональні.

Обсяг бази даних (загальна кількість посилань у каталозі).

Структура рубрик, наявність декількох індексів.

Можливість пошуку по каталозі.

Механізм збереження інформації каталогом — якщо каталог створений у
вигляді веб-сторінки, як, наприклад, Yahoo (www.yahoo.com), то первісна
структура рубрик каталогу не підлягає зміні і можливості пошуку вкрай
обмежені. Якщо ж каталог виконаний у вигляді інтерфейсу до бази даних,
наприклад російський АУ! (www.au.ru), чи львівський сайт Ukrainet Yellow
Pages (www.ukrainet.lviv.ua/yellow/pages.htm)? він надає більш гнучкі
можливості пошуку кілька індексів.

Пошукові машини

Пошукові машини, чи автоматичні індекси — глобальні, локальні,
спеціалізовані являють собою могутні інформаційно-пошукові системи,
розташовані на серверах вільного доступу. Їхні спеціальні
програми-роботи, чи павуки, в автоматичному режимі безупинно сканують
інформацію Мережі на основі заданих алгоритмів, проводячи індексацію
документів. У наступному на основі створених індексних баз даних
пошукові машини надають користувачу доступ до розпреділеної на вузлах
Мережі інформації. Це реалізується через виконання пошукових запитів у
рамках відповідного інтерфейсу. Останні дослідження можливостей
пошукових машин, навіть якщо наймогутніший з них, таких як AltaVista, чи
HotBot, показують, що реальна повнота охоплення ресурсів Всесвітньої
Павутини окремою такою системою не перевищує 15%.

Розглянемо схему роботи такої системи.

Client (клієнт) — це програма перегляду, браузер, наприклад Internet
Explorer. Чи спеціалізований пошуковий клієнт, наприклад програма
Copernic.

User interface (користувальницький інтерфейс) — це не просто програма
перегляду, у випадку пошукової системи під цим словосполученням
розуміють також спосіб спілкування користувача з пошуковим апаратом:
системою формування запитів і переглядів результатів пошуку.

Search engine (пошукова машина) — служить для трансляції запиту
користувача, у формальний запит системи, пошуку посилань на інформаційні
ресурси Мережі і видачі результатів цього пошуку користувачу.

Index database (індекс бази даних) – індекс, який є основним масивом
даних пошукової системи і служить для пошуку адреси інформаційного
ресурсу. Архітектура індексу влаштована таким чином, щоб пошук
відбувався максимально швидко і при цьому можна було б оцінити цінність
кожного зі знайдених інформаційних ресурсів мережі.

Queries (запити користувача) – зберігаються в його (користувача)
особистій базі даних. На редагування кожного запиту іде досить багато
часу, і тому надзвичайно важливо запам’ятовувати запити, на які система
дає гарні відповіді. При роботі з пошуковою машиною за допомогою
браузера, запити зберігаються в кеші програми, при роботі з пошуковим
клієнтом є можливість зберігати результати запитів.

Index robot (робот-индексувальник) – служить для сканування Internet і
підтримки бази даних індексу в актуальному стані.

Метапошукові машини

Загальна кількість сторінок у мережі зараз близько 800 мільйонів. У той
же час ступінь охоплення цих сторінок самими могутніми на сучасний
момент пошуковими серверами всього лише близько 16%.

У ході дослідження на основі результатів обробки 1050 запитів були
визначені можливості 11 найпопулярніших пошукових систем. Наймогутнішою
виявилася система Northern Light, що охоплює, як вже відзначалося вище,
16% всіх Web-сторінок. Друге і третє місця з невеликим відставанням від
лідера поділили AltaVista і Snap — по 15,5%. Четверте місце з
результатом 11,3% зайняла система HotBot. Ступінь охоплення пошукових
засобів найбільш популярних Web-порталів — Yahoo!, Excite і Lycos —
склала відповідно 7,4, 5,6 і 2,5%.

Сумарне покриття всіх 11 пошукових систем дорівнювало 42%, чи 335
мільйонам сторінок.

Тому ступінь імовірності знайти необхідну інформацію зростає при
використанні декількох пошукових систем. Метапошукові машини призначені
для перенаправлення запиту користувача декільком пошуковим серверам. Як
правило, отримані в результаті запитів посилання упорядковуються,
видаляються дублюючі, є можливість різних варіантів сортування.

Інформація про людей і організації

Веб-простір

Адреси електронної пошти окремої особи чи організації традиційно
використовуються для ідентифікації власника. У комунікаційних ресурсах
Мережі – он-лайнових засобах комунікації користувачів і системах
телеконференцій нерідко він виявляється необхідним атрибутом кожного
учасника. Спеціальна URL-схема mailto дозволяє вставляти в Web-сторінку
гіперпосилання на e-mail, автоматично відкриваючого поштового клієнта. У
цьому вигляді вона широко застосовується в Павутині. Самі адреси при
цьому вільно індексуються пошуковими системами і доступні для пошуку
через пошукові машини загального призначення. AltaVista, наприклад,
показує, що адреси електронної пошти зустрічаються майже на 100
мільйонах Web-сторінок з 150 мільйонів заіндексованих нею документів.

Адреси e-mail активно накопичуються й у спеціальних системах пошуку
людей і організацій. Серйозною незручністю для пошуку по e-mail є те, що
при одержанні адреси допускається реєстрація користувача під
псевдонімом. Ця практика особливо широко поширена на серверах, які
надають безкоштовні поштові скриньки.

Он-лайнові засоби комунікації користувачів

Chat, ICQ і інші припускають можливість обміну інформацією між двома чи
великою кількістю користувачів Мережі в режимі реального часу через
посередництво спеціального чат-сервера . Частиною такого обміну може
стати текстовий діалог, передача графіки прямо в процесі її створення,
голосовий і відео зв’язок, обмін файлами. Довгий час ресурси цього типу
вкрай рідко використовувалися при вирішенні пошукових задач, однак
ситуацію змінила поява в 1996 році нового сервісу цього типу, а саме
служби ICQ (http://www.icq.com). На відміну від раніше існуючих чатів,
де реєстрація учасників, як правило, носила анонімний характер і діяла
лише протягом сеансу зв’язку, розробники ICQ запропонували кожному
користувачу реєстраційний номер-ідентифікатор, що зберігався б за ним
постійно. Це рішення мало грандіозні наслідки в області комп’ютерного
спілкування людей. Унікальний ICQ-номер може з’явитися на візитних
картках поруч з телефоном, адресою електронної пошти і домашньою
сторінкою. При пошуку людей і організацій можна з успіхом
використовувати пошукову службу ICQ, що стає доступною відразу після
установки ICQ-клієнта на комп’ютер.

Системи пошуку людей і організацій

в сучасній Мережі характеризуються двома важливими моментами: більшість
цих ресурсів уже перенесено на Web-сервери й все ширшої присутності
одержує в них інформація про людей і організації, що не мають прямого чи
взагалі ніякого відношення до Інтернету. З останнім твердженням
пов’язані відомі факти появи в Мережі телефонних, адресних і інших баз
даних як окремих організацій, так і цілих регіонів. Проте такий чисто
мережевий ідентифікатор користувача як адреса e-mail залишається
домінуючим пошуковим атрибутом для багатьох сервісів цього типу.
Джерелом поповнення їхніх баз даних стають матеріали телеконференцій,
Web-сервери, а також самостійна реєстрація користувачів. До них
додаються системи, що спеціалізуються на пошуку, наприклад, по номеру
ICQ (див. вище) чи домашніх сторінок користувачів (служба Ahoy!, URL
http://www.cs.washington.edu/research/ahoy/). Поряд з переорієнтуванням
сервісів під WWW у Мережі продовжує працювати одна із найстаріших
пошукових служб подібного типу – Whois, доступна по протоколі telnet із
сервера whois.internic.net після входу по login: whois.

Часто виникають спроби з’ясувати рейтинг пошукових сервісів цього
призначення. Так, за результатами досліджень журналу PC Magazin
(http://www.zdnet.com/pcmag) найбільшою популярністю в Мережі серед
користувачів Європи і Північної Америки користається служба пошуку адрес
електронної пошти Four11 (http://www.four11.com), розташована в порталі
Yahoo. Однак практика показує, що початок пошуку саме з цієї служби
зовсім не гарантує успіху. Усі ці служби мають один серйозний недолік –
вони не являють собою єдину ким-небудь адміністровану систему, а є лише
хаотично з погляду стороннього спостерігача поповнюваним набором
інформаційних вузлів. Наслідком цього є те, що грамотно спланувати
пошукову процедуру і розставити пріоритети в пошуку окремої особи стає
вкрай складно. У деяких випадках набагато ефективніше вдатися до пошуку
людини по його слідах у Мережі – публікаціях, місця роботи і т.п. з
використанням пошукових систем загального призначення.

Системи реальних імен

В основі систем реальних імен лежить ідея побудови між URL ресурсами і
користувачами ще одного рівня адресу, на які не поширюються обмеження,
властиві URL.

Ця ідея була реалізована в створеній навесні цього року Національній
службі імен (НСІ). Служба розроблена компанією «МедіаЛінгва», а
підтримує її компанія “100%”. На сервері НСІ, що знаходиться за адресою
www.names.ru зберігається база адрес, що дозволяє шукати Web-сторінки по
їхніх “російських іменах” – назвав фірм і організацій, імен власників,
характерним ключовим словам, рекламним девізам. Скажемо, за запитом
“Відкриті системи” буде знайдена сторінка http://www.osp.ru/, за запитом
“МШС” – http://www.css-mps.ru/, за запитом “Яблуко” і “Явлінський” –
http://www.yabloko.ru/, а за запитом “машинний переклад” –
http://www.ets.ru/.

На тому ж сервері (і на декількох інших) є безкоштовний драйвер,
встановивши який можна вводити запити до бази російських імен прямо в
поле адреси; одержавши запит, драйвер зв’язується із сервером НСІ,
знаходить у базі потрібний URL і робить автоматичне переключення на
відповідну сторінку. Таким чином, з погляду користувача, те що він
вводить як адреси російські слова і словосполучення будуть цілком
еквівалентні стандартним URL.

База імен

База імен складається з двох частин: імена фірм і організацій й імена
приватних осіб. Перші повинні бути унікальними, тобто якщо швидко
видавництво ЕТС зареєструвало для своєї сторінки ім’я “машинний
переклад”, то фірмі ПРОМТ це зробити вже не вдасться (зате на сторінку,
присвячену ПРОМТ, – правда, не на її власну, а на ту, яка належить
компанії “Агама”, – russia.agama.com/promt.htm – відсилає запит
“програми перекладу”); кілька адрес можуть виявитися результатом пошуку,
але лише у випадку, коли запит не має точної відповідності в базі. З
іншого боку, як ми бачили, таких строгих обмежень немає: одному URL
можуть відповідати і кілька імен; реєстраційна форма передбачає, крім
основного імені, до чотирьох синонімів. З іменами приватних осіб все
навпаки: вимога унікальності, природно, відсутня (людина не повинна
страждати через те, що в неї є однофамільці), а синоніми – прізвиська,
псевдоніми – не допускаються. Імена обох типів можна забезпечити
короткою анотацією, з яким НСІ буде працювати як звичайна пошукова
система.

Реєстрація в базі здійснюється тільки за заявками, причому співробітники
НСІ попередньо перевіряють відповідність імен і анотацій сторінок їх
реальному змісту. Якщо приватна особа реєструє тільки свою адресу
електронної пошти (що допускається), то перевірити правильність
повідомлених даних, мабуть, неможливо. Знову на зареєстрований адрес
посилається повідомлення – воно гарантує, що власник адреси дійсно хотів
зареєструватися, – а от гіпотетичну ситуацію, у якій хтось привласнює
собі ім’я іншої людини, щоб перехопити частину його переписування,
запобігти не можна.

Телеконференції

Глобальна система телеконференцій Usenet, регіональні і спеціалізовані
телеконференції. Система побудована за принципом електронних дощок
оголошень, коли користувач може розмістити свою інформацію в одній з
тематичних груп новин. Потім ця інформація передається користувачам, за
підписанням на дану групу. Повна кількість груп новин Usenet перевищує
20 тисяч і дані про них можна знайти, наприклад, на Yahoo. Усі вони
одночасно не підтримуються жодним сервером, так що важче буває відшукати
не назву відповідної групи, а сервер телеконференцій, з якого її можна
завантажити. Usenet – ключове слово саме для глобальної системи
телеконференцій. Регіональні і спеціалізовані системи також мають
поширення. Ресурс найважливіший для швидкого нагромадження інформації по
вузькому питанню, а при пошуку – частіше для одержання приватної,
неофіційної інформації.

Файлові архіви

Система файлових архівів FTP, системи пошуку в FTP-архівах глобального і
регіонального охоплення. Ресурси цього типу не відступили так
беззастережно під тиском Web-технологій, як більшість інших. Одна з
причин у величезній кількості інформації, накопиченої в ftp-архівах за
десятиліття експлуатації комп’ютерних систем, що як і раніше коштовна
для фахівців. Соціального замовлення на її перенесення у Web-простір у
повному обсязі не існує. Інша причина криється в простоті доступу,
навігації і передачі файлів по ftp. Так чи інакше сьогодні ftp-ресурси
потрібні і навіть характеризуються розвитком не тільки своєї єдиної
глобальної пошукової системи Archie (адреса одного зі стабільно
доступних Web-шлюзів до неї – http://ftpsearch.ntnu.no), але і
регіональних систем, зокрема російської – http://ftpsearch.city.ru , що
охоплює більш 2000 серверів.

Ftp-архіви – це в першу чергу джерела програмного забезпечення, що
успішно конкурують з Web-вузлами, що спеціалізуються на продажі і
поданні колекцій програм. На відміну від Web-вузлів на них набагато
частіше можна зіштовхнутися з порушенням авторських прав у вигляді
піратських копій програм і окремих матеріалів, які продаються на інших
вузлах за гроші. Як наслідок тіньових сторін ftp-сервісу – небезпека
зараження вірусом з неперевіреного джерела. Пошуки якої ж інформації
варто починати з пошукової системи ftp? Універсальна відповідь проста:
оскільки ключовим словом при оформленні запиту є текст, що входить у
назву файлу чи каталогу на ftp-сервері, то найбільшого успіху можна
досягти в пошуку інформації, яка є оформленою у вигляді файлу, або вже
має визначене ким-небудь ім’я, або існує реальна можливість його
вгадати.

Механізми роботи пошукових машин

Автоматичний аналіз текстів

Всі створені людиною тексти побудовані за єдиними правилами! Нікому не
вдається обійти їх. Яка б мова не використовувалася, хто б не писав —
класик чи графоман, — внутрішня структура тексту залишиться незмінною.
Вона описується законами Зіпфа (G.K. Zipf).

Перший закон Зіпфа “ранг — частота”

Виберемо будь-яке слово і порахуємо, скільки разів воно зустрічається в
тексті. Ця величина називається частота входження слова. Виміримо
частоту кожного слова тексту. Деякі слова будуть мати однакову частоту,
тобто входити в текст рівну кількість разів. Згрупуємо їх, взявши тільки
одне значення з кожної групи. Розташуємо частоти в міру їхнього спадання
і пронумеруємо. Порядковий номер частоти називається ранг частоти. Так,
що слова які найчастіше зустрічаються будуть мати ранг 1, наступні за
ними — 2 і т.д., на яке упав вибір. Імовірність зустріти слово в тексті
буде дорівнює відношенню частоти входження цього слова до загального
числа слів у тексті.

Імовірність = Частота входження слова / Число слів

Зіпф знайшов цікаву закономірність. Виявляється, якщо помножити
імовірність виявлення слова в тексті на ранг частоти, то величина, яку
отримали, (С) приблизно постійна!

С = (Частота входження слова * Ранг частоти) / Число слів

Якщо ми трохи перетворимо формулу, то побачимо, що це функція типу y=k/x
і її графік – рівностороння гіпербола. Отже, за першим законом Зіпфа,
якщо найпоширеніше слово зустрічається в тексті, наприклад, 100 разів,
то наступне по частоті слово навряд чи зустрінеться 99 разів. Частота
входження другого по популярності слова, з високою часткою імовірності,
виявиться на рівні 50.

Значення константи в різних мовах різне, але усередині однієї мовної
групи залишається незмінним, який би текст ми не взяли. Так, наприклад,
для англійських текстів константа Зіпфа дорівнює приблизно 0,1. Для
російської мови коефіцієнт Зіпфа дорівнює 0,06-0,07.

Другий закон Зіпфа “кількість — частота”

Розглядаючи перший закон, ми уникнули факту, що різні слова входять у
текст з однаковою частотою. Зіпф встановив, що частота і кількість слів,
які входять у текст із цією частотою, теж зв’язані між собою. Якщо
побудувати графік, відклавши по одній осі (осі X) частоту входження
слова, а по іншій (осі Y) — кількість слів у даній частоті, то крива, що
вийшла, буде зберігати свої параметри для всіх без винятку створених
людиною текстів. Як і в попередньому випадку, це твердження вірне в
межах однієї мови. Однак і міжмовні розбіжності невеликі. На якій би
мові текст не був написаний, форма кривої Зіпфа залишиться незмінною.
Можуть трохи відрізнятися лише коефіцієнти, що відповідають за нахил
кривої (у логарифмічному масштабі, за винятком декількох початкових
точок, графік – пряма лінія).

Закони Зіпфа універсальні. В принципі, вони застосовні не тільки до
текстів. В аналогічну форму виливається, наприклад, залежність кількості
міст від числа проживаючих у них жителів. Характеристики популярності
вузлів у мережі Інтернет – теж відповідають законам Зіпфа. Не виключено,
що в законах відбивається “людське” походження об’єкта. Так, наприклад,
учені давно б’ються над розшифровкою манускриптів Войнича. Ніхто не
знає, на якій мові написані тексти і чи тексти це взагалі. Однак
дослідження манускриптів на відповідність законам Зіпфа довело: це
створені людиною тексти. Графіки для манускриптів Войнича точно
повторили графіки для текстів на відомих мовах.

Що дають нам закони Зіпфа? Як з їхньою допомогою витягти слова, що
відбивають зміст тексту? Скористаємося першим законом Зіпфа і побудуємо
графік залежності рангу від частоти. Як вже згадувалося, його форма
завжди однакова.

Дослідження показують, що найбільш значимі слова лежать у середній
частині діаграми. Це і зрозуміло. Слова, що трапляються занадто часто, в
основному виявляються прийменниками, займенниками, в англійській —
артиклями і т.п. Рідко зустрічаються слова теж, у більшості випадків, не
мають вирішального смислового значення.

Від того, як буде виставлений діапазон значимих слів, залежить багато.
Постав широко – потрібні терміни потонуть у морі допоміжних слів;
встанови вузький діапазон — втратиш смислові терміни. Кожна пошукова
система вирішує проблему по-своєму, керуючись загальним обсягом тексту,
спеціальними словниками і т.п. Проведемо експеримент. Піддамо абзац
тексту математичному аналізу і спробуємо визначити список значимих слів.

Як приклад візьмемо один з попередніх абзаців (абзац, що починається
словами “Закони Зіпфа універсальні”). Подивимося, які слова потрапили в
область значимих слів, а які ні.

У таблиці наведені всі слова абзацу і зазначена частота їхнього
входження. Як бачите, слова з частотою 2 і 3 найбільше точно відбивають
зміст абзацу. Слова з найбільшою частотою входження виявилися
прийменники, а слова з меншою — загальними словами.

На малюнку наведений графік частота-ранг цього абзацу. Виділимо зону
значимих слів. Нехай це будуть слова з рангом 2, 3 і частотою 3,

2 відповідно. (Зверніть увагу, як зміщення чи розширення зони значимих
слів впливає на їхній склад.)

Давайте тепер проаналізуємо виділену нами область значимих слів. Не всі
слова, що потрапили в неї, відбивають зміст тексту. Зміст абзацу дуже
точно виражають слова: зіпфа, манускриптів, войнича, законам. Запит
типу: + “закон* зіпфа” + “манускрипт* войнича” неодмінно знайде нам цей
документ. Однак в область потрапили і слова: на, не, для, наприклад, це.
Ці слова є “шумом”, перешкодою, що ускладнює правильний вибір. “Шум”
можна зменшити шляхом попереднього виключення з досліджуваного тексту
деяких слів. Для цього створюється словник непотрібних слів — стоп-слів
(словник називається стоп-лист). Наприклад, для англійського тексту
стоп-словами стануть терміни: the, a, an, in, to, of, and, that… і так
далі. Для російського тексту в стоп-лист могли б бути включені всі
прийменники, частки, особисті займенники і т.п. Напевно потрапили б і
слова з нашого “шуму”: на, не, для, це. Є й інші способи підвищити
точність оцінки значимості термінів.

Вагові коефіцієнти

Дотепер ми розглядали окремо узятий документ, не приймаючи до уваги те,
що він входить у базу даних поряд з безліччю інших документів. Якщо
представити всю базу даних як єдиний документ, до неї можна буде
застосувати ті ж закони, що і до одиничного документа. Подивіться на
список термінів у нашому прикладі. В одну компанію потрапили
слова-терміни зіпфа і не — вони входять у документ рівну кількість
разів. Досліджуючи інші документи бази даних на предмет входження в них
цих термінів, ми, природно, знайдемо, що не зустрічається дуже часто, у
той час як зіпфа — досить рідко. Напрошується очевидний висновок: слово
зіпфа повинне стати терміном, у той час як не слід відкинути, як
перешкоду. Щоб позбутися від зайвих слів і в той час підняти рейтинг
значимих слів, вводять інверсну частоту терміна. Значення цього
параметра тим менше, чим частіше слово зустрічається в документах бази
даних. Обчислюють його по формулі:

Інверсна частота терміна і = log (кількість документів у базі даних /
кількість документів з терміном і).

Тепер кожному терміну можна присвоїти ваговий коефіцієнт, що відбиває
його значимість:

Вага терміна і у документі j = частота терміна і у документі j *
інверсна частота терміна і.

Напевно в нашому прикладі термін не одержить нульову чи близьку до нуля
вагу, оскільки практично у всіх текстах потрапляється це слово. Термін ж
зіпфа — навпаки, придбає високу вагу.

Сучасні способи індексування не обмежуються аналізом перерахованих
параметрів тексту. Пошукова машина може будувати вагові коефіцієнти з
урахуванням місцезнаходження терміна всередині документа, взаємного
розташування термінів, частин мови, морфологічних особливостей і т.п.

Подання бази даних

Отже, ми розібралися, як машина “розуміє” суть тексту. Тепер необхідно
організувати всю колекцію документів так, щоб можна було легко відшукати
в ній потрібний матеріал. База даних повинна взаємодіяти з
користувальницьким запитом. Запити можуть бути простими, що складаються
з одного слова, і складними — з декількох слів, зв’язаних логічними
операторами. Простий запит виправдує свою назву. Користувач вводить
слово, машина шукає його в списку термінів і видає всі зв’язані з
терміном посилання. Структура такої бази даних проста. Взаємодія зі
складними запитами вимагає витонченішої організації.

Матричне подання бази даних

Найпростіший спосіб представити елементи бази даних у формі, зручною для
різноманітного пошуку — створити матрицю документ-термін.

0 0 0 1 1 0 0 0

Судномоделювання 0 0 1 0 0 0 0 0

Врожай 0 0 0 1 1 0 1 0

Хобі 0 0 1 0 0 0 0 1

Припустимо, база даних має 8 документів (Д1, Д2, Е, Д8), у яких
містяться 12 термінів. Якщо термін входить у документ, у відповідній
клітинці ставиться одиниця, у противному випадку – нуль (у реальній
системі усе складніше: крім іншого, враховуються ще і вагові коефіцієнти
термінів).

Складемо, наприклад, такий запит: кораблі в пляшках. Система обробить
запит: видалить стоп-слова і, можливо, проведе морфологічний аналіз.
Залишаться два терміни: корабель і пляшка. Система буде шукати всі
документи, де зустрічається хоча б один з термінів. Подивимося на
матрицю. Зазначені в запиті терміни є в документах: Д1, Д2, Д4, Д7, Д8.
Вони і будуть видані у відповідь на запит. Однак неважко помітити, що
документи Д4 і Д7 не задовольняють наші сподівання – вони з області
виноробства і ніякого відношення до будівлі моделей кораблів у пляшках
не мають. Утім, система все зробила правильно, адже, з її точки зору,
терміни корабель і пляшка рівноцінні.

Просторово-векторне подання бази даних

Просторово-векторна модель дозволяє одержати результат, який добре
відповідає запиту. Причому документ може виявитися корисним, навіть не
маючи 100% відповідності. У знайденому документі може не виявитися
жодного чи декількох слів запиту, але при цьому його зміст буде
відповідати запиту. Як досягається такий результат?

Всі документи бази даних розміщуються в уявному просторі (це може бути
багатомірний простір, уявити який дуже важко). Координати кожного
документа залежать від структури термінів, у ньому що містяться (від
вагових коефіцієнтів, положення всередині документа, від відстані між
термінами і т.п.). У результаті виявиться, що документи зі схожим
набором термінів розмістяться в просторі ближче один до одного.

Припустимо, ми хочемо знайти документи, що стосуються будівлі моделей
кораблів у пляшках. Складемо запит, наприклад, такий: кораблі в пляшках.
Одержавши його, пошукова система видалить зайві слова, виділить терміни
й обчислить вектор запиту в просторі документів (стрілка на малюнку).
Встановивши деякий діапазон відповідності, система видасть документи, що
потрапили в заштриховану область на малюнку 4. Ця область неодмінно
захопить документи, де йдеться про незвичайні захоплення – хобі,
класичне судномоделювання і т.п. У них може зовсім не виявитися деяких
слів запиту, однак документи залишаться досить релевантними. Терміни, що
відносяться до вина, будуть групуватися в іншій точці простору, і запит
їх не торкнеться. Як бачите, “зрівняння” термінів вдалося перебороти. У
просторово-векторній моделі терміни взаємодіють один з одним, що
підвищує релевантність документів. Зрозуміло, що просторово-векторна
модель краще сприймає запити, складені природною мовою, ніж матричну.

Побудова індексу

gd?E

??????????E?Структура веб-сторінки, яка описується за допомогою мови
HTML, містить у собі, крім заголовка сторінки (title) і власне тексту
(text), що несе основне інформаційне навантаження, ще кілька полів,
невидимих при перегляді документа в браузері, але інформація про які
може бути важливою для користувача. Це коментарі автора до веб-сторінки
(comment), тексти лінків на інші файли (anchor) і власне самі лінки
(link), графіка (і alt-таги (коментарі) до вбудованих зображень),
програми на мовах Java, Javascript і VBScript. Лінки зі сторінки можуть
вказувати не тільки на іншу веб-сторінку чи графічний файл, а, власне
кажучи, на довільний об’єкт, в інформації яким користувач також може
бути зацікавлений. Крім того, мовою HTML передбачено використання
спеціальних полів у документі що створюються для кращої індексації
сторінки пошуковою системою, так званих МЕТА-тагів. Для опису характеру
і змісту розміщеної на сторінці інформації використовуються таги
Description (опис), наприклад: “Офіційна веб-сторінка Верховної Ради
України”, і Keywords (ключові слова), наприклад: “Верховна рада,
Парламент, законодавство, закони, політика”. В основному тексті
веб-сторінки рекомендується використання спеціальних тагів для виділення
заголовків (header), допускається використання заголовків шести рівнів.
Також важливою для користувача може виявитися інформація про дату
останнього відновлення сторінки, тощо. Ті частини й атрибути
гіпертекстового документа, що враховуються при складанні індексу,
назвемо областю індексації. Крім файлів веб-сторінок можливе
індексування текстових файлів (з розширенням, txt), на які є лінк зі
сторінки. Файли цього типу можуть безпосередньо переглядатися в браузері
і тому на них можливий безпосередній перехід зі сторінки результатів
запиту до пошукової системи.

При індексації сторінки спайдер може враховувати всі слова в області
індексації, за винятком так званих стоп-слів (слів, що найчастіше
вживаються: сполучників, прийменників, тощо) тоді така система
називається повнотекстовою (full-text), чи, заради зменшення обсягу
побудованого індексу, враховуються тільки слова, що видаються пошуковому
механізму більш важливими за інші, наприклад часто вживані, чи ті, котрі
стоять у реченні на ключовому місці, створюється начебто “екстракт”
сторінки. Системи другого типу можна назвати абстрактними (abstract).
Усі пошукові системи що розглядаються в даній статті є повнотекстовими і
підтримують стоп-слова.

Ще одна особливість побудови індексу зв’язана з великою кількістю
різноманітних кодувань, у яких може бути створений веб-документ. Якщо
символи латинського алфавіту в будь-якій кодовій таблиці стоять на тих
самих місцях, то для кирилиці існує п’ять (важливих для Internet)
кодувань, чотири кодових сторінки для PC і кодова сторінка систем
Macintosh. І тому результатами пошуку за запитом українською чи
російською мовами будуть тільки сторінки в тому кодуванні, у якому
ставився запит, сторінки в інших кодуваннях знайдені не будуть. При
пошуку за допомогою будь-якого західного пошукача, варто пам’ятати про
цю проблему і, при необхідності, робити кілька запитів у різних
кодуваннях. Пошукові системи Апорт!, Rambler, Яndex і Мета коректно
обробляють цю проблему, здійснюючи автоматичне перекодування запиту.

Розглянемо області індексації різних систем. Звичайно URL сторінки і
власне текст індексуються в будь-якому випадку.

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Заголовок сторінки (title)

alt-таги

н/д

коментарі (comment)

н/д н/д

мета-таг description

н/д н/д

мета-таг keywords

н/д н/д

вбудовані програми

лінки на зовнішні файли . (link)

н/д

текст лінка (anchor)

дата обновлення інформації

*.txt

Область індексації пошукових систем.

Текст у спеціальних полях може враховуватися в загальному індексі, але в
більшості пошукових машин індекс цих полів складається окремо, і пошук
можна проводити як по основному тексті документа, так і по кожному полю
окремо, що буде розглянуто в мові запитів.

Мова запитів.

Розглянемо мову запитів пошукових систем. Хоча на всіх пошукових
системах існує можливість ставити простий запит (simple query), у якому
використовуються тільки ключові слова, які змушений містити знайдений
документ, чи взагалі, як, наприклад, на AltaVista чи Яndex, запит можна
задавати природною мовою, використання розвинутого запиту (advanced
query), з логічними операторами, дозволяє значно збільшити відповідність
пошуку чи ставити специфічні запити.

Всі оператори, які використовуються при побудові запитів на тих чи інших
пошукових сайтах, можна розбити на кілька груп.

Класичні логічні оператори. І, ЧИ, НЕ і “()” (дужки), що задають порядок
дії операторів. Підтримуються всіма пошуковими машинами. Їхнє
використання особливих коментарів не вимагає. До цієї групи можна
віднести також оператори * і? , перший з який використовується для
заміни довільної кількості букв у слові, а другий для однієї. Їхнє
використання значно знижує чутливість пошуку, і тому деякі пошукові
машини їх не підтримують.

Пошук фрази. Коли необхідно провести пошук не просто за декількома
ключовими словами, а за словами, що повинні вживатися разом і у
визначеному порядку, ці слова записуються в подвійних лапках ” “.

Оператори області пошуку. За замовчуванням пошук проводиться по всіх
полях гіпертекстового документу, які враховуються при його індексації
спайдером. А використання операторів області пошуку дозволяє обмежити
пошук тільки основним текстом документу, чи його заголовком, полями
коментарів, позначками-дескрипторами, alt-тагами графічних файлів,
лінками з веб-сторінок, тощо.

Текст (text) – усе те, що безпосередньо видно при перегляді сторінки в
браузері.

Заголовок сторінки (title) – заголовок веб-сторінки, що відображається в
заголовку вікна браузера.

Заголовки (header) – заголовки, що виділяються в основному тексті
сторінки за допомогою тагів .

ALT-таги – коментарі до вбудованих зображень.

МЕТА-таги – поля, які коротко описують вміст сторінки.

Коментарі (comment) – коментарі веб-майстра до HTML-коду сторінки.

Текст лінку (anchor) – текст, що описує гіперлінк (власне, те, що бачить
користувач).

Лінк (link) – “підводна” частина гіперлінку, що вказує на іншу
веб-сторінку чи файл.

Адреса сторінки (URL) – повний шлях до сторінки, включаючи ім’я серверу,
каталогу й ім’я файлу.

Вбудовані програми – пошук сторінок з вбудованими JAVA-аплетами чи VB- і
Java-скриптами.

Оператори відстані між словами. Дозволяють точно вказати допустимо
максимальну відстань між двома ключовими словами і їхній порядок
проходження в тексті. Можливе використання тільки на повнотекстових
пошуковиках. При індексації сторінки кожне слово одержує порядковий
номер, і відстанню між словами є різниця їхніх порядкових номерів. У
мові запитів деяких пошукових систем можливо також обмеження кількості
речень, чи кількості абзаців, у межах яких повинні зустрічатися ключові
слова. Наприклад, варто знайти документи, пов’язані з Парламентом
України. На запит “парламент AND україни” крім документів що потрібні,
будуть знайдені, зокрема, документи, у яких мова йде про дії російського
парламенту щодо економічного партнерства з Україною, що будуть зайвими,
адже це не той зв’язок між ключовими словами, що нам потрібний. А запит
у вигляді “парламент NEAR україни” обмежує відстань між цими словами в
тексті, що відсіює появу нерелевантних документів.

Оператор розміщення. У мовах запитів більшості пошукових систем існує

У верхній частині записаний приклад використання оператору, у нижній –
синоніми оператору, якщо вони існують. Використання в прикладі слова
“слово” означає, що відповідний текст може бути поданий будь-якою мовою
з числа підтримуваних системою, а і можливість обмежити пошук конкретним
веб-вузлом (host) чи навіть визначеним каталогом (folder), наприклад
“url = www.socosvita.kiev.ua & освіта” провести пошук сторінок, що
містять слово “освіта” на сервері www.socosvita.kiev.ua, чи ініціювати
пошук по веб-сторінкам, розміщеним у визначеній доменній зоні (domain),
com, ru, kiev.ua, наприклад “url = *.kiev.ua & вища & освіта”, тощо.

Оператор дати. Існує можливість пошуку документів, дата модифікації яких
попадає у визначений діапазон.

Також на деяких серверах підтримуються оператори ваги і підвищення
релевантності й оператори, що зв’язані з морфологічною обробкою запиту.

Кожна пошукова система має, так казати, свій діалект мови запитів і
синоніми і скорочення основних операторів. Тому деякі оператори на
різних пошуковиках мають зовсім різний зміст, звертаємо увагу на
оператор “!, “~, оператори “+” і”-“.

Також використання мови запитів залежить від типу запиту простий чи
розвинутий, наприклад, у системах AltaVista і Excite у простому запиті
можна використовувати тільки оператори підвищення релевантності “+” і
“-“.

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Можливе використання мови запитів Запит природною мовою

Bcgkmpjdfybt технологbb ICE

Запит природною мовою тільки один варіант пошуку

Оператор, який використовується за замовчуванням OR AND AND AND AND AND
AND AND

Параметри простого пошуку.

На деяких сайтах існує можливість уточнювати запит з урахуванням
результатів попереднього запиту. Так, на AltaVista існує опція refine
(уточнити), а на сервері Яndex, найбільш перспективному російському
пошуковику, навіть кілька зручних опцій: “Шукати в знайденому”, що
дозволяє пошук у наступному запиті обмежити тільки документами,
знайденими за попереднім запитом, і “Знайти схожі документи” (схожа на
refine AltaVista) і “Пошук по зазначених зразках”, які дозволяють
ініціювати новий пошук не завданням запиту, а вказавши один чи кілька
документів із вже знайдених, котрі найбільше відповідають потребам
користувача. Аналогічні можливості подальшого пошуку пропонують і деякі
інші пошукові системи.

AltaVista HotBot Excite Rambler Апорт! Яndex
InfoRes МЕТА

Пошук у знайденому

Пошук за зразком

Пошук за зразком декількох документів

Використання результатів попереднього запиту.

Морфологічні і лінгвістичні особливості пошукових систем.

Одним з напрямків удосконалення пошукових систем за останні роки стало
використання морфологічного і лінгвістичного аналізу тексту при
створенні індексу веб-сторінок. На жаль україномовної частини Internet
цей процес не торкнувся, існують рішення тільки для російської й
англійської мов (хоча на пошуковому сервері МЕТА ведуться роботи щодо
коректного обліку при запиті особливостей української і російської мов і
можливої омонімії мови). Також використовуються системи інтелектуального
розбору і розширення запиту користувача. Як приклад Excite використовує
патентовану технологію ICE (Intelligent Concept Extraction), що розширює
запит користувача також синонімами ключових слів, і запит “юрист”
перетвориться на “юрист OR адвокат OR прокурор”. Синоніми можуть
підбиратися і для цілих виразів, наприклад “Голова Верховної Ради”
“спікер”, тощо. Звичайно, працює дана технологія тільки для запитів
англійською мовою. Лінгвістичні алгоритми, що враховують місце ключових
слів у тексті сторінки і допомагають підвищити релевантність результатів
запиту (див. нижче), у тому чи іншому вигляді використовуються майже
кожною пошуковою системою. Але найбільш повно реалізованими (у деяких
пошукових механізмах) є алгоритми морфологічного розбору. Причому
існують два шляхи їхнього використання при створенні індексу (Апорт!,
Яndex) чи при аналізі запиту (Rambler).

В українській і російській мовах кількість словоформ для одного слова
може досягати декількох десятків. Причому в багатьох випадках це не
просто зміна закінчення, яке можна врахувати за допомогою шаблону *
(шаблон закон* містить у собі слова: закони, законами, законотворчість,
законність), а у випадку, коли просте використання шаблону неможливе, чи
дає небажані результати:

слова, у яких у різних формах міняється основа. Укр.: йти – йшов, погано
гірше, я мене; ріс: людину люди, дитина діти; англ.: thought think.

слова зі зникаючими голосними і зміною порядку букв. Укр.: вікно –
вікон, рости ріс, рік-років; ріс: шукати шукаю, позов позивач.

слова з великою кількістю словоформ, для яких навіть перевірити, чи
враховує їх усі шаблон, досить важко.

короткі слова: хор, доля, тощо. При використанні шаблону кількість
знайдених непотрібних документів значно росте.[ ]

Перераховані проблеми вирішуються морфологічною обробкою тексту
веб-сторінки. Перед індексуванням усі слова, що існують у словнику
системи, ставляться в нормальну (початкову) форму й у такому вигляді
заносяться в базу. При постановці запиту всі ключові слова також
ставляться в нормальну форму і вже після цього направляються пошуковій
системі. А в системі Rambler використовується другий підхід: при
індексації слова не нормалізуються, вони заносяться в базу в тій
словоформі, у якій вони використовуються в тексті, але при побудові
запиту існує можливість розширити його морфологічним розбором ключових
слів.

Слова, які відсутні в словнику (неологізми, екзотичні слова), у різних
системах обробляються по різному. Система Апорт! заносить слова в базу в
тому ж вигляді, у якому вони зустрічаються в тексті; алгоритм
морфологічно розбору Яndex вміє коректно обробляти і слова які не
знайдені в словнику, і слова, що записані з помилками. Для побудови
парадигми незнайомого слова використовуються найбільш схожі на нього
слова зі словника і модель, по якій будується парадигма для знайомого
слова. Тобто, висувається гіпотеза про приналежність слова до
визначеного словотворчого типу, на описі яких ґрунтується “Граматичний
словник російської мови” А.А.Залізняка. Може бути висунуто кілька
гіпотез, на підставі яких будуються всі можливі словоформи незнайомого
слова Помилка! Джерело посилання не знайдений..

Не завжди навіть облік морфології дає бажані результати. Це випадки так
званих омоформ, тобто слова, які є різними частинами мови мають загальні
словоформи в парадигмі. Наприклад, в російській мові слово “раздел” це
іменник (“раздел книги”) і дієслово (“кто-то кого-то раздел”); в
українській мові слово “пара” є числівником (“пара чого-небудь”) і
іменником (“з-під дверей диміла пара”).[2] У таких випадках для
визначення значення слова використовується контекст, відшукуються
словосполучення, до яких належить дане слово, чи в мові запитів можливе
використання спеціальних операторів що вказують на нормальну словоформу.
У пошуковій машині Яndex за морфологічну і синтаксичну обробку тексту
відповідає система Яndex-Dict, що використовується як при побудові
індексу, так і розборі запиту користувача, коли він направляється
природною мовою.

На сервері фірми CompTek (www.comptek.ru) автора системи Яndex існує
можливість обробки запиту користувача системою Яndex-Dict для роботи з
індексом, що створювався без обліку морфології. Ключові слова запиту
користувача після обробки ставляться в усі можливі словоформи, а
результат передається іншому пошуковому серверу. Яndex-Dict уміє
коректно обробляти цілі фрази (що задаються використанням лапок ” “),
виконуючи узгодження слів. Зараз існують інтерфейси до пошукової системи
AltaVista www.comptek.ru/alta/html, і до системи Rambler
www.comptek.ru/ramb.html, що працюють з обліком російської й англійської
морфології і коректно переводять мову запитів Яndex на мову відповідної
пошукової системи.

Наведемо для ілюстрації вищесказаного приклади морфологічного розбору
слів і синтаксичної обробки виразів словниковим сервером Яndex-Dict:

побудова гіпотези для слова, яке не міститься в словнику:

КОНСЕНСУС морфологія Гіпотези: 1) ІМЕННИК, ім, од, чолов, неод

2) ІМЕННИК, вин, од, чолов, неод.

Зразок: 1) ляпсус;

2) оцет.

Парадигма: 1) консенсус, консенсусу, консенсусам, консенсусах,

2) консенсусі, консенсусів, консенсусом, консенсусу, консенсуси.[ ]

електронні NEAR гроші морфологія (електронний OR електронна OR
електронне OR електронній OR електронно OR електронного OR електронної
OR електронному електронною OR електронну OR електронні OR електронним
OR електронними OR електронних) NEAR (грошей OR гроші OR грошам OR
грошима OR грошах OR грішми)

електронні NEAR гроші синтаксис і морфологія ((електронні NEAR гроші) OR
(електронних NEAR (грошей OR грошах)) OR (електронним NEAR грошам) OR
(електронними NEAR грошима))

розбір слів, які не містяться в словнику: “для ваучерного ф’ючерса”
синтаксис і морфологія для NEAR (ваучерного NEAR ф’ючерса OR (ваучерних
NEAR ф’ючерсів) OR [ ]

Морфологічна обробка запиту.

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Мови, які підтримуються при індексуванні

Українська

Російська

Англійська

Морфологічний розбір

при індексуванні (і) розборі запиту (з)

з і і

Українська

планується

Російська

Англійська

Незнайомі слова

н/д

Пошук за точною словоформою

!слово

Вказівка нормальної словоформи

!слово

Обмеження дії конкретним

@слово

Регістр

Мовні особливості пошукових систем.

Ще одна особливість індексації зв’язана з регістром, у якому написані
слова. Наприклад, система Rambler, при індексації приводить усі слова до
нижнього регістра, але більшість систем зберігають оригінальне написання
слів. При побудові запиту до пошукової системи, індекс якого чуттєвий до
регістра варто враховувати наступне: Якщо ключове слово написане малими
літерами, то пошук ведеться незалежно від регістру на запит “парламент”
будуть знайдені документи, що містять і “парламент”, і “Парламент”, і
“ПаРлАмЕнТ”, але при використанні в ключовому слові хоча б один
прописний регістр враховується за словом “Парламент” будуть знайдені
тільки сторінки, які містять це слово точно.

Крім того, деякі сервери пропонують унікальні можливості лінгвістичної
обробки запиту користувача. AltaVista дозволяє обмежити пошук сторінки
тільки конкретною мовою і здійснювати переклад знайдених сторінок і
запиту користувача. На сервері Апорт! існують можливості виправлення
помилок у запиті й автоматичному перекладі запиту, які працюють для
російської й англійської мов.

Релевантність результатів поставленому запиту

Використання могутніх алгоритмів індексування і запитів розвинутої мови
переслідує одна мета: результати пошуку змушені якнайбільше відповідати
поставленому запиту. Щоб ще більше підвищити релевантність знайдених
документів, пошуковими машинами використовується “штучний інтелект”, що
аналізує результати пошуку і розміщує найбільш відповідні документи на
вершині списку результатів. Якими алгоритмами він при цьому
користається? По-перше, це лінгвістичний структурний аналіз тексту
сторінки, по-друге облік популярності даного ресурсу.

Зрозуміло, що різні частини веб-сторінки, як і будь-якого документу, не
є рівноцінними за своїм інформаційним навантаженням. Ті самі слова, але
які вживаються в різних частинах документу, мають різний ступінь
значимості. Так, слово з заголовка сторінки “важить” більше, ніж слово з
основного тексту. Так само можна сказати і про слова, що зустрічаються в
мета-тагах description і keywords і в заголовках основного тексту
сторінки.

При використанні в запиті декількох ключових слів, у більшості випадків
буде справедливою залежність релевантності документу від ступеня
близькості цих слів у тексті.

Слово, яке зустрічається кілька разів на сторінці більш значимо, чим те,
котре зустрічається тільки раз. У більшості випадків саме цей фактор є
вирішальним у визначенні рейтингу документа

Використанням спеціальних операторів мови запитів у деяких пошукових
машинах можна збільшити “вагу” слова, і документи, що його містять
будуть вважатися більш релевантними.

Деякі пошукові машини, наприклад HotBot, вважають більш релевантними
документи, що мають більший розмір.

При виведенні списку результатів пошуковими машинами враховується також
кількість зовнішніх лінків на сторінку: чим більше сторінок мають лінки,
тим вище її розташування в списку; також враховується присутність
знайденої сторінки в каталозі, що підтримується даною системою
(популярність ресурсу).

При пошуку по датах створення документів, результати або виводяться в
довільному порядку, або упорядковуються саме по датах.

Використання перерахованих вище методів різними пошуковими машинами
подано в таблиці.

Кілька слів хотілося б сказати про форму виведення результатів пошуку:

AltaVista HotBot Excite* Rambler** Апорт! Яndex
InfoRes МЕТА

Кількість ключових слів

н/д •

Розміщення ключових слів

TITLE

HEADER

МЕТА-таги

keyword

ALT

Ступінь близькості слів у тексті

н/д

Оператори “ваги” +слово

-слово +слово

-слово***

Слово:N

(вираз):N

Облік популярності ресурсу

н/д н/д н/д н/д н/д

Довга документа Q

Відслідковується спам

Текст того ж кольору що й фон н/д надлишкове повторення слів, текст фону
н/д н/д

* – Excite основну увагу приділяє власне тексту і заголовкам (header).

** – Rambler також враховує текст, виділений та (більш
жирний)

*** – Можливе використання декількох знаків “+” чи “-” для підвищення
значимості слів.

Перше. Результати пошуку в більшості випадків упорядковуються відповідно
до релевантності, але можливі і виключення з цього правила, наприклад,
на AltaVista таке упорядкування не проводиться при використанні
розширеного пошуку тільки по логічному вираженню, без застосування слів
у першій частині запиту.

Друге. У Web може існувати кілька копій того самого документу, але або в
різних кодуваннях, або розміщених на різних серверах. Пошукова система
може вважати їхнім або різним документами (що є не досить коректно) або
копією одного документа і видавати, відповідно, або кілька лінків, або
один, із указівкою всіх кодувань і списку адрес. Пошуковий механізм
серверу Яndex, наприклад, при індексації документу підраховує визначене
число-ідентифікатор, що є запорукою унікальності і зберігається в
індексній базі. Якщо це число вже є в базі, вважається, що документ
ідентичний проіндексованому раніше, і замість нового документа в індекс
заноситься інформація про дублювання на веб-сторінці по іншій адресі і,
можливо в іншому кодуванні.[ ] Інформація про кодування сторінки
виходить з аналізу заголовку і вибіркового аналізу тексту, також можливе
використання даних тагу МЕТА HTTP-EQUIV=”ContentType”
CONTENT=”text/html; charset= windows-1251″, де останній запис декларує
кодування сторінки; для кирилиці можливе використання чотирьох кодувань:
windows-1251, DOS-866, KOI-8r, ISO.

Визначення релевантності документа.

Третє. Вказання “міри релевантності”. Це може бути кількість входжень
ключових слів у текст документу, чи ступінь відповідності сторінки в
процентному співвідношенні, Яndex, наприклад, кожному знайденому
документу ставить у відповідність число від 1 до 10. Можлива також
видача повної статистики запиту, що корисно при подальшому пошуку.
Зручним є генерування списку серверів, на яких розміщено найбільше
документів зі знайдених за запитом.

Четверте. Опис сторінки. Ним може бути або заголовок сторінки, або текст
із мета-тагу description, чи декілька перших рядків основного тексту
документу, але найбільш зручний для користувача варіант – вивід частини
тексту сторінки, у якому вживаються ключові слова з запиту.

П’яте. Використання повнотекстового індексування й обліку позиції
кожного слова в тексті документу дозволяє пошуковим системам Яndex і
Апорт! і МЕТА пропонувати додаткові можливості роботи з результатами
пошуку. Апорт! і МЕТА дозволяють одержати реконструкцію тексту знайдених
документів навіть у випадку їхнього зникнення з мережі (але, звичайно,
без форматування і без вбудованих зображень). А на сервері Яndex
пропонується просто унікальна можливість навігації в знайденому
документі між входженнями ключових слів у текст. Ця опція має назву
“розмітка документа”.

Alta Vista HotBot Excite Rambler Апорт!
Яndex InfoRes МЕТА

Облік різних кодувань

н/д

Відстеження копій документів

н/д н/д

Облік дублікатів документів.

Стратегія пошуку, заснована на механізмі аналізу текстів

Ми знаємо, як система виділяє ключові слова. Скористаємося цим знанням,
щоб сформувати оптимальний запит. Насамперед обумовимо деякі вихідні
передумови. Допустимо, ми маємо деяке текст-джерело і хочемо знайти в
мережі Інтернет документи схожого змісту. Звідки візьметься таке
текст-джерело? Оскільки саме завдання пошуку не могло б виникнути з
нічого, десь неодмінно повинна існувати інформація, що збудила інтерес
до проблеми. Може бути, це журнальна стаття, книга, веб-сторінка і т.п.
Саме цю інформацію і потрібно упорядкувати і привести у форму, зручну
для аналізу. Якщо завдання існує тільки у вас у голові, спробуйте
написати невеликий твір, виклавши своє бачення проблеми, — воно і стане
текстом-джерелом. Якби нам удалося об’єднати джерело-текст-джерело так
само, як це робить пошукова машина, по ідеї, ми могли б одержати
результати з максимально високої релевантністю. Спробуємо. Візьмемо
текст-джерело і проаналізуємо його.

Послідовність дій така:

Підбираємо текст-джерело. Якщо чіткий опис проблеми в тексті-джерелі,
тим якісніше і точніше виявиться результат. Розмите і плутане
джерело-текст-джерело видасть з пошукової системи настільки ж безглузді
документи.

Видаляємо з тексту стоп-слова (їхній можна просто викреслювати).

Обчислюємо частоту входження кожного терміна. При чому робимо це без
обліку морфології слів. Так, слова ship і ships будуть різними
термінами. Не потрібно враховувати і реєстр, усі букви вважаємо
рядковими.

Виписуємо на окремий лист терміни в порядку зменшення їхньої частоти
входження (першими повинні йти ті, котрі зустрічаються частіше).

Вибираємо діапазон частот. Він повинний лежати де-небудь по середині. Не
потрібно брати занадто часто, чи занадто рідко терміни, що
зустрічаються. Вибір діапазону суб’єктивний. Вам належить орієнтуватися
на конкретний зміст тексту. Необхідність вибирати діапазон вручну не
повинний бентежити, адже тепер ви вибираєте терміни не з тексту, а з
побудованого по визначеному законі упорядкованого списку.

З обраного діапазону виписуємо терміни. У великому тексті в діапазоні
може виявитися досить багато слів. Усі їх застосувати навряд чи
вдасться. Досить узяти 10-20 термінів. Їх варто вибирати, керуючись, у
першу чергу, здоровим глуздом. Причому не варто обмежуватися тільки
характерними термінами, навіть якщо вони здаються найбільш вдалими. У
список повинні потрапити і загальні слова (їхній краще вибирати із
середньої частини діапазону).

Складаємо запит, розташовуючи відібрані слова в порядку їхнього
проходження в списку термінів. Запит повинний розумітися машиною як
слова, зв’язані логічним оператором АБО . Це дуже важлива вимога. Щоб
результат не спотворився, варто вивчити особливості синтаксису запитів
конкретної пошукової системи.

Відправляємо запит пошуковій системі.

У відповідь ви можете одержати кілька мільйонів посилань. Але не
лякайтеся. Якщо пошукова машина збирає результати (а це ще одна
необхідна умова), на перших сторінках виявляться практично стопроцентно
релевантні документи. Саме цікаве, що документ — джерело запиту (якщо
його аналог існує в Інтернету) зовсім не обов’язково буде очолювати
список.

Зрозуміло, пропонований метод пошуку не можна назвати універсальним.
Далеко не всі пошукові машини покажуть високий результат пошуку при його
застосуванні. Якими ж властивостями повинна володіти пошукова система,
щоб застосування методу було виправдано? Безліч факторів впливають на
результат. Це і загальний обсяг бази даних, і механізм індексації,
структура даних і так далі, тощо. Але найбільш важливими, на мій погляд,
є два уміння пошукової системи: здатність розуміти запити, складені на
різних мовах (для нас — на російському), і могутнє ранжирування
результатів. З російською мовою всі зрозуміло — без неї нам в Інтернеті
не цікаво. Але чому так важливе ранжирування? Ми домовилися вводити
запит з логікою АБО. Це сильно збільшує кількість документів, що
повертаються пошуковою машиною. Без ранжирування всякий пошук утрачає
зміст. Найкращі результати дає ранжирування за схемою: точна
відповідність — усі слова запиту — усі слова, крім останнього, — усі
слова, крім двох останніх, — … — усі слова, крім останніх, — перше
слово (плюс, зрозуміло, ранжирування по кількості термінів у тексті).
Алгоритм може бути і більш могутнім, але навіть при такій послідовності
ми можемо бути упевнені, що, скільки б документів знайдено ні було,
найбільш удалі виявляться перед.

Найкращі результати в пошуку по пропонованому методі продемонструвала
система AltaVista (www.altavista.com). Хоча на тестовий запит система
видала більш 5 мільйонів посилань, для англомовного запиту на перших
трьох сторінках усі посилання виявилися абсолютно релевантними! (Причому
документ-джерело з’явилося тільки на третій сторінці.). Крім AltaVista
дуже гарний результат у пошуку англійською мовою показав HotBoot
(www.hotbot.com). Більш скромні пошукові машини Northern Light, Excite,
Infoseek і інші хоча і виконали завдання, але достатком релевантних
посилань не вразили (можливо, просто через те, що їхньої бази даних не
настільки великі). Для пошуку англійською мовою на перших сторінках
виявилося 40-60% релевантних посилань (утім, не такий й поганий
результат).

Надмірне захоплення морфологічною обробкою слів може позбавити пошук
гнучкості. На мій погляд, саме цим грішать деякі російські пошукові
системи. Не можна не погодитися, що зручно ввести в поле запиту фразу
природною мовою й одержати список документів, що (на думку пошукової
машини) цьому запиту задовольняють. Такий пошук дає непоганий результат
у середньому. Однак будь-яке відхилення убік від затвердженої схеми може
різко знизити ефективність пошуку. Усі ці розуміння спочатку викликали
серйозні сумніви в застосовності методу на вітчизняних пошукових
серверах. Що ж вийшло в реальності?

У цілому побоювання підтвердилися. Для системи “Апорт!” обрана методика
виявилася цілком далека. Rambler представив гарні результати тільки
після того, як логіка запиту була змінена на чи. На першій сторінці всі
документи, як для російського, так і англійського пошуку, виявилися
цілком релевантними. На жаль, логіка АБО неминуче веде до утрати вагомої
частини релевантних документів. З пошуком англійською мовою відмінно
справився Яндекс (yandex.ru ) — стовідсоткова релевантність на першій
сторінці для англомовного запиту. Однак російський запит був оброблений
помітно слабше. Вивчення відгуку російських пошукових систем привело до
парадоксального (і крамольному) висновку: морфологічна обробка не
обов’язково збільшує число релевантних документів! Зрозуміло, це
твердження не безперечне. Для інших методик пошуку морфологічний аналіз
може виявитися незамінним; у пропонованої ж нами — він явно зайвий.
Недарма так добре справилася з задачею AltaVista — у ній навіть
англійський текст морфологічно не обробляється. Усі слова для неї, за
рідкісним винятком (мається на увазі стоп-лист, але він створюється
тільки для англомовних і близьких до них текстів), лише послідовність
символів.

Нашли опечатку? Выделите и нажмите CTRL+Enter