UkrReferat.com
найбільша колекція україномовних рефератів

Всього в базі: 75843
останнє поновлення: 2016-12-04
за 7 днів додано 15

Реферати на українській
Реферати на російській
Українські підручники

$ Робота на замовлення
Реклама на сайті
Зворотній зв'язок

 

ПОШУК:   

реферати, курсові, дипломні:

Українські рефератиРусские рефератыКниги
НазваПошук інформації в Інтернет (реферат)
Автор
РозділІнформатика, компютерні науки
ФорматWord Doc
Тип документуРеферат
Продивилось9589
Скачало804
Опис
ЗАКАЧКА
Замовити оригінальну роботу

номоделювання 0 0 1 0 0 0 0 0

 

Врожай 0 0 0 1 1 0 1 0

 

Хобі 0 0 1 0 0 0 0 1

 

Припустимо, база даних має 8 документів (Д1, Д2, Е, Д8), у яких

містяться 12 термінів. Якщо термін входить у документ, у відповідній

клітинці ставиться одиниця, у противному випадку - нуль (у реальній

системі усе складніше: крім іншого, враховуються ще і вагові коефіцієнти

термінів).

 

Складемо, наприклад, такий запит: кораблі в пляшках. Система обробить

запит: видалить стоп-слова і, можливо, проведе морфологічний аналіз.

Залишаться два терміни: корабель і пляшка. Система буде шукати всі

документи, де зустрічається хоча б один з термінів. Подивимося на

матрицю. Зазначені в запиті терміни є в документах: Д1, Д2, Д4, Д7, Д8.

Вони і будуть видані у відповідь на запит. Однак неважко помітити, що

документи Д4 і Д7 не задовольняють наші сподівання - вони з області

виноробства і ніякого відношення до будівлі моделей кораблів у пляшках

не мають. Утім, система все зробила правильно, адже, з її точки зору,

терміни корабель і пляшка рівноцінні.

 

Просторово-векторне подання бази даних

 

Просторово-векторна модель дозволяє одержати результат, який добре

відповідає запиту. Причому документ може виявитися корисним, навіть не

маючи 100% відповідності. У знайденому документі може не виявитися

жодного чи декількох слів запиту, але при цьому його зміст буде

відповідати запиту. Як досягається такий результат?

 

Всі документи бази даних розміщуються в уявному просторі (це може бути

багатомірний простір, уявити який дуже важко). Координати кожного

документа залежать від структури термінів, у ньому що містяться (від

вагових коефіцієнтів, положення всередині документа, від відстані між

термінами і т.п.). У результаті виявиться, що документи зі схожим

набором термінів розмістяться в просторі ближче один до одного.

 

Припустимо, ми хочемо знайти документи, що стосуються будівлі моделей

кораблів у пляшках. Складемо запит, наприклад, такий: кораблі в пляшках.

Одержавши його, пошукова система видалить зайві слова, виділить терміни

й обчислить вектор запиту в просторі документів (стрілка на малюнку).

Встановивши деякий діапазон відповідності, система видасть документи, що

потрапили в заштриховану область на малюнку 4. Ця область неодмінно

захопить документи, де йдеться про незвичайні захоплення - хобі,

класичне судномоделювання і т.п. У них може зовсім не виявитися деяких

слів запиту, однак документи залишаться досить релевантними. Терміни, що

відносяться до вина, будуть групуватися в іншій точці простору, і запит

їх не торкнеться. Як бачите, "зрівняння" термінів вдалося перебороти. У

просторово-векторній моделі терміни взаємодіють один з одним, що

підвищує релевантність документів. Зрозуміло, що просторово-векторна

модель краще сприймає запити, складені природною мовою, ніж матричну.

 

Побудова індексу

 

Ff

 

gd?E

 

??????????E?Структура веб-сторінки, яка описується за допомогою мови

HTML, містить у собі, крім заголовка сторінки (title) і власне тексту

(text), що несе основне інформаційне навантаження, ще кілька полів,

-----> Page:

[0] [1] [2] [3] [4] [5] [6] [7] [8] 9 [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]

ЗАМОВИТИ ОРИГІНАЛЬНУ РОБОТУ