UkrReferat.com
найбільша колекція україномовних рефератів

Всього в базі: 75834
останнє поновлення: 2016-11-29
за 7 днів додано 10

Реферати на українській
Реферати на російській
Українські підручники

$ Робота на замовлення
Реклама на сайті
Зворотній зв'язок

 

ПОШУК:   

реферати, курсові, дипломні:

Українські рефератиРусские рефератыКниги
НазваПошук інформації в Інтернет (реферат)
Автор
РозділІнформатика, компютерні науки
ФорматWord Doc
Тип документуРеферат
Продивилось9557
Скачало803
Опис
ЗАКАЧКА
Замовити оригінальну роботу

яхом попереднього виключення з досліджуваного тексту

деяких слів. Для цього створюється словник непотрібних слів — стоп-слів

(словник називається стоп-лист). Наприклад, для англійського тексту

стоп-словами стануть терміни: the, a, an, in, to, of, and, that... і так

далі. Для російського тексту в стоп-лист могли б бути включені всі

прийменники, частки, особисті займенники і т.п. Напевно потрапили б і

слова з нашого "шуму": на, не, для, це. Є й інші способи підвищити

точність оцінки значимості термінів.

 

Вагові коефіцієнти

 

Дотепер ми розглядали окремо узятий документ, не приймаючи до уваги те,

що він входить у базу даних поряд з безліччю інших документів. Якщо

представити всю базу даних як єдиний документ, до неї можна буде

застосувати ті ж закони, що і до одиничного документа. Подивіться на

список термінів у нашому прикладі. В одну компанію потрапили

слова-терміни зіпфа і не — вони входять у документ рівну кількість

разів. Досліджуючи інші документи бази даних на предмет входження в них

цих термінів, ми, природно, знайдемо, що не зустрічається дуже часто, у

той час як зіпфа — досить рідко. Напрошується очевидний висновок: слово

зіпфа повинне стати терміном, у той час як не слід відкинути, як

перешкоду. Щоб позбутися від зайвих слів і в той час підняти рейтинг

значимих слів, вводять інверсну частоту терміна. Значення цього

параметра тим менше, чим частіше слово зустрічається в документах бази

даних. Обчислюють його по формулі:

 

Інверсна частота терміна і = log (кількість документів у базі даних /

кількість документів з терміном і).

 

Тепер кожному терміну можна присвоїти ваговий коефіцієнт, що відбиває

його значимість:

 

Вага терміна і у документі j = частота терміна і у документі j *

інверсна частота терміна і.

 

Напевно в нашому прикладі термін не одержить нульову чи близьку до нуля

вагу, оскільки практично у всіх текстах потрапляється це слово. Термін ж

зіпфа — навпаки, придбає високу вагу.

 

Сучасні способи індексування не обмежуються аналізом перерахованих

параметрів тексту. Пошукова машина може будувати вагові коефіцієнти з

урахуванням місцезнаходження терміна всередині документа, взаємного

розташування термінів, частин мови, морфологічних особливостей і т.п.

 

Подання бази даних

 

Отже, ми розібралися, як машина "розуміє" суть тексту. Тепер необхідно

організувати всю колекцію документів так, щоб можна було легко відшукати

в ній потрібний матеріал. База даних повинна взаємодіяти з

користувальницьким запитом. Запити можуть бути простими, що складаються

з одного слова, і складними — з декількох слів, зв'язаних логічними

операторами. Простий запит виправдує свою назву. Користувач вводить

слово, машина шукає його в списку термінів і видає всі зв'язані з

терміном посилання. Структура такої бази даних проста. Взаємодія зі

складними запитами вимагає витонченішої організації.

 

Матричне подання бази даних

 

Найпростіший спосіб представити елементи бази даних у формі, зручною для

різноманітного пошуку — створити матрицю документ-термін.

 

0 0 0 1 1 0 0 0

 

Судномоделювання 0 0 1 0 0 0 0 0

-----> Page:

[0] [1] [2] [3] [4] [5] [6] [7] 8 [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]

ЗАМОВИТИ ОРИГІНАЛЬНУ РОБОТУ