UkrReferat.com
найбільша колекція україномовних рефератів

Всього в базі: 75843
останнє поновлення: 2016-12-04
за 7 днів додано 15

Реферати на українській
Реферати на російській
Українські підручники

$ Робота на замовлення
Реклама на сайті
Зворотній зв'язок

 

ПОШУК:   

реферати, курсові, дипломні:

Українські рефератиРусские рефератыКниги
НазваПошук інформації в Інтернет (реферат)
Автор
РозділІнформатика, компютерні науки
ФорматWord Doc
Тип документуРеферат
Продивилось9614
Скачало805
Опис
ЗАКАЧКА
Замовити оригінальну роботу

оші. Як наслідок тіньових сторін ftp-сервісу - небезпека

зараження вірусом з неперевіреного джерела. Пошуки якої ж інформації

варто починати з пошукової системи ftp? Універсальна відповідь проста:

оскільки ключовим словом при оформленні запиту є текст, що входить у

назву файлу чи каталогу на ftp-сервері, то найбільшого успіху можна

досягти в пошуку інформації, яка є оформленою у вигляді файлу, або вже

має визначене ким-небудь ім'я, або існує реальна можливість його

вгадати.

 

Механізми роботи пошукових машин

 

Автоматичний аналіз текстів

 

Всі створені людиною тексти побудовані за єдиними правилами! Нікому не

вдається обійти їх. Яка б мова не використовувалася, хто б не писав —

класик чи графоман, — внутрішня структура тексту залишиться незмінною.

Вона описується законами Зіпфа (G.K. Zipf).

 

Перший закон Зіпфа "ранг — частота"

 

Виберемо будь-яке слово і порахуємо, скільки разів воно зустрічається в

тексті. Ця величина називається частота входження слова. Виміримо

частоту кожного слова тексту. Деякі слова будуть мати однакову частоту,

тобто входити в текст рівну кількість разів. Згрупуємо їх, взявши тільки

одне значення з кожної групи. Розташуємо частоти в міру їхнього спадання

і пронумеруємо. Порядковий номер частоти називається ранг частоти. Так,

що слова які найчастіше зустрічаються будуть мати ранг 1, наступні за

ними — 2 і т.д., на яке упав вибір. Імовірність зустріти слово в тексті

буде дорівнює відношенню частоти входження цього слова до загального

числа слів у тексті.

 

Імовірність = Частота входження слова / Число слів

 

Зіпф знайшов цікаву закономірність. Виявляється, якщо помножити

імовірність виявлення слова в тексті на ранг частоти, то величина, яку

отримали, (С) приблизно постійна!

 

С = (Частота входження слова * Ранг частоти) / Число слів

 

Якщо ми трохи перетворимо формулу, то побачимо, що це функція типу y=k/x

і її графік - рівностороння гіпербола. Отже, за першим законом Зіпфа,

якщо найпоширеніше слово зустрічається в тексті, наприклад, 100 разів,

то наступне по частоті слово навряд чи зустрінеться 99 разів. Частота

входження другого по популярності слова, з високою часткою імовірності,

виявиться на рівні 50.

 

Значення константи в різних мовах різне, але усередині однієї мовної

групи залишається незмінним, який би текст ми не взяли. Так, наприклад,

для англійських текстів константа Зіпфа дорівнює приблизно 0,1. Для

російської мови коефіцієнт Зіпфа дорівнює 0,06-0,07.

 

Другий закон Зіпфа "кількість — частота"

 

Розглядаючи перший закон, ми уникнули факту, що різні слова входять у

текст з однаковою частотою. Зіпф встановив, що частота і кількість слів,

які входять у текст із цією частотою, теж зв'язані між собою. Якщо

побудувати графік, відклавши по одній осі (осі X) частоту входження

слова, а по іншій (осі Y) — кількість слів у даній частоті, то крива, що

вийшла, буде зберігати свої параметри для всіх без винятку створених

людиною текстів. Як і в попередньому випадку, це твердження вірне в

межах однієї мови. Однак і міжмовні розбіжності невеликі. На якій би

-----> Page:

[0] [1] [2] [3] [4] [5] 6 [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]

ЗАМОВИТИ ОРИГІНАЛЬНУ РОБОТУ