UkrReferat.com
найбільша колекція україномовних рефератів

Всього в базі: 75843
останнє поновлення: 2016-12-04
за 7 днів додано 10

Реферати на українській
Реферати на російській
Українські підручники

$ Робота на замовлення
Реклама на сайті
Зворотній зв'язок

 

ПОШУК:   

реферати, курсові, дипломні:

Українські рефератиРусские рефератыКниги
НазваПошук інформації в Інтернет (реферат)
Автор
РозділІнформатика, компютерні науки
ФорматWord Doc
Тип документуРеферат
Продивилось9622
Скачало807
Опис
ЗАКАЧКА
Замовити оригінальну роботу

невеликі. На якій би

мові текст не був написаний, форма кривої Зіпфа залишиться незмінною.

Можуть трохи відрізнятися лише коефіцієнти, що відповідають за нахил

кривої (у логарифмічному масштабі, за винятком декількох початкових

точок, графік - пряма лінія).

 

Закони Зіпфа універсальні. В принципі, вони застосовні не тільки до

текстів. В аналогічну форму виливається, наприклад, залежність кількості

міст від числа проживаючих у них жителів. Характеристики популярності

вузлів у мережі Інтернет - теж відповідають законам Зіпфа. Не виключено,

що в законах відбивається "людське" походження об'єкта. Так, наприклад,

учені давно б'ються над розшифровкою манускриптів Войнича. Ніхто не

знає, на якій мові написані тексти і чи тексти це взагалі. Однак

дослідження манускриптів на відповідність законам Зіпфа довело: це

створені людиною тексти. Графіки для манускриптів Войнича точно

повторили графіки для текстів на відомих мовах.

 

Що дають нам закони Зіпфа? Як з їхньою допомогою витягти слова, що

відбивають зміст тексту? Скористаємося першим законом Зіпфа і побудуємо

графік залежності рангу від частоти. Як вже згадувалося, його форма

завжди однакова.

 

Дослідження показують, що найбільш значимі слова лежать у середній

частині діаграми. Це і зрозуміло. Слова, що трапляються занадто часто, в

основному виявляються прийменниками, займенниками, в англійській —

артиклями і т.п. Рідко зустрічаються слова теж, у більшості випадків, не

мають вирішального смислового значення.

 

Від того, як буде виставлений діапазон значимих слів, залежить багато.

Постав широко - потрібні терміни потонуть у морі допоміжних слів;

встанови вузький діапазон — втратиш смислові терміни. Кожна пошукова

система вирішує проблему по-своєму, керуючись загальним обсягом тексту,

спеціальними словниками і т.п. Проведемо експеримент. Піддамо абзац

тексту математичному аналізу і спробуємо визначити список значимих слів.

 

Як приклад візьмемо один з попередніх абзаців (абзац, що починається

словами "Закони Зіпфа універсальні"). Подивимося, які слова потрапили в

область значимих слів, а які ні.

 

У таблиці наведені всі слова абзацу і зазначена частота їхнього

входження. Як бачите, слова з частотою 2 і 3 найбільше точно відбивають

зміст абзацу. Слова з найбільшою частотою входження виявилися

прийменники, а слова з меншою — загальними словами.

 

На малюнку наведений графік частота-ранг цього абзацу. Виділимо зону

значимих слів. Нехай це будуть слова з рангом 2, 3 і частотою 3,

 

2 відповідно. (Зверніть увагу, як зміщення чи розширення зони значимих

слів впливає на їхній склад.)

 

Давайте тепер проаналізуємо виділену нами область значимих слів. Не всі

слова, що потрапили в неї, відбивають зміст тексту. Зміст абзацу дуже

точно виражають слова: зіпфа, манускриптів, войнича, законам. Запит

типу: + "закон* зіпфа" + "манускрипт* войнича" неодмінно знайде нам цей

документ. Однак в область потрапили і слова: на, не, для, наприклад, це.

Ці слова є "шумом", перешкодою, що ускладнює правильний вибір. "Шум"

можна зменшити шляхом попереднього виключення з досліджуваного тексту

-----> Page:

[0] [1] [2] [3] [4] [5] [6] 7 [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20]

ЗАМОВИТИ ОРИГІНАЛЬНУ РОБОТУ