UkrReferat.com
найбільша колекція україномовних рефератів

Всього в базі: 75855
останнє поновлення: 2016-12-09
за 7 днів додано 17

Реферати на українській
Реферати на російській
Українські підручники

$ Робота на замовлення
Реклама на сайті
Зворотній зв'язок

 

ПОШУК:   

реферати, курсові, дипломні:

Українські рефератиРусские рефератыКниги
НазваПошук інформації в Інтернет (реферат)
Автор
РозділІнформатика, компютерні науки
ФорматWord Doc
Тип документуРеферат
Продивилось9658
Скачало813
Опис
ЗАКАЧКА
Замовити оригінальну роботу

ть перевірити, чи

враховує їх усі шаблон, досить важко.

 

короткі слова: хор, доля, тощо. При використанні шаблону кількість

знайдених непотрібних документів значно росте.[ ]

 

Перераховані проблеми вирішуються морфологічною обробкою тексту

веб-сторінки. Перед індексуванням усі слова, що існують у словнику

системи, ставляться в нормальну (початкову) форму й у такому вигляді

заносяться в базу. При постановці запиту всі ключові слова також

ставляться в нормальну форму і вже після цього направляються пошуковій

системі. А в системі Rambler використовується другий підхід: при

індексації слова не нормалізуються, вони заносяться в базу в тій

словоформі, у якій вони використовуються в тексті, але при побудові

запиту існує можливість розширити його морфологічним розбором ключових

слів.

 

Слова, які відсутні в словнику (неологізми, екзотичні слова), у різних

системах обробляються по різному. Система Апорт! заносить слова в базу в

тому ж вигляді, у якому вони зустрічаються в тексті; алгоритм

морфологічно розбору Яndex вміє коректно обробляти і слова які не

знайдені в словнику, і слова, що записані з помилками. Для побудови

парадигми незнайомого слова використовуються найбільш схожі на нього

слова зі словника і модель, по якій будується парадигма для знайомого

слова. Тобто, висувається гіпотеза про приналежність слова до

визначеного словотворчого типу, на описі яких ґрунтується "Граматичний

словник російської мови" А.А.Залізняка. Може бути висунуто кілька

гіпотез, на підставі яких будуються всі можливі словоформи незнайомого

слова Помилка! Джерело посилання не знайдений..

 

Не завжди навіть облік морфології дає бажані результати. Це випадки так

званих омоформ, тобто слова, які є різними частинами мови мають загальні

словоформи в парадигмі. Наприклад, в російській мові слово "раздел" це

іменник ("раздел книги") і дієслово ("кто-то кого-то раздел"); в

українській мові слово "пара" є числівником ("пара чого-небудь") і

іменником ("з-під дверей диміла пара").[2] У таких випадках для

визначення значення слова використовується контекст, відшукуються

словосполучення, до яких належить дане слово, чи в мові запитів можливе

використання спеціальних операторів що вказують на нормальну словоформу.

У пошуковій машині Яndex за морфологічну і синтаксичну обробку тексту

відповідає система Яndex-Dict, що використовується як при побудові

індексу, так і розборі запиту користувача, коли він направляється

природною мовою.

 

На сервері фірми CompTek (www.comptek.ru) автора системи Яndex існує

можливість обробки запиту користувача системою Яndex-Dict для роботи з

індексом, що створювався без обліку морфології. Ключові слова запиту

користувача після обробки ставляться в усі можливі словоформи, а

результат передається іншому пошуковому серверу. Яndex-Dict уміє

коректно обробляти цілі фрази (що задаються використанням лапок " "),

виконуючи узгодження слів. Зараз існують інтерфейси до пошукової системи

AltaVista www.comptek.ru/alta/html, і до системи Rambler

www.comptek.ru/ramb.html, що працюють з обліком російської й англійської

-----> Page:

[0] [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] 14 [15] [16] [17] [18] [19] [20]

ЗАМОВИТИ ОРИГІНАЛЬНУ РОБОТУ