asyan.org
добавить свой файл
1
Тема: Веб-каталоги. Принцип організації та використання пошукових машин. Стратегія пошуку інформації. Огляд кількох популярних пошукових машин.

Мета: Дати уявлення про пошук інформації в Інтернеті за допомогою пошукових машин.

Тип уроку: лекційний.

Щоб з'ясувати, що ж таке пасивна реклама сайту, нам доведеться поговорити про пошукові машини - особливі Web-сайти, призначені для пошуку інформації в Інтернеті. Якщо ви давно в Усесвітній павутині, то знаєте, що таке пошукова машина і як їй користуватися. Для тих з вас, хто поки не так досвідчений в мережевих реаліях, пропонується невеликий лікнеп.

А для цього доведеться заглибитися в стародавню історію Інтернету...

Отже, в думках перенесемося в 1989 рік. Після створення мови HTML Мережа, а саме, та, що почали називати Усесвітньою павутиною WWW, стала рости як на дріжджах. Спочатку Мережею користувалися, в основному, учені, а значить, інформація туди викладалася переважно серйозна, невеликими частинами, і знайти її було нескладно. Деякі із старих інтернетчиков називають цей час "золотим століттям" Мережі. Що ж, може, вони і мають рацію... Але тільки частково.

Згодом відбулося те, чого одні чекали з нетерпінням, а інші з жахом. Мережа перестала бути притулком ТІЛЬКИ вченого люду. У неї пришли спочатку усілякого роду маргінали, спраглі спілкування, потім -компьютерщики, а в найостанніший час - обивателі, зайняті в "некомп'ютерних" областях людської діяльності. Мережа стала величезною, якість (у сенсі, достовірність) інформації, що викладається в неї, катастрофічно знизилася, а пошук потрібної інформації серед тонн електронного непотребу почав представляти серйозну проблему.

Цю проблему треба було якось вирішувати. І її вирішили, коли Мережа набрала достатній об'єм.

У 1995 році декілька американських студентів вирішили об'єднати свої колекції корисних інтернет-посилань свого роду базу даних, якою міг би користуватися кожен. При цьому база даних містила і самі адреси Web-страниц, і їх описи, і набір ключових слів - особливих слів, що однозначно описують вміст кожної сторінки (наприклад, для музичних сайтів такими словами будуть "музика", "МРЗ", "аудіо" і т. п.). Потім вони написали спеціальну програму, що здійснює пошук адреси по набраному в полі введення слову і видає результат у вигляді Web-сторінки з набором знайдених посилань. Крім того, вони написали ще одну програму, що скануючу Мережу у пошуках нових Web-сторінок і заносить нові адреси в базу даних; зараз таку програму називають пошуковим агентом, пошуковим роботом, або, жартома, "павуком". Так виникла перша пошукова машина "Yahoo!"http://www.yahoo.com, що отримала величезну популярність і що існує до цих пір.

Задумка виявилася настільки вдалою, що породила хвилю наслідувань. Пошукові машини плодилися, як гриби після дощу. Зараз їх існує стільки, що список навіть більш-менш великих з них зайняв би декілька сторінок убористого тексту. Обмежимося тільки декількома (табл.1).

Таблиця 1. Популярні пошукові машини



















^ Зарубіжні/ вітчизняні

Назва

Інтернет-адреса







Зарубіжні

Yahoo!
Altavista
Listbot
Infoseek
Lycos
Google

http://www.yahoo.com http://www.altavista.com
http://www.listbot.com http://www.infoseek.com http://www.lycos.com http://www.google.com







Вітчизняні

Апорт
Яндекс
Рамблер

http://www.aport.ru http://www.yandex.ru http://www.rambler.ru



















Пошукові машини діляться на дві великі групи, роботи, що відрізняються принципом, - на класичні пошукові машини і каталоги посилань. Зараз ми їх розглянемо.

Класична пошукова машина (пошукач) - це, грубо кажучи, база даних посилань плюс програма пошуку. Це пошукова машина в чистому вигляді. Вона займається тим, що зберігає адреси Web-сторінок в базі даних і видає користувачам результати пошуку за ключовими словами. При цьому вона працює повністю в автоматичному режимі: сама знаходить і заносить в базу даних нові Web-сторінки, сама формує їх описи і набори ключових слів, сама оновлює адреси вже існуючих сторінок, якщо вони змінилися, і їх описи.

Присутність горезвісного "людського чинника" в роботі класичних пошукачів мінімально. (Хоча, розробник може закласти в програму - агента і програму пошуку якісь свої напрацювання в плані оптимізації пошуку, але на цьому вплив людини на машину закінчується.)

Також в базах даних пошукачів відсутня яка-небудь систематизація результатів їх нескінченного пошуку. Вони працюють за принципом "вали валом - потім розберемо". (За тим виключенням, що це "потім" ніколи не наступить.) Вони просто збирають адреси, автоматично формують опис і набір ключових слів і "валять" це в свою базу даних. Вони можуть лише шукати і реєструвати, тому що вони - тільки програми. Здатність же аналізувати і систематизувати доступна виключно людині.

Каталоги посилань базуються зовсім на іншому принципі. По-перше, вони поповнюються не роботами, а людьми; люди заносять в них адреси і описи сторінок і набори ключових слів для пошуку. По-друге, посилання в їх базах даних жорстко систематизовані і розбиті по розділах і підрозділах. По-третє, в каталог допускаються далеко не всі сторінки, а тільки ті. які дійсно містять щось корисне.

Як же виглядає процес занесення нового посилання в каталог? Давайте розпишемо його по кроках.

  1. Власник сайту формує набір параметрів, що вносяться до каталога. Це назва сайту, його короткий опис, набір ключових слів, зрозуміло, інтернет-адреса сайту і своя поштова адреса. Поштова адреса може знадобитися, наприклад, щоб повідомити власника про те, що його сайт внесений до бази даних каталога.

  2. Власник сайту заходить на особливу Web-сторінку і вводить всі ці дані у форму введення, після чого вони зберігаються в базі даних нових надходжень. Відмітьте, що ці дані не поміщаються відразу в основну базу даних каталога, в якій, власне, і здійснюється пошук, - це буде виконано пізніше.

  3. Людина, що працює на адміністрацію каталога, свого роду цензор або, як говорять досвідчені інтернетчики, модератор каталога, проглядає дані знов внесеного сайту в базі даних нових надходжень. Після цього він заходить на цей сайт і перевіряє, чи відповідає він введеним власником даним. Якщо це так, дані про новий сайт переносяться в основну базу даних каталога, а власникові сайту посилається відповідне повідомлення. Інакше дані про новий сайт віддаляються, про що його власникові знову ж таки посилається повідомлення.

  4. Власник сайту отримує послане йому повідомлення. Якщо його сайт внесений до бази даних каталога, це повідомлення містить номер, під яким сайт знаходиться в базі даних, і пароль для доступу до його даних. Надалі власник може змінити дані сайту в базі даних каталога. Якщо ж новий сайт чомусь не потрапив в каталог, модератор вибачається перед його власником і радить наповнити його Web-творение чим-небудь корисним.

Недоліками каталогів є повільна робота і неповний обхват Мережі. Люди-модератори працюють значно повільніше за програму, що здійснює пошук сторінок в Мережі, тому процес додавання даних про новий сайт в базу каталога може затягнутися надовго. До того ж, люди часто помиляються. Далі, із-за такої достатньо жорсткої цензури нових надходжень може опинитися, що якихось сайтів або сторінок в базі даних каталога немає, оскільки модератор їх чомусь забракував.

В даний час класичні пошукові машини і каталоги в чистому вигляді дуже рідко зустрічаються. Абсолютну більшість сучасних пошукових машин використовують обидва цих підходу, тобто містять і класичного пошукача, і каталог посилань. Таким чином, вони комбінують достоїнства і обходять недоліки цих двох різновидів пошукових машин.

Та все ж, не дивлячись на велику кількість пошукових машин обох типів пошук в Інтернеті - завдання надзвичайно складна. Особливо вона ускладнюється, якщо вам потрібно знайти щось рідкісне або дуже конкретне. Існує навіть така професія - шукач інформації в Інтернеті, професія достатньо рідкісна, така, що вимагає, в основному, інтуїції і тому добре оплачувана. Це навіть не професія - це покликання, як, наприклад, музикант або письменник.

Ну гаразд. Дамо спокій каталогам (з ними все ясно) і докладніше поговоримо про класичних пошукачів. Точніше, про програми-агенти, що здійснюють пошук нових Web-страниц. Давайте з'ясуємо, як вони працюють.

• Система видачі результатів (Search engine results engine) – витягує результати пошуку з бази даних.

• Павук (Spider) - це програма, яка викачує веб-сторінки. Вона працює точно так, як і ваш браузер, коли ви з'єднуєтеся з вебсайтом і завантажуєте сторінку Туж дію (скачування) ви можете спостерігати, коли переглядаєте деяку сторінку, вибираючи опцію "перегляд HTML-коду" в своєму браузері.

• Краулер ( C r а w l e r ) - програма, яка автоматично проходить по всім посиланням, знайденим на сторінці, і виділяє їх. Його завдання - визначити, куди далі повинен йти павук, ґрунтуючись на посилання або виходячи із заздалегідь заданого списку адрес. Краулер, слідуючи по знайдених посиланнях, здійснює пошук нових документів, ще не відомих пошуковій системі

• Індексатор ( I n d e x e r ) - розділяє сторінку на частини і аналізує їх. Такі елементи, як заголовки сторінок, заголовки в тексті сторінки заслання, власне текст і його структурні елементи, елементи BOLD ITALIC і ін., вичленяють і аналізуються окремо.

• База даних (Database) - сховище всіх даних, які пошукова система викачує і аналізує. Вона часто вимагає значних ресурсів.

Невірно вважати, що пошукові машини шукають сайт відразу, як тільки ви ввели ключове слово в запиті. Це - чистої води міф, що пошукові машини переглядають весь Інтернет у пошуках потрібного запиту. Пошук здійснюється лише в межах власної бази даних ПМ (індексу). І звичайно, об'єм і новизна відомостей визначається тим, як часто оновлюється база даних. Крупні ПМ індексують інформацію подібно до каталогу в бібліотеці. Зберігаючи великий об'єм інформації, вони повинні уміти швидко знаходити потрібні документи за заданими ключовими словами або фразами. Але самих веб-сторінок ще більше, ніж безпосередньо даних про них. Інтернет в цілому не має жодної чіткої структури, і об'єднує безліч вельми різних за змістом і авторським оформленням сайтів. Це робить майже неможливим для пошукової машини вживання стандартних методів використовуваних в управлінні базою даних і в звичайному інформаційному пошуку.

Пошукові алгоритми (математичні методи програмування, що сортують знайдені результати) кожного з пошукових сервісів унікальні. У цьому можна переконатися, ввівши ключове слово або фразу, наприклад, в пошукову систему www.yandex.ru і запам'ятавши результати, а потім повторивши те же саме на www.rambler.ru або www.google.ru. У різних пошукових машинах ви завжди отримаєте різну інформацію. Враховуючи цей факт, до різним пошуковим службам слід застосовувати індивідуальний підхід.

Популярна пошукова система Google- найкрупніша пошукова машина в світі (з базою даних з декількох мільярдів файлів) - охоплює лише малу долю даних, що містяться у всій світовій веб мережі. Не слід забувати що Веб зростає швидкими темпами. Тут не слід забувати про практичні обмеження, що визначаються розміром веб-сторінки. В середньому, кожна сторінка містить 5-10 Кбайт тексту, тому, навіть якщо враховувати, що ПМ зберігає інформацію лише про текстові сторінки, це вже виливається в десятки терабайтов, які знаходятся в сховищі пошукових систем. Крім того, існує так звана "невидима мережа", що має більше 550 млрд документів, з якими пошукові машини або не знайомі (не пов'язані з іншими сайтами), або не можуть отримати до них доступ (деякі ділянки захищені паролем), або їх технологія просто не дозволяє їм "захопити" ці сторінки (наприклад, із складними типами файлів:

візуальними, аудіофайлами, мультиплікацією, стислими файлами і т. д.). Постійно "повзати" по мережі і індексувати веб-сторінки з безліччю документів, як це роблять пошукові системи, - завдання не з простих. Підтримка бази даних ПМ вимагає інвестицій для забезпечення роботи, оновлення технічних ресурсів і продовження наукових досліджень.

Необхідно також розуміти, що бази даних пошукових машин постійно змінюються. Google може мати більше сторінок, внесених до свого індексу чим, скажімо, Yandex (www.yandex.ru). Проте, наприклад, якщо Yandex оновлюєсвої дані швидше, ніж Google, то навіть при його відносно невеликій кількості сторінок це може дати користувачеві свіжіші і різносторонні результати. Окрім чисто технічних чинників, тут потрібно брати до уваги багато інших.

Оскільки пошукові машини часто повертають результати, не відповідні поточним запитам, актуальною залишається проблема своєчасного оновлення інформації в базах даних ПМ. Окрім нових сторінок, які щодня з'являються в мережі, безперервно оновлюються і старі. Спайдери ПМ знаходять мільйони сторінок в день, які заносяться в базу даних і індексуються. Але пошуковим системам дуже важко визначити частоту змін сторінок. Спайдер може "заповзти" на сторінку один раз, потім повернутися до неї, аби відновити, і, можливо, виявить, що були зроблені якісь зміни. Але він не зможе з'ясувати, скільки разів сторінка змінювалася починаючи з останніх його відвідин.

Деякі веб-сайти змінюються дуже часто. Сюди відносяться, наприклад сайти новин або електронної комерції, де інформація повинна постійно оновлюватися (зміни цін, номенклатури продукції і т. д.). В даний час проводиться багато як наукових, так і комерційних досліджень для створення і вдосконалення методів оперативного виявлення свіжій інформації. Навіть якщо "важлива" сторінка перевірятиметься слайдером кожні 48 годин, веб-майстри можуть оновлювати ці сторінки набагато частіше.

Коли веб-майстер завантажує сторінку на сервер, а потім робить її доступною для пошуку через "Submit URL" в пошуковій машині або коли сторінка виявлена пошуковою машиною через посилання з іншого сайту, саме на цей момент її вміст буде проіндексовано пошуковою машиною. Так, якщо в день індексації сторінка має певне число слів, які містяться в певному числі параграфів і в деякій мірі відносяться до ключового слова, - все це буде записано в індексі пошуковою машини до наступної індексації. Якщо автор сторінки вирішить зробити нові доповнення (зображення, заголовки, редагування тексту), то ПМ не "знатиме" про це до наступних відвідин сторінки. Якщо користувач робить запит на певну тему того дня, коли пошукова машина якраз відновила цю сторінку, то він отримає оновлену інформацію яка вже попала в базу даних пошукової системи. Але якщо автор змінив сторінку (змінив контекст або прибрав важливі посилання на тему), то ПМ все одно приведе користувача по ссилці вихідної "старої" сторінки. Звичайно, така ситуація розчаровує користувача, який хотів знайти веб-сторінку, відповідну його запитам. Це одна з головних проблем пошукових машин.

Вони просто не можуть постійно стежити за змінами веб-сторінок. Технічні ресурси зазвичай розраховані на те, що пошукова машина оновлює інформацію кожні 4-6 тижнів, а то і рідше. Представники Google наприклад, стверджують, що оновлюють десятки мільйонів сторінок щодня але все це - лише нікчемна частина наявної в мережі інформації. Так, якщо навіть зовні пошукові машини здаються вам схожими, то, що ви бачите в їх результатах по ваших запитах, залежить від сайтів, які вони індексують, від новизни їх баз даних і від того, як вони сортують і підносять результати користувачеві.

Не завжди зрозуміло, як визначати сам термін "пошукова машина", тому що навіть спайдеры каталогів інколи шукають інформацію і повертають результати. Зрозуміло, в пошукових системах немає редакторів, що переглядають мільярди сторінок, аби особисто перевірити їх якість. І каталоги теж не можуть дати всім користувачам саме те, що вони шукають. Таким чином, для пошукових систем доцільніше розставити певні пріоритети перевірених редакторами надійних каталогів сторінок. Пошукові технології, використовувані краулерами, придатні і для каталогів що допомагає долати обмеження маленьких баз даних.

Домашнє завдання: підготувати порівняльну характеристику пошукових машин.