Jediný kdo se vyzná v Internetu – vyhledávače

Jediné co potřebuje uživatel Unixu/Linuxu vědět je (prý) příkaz „man“. V Internetu Vám pak stačí adresa Vašeho oblíbeného vyhledávače.

Kdysi v dávných dobách – pro současné uživatele Internetu se jedná opravdu o doby bájné – vypadalo veškeré internetové vyhledávání tak, že každý uživatel měl svůj adresář s bookmarky (zvláštní, že český překlad „knižní značky“ se neujal), tedy s odkazy na konkrétní stránky. Zpočátku se jednalo pouze o stránky z lokální, podnikové sítě, později mohly bookmarky představovat i stránky někde, pro tehdejšího uživatele, neskutečně daleko. S růstem služeb na Internetu samozřejmě bookmarková strategie nemohla uspět, a tak vznikaly první katalogy, později pak vyhledáváče.

Práce vyhledávače

Ač se to zdá nepravděpodobné, lze na vyhledávače (přesněji na filosofii jejich práce) nahlížet i dostatečně akademicky – přesněji přes definici modelu komunikace jak jej popsal lingvista Noam Chomsky: Odesílatel má nějaký záměr, ten zakóduje, zakódovaný signál projde kanálem (kde je modifikován šumem), přijímatel informaci dekóduje, tedy nějak pochopí. Jak tato definice souvisí s vyhledávači? Jednoduše ve své podstatě, složitě ve své realizaci: Internetový vyhledávač stojí před téměř neřešitelným úkolem - ze záměru uživatele („chci najít stránky firmy XY“) zakódovaným do krátké fráze („XY“), musí vrátit to, co uživatel původně chtěl (domácí stránku firmy XY). Měl by tak v ideálním případě fungovat jako novodobé orákulum - uhodnout přání uživatele. Toto „orákulum“ má však obecně velmi jednoduchou strukturu – představuje jej stroj, kterému položíme dotaz („XY“), ten za pomocí svých znalostí (uložených v databázích, katalozích) odpoví formou stránek, které danému dotazu – alespoň podle „orákula“ – odpovídají nejlépe.

Základem je hyperlink

Každý pro svou práci něco potřebuje: filosof papír a tužku, informatik počítač a manuálové stránky, vyhledávače hyperlink neboli odkaz. Právě odkazy vytvářejí v chaosu Internetu jakýsi řád a strukturu – strukturu však neméně chaotickou než je samotný Internet, ale dostačující právě pro práci vyhledávačů. Vyhledávače pak na stránku nahlížejí nejen z pohledu jejího obsahu, ale též kolik (a jakých) stránek na danou stránku odkazuje a také na kolik (a opět na jaké) stránky daná stránka sama odkazuje. Vypadá to jednoduše, ve skutečnosti však práci vyhledávačů mohou ztěžovat různé problémy. Pokud budeme posuzovat vhodnost stránky pro vrácení jen podle jejího obsahu, je samozřejmé, že se najdou lidé, kteří své stránky přeplní nejrůznějšími frázemi a slovy, které vůbec nemusí souviset se samotným obsahem stránky – již takovýto „podvod“ samozřejmě stačí k ošálení jednoduchého vyhledávače. Podobně, pokud budeme na vhodnost stránky nahlížet z pohledu počtu odkazů na ní vedených, stačí si naprogramovat jednoduchý generátor stránek jejichž obsahem budou pouze odkazy na naše stránky.

Známost stránek – PageRank

PageRank byl poprvé použit ve vyhledávači Google v roce 1998. Autor tohoto mechanismu – Larry Page – začal na hyperlink nahlížet jako na hlas pro cílovou stránku. Aby se zamezilo „podvodům“ uvedeným výše, kdy si autor stránky „nageneruje“ odkazy pro svojí stránku, nemá tento hlas konstantní váhu – je přeci rozdíl, jestli na Vaše stránky odkazuje Váš spolužák ze svých školních stránek, nebo např. vyhledávač Yahoo ze své domovské stránky. Mechanismus je nastaven tak, aby stránky s vyšším PageRankem měly i vyšší „hlasovací hodnotu“ pro stránky, na které ukazují. Obecně tedy platí, že chceme-li ohodnotit stránky, stačí na začátku ručně ohodnotit několik stránek, a následně rekursivně ohodnocovat stránky z nich odkazované, kdy PageRank spočítáme na základě PageRanku stránek o úroveň výš. I samotní autoři byli překvapeni, že takto jednoduchý postup funguje obvykle lépe než doposud používané mechanismy konkurenčních vyhledávačů.

Autority a rozcestníky

Technika PageRanku je jistě zajímavá (a funkční), ale ve své podstatě se týká „pouze“ celého Internetu ve smyslu, že seřadí stránky podle důležitosti, odkazovanosti. Běžného uživatele však PageRank jako takový nezajímá – pokud hledá stránku o staročeské poezii, těžko se k ní dostane z hlavní stránky Yahoo. Podobně uvažovali vědci z Almadenského výzkumného ústavu IBM a při svém bádání si všimli zajímavé vlastnosti lidí – lidé si své vědomosti nějak strukturují - po celém světě tak vznikají katalogy tématicky řazených odkazů a na svých domácích stránkách si uživatelé vytvářejí malé rozcestníky o svých oblíbených tématech. Vlastnost zdá se nedůležitá, pro vyhledávače však velmi zajímavá. V našem případě, když někdo zadá požadavek na nějaké exotické téma, náš vyhledávač si „vzpomene“ na výborně zpracovaný seznam kdesi na druhém konci světa, a protože stránku s tímto tématem samozřejmě zná, nabídne uživateli hned odkazy v tomto seznamu uvedené. Z definice metody autorit a rozcestníků, jak ji sepsali výzkumníci IBM, bude vidět, že se tato technika příliš neliší od metody PageRanku. Definice zní: „Dobré ‚autority‘ jsou stránky, na které odkazuje mnoho dobrých ‚rozcestníků‘ (hubs), a dobré rozcestníky jsou stránky, které odkazují na mnoho dobrých autorit“. Jen pro pořádek ještě připomenu definici PageRanku: „Vysoký PageRank má stránka, na kterou odkazuje mnoho stránek s vysokým PageRankem“. V těchto rekursivních definicích je rozdíl pouze v tom, že IBM ve své formulaci používá dvě neznámé. Celý algoritmus – pojmenovaný Clever Search – tedy fungoval tak, že se na začátku vybrané stránky ohodnotily jak co do autoritativnosti (tedy kolik cenných informací obsahují), tak jako „rozcestníky“ (tedy na kolik dobrých zdrojů – autorit odkazují). Po tomto inicializačním kroku dojde k opakovaným iteracím, při nichž se sčítají obě hodnoty. Nutno doplnit, že daná technika Clever Search nebyla dosud (2001) implementována, z důvodu časové náročnosti výpočtu. Je obecným pravidlem, že uživatel bude často spokojenější se špatným či nepřesným výsledkem který obdrží hned, než aby počkal pár hodin na správný.

Automatické vytváření katalogů

Tento problém spočívá s lidskou vlastností uvedenou výše – lidé si vědomosti strukturují. Jak tedy najít stránky, mající obsah zaměřený na stejné téma, o kterém si například právě čteme na svých oblíbených stránkách? Hned nás samozřejmě napadne, že v případě existence funkčního vyhledávače, stačí zadat pár základních hesel a je to. Bohužel metody pro bezchybné vyhledání stránek tímto způsobem jsou algoritmicky náročné. Druhou možností (a ta je již hojně využívána) je metoda vycházející ze základu struktury Internetu – odkazu. Předpokládá se totiž, že odkazy neukazují jen tak někam, ale že tvůrce stránek při jejich vytváření měl jakýsi záměr, odpovídající např. jeho zálibám. Odkazuje-li se tedy někdo ze svých stránek na adresu serveru idnes.cz, je u ostatních odkazů uvedených na stejném místě vyšší pravděpodobnost, že budou odkazovat na stránky s podobnou tématikou – v našem případě na zprávy a události. S tímto předpokladem nám stačí spočítat pravděpodobnost, s jakou se jednotlivé linky vyskytovaly společně s linkem na adresu serveru idnes.cz, a stránky s největší pravděpodobností budou ty námi hledané.
Pokud jsme schopni programem rozlišit, které stránky k sobě tématicky patří, jsme už na půli cesty k algoritmu, který by samostatně vytvářel katalog, jaký má kupříkladu Yahoo nebo Seznam. Pouze bychom potřebovali vyřešit problém, jak nalezené skupiny kategorizovat tak, aby se v nich lidé snadno orientovali. I když i toto by šlo algoritmicky řešit, zatím se spokojíme s tím, že nějaký „lidský“ zásah do systému bude nutný. Nejméně se člověk zapotí tehdy, když pouze vytvoří strukturu katalogu a ke každé vytvořené kategorii přidá vzorový dokument. Poté za něj roboti (tedy více či méně inteligentní programy) začnou tuto strukturu plnit odkazy, kdy zařazení do kategorie probíhá porovnáním se vzorovým dokumentem. Takto například funguje server hubat.com. Druhou možností je čistě lidské zpracování. Např. server Yahoo zaměstnával pro tuto činnost v roce 2001 150 pracovníků.

„Peníze až na prvním místě“ - Search engine marketing a reklama

Pro příklad, že peníze hýbou i světem vzhledávačů, nemusíme chodit daleko - příkladem může být samotný Google.
Google vznikl v hlavě univerzitního studenta jako ne-firma, kdy pár dolarů stačilo na vytvoření funkčního prototypu. A světe div se, ten projekt ani nezkrachoval, ani se nenechal za pár dolarů koupit, ba co víc, po pár letech se stal hrozbou gigantů jako Yahoo, AOL nebo MSN. Jak se to mohlo stát? Zpočátku se totiž zdálo, že Google bude pouze dodavatelem základních technologií pro velké portály, takže bude zcela v jejich moci: něco peněz se mu dá, ale bude rád, že má zakázku. Jenže poté, co se Google stal světovým vyhledávačem, kdy k němu přešla většina uživatelů z vyhledávačů přeplněných reklamou, začal Google s jinou strategií. Začal umísťovat ve výsledcích reklamu – ale ne žádné monstr bannery, naopak - „skromné“ sponzorované odkazy, umístěné dokonce stranou od výsledků vyhledávání. Skromné a nenápadné, ale účinné. A to už se samozřejmě z Googla chráněnce stal pro ostatní vyhledávače nepřítel číslo jedna.
I Google si totiž postupem doby uvědomil, že potencionálním zákazníkům nestačí to, že si jejich firmu někdo pomocí vyhledávače najde – důležité je, aby si tu jedinou správnou (jejich) našel před ostatní konkurencí. To, že toto obchodní odvětví není jen tak nějakým výmyslem počítačové komunity dosvědčuje i fakt, že se mu dostalo honosného názvu - Search engine marketing (SEM). A dokonce se nejedná ani o žádné obchodní nedochůdče, zaměřuje se totiž na následující „podtypy“ vyhledávání:


Co to je Pay-per-click vyhledávání

Zatímco u fulltextových vyhledávačů se snažíte všemocnými technikami (klíčová slova, fráze, formátování obsahu) o to, aby váš odkaz byl po zadání dané fráze co nejvýše, u Pay-per-click vyhledávání na optimalizaci stránek pro vyhledávače nezáleží. Namísto toho majitelé stránek za dobré umístění platí. Řekněme, že chci, aby návštěvníci nalezli mé stránky po zadání klíčové fráze „website design“. Protože se jedná o frázi velmi frekventovanou, je dosažení dobrého umístění v běžném vyhledavači velmi obtížné (a tedy nákladné). Aby se docílilo v rámci Pay-per-click vyhledávání dobrého umístění, je hodnota dané fráze „vyčíslena“ na základě následujících principů:


Funguje to tedy takto: jsem-li ochoten zaplatit 10 centů za každého návštěvníka, který se z výsledků vyhledávače proklikne na mé stránky a můj konkurent je ochoten zaplatit jen 9 centů, budu ve výsledcích na prvním místě já a můj konkurent bude až za mnou. Ovšem jen do okamžiku, než se rozhodne platit za proklik 11 centů. Významnou výhodou PPC vyhledavačů je jejich operativnost. Velmi snadno lze s jejich pomocí organizovat krátkodobé kampaně a výsledky se projeví velmi rychle. Výhodou je i transparentní řízení nákladů na návštěvníka - ziskovost svého webu máte plně pod kontrolou.

Když Google tančí, ekonomové se třesou

Již víme, na základě čeho vrací Google stránky – tou magickou hodnotou je její PageRank, tedy cosi jako známost. Také jsme si popsali, jak se tato hodnota sestavuje. Důležitá je také skutečnost, že daný výpočet je spouštěn vždy po nějaké době, neboť struktura Internetu je dynamická. Daná činnost, kdy dochází k obnově (přepočítání) indexu fulltextového vyhledávače se nazývá Google Dance, a je internetovými ekonomy sledována se zatajeným dechem - pokud totiž klesne stránce PageRank nebo naopak stoupne konkurenčním webům, posune se stránka ve výsledcích vyhledávání hlouběji. Google Dance ale není okamžik, je to období mezi zahájením a ukončením přepočítávání PageRanku a obnovy indexu. Jedná se o náročnou operaci, která trvá několik dnů. Není se co divit, vždyť index Google je rozložen na asi deseti tisících linuxových serverech v několika střediscích, která jsou rozprostřena po celém světě. Na budování PageRanku se podílejí dva typy robotů, které procházejí web. Prvním z nich je Freshbot. Jeho úkolem je zajistit aktuální data pro vyhledávání ještě před vypočtením PageRanku pro danou stránku. Freshbot navštěvuje především často obměňované nebo nové stránky a díky němu se může stránka dostat ve výsledcích vyhledávání na krátkou dobu velmi vysoko, ale brzy může z výsledků také úplně vypadnout. Průběžnému udržování aktuálních stránek v indexu se v hantýrce konzultantů optimalizace stránek pro vyhledávače říká Everflux. Po skončení Google Dance je nasazen regulérní robot, označovaný jako Deepbot. Deepbot na základě výše PageRanku prochází weby v různé hloubce (čím vyšší PageRank, tím hlouběji se Deepbot pouští) a vytváří základ pro další obnovu indexu a přepočítání PageRanku.

Závěr

Svět Internetu je nevyzpytatelný, někde vítězí barevnost a množství funkcí, jinde zase strohost a přehlednost. Drobní Davidové porážejí statné Goliáše a sebelepší projekty končí v propadlišti dějin (sám nejsa „UNIXář“ avšak rád použiji definici propadliště dějin jako /dev/null). Dnešní vyhledávače, kterým se podařilo veškerým nástrahám Internetu uniknout, již nejsou jen podřadnými stránkami, kde je člověk jen chvíli, než najde tu správnou stránku. Snaží se uživatelům přinést i cosi navíc – zpravodajství, katalogy, zábavu. A je třeba si přiznat, že bez jejich pomoci bychom se jen stěží dobrali v Internetu jakýchkoli informací, protože jsou to právě vyhledávače, které se jako jediné v Internetu vyznají.


Článek vznikl za nemalé pomoci různých vyhledávačů – nenajdete v něm nic, co by vyhledávače nenašly.

Materiály:

http://www.lupa.cz/clanek.php3?show=1379
http://www.lupa.cz/clanek.php3?show=1238
http://www.lupa.cz/clanek.php3?show=1244
http://www.lupa.cz/clanek.php3?show=1254
http://www.lupa.cz/clanek.php3?show=2012
http://www.zive.cz/h/Uzivatel/Ar.asp?ARI=111936
http://www.lupa.cz/clanek.php3?show=2844

Jan Frieser, UČO 39350

Valid HTML 4.01!