Optimalizace pro vyhledávače

Historický vývoj
Současné tržní podíly vyhledávačů
České vyhledávače a katalogy

Zdroj: Ing. Radim Smička - Optimalizace pro vyhledávače - SEO

Historický vývoj

Web se začal rozšiřovat v roce 1993, ale již před tím existoval vyhledávač, který uměl prohledávat FTP servery. Vytvořil ho v roce 1990 Alan Emtage z univerzity McGill v Montrealu a jmenoval se Archie. Původní název tohoto vyhledávače byl „archives“, ale Unix vyžadoval krátké názvy. Pokud si lidé v této době chtěli vyměňovat nějaká data na počítači, tak to většinou dělali pomocí File Transfer Protocolu (FTP). Pokud jste chtěli sdílet data, museli jste mít FTP server, když jste chtěli něco stáhnout stačil FTP klient. V podstatě velmi efektivní výměna informací, ale pouze v malé skupině lidí. S přibývajícím počtem serverů se uživatelé mírně řečeno ztráceli. V tom dokonale pomohl právě Archie, který vyhledával soubory, jenž se shodovaly s dotazem uživatele. V podstatě to byla databáze názvů souborů. Popularita Archie se zvyšovala, a tak po jeho vzoru Nevadská univerzita o rok později představila vyhledávač Veronica, který sloužil pro hledání textových informací v Gopheru.

V roce 1993 začíná rozvoj WWW (World Wide Web) a na svět se dostává první browser Mosaic. Tuto informaci asi slyšel každý z nás, ale neméně důležité je, že se také objevil první robot, který procházel web. Naprogramoval ho Matthew Gray a jmenoval se World Wide Web Wanderer. Tento robot měl původně jen počítat aktivní stránky na Internetu a pomocí toho zjišťovat rychlost růstu webu, Matthew Gray ho však později vylepšil tak, aby indexoval URL (ukládal je do databáze – Wandex). Wanderer byl ze začátku spíše problémem, protože někdy stahoval stovky stránek z jednoho webu za krátkou chvíli, a tak způsoboval přetížení (což se může stát i současným nově naprogramovaným robotům).

Ke konci roku 1993 Martijn Koster vytvořil vyhledávač Aliweb podobný Archie, který indexoval webové stránky. Aliweb umožňoval uživatelům, aby do něj stránky přihlašovali a na tuto žádost je zaindexoval. Nevýhodou bylo, že nebyl propojen s robotem, který by stránky sám hledal. Do konce roku 1993 se objevily tři vyhledávače se svými vlastními roboty – JumpStation, World Wide Web Worm a Repository-Based Software Engineering. První dva indexovaly hlavičku dokumentu a URL. Jejich problém však byl, že dokumenty zobrazovaly tak, jak je našly. Oproti tomu RBSE implementoval ranking systém.

World Wide Web se začíná rychle rozvíjet. V roce 1994 vytvořili Jerry Yang a David Filo ze Standford University Yahoo!. Ze začátku to byl seznam jejich oblíbených odkazů, kterým se snažili dát určitý řád, a tak vytvořili do současné doby nejznámější katalog. 20. dubna 1994 vydal Brian Pinkerton z University of Washington WebCrawler, což byl první crawler, který indexoval kompletní stránku, a ne jen hlavičky a URL. Později byl WebCrawler koupen Excite. V roce 1995 přicházejí na scénu další a další vyhledávače: Metacrawler, Excite, Altavista, Inktomi/Hotbot, AskJeeves a GoTo. Vedoucí postavení si však udržovalo vcelku s přehledem Yahoo!, což je ale v podstatě katalog. Z vyhledávačů byla populární hlavně AltaVista. Jak se ale objevovaly stále další a další internetové stránky, byl stále větší problém něco najít (klesala relevance výsledků vyhledávání).

Problém se vzrůstající mírou vyhledaných nerelevantních dokumentů vyřešili ke konci roku 1998 Larry Page a Sergey Brin s vyhledávačem Google. Základní myšlenka byla, že výsledky vyhledávání se řadily podle toho, kolik odkazů vede na dané stránky. Každý odkaz je v podstatě hlas, který tvůrce stránky dává jiné stránce. Kromě obsahu stránky začalo být důležité, kolik dobrých odkazů na stránku vede. Jedná se v podstatě o citační analýzu aplikovanou na Internet.

V současné době se hodně mluví o potřebě personalizovaného vyhledávání a o potřebě lokálního vyhledávání. Personalizované vyhledávání je založeno na definovaných oblastech, které uživatele zajímají. Preference může určit přímo uživatel zaškrtáním jednotlivých kategorií nebo se dají také získat z oblíbených položek v prohlížeči a z toolbarů (zjišťuje se, jaké stránky uživatel navštěvuje). Například Google má personalizované vyhledávání v současné době v beta-testování. Stačí zaškrtnout oblast zájmu a Google se snaží vybrat stránky, které mají s daným oborem něco společného (viz. kapitola 4.2.7 Tématicky orientovaný PageRank).

Obrázek 1: Lokální vyhledávání v Googlu

Lokalizované vyhledávání je (alespoň podle mě) daleko užitečnější. Dalo by se tvrdit, že fungovalo již od vzniku vyhledávání, jen v současné době je vylepšené. Pokud do vyhledávače zadám pizza Praha, očekávám, že mi to najde pizzerie v Praze. Pokud do lokálního Googlu1 v současné době zadám pizza New York, vypíše se mi seznam pizzerií, které mají na svých stránkách adresu v New Yorku, a navíc se mi zobrazí mapa, kde přesně je najdu.

Lokální vyhledávání nabízí také například Seznam, v tomto případě se však narozdíl od Googlu vyhledávají pouze firmy registrované v katalogu.

Obrázek 2: Lokální vyhledávání na Seznam.cz

Samozřejmě ostatní vyhledávače nevymizely, jen nejsou tak populární jako Google, který drží v současné době největší podíl na trhu. I ostatní vyhledávače časem začaly používat vzorec na hodnocení stránek podobný tomu, jako použil Google, samozřejmě s trochu jinými vahami. V současné době se hovoří o tom, že Google nemůže kralovat věčně, ale prozatím není vyhledávač, který by byl populárnější. Dohnat Google se snaží hlavně Yahoo!, které koupilo celou řadu vyhledávačů (Altavista, Inktomi, Alltheweb), aby z nich vyladilo jednu technologii, kterou začalo používat na svých stránkách na začátku roku 2004.

Také Microsoft si chce vydobýt své místo v oblasti vyhledávačů. Na začátku roku 2005 opustil vyhledávací technologii Yahoo a implementoval svou vlastní. V nové verzi Windows pak pravděpodobně integruje vyhledávací funkci přímo do prohlížeče Internet Explorer. Podobnou integraci již dnes nabízí prohlížeče Opera a Mozilla (FireFox), které však dávají na výběr mezi jednotlivými vyhledávači.

Celá řada portálů ve skutečnosti nejsou vyhledávače, i když se tak na první pohled tváří. Pouze používají cizí technologii a přebírají výsledky, které pak kombinují s katalogem (nejčastěji s ODP1 – Open Directory Project). Současnou situaci na trhu nejlépe vykresluje obrázek č. 3 od Bruce Clay. Jedná se v postatě o outsourcing vyhledávacích a katalogových služeb.

Obrázek 3: Propojení katalogů a vyhledávačů ve Spojených státech

Zdroj: http://www.bruceclay.com/searchenginerelationshipchart.htm

Současné tržní podíly vyhledávačů

Pro přehled tržních podílů jednotlivých vyhledávačů jsem použil výsledky měření comScore1 Media Metrix Search Engine Ratings [22]. Tento výzkum zahrnuje pouze anglicky mluvící uživatele a je za období červen 2005.

Graf 1: Podíl vyhledávačů v anglicky mluvících zemích

Pokud se tento výzkum převede na podíly technologií, získá Google téměř polovinu trhu (viz graf č. 2). Současní největší hráči na trhu tedy jsou: Google, Yahoo!, Microsoft a ASK. O AOL, které používá technologii Google, se spekuluje, že bude koupeno některým hráčem z velké trojky. Podíl vyhledávačů je samozřejmě obtížně měřitelný a existují různé přístupy 1. O tom, že globálně vede Google, ale spory nejsou.

Graf 2: Podíl vyhledávacích technologií v anglicky mluvících zemích

České vyhledávače a katalogy

České vyhledávače se vyvíjely se zpožděním za těmi světovými, takže se z historie zmíním krátce o Seznamu, Centru a Jyxu a hlavně rozeberu současnou situaci na českém trhu katalogů a vyhledávačů. V roce 1997 naprogramoval Ivo Lukačevič a Štěpán Škrob (spolužáci na ČVUT) fulltext Kompas, který používal Seznam jako vyhledávací technologii. V určité podobě fungoval Kompas až do roku 2001, kdy Seznam začal používat Google. Později zakoupil technologii Jyxo, kterou na začátku roku 2005 nahradil svou vlastní – Seznam Fulltextem. Seznam tak již primárně nevyhledává v katalogu, ale ve Fulltextu.

Centrum začalo fulltext vyvíjet v roce 1999 společně s Martinem Marešem z MFF UK. V té době se používal pouze na serveru Centrum.cz. V srpnu 2002 spustilo Centrum Webfast, který už měl samostatnou doménu. Začátkem roku 2003 Centrum udělalo ve fulltextu zásadní změny (specializace na češtinu – ohýbání slov, synonyma, překlepy), a proto byla změněna značka na Morfeo. V témže roce se z důvodu zkvalitnění výsledků fulltext propojil s katalogem Centra. Na podzim 2003 začalo Morfeo používat pro řazení výsledků také zpětné odkazy (obdoba Google PageRanku).

Další hráč na českém poli je Jyxo, které vzniklo na jaře 2002 (založení firmy). Z velkých katalogů ho od začátku roku 2003 používá Atlas a Quick a od února 2004 do března 2005 pak Seznam. Stejně jako Morfeo zvládá ohýbání slov, synonyma, překlepy a používá JyxoRank (obdoba Google PageRanku).

Jaké vyhledávače používají české katalogy ukazuje Obrázek č. 2. Pro upřesnění – Seznam v současnosti používá pro český web vlastní technologii Seznam Fulltext a pro zahraničí Google. Tiscali používá technologii Google. Atlas a Quick pak technologii Jyxo.

Obrázek 4: Používání vyhledávačů českými katalogy

Pro přehled podílu vyhledávačů v referreru (URL, odkud přišli návštěvníci webu) jsem čerpal data ze serveru Toplist1 (viz. Tabulka č. 1), který zahrnuje dostatečné množství údajů (téměř 70 tisíc webů), dále pak z Choseho stránky (http://vyhledavace.chose.cz/), která agreguje data z Toplistu a tyto data jsem ještě skombinoval s údaji ze svého serveru Bazos.cz (pouze pro dopočítaní podílu ostatních vyhledávačů). Z údajů vyplývá, že největší význam z hlediska odkazujících serverů má v ČR Seznam a Google. Seznam má podobnou pozici jako v anglicky mluvících zemích Yahoo!, ze kterého i ideově vychází. I když to není možná na první pohled patrné, jsou vyhledávače přímou konkurencí katalogům. Google poslední dobou stále ukrajuje větší část, a to jak Seznamu, tak i Yahoo!.

Tabulka 1: Podíly vyhledávačů podle serveru Toplist.cz, říjen 2005

Zdroj: http://www.toplist.cz/global.html

Graf 3: Podíl refererrů v ČR

Pro ověření, zda uživatelé v ČR používají také katalogy, jsem použil data ze serveru Navrcholu1 za květen 2005. Výsledek již v dnešní době nemůže nikoho překvapit. 91,6 procent lidí hledá požadované informace pomocí vyhledávání a jen 8,4 procenta pak pomocí procházení katalogových sekcí. To ovšem neznamená, že není důležité se do katalogů registrovat. Stále platí, že základní registrace do katalogů u nás nic nestojí, kromě pár minut času. Navíc se registrací do správných sekcí katalogů, získávají relevantní zpětné odkazy. Doby, kdy byly katalogy hlavní zdroje návštěvnosti jsou ale již dávno pryč. Hodně tomu přispělo přepnutí vyhledávání na fulltext namísto prohledávání katalogu.

Graf 4: Podíl vyhledávání a procházení katalogu

Pokud v ČR sečteme používané vyhledávací technologie, má Seznam stále dominantní podíl (viz. Graf č. 5). Googlu bylo připočteno Tiscali. Jyxo se pak skládá z Atlasu, Quicku, Zooho a samotného Jyxa. Ostatní zahrnuje hlavně MSN a Yahoo. Z výsledných dat vyplývá, že v současnosti se u nás vyplatí optimalizovat pro Seznam Fulltext, Google, Morfeo a Jyxo.

Graf 5: Podíl vyhledávacích technologií v ČR

Pro SEO má podíl na trhu vyhledávačů pouze informativní charakter. Navíc zde prezentovaná data nejsou v žádném případě přesná. Srovnávat s tím svoje výsledky je sice možné, ale jejich odlišnost ještě nemusí nic znamenat. Srovnání přístupů z vyhledávačů by bylo nutné porovnávat se servery, které mají stejné zaměření. To znamená porovnávat internetový obchod se souhrnnou sekcí Internetové obchody na Toplistu nebo ještě lépe s podobně zaměřeným internetovým obchodem. Technicky zaměřený server bude mít pravděpodobně nejvíce návštěvníků z Googlu, naopak u magazínu pro ženy by se dal očekávat větší podíl Seznamu atd.

Zdroj: Ing. Radim Smička
Optimalizace pro vyhledávače: SEO
[Internet] 2004 [28.3.2006]

Optimalizace pro vyhledávače – SEO II.

Programátoři po celém světě dnes slaví Den programátorů
Celá zprávička