Princip fungování fulltextových vyhledávačů III. – výdej výsledků
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama

Princip fungování fulltextových vyhledávačů III. – výdej výsledkůPrincip fungování fulltextových vyhledávačů III. – výdej výsledků

 

Princip fungování fulltextových vyhledávačů III. – výdej výsledků

Google       Google       20. 1. 2014       9 247×

Poté, co si vyhledávač připraví databázi, ze které vytváří svůj index, následuje výdej výsledků. Při něm je důležité vybrat co nejvíce relevantní dokumenty a seřadit je tak, aby odpovídaly hledanému dotazu.

Reklama
Reklama

Před čtením tohoto článku doporučuji projít první dva díly o crawleru a indexování.

Když uživatel zadá vyhledávací dotaz do vyhledávače, vyhledávání výsledků probíhá v indexu, který je již předpřipravený, jak bylo popsáno v předchozím článku.

V prvním kroku je nutné, aby vyhledávač pochopil, co dotaz znamená. V praxi jde především o rozklad víceslovných dotazů na jednoslovné – pro ty jsou vybudované rejstříky/indexy. Pokud například do vyhledávače zadám „fakulta informatiky“, vyhledávač rozloží dotaz na „fakulta AND informatiky“. Z toho vyplývá, že dotaz je nutné hledat ve dvou indexech – pro slovo fakulta a pro slovo informatika.

V těchto indexech se poté vyhledají dokumenty, kde se nacházejí obě slova – z matematického pohledu se provede průnik těchto dvou indexů. U vybraných dokumentů je následně potřeba spočítat relevanci a na jejím základě dokumenty seřadit. Relevanci počítá každý vyhledávač podle utajených algoritmů.

Které faktory jsou pro jednotlivé vyhledávače důležité a v jaké míře, lze zjistit pouze pomocí testování a zkoumáním výsledků vyhledávání. Tímto postupem se vždy ale propracujeme pouze ke korelacím jednotlivých faktorů. Na jejich základě nelze jednoznačně prohlásit, který faktor se podílí na hodnocení v určité míře. Nejde tedy o kauzalitu.

Části výdeje výsledků

Vyhledávačům se dotazy zadávají přes webové rozhraní. To následně komunikuje s dalšími komponentami, které rozkládají dotaz a provádějí samotné hledání a řazení. Jednou z těchto komponent je MetaSearch (jde o termín z českého Seznam.cz, Google tuto komponentu označuje jako Root), který rozkládá dotazy a také si výsledky vyhledávání ukládá do mezipaměti/cache.

Díky tomu se zrychluje výdej stejných dotazů; je však nutné zajistit, aby byla cache stále aktuální. V případě vyhledávače Seznam.cz je možné poskytovat výsledky z cache až u 80 % dotazů.

Další komponentou je agregátor, který rozkládá zátěž na jednotlivé počítače, kterých má vyhledávač ve výdeji z důvodu výkonu více. Tyto počítače, označované jako BaseSearch, mají vždy část z celého indexu, je tedy nutné poslat dotaz na všechny zároveň.

Rozdělování databáze/indexu na několik horizontálních částí se označuje jako shardování. BaseSearch vrací vyhledané a seřazené výsledky ze své části indexu. Agregátor s MetaSearchem poté tyto agregované výsledky znovu seřadí. Dále zde existuje komponenta, která vytváří úryvky výsledků vyhledávání, tzv. snippety (titulek, URL adresu a krátký text) – titulkovač (v případě Seznam.cz) nebo Content Server (v případě Googlu).

Na titulkovač zasílá MetaSearch dotazy pro konkrétní dokumenty. Titulkovač má databázi distribuovanou na několik počítačů (podobně jako MetaSearch) z důvodu zvýšení rychlosti výdeje výsledků. MetaSearch poté z těchto dat sestaví stránku s výsledky vyhledávání (anglicky Search Engine Result Page – zkratka SERP) a vrátí ji webové komponentě, jež ji zobrazí uživateli.

Schéma architektury výdeje výsledků je zobrazeno na následujícím obrázku. Fulltextové vyhledávače mají v praxi výdejových serverů více z důvodu rozložení zátěže.

Architektura výdeje výsledků vyhledávání, autor Tomáš Hlucháň ze Seznam.cz

Personalizace při výdeji výsledků

Vyhledávače se snaží pochopit, co chce uživatel nalézt. Děje se tak při rozkladu položeného dotazu. Google jde však ještě dále, kdy si uchovává o každém uživateli určité informace, které následně používá při výdeji výsledků. Pomocí nich upravuje SERP tak, aby byl více relevantní konkrétnímu uživateli.

Informace si Google ukládá jednak do cookies (s platností 180 dnů), ale také do historie webového vyhledávání, pokud je uživatel přihlášen do svého Google účtu. Personalizované vyhledávání na Googlu je dostupné jak pro přihlášené, tak pro nepřihlášené uživatele od 4. prosince 2009. V obou případech lze personalizaci vypnout.

Personalizace na základě vyhledávací historie je založena na tom, že Google upřednostňuje weby, na které již uživatel ve výsledcích vyhledávání klikl. Pokud často vyhledávám například „programování v c++“ a většinou se prokliknu na programujte.com, Google tento web při dalších vyhledávání upřednostní.

Google používá při řazení výsledků také geolokaci uživatele. Jiné výsledky tedy dostane uživatel hledající z Brna a jiné uživatel z Prahy.

Díky personalizaci tedy nelze pozice ve výsledcích vyhledávání Google změřit s naprostou přesností. Průměrnou pozici dané stránky lze zjistit v nástroji Google Webmaster Tools.

Český vyhledávač Seznam.cz personalizaci nyní nepoužívá.

Zdroje a další informace

Toto je poslední ze série tří článků o principu fungování fulltextových vyhledávačů. Dále se můžete podívat na videa Dušana Yuhů Janovského, ze kterých tento článek také čerpá:

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
5 hlasů
Google
(fotka) Martin ŠimkoAutor se věnuje problematice SEO - pracuje jako SEO konzultant v agentuře RobertNemec.com a jako freelancer (www.martinsimko.cz). Vystudoval informatiku na FIT VUT a FI MUNI.
Web     Twitter     Facebook     LinkedIn    

Nové články

Obrázek ke článku Malware KONNI se úspěšně skrýval 3 roky. Odhalil ho bezpečnostní tým Cisco Talos

Malware KONNI se úspěšně skrýval 3 roky. Odhalil ho bezpečnostní tým Cisco Talos

Bezpečnostní tým Cisco Talos odhalil celkem 4 kampaně dosud neobjeveného malwaru, který dostal jméno KONNI. Ten se dokázal úspěšně maskovat od roku 2014. Zpočátku se malware zaměřoval pouze na krádeže citlivých dat. Za 3 roky se ale několikrát vyvinul, přičemž jeho současná verze umožňuje útočníkovi z infikovaného počítače nejenom krást data, ale i mapovat stisky na klávesnici, pořizovat screenshoty obrazovky či v zařízení spustit libovolný kód. Pro odvedení pozornosti oběti zasílali útočníci v příloze také obrázek, zprávu a výhružkách severokorejského režimu či kontakty na členy mezinárodních organizací.

Reklama
Reklama
Obrázek ke článku Pouze jedna z deseti lokálních firem ví o pokutách plynoucích z GDPR

Pouze jedna z deseti lokálních firem ví o pokutách plynoucích z GDPR

Trend Micro, celosvětový lídr v oblasti bezpečnostních řešení a VMware, přední světový dodavatel cloudové infrastruktury a řešení pro podnikovou mobilitu, oznámily výsledky výzkumu mezi českými a slovenskými manažery zodpovědnými za ochranu osobních údajů, který zjišťoval, jak jsou připraveni na nové nařízení o ochraně osobních údajů (GDPR). Většina firem v České republice a na Slovensku nad 100 zaměstnanců je již s novým nařízením GDPR obeznámena. Výzkum provedený ve spolupráci s agenturou Ipsos ukázal, že téměř 8 firem z 10 o nařízení ví, přičemž jeho znalost je o něco vyšší na Slovensku (89 %) než v České republice (69 %).

Obrázek ke článku Vyděračský software Locky se vrací, tváří se jako potvrzení platby, odhalil tým Cisco Talos

Vyděračský software Locky se vrací, tváří se jako potvrzení platby, odhalil tým Cisco Talos

Jeden z nejznámějších ransomwarů, Locky, se vrací. Po většinu roku 2016 patřil mezi nejrozšířenější vyděračské softwary. Ke svému šíření využíval emailové kampaně s infikovanými přílohami. Ransomware Locky byl rozesílán prostřednictvím botnetu (internetový robot zasílající spamy) Necurs. Jeho aktivita na konci roku 2016 téměř upadla a spolu s ní i šíření ransomwaru Locky. Před několika týdny se Necurs opět probudil a začal posílat spamy nabízející výhodný nákup akcií. Dne 21. dubna zaznamenal bezpečnostní tým Cisco Talos první velkou kampaň ransomwaru Locky prostřednictvím botnetu Necurs za posledních několik měsíců.

Obrázek ke článku Dovozci baterií mění logistiku, letadlo nahrazuje námořní doprava

Dovozci baterií mění logistiku, letadlo nahrazuje námořní doprava

Dovozci baterií do mobilů či notebooků upouštějí od letecké přepravy zboží. V letošním roce plánují dovézt až 80 % produktů lodí. Přitom před 5 lety byla většina baterií do mobilních přístrojů dovezených do České republiky přepravována letadlem. Za proměnou způsobu transportu akumulátorů stojí zpřísnění pravidel pro leteckou přepravu, která přinášejí vyšší náklady i náročnou agendu.

Reklama autora

loadingtransparent (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();
Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032017 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý