Princip fungování fulltextových vyhledávačů II. – indexace
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama

Princip fungování fulltextových vyhledávačů II. – indexacePrincip fungování fulltextových vyhledávačů II. – indexace

 

Princip fungování fulltextových vyhledávačů II. – indexace

Google       Google       16. 1. 2014       10 259×

V předcházejícím článku bylo vysvětleno, proč a jak si fulltextové vyhledávače připravují databázi pomocí crawleru. Dnes si popíšeme proces vytváření invertovaného seznamu (indexu), ve kterém se následně vyhledává, a také to, jak se index aktualizuje.

Reklama
Reklama

Tento článek navazuje na předcházející díl, který se věnuje crawleru a vytváření databáze vyhledávače.

Indexace je proces vytváření datové struktury, která se v souvislosti s vyhledávači nazývá index. Jde o invertovaný seznam — někdy také označovaný jako fulltextový index — kde jsou klíčem slova, která se vyskytují v jednotlivých dokumentech.

Ke každému slovu jsou v indexu přiřazeny dokumenty, které toto slovo obsahují, a pozice daného slova v dokumentu (případně další informace podle konkrétní implementace). Index si lze jednoduše představit jako rejstřík v knize, viz následující obrázek. Pro každé slovo, které má vyhledávač zaindexované, existuje jeden takový index.

Ukázka indexu/invertovaného seznamu vyhledávače pro slovo

Ukázka indexu/invertovaného seznamu vyhledávače pro slovo "informatika"

Crawler ukládá data do databáze vyhledávače. Data v ní jsou vstupem při indexaci. Stejně jako u crawlování, tak i u indexace se využívá výběrové funkce, která určuje, zda se daný dokument z databáze bude zařazovat do indexu. To, že je dokument v databázi vyhledávače, tedy neznamená, že se nutně musí vyskytnout také v indexu. Výběrová funkce zohledňuje především to, zda již v indexu není podobný nebo stejný dokument.

Při vytváření indexu se ukládají důležité informace, které následně slouží pro rozhodování, které dokumenty se zobrazí ve výsledcích vyhledávání a na které pozici. Jde především o následující data: 

  • holý text (plain text) rozložený na slova – pro každé slovo má vyhledávač vlastní index, 
  • téma dokumentu
  • zpětné odkazy, které míří na dokument, a k nim například text odkazu (anchor text), titulek, téma odkazující stránky apod., 
  • ranky stránky (PageRank, S-rank apod.), 
  • jazyk dokumentu
  • typ dokumentu
  • informace o doméně, na které je dokument umístěn. 

Pokud se na tato data podíváme z jiného pohledu, lze je také rozdělit na on-page faktory (ty, které se nachází přímo v daném dokumentu) a off-page faktory (mimo dokument – zpětné odkazy apod.).

Stop slova

Čím častěji se slovo vyskytuje v daném jazyce, tím delší bude také příslušný rejstřík/index. Vyhledávače proto často nevytvářejí indexy pro tzv. stop slova. Jde o slova, která nemají samy o sobě žádný význam – spojky, předložky apod.

Kde se index udržuje

Ve vytvořeném indexu se poté již přímo vyhledávají dotazy, které uživatelé zadávají vyhledávačům. S tím souvisí fakt, že vyhledávání musí být velice rychlé – standardně v řádech setin až desetin sekundy.

Z tohoto důvodu je důležité udržovat celý index v operační paměti, která umožňuje rychlý přístup. Operační paměti jsou řádově dražší než pevné disky, ve kterých je uložena databáze vyhledávače. Do indexu se tedy musí ukládat pouze nezbytně nutné informace dostatečné k tomu, aby výsledky vyhledávání zobrazovaly relevantní dokumenty vzhledem k položenému dotazu.

Výstupem z indexace jsou také vypočítané off-page faktory (metadata, zpětné odkazy na další stránky, hashe apod.) daných stránek. Tyto informace se ukládají zpět do databáze vyhledávače a pracuje se s nimi při další iteraci indexace.

Aktualizace indexu

Crawler se v čase jednak vrací na již dříve navštívené stránky, ale také stahuje stránky nové. Z toho plyne, že se musí aktualizovat také index, jinak by vyhledávače nemohly nabízet nejnovější stránky, které crawler právě stáhl.

Obecně může aktualizace probíhat dvěma způsoby: 

  • přírůstkově, 
  • hromadně. 

Přírůstková aktualizace

Přírůstková metoda je založena na tom, že se nová data z databáze vyhledávače přidávají do současného indexu. V tomto případě je však nutné data zařadit na správné místo v indexu.

Hromadná aktualizace

U hromadné metody se zkontroluje, které dokumenty přibyly v databázi vyhledávače. Z nich se vytvoří nový menší index a nahraje se na výdejový server. Ke spojení těchto indexů tedy dochází až během samotného vyhledávání.

Na tento typ aktualizace indexu musí být správně nakonfigurován výdejový server, aby uměl vyhledávat ve více indexech. V praxi se to řeší často tak, že jednou za časové období (například měsíc) se vytvoří velký kompletní index a dále jsou na výdejovém serveru menší indexy (týdenní, denní, hodinové apod.). Podle Dušana Janovského je hromadná metoda efektivnější pro velké vyhledávače.

Jednou za čas je nutné vystavit nový index a nahradit ten stávající na výdejových serverech. Během nahrazování starého indexu novým je nutné zajistit dostupnost. V praxi je často výdejových serverů více, a proto se výměna indexů provádí postupně na každém stroji.

Nyní by mělo být jasné, proč a jak vyhledávače stahují stránky pomocí crawleru (viz první díl série) a jak z předpřipravené databáze vytvářejí index. V posledním článku se podíváme na to, jak se vydávají výsledky.

Zdroje a další informace

Můžete se podívat na videa Dušana Yuhů Janovského, ze kterých tento článek také čerpá:

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
8 hlasů
Google
(fotka) Martin ŠimkoAutor se věnuje problematice SEO - pracuje jako SEO konzultant v agentuře RobertNemec.com a jako freelancer (www.martinsimko.cz). Vystudoval informatiku na FIT VUT a FI MUNI.
Web     Twitter     Facebook     LinkedIn    

Nové články

Reklama
Reklama
Obrázek ke článku Blockchain & Bitcoin konference

Blockchain & Bitcoin konference

V pátek 19. 5. 2017 se v pražském konferenčním centru Andel’s konala Blockchain & Bitcoin konference. Řada odborníků a podnikatelů v oboru blockchainu a kryptoměn představila možnosti budoucího směřování tohoto oboru. Speakeři většinou rusky mluvící provenience prezentovali řešení svých firem založená na technologii blockchainu.

Obrázek ke článku Malware KONNI se úspěšně skrýval 3 roky. Odhalil ho bezpečnostní tým Cisco Talos

Malware KONNI se úspěšně skrýval 3 roky. Odhalil ho bezpečnostní tým Cisco Talos

Bezpečnostní tým Cisco Talos odhalil celkem 4 kampaně dosud neobjeveného malwaru, který dostal jméno KONNI. Ten se dokázal úspěšně maskovat od roku 2014. Zpočátku se malware zaměřoval pouze na krádeže citlivých dat. Za 3 roky se ale několikrát vyvinul, přičemž jeho současná verze umožňuje útočníkovi z infikovaného počítače nejenom krást data, ale i mapovat stisky na klávesnici, pořizovat screenshoty obrazovky či v zařízení spustit libovolný kód. Pro odvedení pozornosti oběti zasílali útočníci v příloze také obrázek, zprávu a výhružkách severokorejského režimu či kontakty na členy mezinárodních organizací.

Reklama autora

loadingtransparent (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();
Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032017 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý