Motivace pro zavedení algoritmu Page rank - protože při Boolský vyhledávací model a Vektorový vyhledávací model samotným jsou všechny dokumenty stejně důležité (důvěryhodné) a scammeři mohou dokumenty upravovat tak, aby se matchovali na co nejvíce vyhledávacích dotazů - je potřeba nějak ohodnotit popularitu a důvěryhodnost stránky

Nezáporné reálné číslo udávající popularitu a důvěryhodnost webové stránky.

  • to ovlivňuje hodně faktorů
    • na jaké stránky odkazuji a jaké stránky odkazují na mě
    • sociální kontext společnosti a autora

Na rankování stránek existují 2 hlavní algoritmy: Page Rank (Google) a HITS.

Rankování stránek probíhá tak, že se nejdříve jednotlivé documenty (např. webové stránky) ohodnotí podle obsahu (např. podle kosinové vzdálenosti a vektorového retrieval modelu) a poté re-ranknutí těchto výsledků agregací s page rank skórem pro jednotlivé stránky.

Mezi jednotlivými stránkami se nachází odkazy, máme několik typů stránek:

  • hub - hodně outlinků
  • authority - hodně inlinků
  • oboje

Page Rank

A web page is important if it is pointed to by other important pages.

  • zjednodušeně je page rank pro stránku součet podílů page ranku všech stránek , které na stránku ukazují, vydělený celkovým počtem odkazů na stránce
    • je tzv. damping factor, je to pravděpodobnost, že se klikne na náhodný odkaz na stránce
      • díky tomu se systém nezacyklí na malých skupinách stránek a také izolované stránky dostanou nějakou hodnotu page rank
  • Page rank je možné vyjádřit také maticí
    • Důležité vědět: matice je stochastická, neredukovatelná a aperiodická.
    • stochastická - suma řádku se rovná 1

HITS

A page is a good hub if it points to good authorities, and a page is a good authority if it is pointed to by good hubs.

  • v podstatě 2 ranky (hub rank, authority rank)