Sémantický web

aby search engine rozuměl obsahu na stránce
- na úrovni nějakých faktů (=znalostí), ne na primitivech, jako klíčová slova
  - syntaktický web je založený na primitivech právě - dnešní web právě jede na tomto principu - hlavně se prezentuje pro člověka (který tomu rozumí), ale není to poskládané tak, aby z toho počítač pochopil hlubší propojení, context, návaznosti atd.

“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.”

sémantický dotaz
- umím pojmenovat objekty, jejich velikosti, rozsahy atd. (ptající se rozumí tomu tématu)
  - např. SQL má sémantické dotazy
  - teď na webu se vyhledává pomocí klíčových slov
- dotaz např. “Najdi mi domy v New Yorku, které stojí tolik a tolik a nejsou ze dřeva” - tohle už umí jazykové modely (jako chatGPT), ale to jsou natrénované modely, ne vyhledávače
  - teď přichází MS s BingAI a už dochází k nějakému propojení jazykového modelu a vyhledáváče
kvůli staré syntaktické struktuře webu se stále hledá podle klíčových slov, ale snažíme se to překlopit směrem k sémantickému vyhledávání
chceme dosáhnout strojové čitelnosti dat (opravdu porozumění daným informacím)
- to teď umí už jazykové modely

HTML

strukturování obsahu fulltextu, slouží jen pro prezentování

XML

semi-strukturovaná data - struktury (uzly ve stromu)
- nestruktury - vložený fulltext mezi tagy
XSLT - data jsou oddělená v XML formátu a je možné je “mapovat” do PDFka, HTML atd.
- první krok k sémantickému webu
problém je, že to mohu napasovat na menší objemy dat, ne na celý web
- abychom to mohli udělat, tak potřebuji něco, co mě odstíní od toho mít nějakou velkou strukturovanou databázi at

Ontologie (v Computer Science) je formální specifikace znalosti jako množina conceptů v určité doméně + vztahy mezi těmito koncepty (znalostmi)

RDF = resource descriptor framework

abstraktní datový model pro konceptuální modelování dat
- jak grafových, tak stromových, relačních atd.
lze serializovat např. do XML
všechny entity jsou globálně identifikované
- vytvářím jeden velký globální dat faktů - to přesně chci
více vyhovuje ontologii - už mohu mít nějaké znalosti a pomocí RDFka mohu spcifikovat, jaké jsou mezi nimi vztahy
RDFS = RDF Schema
- specifikace vztahů a konkrétních typů
díky RDFku mám základní infrastrukturu pro definování faktů

SPARQL

dotazovací jazyk pro RDF
4 základní queries (SELECT, CONSTRUCT, ASK, DESCRIBE)

OWL

= Web Ontology Language
jazyky, které reprezentují znalosti (concepty) - přidává jim popis, deskriptivní logiku
spolupracuje s RDF - je to sémantické rozšíření RDF

FOAF (friend of a friend)

založeno na RDF a OWL
ontologie popisu osob, aby tomu rozuměly stroje

Problémy

části sémantického webu jsou úspěšné, viz výše, ale celkově WWW není sémantický
- autoři stránek by museli vedle svých stránek ještě nabízet informace ve formě RDF (upravit jejich stránky) a to se nikomu nechce, protože (zatím) to moc nepřináší výhody Background knowledge
náročné téma, napíšu třeba: “Chci sci-fi knihu, kde není vesmírná loď”
- podle klíčových slov by tohle určitě nešlo - sci-fi tam pravděpodobně nebude, vesmírnou loď tam nechci atd.
  - je potřeba tento dotaz sémanticky rozebrat a rozumět tomu Databáze produtků, velké balíky dat atd.
nelze scrapnout celou databázi produktů Alzy atd., takže dotazy na konkrétní srovnání produktů jsou také náročné

Možné řešení

lepší motivace - správně sémantické weby by mohly být upřednostňovány Googlem
dobré nástroje pro rychlý a snadný převod existujících stránek do RDF, XML
propojená data (linked data) - anotování dat a jednotlivých zdrojů na URIs - propojování s dalšími

Sémantizace webu

syntaktika webu už přestala být dostačující a tak se začalo sémantizovat
základy technologií
- Unicode - sjednocení abeced po celém světě
- URI - identifikace nejakého zdroje (to nemusí být vůbec žádná stránka)
- na těchto základech se může stavět dále

Petrova digitální zahrada 🚀

Procházet

Sémantický web

HTML

XML

RDF = resource descriptor framework

SPARQL

OWL

FOAF (friend of a friend)

Problémy

Sémantizace webu

Graf

Obsah

Příchozí odkazy