- aby search engine rozuměl obsahu na stránce
- na úrovni nějakých faktů (=znalostí), ne na primitivech, jako klíčová slova
- syntaktický web je založený na primitivech právě - dnešní web právě jede na tomto principu - hlavně se prezentuje pro člověka (který tomu rozumí), ale není to poskládané tak, aby z toho počítač pochopil hlubší propojení, context, návaznosti atd.
- na úrovni nějakých faktů (=znalostí), ne na primitivech, jako klíčová slova
“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.”
- sémantický dotaz
- umím pojmenovat objekty, jejich velikosti, rozsahy atd. (ptající se rozumí tomu tématu)
- např. SQL má sémantické dotazy
- teď na webu se vyhledává pomocí klíčových slov
- dotaz např. “Najdi mi domy v New Yorku, které stojí tolik a tolik a nejsou ze dřeva” - tohle už umí jazykové modely (jako chatGPT), ale to jsou natrénované modely, ne vyhledávače
- teď přichází MS s BingAI a už dochází k nějakému propojení jazykového modelu a vyhledáváče
- umím pojmenovat objekty, jejich velikosti, rozsahy atd. (ptající se rozumí tomu tématu)
- kvůli staré syntaktické struktuře webu se stále hledá podle klíčových slov, ale snažíme se to překlopit směrem k sémantickému vyhledávání
- chceme dosáhnout strojové čitelnosti dat (opravdu porozumění daným informacím)
- to teď umí už jazykové modely
HTML
- strukturování obsahu fulltextu, slouží jen pro prezentování
XML
- semi-strukturovaná data - struktury (uzly ve stromu)
- nestruktury - vložený fulltext mezi tagy
- XSLT - data jsou oddělená v XML formátu a je možné je “mapovat” do PDFka, HTML atd.
- první krok k sémantickému webu
- problém je, že to mohu napasovat na menší objemy dat, ne na celý web
- abychom to mohli udělat, tak potřebuji něco, co mě odstíní od toho mít nějakou velkou strukturovanou databázi at
Ontologie (v Computer Science) je formální specifikace znalosti jako množina conceptů v určité doméně + vztahy mezi těmito koncepty (znalostmi)
RDF = resource descriptor framework
- abstraktní datový model pro konceptuální modelování dat
- jak grafových, tak stromových, relačních atd.
- lze serializovat např. do XML
- všechny entity jsou globálně identifikované
- vytvářím jeden velký globální dat faktů - to přesně chci
- více vyhovuje ontologii - už mohu mít nějaké znalosti a pomocí RDFka mohu spcifikovat, jaké jsou mezi nimi vztahy
- RDFS = RDF Schema
- specifikace vztahů a konkrétních typů
- díky RDFku mám základní infrastrukturu pro definování faktů
SPARQL
- dotazovací jazyk pro RDF
- 4 základní queries (SELECT, CONSTRUCT, ASK, DESCRIBE)
OWL
- = Web Ontology Language
- jazyky, které reprezentují znalosti (concepty) - přidává jim popis, deskriptivní logiku
- spolupracuje s RDF - je to sémantické rozšíření RDF
FOAF (friend of a friend)
- založeno na RDF a OWL
- ontologie popisu osob, aby tomu rozuměly stroje
Problémy
- části sémantického webu jsou úspěšné, viz výše, ale celkově WWW není sémantický
- autoři stránek by museli vedle svých stránek ještě nabízet informace ve formě RDF (upravit jejich stránky) a to se nikomu nechce, protože (zatím) to moc nepřináší výhody Background knowledge
- náročné téma, napíšu třeba: “Chci sci-fi knihu, kde není vesmírná loď”
- podle klíčových slov by tohle určitě nešlo - sci-fi tam pravděpodobně nebude, vesmírnou loď tam nechci atd.
- je potřeba tento dotaz sémanticky rozebrat a rozumět tomu Databáze produtků, velké balíky dat atd.
- podle klíčových slov by tohle určitě nešlo - sci-fi tam pravděpodobně nebude, vesmírnou loď tam nechci atd.
- nelze scrapnout celou databázi produktů Alzy atd., takže dotazy na konkrétní srovnání produktů jsou také náročné
Možné řešení
- lepší motivace - správně sémantické weby by mohly být upřednostňovány Googlem
- dobré nástroje pro rychlý a snadný převod existujících stránek do RDF, XML
- propojená data (linked data) - anotování dat a jednotlivých zdrojů na URIs - propojování s dalšími
Sémantizace webu
- syntaktika webu už přestala být dostačující a tak se začalo sémantizovat
- základy technologií
- Unicode - sjednocení abeced po celém světě
- URI - identifikace nejakého zdroje (to nemusí být vůbec žádná stránka)
- na těchto základech se může stavět dále