Řeší problém toho, že v modelech bereme jednotlivé termy jako oddělené, ale oni zapadají nějak do kontextu a ten také musíme brát v potaz. Jinak nám to bude dávat velkou podobnost zcela nesouvisejícím documentům, ale se stejnými či podobnými termy (použité v jiném kontextu).
LSI je rozšíření Vektorového modelu. Definuje concept-by-document matici (concept je abstraktnější pojmenování nad termy - není to konkrétní term, ale třeba skupina podobných termů).
- tato matice je hustá a query vector je také hustý.
Pros
- přináší sémantiku do collection
- vyhledávání není term-independent, ale je to concept-based
- řešení synonym a homonym
- redukce dimenze matic a vektorů
Cons
- concepty jsou pořád jenom nějaké kombinace termů - ještě tam není pravá lingvistika
- invertovaný vektor se kvůli husté matici a query vectoru nedá efektivně použít
- výpočetně náročné preprocessování matice (SVD algoritmy)