Vektorové reprezentace jednotlivých slov pomocí přístupu založeného na strojovém učení
- by Tomáš Mikolov
- založené na principu, že slova s podobným významem leží ve vektorovém prostoru blízko sebe
- místo slov se dá použít i na geny, kód, playlisty apod.
Jedná se o model, který se umí “naučit” sám z velkého množství textů
- používá dva algoritmy/modely: CBOW a Skip-gram
- CBOW - předpovídá cílové slovo na základě jeho kontextu (aka okolních slov)
- vstup jsou okolí slova a on předpovídá, jaké slovo je nejpravděpodobnější mezi nimi
- Skip-gram - opačný přístup, podle konkrétního slova předpovídá okolní slova
- CBOW - předpovídá cílové slovo na základě jeho kontextu (aka okolních slov)
Také je možné aritmeticky počítat s jednotlivými vektory
- např vec(král) - vec(muž) + vec(žena) = vec(královna)