Radovan Garabík: Word Embedding
-
20. listopadu 2020
13:00 – 14:30
Přednáška proběhne on-line v MS Teams. Přihlásit se můžete pomocí tohoto odkazu: https://bit.ly/2UaQBs0
Word Embedding je metóda vektorovej reprezentácie slov založená na spracovaní veľkých jazykových dát, ktorá sa stala (v rôznych obmenách) prakticky nenahraditeľnou v moderných aplikáciách počítačového spracovania prirodzeného jazyka. Metóda priraďuje slovám vektory v mnohorozmernom vektorovom priestore, a ukazuje sa, že vzťahy medzi vektormi veľmi dobre odrážajú sémantické vzťahy medzi slovami. Metóda nepotrebuje lingvisticky (o)značkovaný korpus, stačia jej rozumne konzistentné tokenizované textové údaje daného jazyka, výsledky teda nie sú ovplyvnené prípadným existujúcimi lingvistickými teóriami.
Voľne (a nesprávne) môžeme povedať, že každá z osí vektorového priestoru zodpovedá nejakej sémantickej kategórií (alebo kategoriálnej osi), prípadne kombinácii sémantických kategórií, alebo aj iných vlastnosti
slov, ak sa tieto prejavujú aj kontextovo. Blízkosť vektorov je teda modelom sémantickej blízkosti slov, vzdialenosť pozdĺž jednej osi zodpovedá vzdialenosti v jednej kombinácii sémantických kategórií. Modely sú tak akousi sondou do mentálneho jazykového obrazu sveta priemerného používateľa jazyka.
V prednáške ukážeme webové rozhranie k vektorovým modelom dvoch desiatok (prevažne) európskych jazykov, ukážeme s konkrétne možnosťami použitia v niektorých aspektoch lingvistického výskumu a s rozšírením analyzovania významu aj na slovné druhy, pri ktorých sa tradične význam neberie do úvahy.
Sdílení události