AplikaceAplikace

Metódy vektorizácie textu založené na Wordnete

Datum
Přednášející
  1. Kristína Šteflovičová
  2. Dávid Držík
Abstrakt

Využitie techník vektorizácie textu sú v dnešnej dobe nevyhnutnosťou pre množstvo klasifikačných úloh v oblasti spracovania prirodzeného jazyka. Moderné word embeding metódy ako napr. Doc2Vec, Glove a pod. sú založené na sémantickej podobnosti slov. WordNet ako lexikálna databáza slov nám poskytuje bohatý zdroj sémantickej informácie, ktorú môžeme využiť pri vektorizácií textu. Naša práca navrhuje  techniku vektorizácie textu založenú na WordNete, zvlášť využitia synsetov. Táto technika bude podobná ako pri moderných word embeding, avšak sémanticky podobné slová nebudú automaticky trénované z korpusu ale zo synsetov. Nami navrhovanú techniku porovnáme s vybranými existujúcimi technikami pre word embeding na základe ich vhodnosti pre úlohy klasifikácie textu.