LexiCorp: Prezentácia lexikografických dát pomocou korpusových nástrojov

Datum

úterý 10. 3. 2020 13:00

Přednášející

Abstrakt

Lexikografi pri tvorbe slovníkov obyčajne pracujú s dvoma typmi počítačových nástrojov. Je to

jednak prostredie na vytváranie textu heslových statí (angl. Dictionary-Writing System, DWS),

pomocou ktorého sa definujú štruktúry jednotlivých hesiel a napĺňajú príslušnými dátami, a jednak

korpusový manažér umožňujúci analýzu, agregáciu a štatistické vyhodnocovanie údajov

o spracúvaných lexikálnych jednotkách z korpusu. Navyše môže byť k dispozícii slovníkový portál,

v ktorom možno vyhľadávať texty heslových statí v už publikovaných slovníkoch.

V našom príspevku predstavíme experiment, v ktorom sme text novovytváraného slovníka poňali

ako „korpus“ a aplikovali sme naň štandardnú množinu procedúr pre spracovanie slovenských

korpusových dát, t. j. tokenizáciu, lematizáciu a morfosyntaktickú anotáciu a skompilovali sme ho

pomocou (mierne upraveného) korpusového manažéra NoSketch Engine.

Počas prednášky budeme prezentovať hlavné funkcie systému a poukážeme na výhody oproti

(slovenskému) slovníkovému portálu, aj oproti „plnofunčnému“ systému DWS.