Prepínanie jazykového kódu vo webových korpusoch: slovenčina vs. čeština a angličtina

Datum

úterý 23. 1. 2018 13:00

Přednášející

Vladimír Benko

Abstrakt

Jedným z problémov práce s webovými korpusmi je značný podiel „šumu“ v textoch stiahnutých z internetu, pričom za šum považujeme všetky javy v zdrojových textoch spôsobujúce zlyhávanie štandardných nástrojov ich spracovanie a anotáciu.

V našej prezentácii predstavíme prístup k riešeniu veľmi frekventovaného typu šumu tvorenému fragmentmi textu v cudzom jazyku v inak jednojazyčnom texte. Keďže v slovenských webových korpusoch majú takéto fragmenty obyčajne povahu českých alebo anglických viet, zamerali sme sa na identifikáciu týchto dvoch jazykov na úrovni vety a analýzu dosiahnutého výsledku v najväčšom slovesnom korpuse Omnia Slovaca Maior s rozsahom 4,95 miliardy tokenov.