Jedným z problémov práce s webovými korpusmi je značný podiel „šumu“ v textoch stiahnutých z internetu, pričom za šum považujeme všetky javy v zdrojových textoch spôsobujúce zlyhávanie štandardných nástrojov ich spracovanie a anotáciu.
V našej prezentácii predstavíme prístup k riešeniu veľmi frekventovaného typu šumu tvorenému fragmentmi textu v cudzom jazyku v inak jednojazyčnom texte. Keďže v slovenských webových korpusoch majú takéto fragmenty obyčajne povahu českých alebo anglických viet, zamerali sme sa na identifikáciu týchto dvoch jazykov na úrovni vety a analýzu dosiahnutého výsledku v najväčšom slovesnom korpuse Omnia Slovaca Maior s rozsahom 4,95 miliardy tokenov.