Panská 890/7 (Kaunický palác), 1st floor on the left
Online
in case you are interested in an online link, please contact Klára or Michal.
Held on
Tuesday, 13:00, unless otherwise stated
Date
Topic · Speaker · Abstract
×
Velké úterý
Michal Křen
Vše, co jste chtěli vědět o n-gramech, ale báli jste se zeptat
L. Lukešová
D. Šebestová
V. Cvrček
D. Lukeš
J. Milička
Prezentace 1: Korespondence délek n-gramů v různých jazycích
Při kontrastivním výzkumu často narážíme na problém nejasné korespondence mezi jednotkami různé délky (co odpovídá českým trigramům při srovnání s němčinou?). Na základě modelu, který je založen na srovnání velikosti inventáře jednotek různých délek a jehož výsledky jsou implementovány v korpusové kalkulačce Calc, lze dospět k doporučením pro jednotlivé dvojice jazyků. Model v příspěvku představíme a ukážeme praktické aplikace.
Prezentace 2: Jak zkoumat n-gramy v jazycích s volným slovosledem
Problematičnost extrakce a analýzy n-gramů se v jazycích s flexí a volným slovosledem netýká jen jejich celkového počtu a variability, jak ukázal předchozí příspěvek, ale také variability poziční, jinými slovy faktu, že slova v častých kombinacích nemusejí stát vždy přímo vedle sebe a jejich pořadí se může měnit. Běžně se n-gramy v jazykovém výzkumu definují jednoduše jako po sobě jdoucí n-tice slov, která se v jazyce vyskytují s dostatečnou frekvencí. V jazycích, jako je čeština, má ale smysl pojem n-gram rozšířit a zahrnout do něj i kombinace, které zohledňují výše uvedenou variabilitu (cf. koncept skip-gramů). V našem příspěvku ukážeme jeden ze způsobů, jak je možné automaticky extrahovat různé slovosledné varianty týchž n-gramů, které vzhledem k metodě výpočtu anglicky označujeme jako n-choose-k grams. Obdobný způsob používá i komerční nástroj WordSmith pod názvem conc-grams - přinejmenším v komunitě kontrastivních lingvistů se však zatím nedostal do širšího povědomí.
Prezentace 3: Engrammer: Nový
nástroj k identifikaci frazeologických vzorců. Představení na kontrastivní
anglicko-české studii
Nástroj Engrammer vyhledává n-gramy obsahující konkrétní slovo či lemma. Ukazuje, v jakých lexikálních vzorcích se daná jednotka objevuje, na základě poměřování její kolokability s různými slovními kombinacemi. Vedle toho lze sledovat lexikální variabilitu na pozici zvolené jednotky, tj. s jakými jinými slovy v dané kombinaci alternuje (např. for the first TIME/FEW YEARS/HOUR…). Možné využití nástroje v praxi představíme na malé kontrastivní studii českých a anglických překladových ekvivalentů substantiv, která označují rodové protějšky (např. matka-otec, mother-father). Výsledky naznačují, jak se do frazeologií těchto substantiv promítají některá kulturní specifika.
×
zrušeno
Calc: Korpusová kalkulačka
Václav Cvrček
Kalkulačka by měla poskytnout uživatelům korpusů rychlou pomoc při počítání základních statistických úloh, s nimiž se lze v rámci výzkumu běžně setkat. Aplikace je rozdělena do několika modulů, které odpovídaj různým výzkumným situacím.
První modul 1 slovo v 1 korpusu vlastně nepočítá žádný statistický test a slouží jako pomůcka pro adekvátní interpretaci frekevencí. Měl by pomoct s odpovědí na otázku: Co to přesně znamená, když jev, který mě zajímá, má v korpusu frekvenci X výskytů?
Druhý modul porovnává dvě frekvence (např. dvě konkurenční varianty v jednom korpusu) a zjišťuje, jak významný je jejich rozdíl a jestli třeba není výsledkem náhodné variability.
Typickým příkladem využití modulu 2 slova ve 2 korpusech je identifikace klíčových slov – jednotek, které jsou v jednom korpusu významně častějc než v jiném (při zohlednění velikosti použitých korpusů). Využít ho můžem ale v jakémkoli srovnávání frekvencí jednotek napříč korpusy.
Čtvrtý modul pomáhá s určením míry přesnosti a spolehlivosti analýzy provedené na náhodných vzorcích. Pokud v něm vychází rozpětí pro hledaný jev jako příliš velké, bude nejspíš třeba pro zpřesnění přidat další vzorky.
Modul Víc jevů – 1 vzorek slouží k posouzení toho, jak jsou zastoupeny skupiny jevů (např. významů slova) v analyzovaném vzorku či konkordanci. Můžeme s jeho pomocí odpovědět na otázku, jestli je skutečně jedna skupina častější než druhá nebo zda lze určitou skupinu považovat za přesvědčivě doloženou.
Šestý modul nazvaný zTTR je pro poměřování textů z hlediska jejich lexikální bohatosti (poměr počtu různých slov k délce textu). Jeho předností je, že výsledná hodnota indexu zTTR je porovnatelná i mezi texty nestejné délky.
Při srovnávání víceslovných jednotek mezi dvěma jazyky narážíme často na otázku, zda si odpovídají n-gramy stejné délky. K zjištění korespondence n-gramů slouží sedmý modul, který ukazuje, čemu ideálně odpovídá např. soupis nejfrekventovanějších bigramů v jednom jazyce při porovnání s jazykem druhým.
Návrh lingvistické anotace korpusu SYN2020
Tomáš Jelínek
Na semináři představíme návrh, jak značkovat korpus SYN2020. Změny jsou zčásti motivované změnami v morfologické anotaci PDT, s nimiž se musíme nějak vyrovnat. Od korpusů SYN2015 a korpusů řady SYN (SYNv5 - SYNv8) se korpus SYN2020 bude mírně lišit tokenizací, dále navrhujeme zavedení několika atributů navíc, které pokročilejšímu uživateli poskytnou více možností vyhledávání. Méně pokročilému uživateli bychom tyto atributy raději nenabízeli, ale část informace z nich poskytli přes takzvaný našeptávač.
NovaMorf - projekt nového morfologického značkování češtiny
Vladimír Petkevič
Autoři (Jarka Hlaváčová, Klára Osolsobě, Josef Šimandl, Martin Svášek,
Jan Křivan, Vladimír Petkevič) představí hotový návrh projektu: jeho
motivaci a koncepci, repertoár sledovaných morfologických kategorií a
jejich hodnot, hlavní problémy a plán dalšího rozvoje projektu (na
základě připomínek oponentů) a jeho implementace. V závěru budou shrnuty
hlavní kritické připomínky oponentů jako východisko k diskusi.
V příspěvku budou představeny fonetická databáze a korpus CHRUP, které se staly zdrojem dat pro výzkum češtiny nerodilých mluvčích na rovině fonetické a morfosyntaktické. Kromě metodického postupu (způsob sběru a zpracování dat) budou prezentovány výsledky dvou analýz věnovaných jednak realizaci kvantity vokálů v čtených projevech ruskojazyčných studentů češtiny, jednak specifikám osvojování českých reflexivních sloves polskými a ruskojazyčnými mluvčími.
The study proposes a method for comparing the ranges of linguistic variation covered by different corpora using a model issued from a multi-dimensional (MD) analysis of register variability in a given language. This method is applied to the comparison of two corpora of Czech: Koditex, a “traditional” corpus carefully designed using various sources with rich metadata, and Araneum Bohemicum Maximum, a web-crawled corpus which has an opportunistic composition but is also cheaper and easier to obtain. Texts from both corpora are projected onto the MD model and ranges of variation covered in each dimension are compared in order to identify overlaps on the one hand, and areas covered by only one of the two corpora on the other. We also document a crucial methodological point which has broader relevance for MD analyses in general, namely that texts have to be of similar lengths in order for their scores on the dimensions to be comparable.
Results indicate that the type of language represented by traditional text categories such as journalism or non-fiction is equally well covered by web-crawled data, though of course traditional corpora keep their edge in terms of the richness of the accompanying metadata. Importantly, text categories which are partially or entirely unique as to their linguistic characteristics only emerged from Koditex and correspond to data which is hard to get by general-purpose web-crawling techniques: informal conversations, private correspondence, some types of fiction, but also user-generated content (comments on Facebook, forums etc.).
Registrová variabilita českých internetových textů
Jan Henyš
V příspěvku bude představen výzkum, jehož cílem je popsat registrovou variabilitu českého web-crawled korpusu pomocí multidimenzionální analýzy (MDA). Výzkum je inspirován studií Douglase Bibera a Jesseho Egberta Register variation on the searchable web: A multi-dimensional analysis (2016) a čerpá z poznatků o variabilitě češtiny, ke kterým dospěl MDA tým při ÚČNK. Přístup zahrnuje manuální anotaci, která vyžaduje diskrétní kategorizaci webových (sub)registrů, kterou je třeba modifikovat tak, aby co nejlépe vyhovovala českému internetovému prostředí. Klasifikovaná data jsou pak charakterizována na základě distribuce faktorových skóre pocházejících z MDA.
V příspěvku se zamyslíme nad několika aspekty exemplifikace ve slovníku výkladovém, dotkneme se ale též příkladů ve slovníku překladovém. Především půjde mj. o následující otázky: Jsou příklady ve slovníku opravdu nezbytné? Jak vypadá situace v současných slovnících? Podle čeho se pozná (ne)dobrý příklad? Jakou roli zde hrají nové lexikografické trendy, především pak příklon k elektronickému médiu, resp. nové možnosti, které se otevírají díky velkým elektronickým korpusům? Stejně jako u jiných dílčích komponent heslové statě se i v případě exemplifikace ukazuje, že možných řešení je víc a že alfou a omegou veškeré lexikografické práce je funkce slovníku a jeho cíloví uživatelé.
×
Forenzní lingvistika v soudní praxi České republiky
Veronika Nováková
Václava Musilová
Pod pojem forenzní lingvistika je vlivem zahraniční praxe zahrnuta celá řada disciplín. Cílem přednášky je proto odborné veřejnosti představit tu část forenzní lingvistiky, která se věnuje odhalování a dokazování trestné činnosti. Na praktických příkladech budou prezentovány jak metody, s nimiž se ve forenzní praxi pracuje, tak druhy expertiz.
Komunikace je pro společnost přirozená a zásadní. Pokud dojde k jakémukoli narušení, v tomto případě u komunikátora a/nebo příjemce, nemusí dojít ke správnému porozumění, tzn. k naplnění cíle komunikačního procesu.
Afázie je jedna z diagnóz, která se projevuje potížemi v produkci a percepci řeči. V rámci semináře bude představen výzkum, který detekoval její možné projevy ve spontánní řeči. Analýze předcházel sběr dat – za pomoci Fakultní nemocnice Brno a jejích pacientů – a přepis na základě stanovených pravidel.
Diskutovat bude možné o otázkách: Co lze z řeči vyčíst? Co může značit problém a co je v řeči „normální“? Jak přistupovat k přepisům? Jiná diagnóza – stejný postup?
LexiCorp: Prezentácia lexikografických dát pomocou korpusových nástrojov
Lexikografi pri tvorbe slovníkov obyčajne pracujú s dvoma typmi počítačových nástrojov. Je to
jednak prostredie na vytváranie textu heslových statí (angl. Dictionary-Writing System, DWS),
pomocou ktorého sa definujú štruktúry jednotlivých hesiel a napĺňajú príslušnými dátami, a jednak
korpusový manažér umožňujúci analýzu, agregáciu a štatistické vyhodnocovanie údajov
o spracúvaných lexikálnych jednotkách z korpusu. Navyše môže byť k dispozícii slovníkový portál,
v ktorom možno vyhľadávať texty heslových statí v už publikovaných slovníkoch.
V našom príspevku predstavíme experiment, v ktorom sme text novovytváraného slovníka poňali
ako „korpus“ a aplikovali sme naň štandardnú množinu procedúr pre spracovanie slovenských
korpusových dát, t. j. tokenizáciu, lematizáciu a morfosyntaktickú anotáciu a skompilovali sme ho
pomocou (mierne upraveného) korpusového manažéra NoSketch Engine.
Počas prednášky budeme prezentovať hlavné funkcie systému a poukážeme na výhody oproti
(slovenskému) slovníkovému portálu, aj oproti „plnofunčnému“ systému DWS.
×
přesunto kvůli nouzovému stavu
Databáze víceslovných lexikálních jednotek LEMUR
Milena Hnátková
Tomáš Jelínek
Marie Kopřivová
Vladimír Petkevič
Alexandr Rosen
Hana Skoumalová
Pavel Vondřička
Na semináři bude představena databáze českých víceslovných lexikálních jednotek (dále VLJ) LEMUR, která má ambici zachytit všechny druhy VLJ a adekvátně je popsat. Poté by se měla stát východiskem nové anotace VLJ v korpusech ČNK. Databáze obsahuje novou typologii VLJ a údaje o jejich dalších vlastnostech, podle kterých lze v databázi vyhledávat. V budoucnu bude propojena s korpusovou anotací a umožní uživateli získat podrobnější informace o vyhledané VLJ.
přesunto kvůli nouzovému stavu
Morphosyntactic Errors in Czech and Russian Learner Finnish
Valentina Dani
The purpose of the presentation is to give an overview of my doctoral dissertation project, which focuses on morphosyntactic errors in Czech and Russian Learner Finnish. The first part of the presentation will focus on available corpora of Learner Finnish and on the International Corpus of Learner Finnish (ICLFI). The second part of the presentation will focus on the Czech and Russian subcorpora of the International Corpus of Learner Finnish. After introducing the subcorpora, I will turn to research questions related to morphosyntactic errors made by Czech L1 and Russian L1 learners of Finnish. Then, I will describe the error annotation system which was developed in order to identify morphosyntactic errors in the Russian L1 subcorpus (the Czech L1 subcorpus already contains error annotation). Finally, I will present the results of a pilot study of a subset of the Czech and Russian L1 subcorpora, to which the new error annotation system was applied.
Přednáška Silvy Bernardiniové se ruší kvůli omezení dopravního spojení se severní Itálií vzhledem k epidemii koronaviru. Omlouváme se všem, kteří se plánovali zúčastnit, a děkujeme za zájem. Usilovně pracujeme na tom, aby se návštěva mohla uskutečnit na podzim 2020. O detailech budeme včas informovat. Děkujeme za pochopení!
TBA
×
×
přesunto na podzim kvůli nouzovému stavu
Multimodální korpus češtiny CZICO: sběr a využití
Eva Lehečková
Jakub Jehlička
V přednášce představíme koncepci multimodálního korpusu mluvené češtiny CZICO (Czech Interactional Corpus), budovaného v rámci projektu KREAS. Korpus o rozsahu 100 hodin obsahuje dialogické i skupinové projevy o různé míře spontánnosti. Přednáška podrobně představí proceduru sběru dat i její inspirační zdroje a shrne rovněž konkrétní multimodální výzkumy, pro něž byla tato data dosud využita.