Seminář ÚL | Český národní korpus

Místo konání: P104, hlavní budova, 1. patro
Online: seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Magdě.
Čas konání: středa, 14:10–15:40, není-li uvedeno jinak

		Datum	Téma · Přednášející · Abstrakt
		úterý 1. 10. 2019 13:00	×
		úterý 8. 10. 2019 13:00	Velké úterý Michal Křen
		úterý 15. 10. 2019 13:00	Vše, co jste chtěli vědět o n-gramech, ale báli jste se zeptat L. Lukešová D. Šebestová V. Cvrček D. Lukeš J. Milička
		úterý 15. 10. 2019 13:30	Prezentace 1: Korespondence délek n-gramů v různých jazycích Při kontrastivním výzkumu často narážíme na problém nejasné korespondence mezi jednotkami různé délky (co odpovídá českým trigramům při srovnání s němčinou?). Na základě modelu, který je založen na srovnání velikosti inventáře jednotek různých délek a jehož výsledky jsou implementovány v korpusové kalkulačce Calc, lze dospět k doporučením pro jednotlivé dvojice jazyků. Model v příspěvku představíme a ukážeme praktické aplikace.
		úterý 15. 10. 2019 14:00	Prezentace 2: Jak zkoumat n-gramy v jazycích s volným slovosledem Problematičnost extrakce a analýzy n-gramů se v jazycích s flexí a volným slovosledem netýká jen jejich celkového počtu a variability, jak ukázal předchozí příspěvek, ale také variability poziční, jinými slovy faktu, že slova v častých kombinacích nemusejí stát vždy přímo vedle sebe a jejich pořadí se může měnit. Běžně se n-gramy v jazykovém výzkumu definují jednoduše jako po sobě jdoucí n-tice slov, která se v jazyce vyskytují s dostatečnou frekvencí. V jazycích, jako je čeština, má ale smysl pojem n-gram rozšířit a zahrnout do něj i kombinace, které zohledňují výše uvedenou variabilitu (cf. koncept skip-gramů). V našem příspěvku ukážeme jeden ze způsobů, jak je možné automaticky extrahovat různé slovosledné varianty týchž n-gramů, které vzhledem k metodě výpočtu anglicky označujeme jako n-choose-k grams. Obdobný způsob používá i komerční nástroj WordSmith pod názvem conc-grams - přinejmenším v komunitě kontrastivních lingvistů se však zatím nedostal do širšího povědomí.
		úterý 15. 10. 2019 14:30	Prezentace 3: Engrammer: Nový nástroj k identifikaci frazeologických vzorců. Představení na kontrastivní anglicko-české studii Nástroj Engrammer vyhledává n-gramy obsahující konkrétní slovo či lemma. Ukazuje, v jakých lexikálních vzorcích se daná jednotka objevuje, na základě poměřování její kolokability s různými slovními kombinacemi. Vedle toho lze sledovat lexikální variabilitu na pozici zvolené jednotky, tj. s jakými jinými slovy v dané kombinaci alternuje (např. for the first TIME/FEW YEARS/HOUR…). Možné využití nástroje v praxi představíme na malé kontrastivní studii českých a anglických překladových ekvivalentů substantiv, která označují rodové protějšky (např. matka-otec, mother-father). Výsledky naznačují, jak se do frazeologií těchto substantiv promítají některá kulturní specifika.
		úterý 22. 10. 2019 13:00	×
		úterý 29. 10. 2019 13:00	zrušeno
		úterý 5. 11. 2019 13:00	Calc: Korpusová kalkulačka Václav Cvrček Kalkulačka by měla poskytnout uživatelům korpusů rychlou pomoc při počítání základních statistických úloh, s nimiž se lze v rámci výzkumu běžně setkat. Aplikace je rozdělena do několika modulů, které odpovídaj různým výzkumným situacím. První modul 1 slovo v 1 korpusu vlastně nepočítá žádný statistický test a slouží jako pomůcka pro adekvátní interpretaci frekevencí. Měl by pomoct s odpovědí na otázku: Co to přesně znamená, když jev, který mě zajímá, má v korpusu frekvenci X výskytů? Druhý modul porovnává dvě frekvence (např. dvě konkurenční varianty v jednom korpusu) a zjišťuje, jak významný je jejich rozdíl a jestli třeba není výsledkem náhodné variability. Typickým příkladem využití modulu 2 slova ve 2 korpusech je identifikace klíčových slov – jednotek, které jsou v jednom korpusu významně častějc než v jiném (při zohlednění velikosti použitých korpusů). Využít ho můžem ale v jakémkoli srovnávání frekvencí jednotek napříč korpusy. Čtvrtý modul pomáhá s určením míry přesnosti a spolehlivosti analýzy provedené na náhodných vzorcích. Pokud v něm vychází rozpětí pro hledaný jev jako příliš velké, bude nejspíš třeba pro zpřesnění přidat další vzorky. Modul Víc jevů – 1 vzorek slouží k posouzení toho, jak jsou zastoupeny skupiny jevů (např. významů slova) v analyzovaném vzorku či konkordanci. Můžeme s jeho pomocí odpovědět na otázku, jestli je skutečně jedna skupina častější než druhá nebo zda lze určitou skupinu považovat za přesvědčivě doloženou. Šestý modul nazvaný zTTR je pro poměřování textů z hlediska jejich lexikální bohatosti (poměr počtu různých slov k délce textu). Jeho předností je, že výsledná hodnota indexu zTTR je porovnatelná i mezi texty nestejné délky. Při srovnávání víceslovných jednotek mezi dvěma jazyky narážíme často na otázku, zda si odpovídají n-gramy stejné délky. K zjištění korespondence n-gramů slouží sedmý modul, který ukazuje, čemu ideálně odpovídá např. soupis nejfrekventovanějších bigramů v jednom jazyce při porovnání s jazykem druhým.
		úterý 12. 11. 2019 13:00	Návrh lingvistické anotace korpusu SYN2020 Tomáš Jelínek Na semináři představíme návrh, jak značkovat korpus SYN2020. Změny jsou zčásti motivované změnami v morfologické anotaci PDT, s nimiž se musíme nějak vyrovnat. Od korpusů SYN2015 a korpusů řady SYN (SYNv5 - SYNv8) se korpus SYN2020 bude mírně lišit tokenizací, dále navrhujeme zavedení několika atributů navíc, které pokročilejšímu uživateli poskytnou více možností vyhledávání. Méně pokročilému uživateli bychom tyto atributy raději nenabízeli, ale část informace z nich poskytli přes takzvaný našeptávač.
		úterý 19. 11. 2019 13:00	NovaMorf - projekt nového morfologického značkování češtiny Vladimír Petkevič Autoři (Jarka Hlaváčová, Klára Osolsobě, Josef Šimandl, Martin Svášek, Jan Křivan, Vladimír Petkevič) představí hotový návrh projektu: jeho motivaci a koncepci, repertoár sledovaných morfologických kategorií a jejich hodnot, hlavní problémy a plán dalšího rozvoje projektu (na základě připomínek oponentů) a jeho implementace. V závěru budou shrnuty hlavní kritické připomínky oponentů jako východisko k diskusi. Materiály ke stažení
		úterý 26. 11. 2019 13:00	×
		úterý 3. 12. 2019 13:00	Využití fonetické databáze a korpusu CHRUP ve výzkumu češtiny nerodilých mluvčích (se zaměřením na rusky a polsky mluvící cizince) Kateřina Romaševská V příspěvku budou představeny fonetická databáze a korpus CHRUP, které se staly zdrojem dat pro výzkum češtiny nerodilých mluvčích na rovině fonetické a morfosyntaktické. Kromě metodického postupu (způsob sběru a zpracování dat) budou prezentovány výsledky dvou analýz věnovaných jednak realizaci kvantity vokálů v čtených projevech ruskojazyčných studentů češtiny, jednak specifikám osvojování českých reflexivních sloves polskými a ruskojazyčnými mluvčími. Materiály ke stažení
		úterý 10. 12. 2019 13:00	Porovnání tradičního a webového korpusu za pomoci multidimenzionálního modelu MDA tým The study proposes a method for comparing the ranges of linguistic variation covered by different corpora using a model issued from a multi-dimensional (MD) analysis of register variability in a given language. This method is applied to the comparison of two corpora of Czech: Koditex, a “traditional” corpus carefully designed using various sources with rich metadata, and Araneum Bohemicum Maximum, a web-crawled corpus which has an opportunistic composition but is also cheaper and easier to obtain. Texts from both corpora are projected onto the MD model and ranges of variation covered in each dimension are compared in order to identify overlaps on the one hand, and areas covered by only one of the two corpora on the other. We also document a crucial methodological point which has broader relevance for MD analyses in general, namely that texts have to be of similar lengths in order for their scores on the dimensions to be comparable. Results indicate that the type of language represented by traditional text categories such as journalism or non-fiction is equally well covered by web-crawled data, though of course traditional corpora keep their edge in terms of the richness of the accompanying metadata. Importantly, text categories which are partially or entirely unique as to their linguistic characteristics only emerged from Koditex and correspond to data which is hard to get by general-purpose web-crawling techniques: informal conversations, private correspondence, some types of fiction, but also user-generated content (comments on Facebook, forums etc.).
		úterý 10. 12. 2019 13:30	Registrová variabilita českých internetových textů Jan Henyš V příspěvku bude představen výzkum, jehož cílem je popsat registrovou variabilitu českého web-crawled korpusu pomocí multidimenzionální analýzy (MDA). Výzkum je inspirován studií Douglase Bibera a Jesseho Egberta Register variation on the searchable web: A multi-dimensional analysis (2016) a čerpá z poznatků o variabilitě češtiny, ke kterým dospěl MDA tým při ÚČNK. Přístup zahrnuje manuální anotaci, která vyžaduje diskrétní kategorizaci webových (sub)registrů, kterou je třeba modifikovat tak, aby co nejlépe vyhovovala českému internetovému prostředí. Klasifikovaná data jsou pak charakterizována na základě distribuce faktorových skóre pocházejících z MDA.
		úterý 17. 12. 2019 13:00	Vánoční besídka
		úterý 7. 1. 2020 13:00	"Močák narvanej k prasknutí" aneb K exemplifikaci ve slovníku Martin Šemelík V příspěvku se zamyslíme nad několika aspekty exemplifikace ve slovníku výkladovém, dotkneme se ale též příkladů ve slovníku překladovém. Především půjde mj. o následující otázky: Jsou příklady ve slovníku opravdu nezbytné? Jak vypadá situace v současných slovnících? Podle čeho se pozná (ne)dobrý příklad? Jakou roli zde hrají nové lexikografické trendy, především pak příklon k elektronickému médiu, resp. nové možnosti, které se otevírají díky velkým elektronickým korpusům? Stejně jako u jiných dílčích komponent heslové statě se i v případě exemplifikace ukazuje, že možných řešení je víc a že alfou a omegou veškeré lexikografické práce je funkce slovníku a jeho cíloví uživatelé.
		úterý 18. 2. 2020 13:00	×
		úterý 25. 2. 2020 13:00	Forenzní lingvistika v soudní praxi České republiky Veronika Nováková Václava Musilová Pod pojem forenzní lingvistika je vlivem zahraniční praxe zahrnuta celá řada disciplín. Cílem přednášky je proto odborné veřejnosti představit tu část forenzní lingvistiky, která se věnuje odhalování a dokazování trestné činnosti. Na praktických příkladech budou prezentovány jak metody, s nimiž se ve forenzní praxi pracuje, tak druhy expertiz.
		úterý 3. 3. 2020 13:00	(Ne)narušená komunikační schopnost v datech Lucie Brychtová Komunikace je pro společnost přirozená a zásadní. Pokud dojde k jakémukoli narušení, v tomto případě u komunikátora a/nebo příjemce, nemusí dojít ke správnému porozumění, tzn. k naplnění cíle komunikačního procesu. Afázie je jedna z diagnóz, která se projevuje potížemi v produkci a percepci řeči. V rámci semináře bude představen výzkum, který detekoval její možné projevy ve spontánní řeči. Analýze předcházel sběr dat – za pomoci Fakultní nemocnice Brno a jejích pacientů – a přepis na základě stanovených pravidel. Diskutovat bude možné o otázkách: Co lze z řeči vyčíst? Co může značit problém a co je v řeči „normální“? Jak přistupovat k přepisům? Jiná diagnóza – stejný postup?
		úterý 10. 3. 2020 13:00	LexiCorp: Prezentácia lexikografických dát pomocou korpusových nástrojov Vladimír Benko Lexikografi pri tvorbe slovníkov obyčajne pracujú s dvoma typmi počítačových nástrojov. Je to jednak prostredie na vytváranie textu heslových statí (angl. Dictionary-Writing System, DWS), pomocou ktorého sa definujú štruktúry jednotlivých hesiel a napĺňajú príslušnými dátami, a jednak korpusový manažér umožňujúci analýzu, agregáciu a štatistické vyhodnocovanie údajov o spracúvaných lexikálnych jednotkách z korpusu. Navyše môže byť k dispozícii slovníkový portál, v ktorom možno vyhľadávať texty heslových statí v už publikovaných slovníkoch. V našom príspevku predstavíme experiment, v ktorom sme text novovytváraného slovníka poňali ako „korpus“ a aplikovali sme naň štandardnú množinu procedúr pre spracovanie slovenských korpusových dát, t. j. tokenizáciu, lematizáciu a morfosyntaktickú anotáciu a skompilovali sme ho pomocou (mierne upraveného) korpusového manažéra NoSketch Engine. Počas prednášky budeme prezentovať hlavné funkcie systému a poukážeme na výhody oproti (slovenskému) slovníkovému portálu, aj oproti „plnofunčnému“ systému DWS.
		úterý 17. 3. 2020 13:00	×
		úterý 24. 3. 2020 13:00 přesunto kvůli nouzovému stavu	Databáze víceslovných lexikálních jednotek LEMUR Milena Hnátková Tomáš Jelínek Marie Kopřivová Vladimír Petkevič Alexandr Rosen Hana Skoumalová Pavel Vondřička Na semináři bude představena databáze českých víceslovných lexikálních jednotek (dále VLJ) LEMUR, která má ambici zachytit všechny druhy VLJ a adekvátně je popsat. Poté by se měla stát východiskem nové anotace VLJ v korpusech ČNK. Databáze obsahuje novou typologii VLJ a údaje o jejich dalších vlastnostech, podle kterých lze v databázi vyhledávat. V budoucnu bude propojena s korpusovou anotací a umožní uživateli získat podrobnější informace o vyhledané VLJ.
		úterý 31. 3. 2020 13:00 přesunto kvůli nouzovému stavu	Morphosyntactic Errors in Czech and Russian Learner Finnish Valentina Dani The purpose of the presentation is to give an overview of my doctoral dissertation project, which focuses on morphosyntactic errors in Czech and Russian Learner Finnish. The first part of the presentation will focus on available corpora of Learner Finnish and on the International Corpus of Learner Finnish (ICLFI). The second part of the presentation will focus on the Czech and Russian subcorpora of the International Corpus of Learner Finnish. After introducing the subcorpora, I will turn to research questions related to morphosyntactic errors made by Czech L1 and Russian L1 learners of Finnish. Then, I will describe the error annotation system which was developed in order to identify morphosyntactic errors in the Russian L1 subcorpus (the Czech L1 subcorpus already contains error annotation). Finally, I will present the results of a pilot study of a subset of the Czech and Russian L1 subcorpora, to which the new error annotation system was applied.
		úterý 7. 4. 2020 13:00	přesunuto na podzim (viz níže) Silvia Bernardini Přednáška Silvy Bernardiniové se ruší kvůli omezení dopravního spojení se severní Itálií vzhledem k epidemii koronaviru. Omlouváme se všem, kteří se plánovali zúčastnit, a děkujeme za zájem. Usilovně pracujeme na tom, aby se návštěva mohla uskutečnit na podzim 2020. O detailech budeme včas informovat. Děkujeme za pochopení!
		úterý 14. 4. 2020 13:00	TBA
		úterý 21. 4. 2020 13:00	×
		úterý 28. 4. 2020 13:00	×
		úterý 5. 5. 2020 13:00 přesunto na podzim kvůli nouzovému stavu	Multimodální korpus češtiny CZICO: sběr a využití Eva Lehečková Jakub Jehlička V přednášce představíme koncepci multimodálního korpusu mluvené češtiny CZICO (Czech Interactional Corpus), budovaného v rámci projektu KREAS. Korpus o rozsahu 100 hodin obsahuje dialogické i skupinové projevy o různé míře spontánnosti. Přednáška podrobně představí proceduru sběru dat i její inspirační zdroje a shrne rovněž konkrétní multimodální výzkumy, pro něž byla tato data dosud využita.
		úterý 12. 5. 2020 13:00 přesunto kvůli nouzovému stavu	Velké úterý Michal Křen