Seminář ÚL | Český národní korpus

Místo konání: P104, hlavní budova, 1. patro
Online: seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Magdě.
Čas konání: středa, 14:10–15:40, není-li uvedeno jinak

		Datum	Téma · Přednášející · Abstrakt
		úterý 6. 10. 2020 13:00	Velké úterý Michal Křen
		úterý 13. 10. 2020 13:00	Registry v češtině Zuzana Laubeová Adrian Jan Zasina za tým MDA Materiály ke stažení
		úterý 20. 10. 2020 13:00	Korpusy ONLINE a jejich využití Václav Cvrček V říjnu t.r. snad už definitivně dojde ke zveřejnění korpusů ONLINE_NOW a ONLINE_ARCHIVE, které slouží k monitorování dynamického obsahu českého internetu (webová media, diskuse/fóra a sociální sítě). Bez velkého přehánění lze říct, že se jedná o korpusy, které jsme tu dosud neměli: jsou obrovské (v součtu se jedná o náš největší korpus češtiny), denně aktualizované, specificky strukturované a pravděpodobně budou i využívané k neobvyklým účelům. Jejich vytvoření tak představovalo pro infrastrukturu ČNK poměrně důkladnou zátěžovou zkoušku. Přednáška shrne, jak vypadají korpusy ONLINE, jaké potíže provázely jejich vytvoření a k čemu je lze využít. Materiály ke stažení
		úterý 27. 10. 2020 13:00	×
		úterý 3. 11. 2020 13:00	Všechno co jste nechtěli vědět o entropii Jiří Milička Proč entropie, co to vůbec je, jak se to měří, k čemu je to dobré a k čemu je to špatné. Pokud na tyto otázky odpověď už znáte, připojte se také, může se to zvrhnout v hezkou diskusi, protože kontroverzních témat kolem entropie není málo.
		úterý 10. 11. 2020 13:00	GramatiKat: zkoumání gramatických kategorií Dominika Kováříková Nově vzniklá aplikace GramatiKat poskytuje informace o hodnotách gramatických kategorií pro slovní druhy a pro jednotlivá slova v rámci slovního druhu. Prozatím je k dispozici jen pro substantiva, postupně se budou doplňovat informace o gramatických kategoriích adjektiv a sloves. V prezentaci aplikaci představím a nastíním, k jakým výzkumným úkolům by mohla sloužit a jaké uživatele jsem měla při její tvorbě na mysli. Jedním z hlavních účelů, pro něž byla aplikace vytvořena, je identifikace defektivních paradigmat, tedy takových slov, jejichž některé tvary jsou mnohem méně (nebo i více) frekventované, než je to u dané třídy slov obvyklé. Protože je GramatiKat stále ještě ve vývoji, velice ocením vaše připomínky a nápady, jak ke stránce vizuální a obsahové, tak k využití této aplikace.
		úterý 17. 11. 2020 13:00	Den boje za svobodu a demokracii a Mezinárodní den studentstva státní svátek
		úterý 24. 11. 2020 13:00	Morphosyntactic Errors in Czech and Russian Learner Finnish Valentina Dani The purpose of the presentation is to give an overview of my doctoral dissertation project, which focuses on morphosyntactic errors in Czech and Russian Learner Finnish. The first part of the presentation will focus on available corpora of Learner Finnish and on the International Corpus of Learner Finnish (ICLFI). The second part of the presentation will focus on the Czech and Russian subcorpora of the International Corpus of Learner Finnish. After introducing the subcorpora, I will turn to research questions related to morphosyntactic errors made by Czech L1 and Russian L1 learners of Finnish. Then, I will describe the error annotation system which was developed in order to identify morphosyntactic errors in the Russian L1 subcorpus (the Czech L1 subcorpus already contains error annotation). Finally, I will present the results of a pilot study of a subset of the Czech and Russian L1 subcorpora, to which the new error annotation system was applied. Materiály ke stažení
		úterý 1. 12. 2020 13:00	Aplikace Mapka a její možnosti Hana Goláňová Martina Waclawičová V červenci letošního roku byla zveřejněna nová aplikace Mapka, která je založena na interaktivní mapě České republiky. V semináři se nejprve zaměříme na základní funkce Mapky a její využití nejen pro odbornou veřejnost, ale i ve školách. V následující části budou nastíněny možnosti jejího vývoje a otázka doplňování dat jak z korpusu Dialekt, tak z jiných mluvených korpusů. Seminář ukončíme krátkou ukázkou z nářečních dat, která chystáme pro další rozšíření Mapky.
		úterý 8. 12. 2020 13:00	Databáze víceslovných lexikálních jednotek LEMUR Milena Hnátková Tomáš Jelínek Marie Kopřivová Vladimír Petkevič Alexandr Rosen Hana Skoumalová Pavel Vondřička Na semináři bude představena databáze českých víceslovných lexikálních jednotek (dále VLJ) LEMUR, která má ambici zachytit všechny druhy VLJ a adekvátně je popsat. Poté by se měla stát východiskem nové anotace VLJ v korpusech ČNK. Databáze obsahuje novou typologii VLJ a údaje o jejich dalších vlastnostech, podle kterých lze v databázi vyhledávat. V budoucnu bude propojena s korpusovou anotací a umožní uživateli získat podrobnější informace o vyhledané VLJ. Materiály ke stažení
		úterý 15. 12. 2020 13:00	×
		úterý 22. 12. 2020 13:00	×
		úterý 5. 1. 2021 13:00
		úterý 12. 1. 2021 13:00	zkouškové období
		úterý 16. 2. 2021 13:00	KonText a Slovo v kostce: diskuse nad prioritami dalšího rozvoje Michal Křen Nastává doba, kdy je opět možné naplánovat implementaci nových větších funkcionalit KonTextu a Slova v kostce. Na začátku stručně představím několik návrhů, o kterých jsme mluvili na schůzce vedoucích sekcí, potom bude následovat diskuse; v ní budou vítány také vaše vlastní návrhy či přání.
		úterý 23. 2. 2021 13:00	QuitaUp - nástroj pro stylometrickou analýzu textů Václav Cvrček QuitaUp je dalším z nástrojů, které jsou od loňského roku dostupné na portálu korpus.cz. Jejím primárním úkolem je zpracovat uživatelem vložené texty v mnoha jazycích a na základě jejich automatické analýzy vypočítat několik indexů, které text z kvantitativního a stylometrického hlediska popisují. Přednáška představí, k čemu QuitaUp slouží, jaké technologie využívá a jaké možnosti uživatelům nabízí.
		úterý 2. 3. 2021 13:00	Velké úterý Michal Křen Vystoupení bude mít dvě části: v té první budu informovat o stavu projektu ČNK spolu s výhledem na tento rok, ve druhé představím plán infrastrukturních výstupů.
		úterý 9. 3. 2021 13:00	Přechodník v korpusech: K metodologii korpusového výzkumu překladových univerzálií Olga Nádvorníková Díky své přináležitosti k obecnělingvistické kategorii converb a díky svému silnému stylovému příznaku je český přechodník vhodným materiálem pro výzkum některých tzv. překladových univerzálií, tedy specifických rysů překladového jazyka, zejména normalizace, konvergence (levelling-out) a interference (shining-through). Analýza přechodníku ve fiction (NOV, COL) a non-fiction (POP, SCI) v korpusech Jerome (překlady i nepřeklady), InterCorp v12 (pouze překlady) a SYNv8 (pouze nepřeklady) prokázala pouze (mírnou) tendenci k normalizaci ve fiction, zároveň ale odhalila některé metodologické problémy spojené s výzkumem překladových univerzálií i přechodníku jako takového. Příspěvek se zaměří na tři z nich: 1) technické otázky spojené s kvalitou značkování a metadat, 2) možnosti a omezení čistě frekvenčního výzkumu interference, 3) závislost frekvence a typu užití přechodníku na typu textu (fiction nebo non-fiction). Materiály ke stažení
		úterý 16. 3. 2021 13:00	Vznik francouzských kompozit N-N „v přímém přenosu“ Jan Radimský Zatímco v řadě germánských jazyků jsou subordinační kompozita typu N-N běžným slovotvorným vzorcem (angl. travel agency, car rental), v románských jazycích se pro tvoření komplexních subordinačních pojmenování uplatňuje převážně syntaktický vzorec N-PREP-N (fr. stylo à bille – „kuličkové pero“), který se v anglofonní literatuře označuje obvykle hyperonymem phrasal lexeme. V průběhu 20. století a zejm. od 60. let dále však i v některých románských jazycích dochází k prudkému nárůstu produktivity u subordinačního vzorce N-N, který byl do té doby zcela marginální, resp. agramatický, ale v současné době začíná konkurovat zavedenému vzorci N-PREP-N (fr. stylo bille – „kuličkové pero“, exposition photos – „výstava fotografií“, rayon librairie – „oddělení knih/kupectví/“). Lingvistice se tím otevírá řada zajímavých otázek – zejm. čím je tato změna ve slovotvorných paradigmatech motivována, jak vypadá konkurence vzorců N-PREP-N vs. N-N, nebo jak tento proces probíhá v čase. Z hlediska obecně lingvistického je patrně nejzajímavější, že takto výrazná proměna slovotvorných paradigmat probíhá v době (téměř) současné a v jazycích, pro které máme poměrně bohaté zdroje korpusových dat, což nám umožňuje zkoumat uvedené otázky takřka „v přímém přenosu“.
		středa 24. 3. 2021 13:00	Převod frazémů v literárních textech: analýza překladových strategií na základě paralelního korpusu InterCorp Zora Obstová Převod frazému je pro literárního překladatele vždy velkou výzvou: jen málokdy totiž existuje v cílovém jazyce zcela ekvivalentní frazém, který by v překladu plnil stejnou funkci jako frazém v originálním díle, měl stejný význam a zároveň respektoval všechny stylistické odstíny a dynamiku textu. Překladatel je proto nucen zvolit některou z překladových strategií (srov. např. M. Baker 1992), od použití frazému podobného přes parafrázi až po kalk či vynechání frazému a jeho případnou kompenzaci jinde v textu. Abychom zjistili, na základě jakých kritérií se překladatel pro jednotlivé strategie rozhoduje, analyzovali jsme vzorek italských frazémů s různou formální strukturou a funkcí (frazémy substantivní, slovesné, adverbiální, adjektivní a propoziční) a porovnali je s jejich českými překlady. Výzkum založený na paralelním korpusu InterCorp umožňuje nahlédnout problematiku v širší perspektivě, která zohledňuje odlišnosti mezi výchozím a cílovým jazykem i individuální přístupy různých překladatelů.
		úterý 30. 3. 2021 13:00	×
		úterý 6. 4. 2021 13:00	Ja nemam velkich problem s čestinou, protože čestina velmy lehke aneb Poučení z vývoje korpusu češtiny nerodilých mluvčích Alexandr Rosen Svatava Škodová Projekt akvizičních korpusů češtiny AKCES se na FF UK rozvíjí už víc než deset let. Jedním z výsledků je CzeSL, korpus češtiny nerodilých mluvčích. Korpus je dostupný v několika podobách, které se liší objemem textů, způsobem anotace i možnostmi přístupu. Podrobně se mu věnuje nedávno vydaná monografie (viz). V našem příspěvku se zaměříme hlavně (a) na otázky kolem anotace češtiny jako druhého nebo cizího jazyka, dané především povahou češtiny jako flektivního jazyka s volným slovosledem, a (b) na volbu vhodných nástrojů k práci s takto anotovaným korpusem. Ukážeme také různá úskalí, před nimiž by se měl tvůrce takového korpusu mít na pozoru. Rosen, A., Hana, J., Hladká, B., Jelínek, T., Škodová, S., and Štindlová, B. (2020). Compiling and annotating a learner corpus for a morphologically rich language – CzeSL, a corpus of non-native Czech. Karolinum, Charles University Press, Praha. Dostupné online: http://hdl.handle.net/20.500.11956/123103 Materiály ke stažení
		úterý 13. 4. 2021 13:00	PoLKo – žákovský korpus polského jazyka Elżbieta Kaczmarska Adrian Jan Zasina Tématem našeho vystoupení je vznikající žákovský korpus polského jazyka PoLKo, jenž je budován v rámci mezinárodního nekomerčního akademického projektu. Projekt započal v říjnu 2019 a jehož cílem je výstavba prvního rozsáhlého zdroje psaných textů nerodilých mluvčích polštiny. Žákovské korpusy vznikají na světě od 90. let 20. století. Zájem o tento typ jazykových dat se poprvé projevil mezi vysokoškolskými učiteli, odborníky na výuku angličtiny jako cizího jazyka, a také vědeckými nakladatelstvími. Od této doby vznikají žákovské korpusy mnoha jazyků, mj. angličtiny, němčiny, švédštiny, norštiny, chorvatštiny, češtiny. Spolu s vývojem prvních žákovských korpusů souvisí vývoj nové disciplíny – korpusové chybové analýze žákovského jazyka. Během naší prezentace uvedeme příklady využití korpusu PoLKo za účelem zkoumání chyb Čechů učících se polštinu. Korpus PoLKo je sestavován v prostředí TEITOK, jež je nástrojem umožňujícím tvorbu, anotaci, či distribuci korpusu. Díky tomu lze snadno vznikající korpus editovat. V současné době PoLKo obsahuje přes 7000 tokenů a stále se zvětšuje. Zahrnuje psané práce žáků v různém věku, z různých zemí a různých úrovních jazykové kompetence. Materiál je sestavován za účelem empirické analýzy jazyka nerodilých mluvčích polštiny. Díky tomu bude rovněž proveditelná identifikace nejčastějších jazykových chyb, která umožní přizpůsobit didaktické materiály konkrétním potřebám žáků. Materiály ke stažení
		úterý 20. 4. 2021 13:00	×
		úterý 27. 4. 2021 13:00	Využití korpusů při vývoji českého jazykového korektoru Dana Hlaváčková Hana Žižková V prezentaci představíme nový český jazykový korektor, který je vyvíjen ve spolupráci MU, ÚJČ AV ČR, UK a společnosti Seznam.cz. Nástroj se skládá z několika modulů, které zajišťují rozpoznání a následnou opravu (návrh na opravu) různých typů chyb. Zaměříme se zejména na využití korpusových dat, která jsou k vývoji jazykového korektoru nutná.
		úterý 4. 5. 2021 13:00	Metafory, kterými se učíme: náhled do korpusu metafor učení (Corpus Comenius) Róbert Bohát Stručné seznámení s pedagogickým korpusem CorCo (Corpus Comenius) se zaměřením na kognitivní metafory učení - jejich identifikaci (metoda MIPVU), anotaci a korpusovou kvantifikaci. CorCo má 4 subkorpusy: administrativní, odborný (pedagogický výzkum), učitelský a žákovský. Jedním z cílů výzkumu je srovnat frekvenci metaforické konceptualizace učení mezi subkorpusy a položit základ pro vytvoření Sady metaforických nástrojů (Metaphor Toolkit) na pomoc učitelům a studentům, podobně jako Metaphor Menu pro pacienty trpící na rakovinu (Semino et al. 2015).
		úterý 11. 5. 2021 13:00	×
		úterý 18. 5. 2021 13:00	začíná zkouškové období