Seminář ÚL | Český národní korpus

Místo konání: P104, hlavní budova, 1. patro
Online: seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Magdě.
Čas konání: středa, 14:10–15:40, není-li uvedeno jinak

		Datum	Téma · Přednášející · Abstrakt
		úterý 3. 10. 2017 13:00	velké úterý Michal Křen Nepravidelné informatorium vedení ústavu o důležitých projektových, finančních a personálních otázkách.
		úterý 10. 10. 2017 13:00	... se představuje Jiří Milička... Přehled všech témat, kterými jsem se zabýval či zabývám, a hledání kooperace s ostatními kolegy: Type-token relation, hapax-token relation atd. Rank-frequency relation (Zipfův zákon) Menzerathův zákon Délkové motivy Teorie informace jako explanatorní princip vztahů v jazyce Asociační metriky Automatické hledání nepřiznaných citací Ikonicita a další
		úterý 17. 10. 2017 13:00	Es tut mir Leiden... Michal Škrabal Martin Vavřín Best of eLex 2017 Materiály ke stažení
		úterý 24. 10. 2017 13:00	×
		úterý 31. 10. 2017 13:00	Počkej, nech mě domluvit... Zuzana Komrsková Petra Poukarová V mluveném jazyce často nastává situace, kdy hovoří dva lidé zároveň. Položily jsme si proto otázku, zda se počet a typ překryvů u téhož mluvčího mění v komunikaci s různým pohlavím.
		úterý 7. 11. 2017 13:00	Co lze vyčíst z ptačích zpěvů? Tereza Petrusková Ptačí zpěv má mnoho společného s lidskou řečí, a proto lidi fascinoval již odnepaměti. Notové záznamy společně se slovními přepisy stály také na počátku jeho výzkumu. Přednáška ukáže, co jsme se o něm zatím dozvěděli a k čemu lze přepisy používat i dnes. Materiály ke stažení
		úterý 14. 11. 2017 13:00
		úterý 21. 11. 2017 13:00	Úvod do neuronového strojového překladu nejen pro korpusové lingvisty Ondřej Bojar V přednášce představím tzv. hluboké učení, tj. strojové učení realizované pomocí neuronových sítí. Hluboké učení spustilo revoluci v mnoha oblastech automatického zpracování signálu a zhruba od roku 2016 zcela změnilo techniky užívané ve strojovém překladu. Podrobně si projdeme, jak se dnes strojový překlad pomocí neuronových sítí modeluje, jak dobře překládá a jakých chyb se dopouští. Materiály ke stažení
		pondělí 27. 11. 2017 18:00 hl. budova učebna č. 200	The discriminative nature of human communication Michael Ramscar Traditional studies of language assume an atomistic model in which linguistic signals comprise discrete, minimal form elements associated with discrete, minimal elements of meaning. Since production has been seen to involve the composition of messages from an inventory of form elements, and comprehension the subsequent decomposition of these messages, researchers have focused on attempting to identify and classify these elements, and the lossless processes of composition and decomposition they support, a program that has raised more questions than answers, especially when it comes to the nature of form-meaning associations. By contrast, behavioral and neuroscience research based on human and animal models has revealed that “associative learning” is a lossy, discriminative process. Learners acquire predictive understandings of their environments through competitive mechanisms that tune systems of internal representations to eliminate or reduce any uncertainty they promote. In this talk, I will describe some empirical results that indicate that human communication is subject to the constraints that the basic principles of learning impose, and describe how, from this perspective, languages should be seen as discriminative communication systems that exhibit continuous variation within a multidimensional space of form-meaning contrasts. In illustrating how this process works, I will show how a discriminative approach to communication makes sense of many aspects of language that have long seemed puzzling, such as noun class systems (aka grammatical gender) and the semantics of personal names. I will show how noun class and personal name systems are neither random nor arbitrary, and that they actually represent highly structured and highly evolved linguistic subsystems that optimize the discriminative processes of communication.
		úterý 28. 11. 2017 13:00	The information structure of discriminative human communication systems Michael Ramscar Information theory has shown that the distribution of forms is critical to the design of efficient communication systems. In particular, it has been shown that geometric (and exponential) distributions are especially useful in the design of efficient communication systems, both because they are optimal for coding purposes and because they are memoryless. In the first part of this talk, I will describe some recent finding showing that Sinosphere family names are exponentially distributed, and reveal that historically the name distributions of English that correspond appropriately to them were also exponential, such that the distributional structure of names was, at one point at least, universal across the world’s major languages. I will then describe how these name distributions appear to have optimized meaningful communication about individuals, and show that despite the fact that the aggregated name distributions of modern English speaking countries are Zipf-distributed, the empirical name distributions that speakers actually encounter in these communities also have an exponential form. I will further show how the growth in information in the distribution of names in these communities closely reflects the communicative constraints upon them, suggesting that name systems are far from random or arbitrary, but rather appear to form self-organizing communication systems. In the second half of the talk I will describe a set of analyses that reveal how the empirical distributions of the other classes of lexical forms that speakers engage with in moment to moment communication in English are also exponential – a result that suggests that the Zipfian distributions long thought to play a functional role in language are actually an artifact of mixing empirical distributions – as well as describing how these structures serve facilitate the discriminative processes of human communication.
		úterý 5. 12. 2017 13:00	Korpus do škol Lucie Chlumská V rámci semináře bych ráda shrnula dosavadní aktivity ČNK, které souvisejí s využitím korpusu na základních a středních školách. V první, teoretičtější části mj. stručně představím dva výzkumy, které se tématu věnovaly (pilotní analýza dětské slovní zásoby na základě knih pro děti a korpusu SKRIPT a revize vyjmenovaných slov na základě korpusových dat) a v druhé, praktičtější části bych ráda upozornila na některé české i zahraniční aplikace, kterými bychom se mohli inspirovat při tvorbě dalších nástrojů. Materiály ke stažení
		úterý 12. 12. 2017 13:00	Autorské korpusy v literární vědě Richard Změlík Přednáška bude zprvu zaměřena na problematiku exaktnosti v literární vědě. Hlavním cílem je ovšem představit koncepci literárního korpusu české prózy, který by byl primárně určen literárním vědcům, a vymezit jeho základní parametry. Materiály ke stažení
		úterý 19. 12. 2017 13:00	možná přijde i kouzelník...? besídka
		úterý 26. 12. 2017 13:00	×
		úterý 2. 1. 2018 13:00	×
		pondělí 8. 1. 2018 13:00	Pokroky v automatickém přepisu textu a projekt PERO Michal Hradiš Díky pokroku v metodách strojového učení a zpracování obrazu začíná být dnes praktické automatickými nástroji přepisovat ručně psané dokumenty a těžce čitelné tisky. V tomto semináři shrnu možnosti a limity dnešních postupů automatického přepisu textu a představím nástroje vyvíjené v projektu PERO zaměřené na češtinu a starší dokumenty.
		úterý 9. 1. 2018 13:00	Představení nového rozhraní Sketch Engine Ondřej Matuška
		pondělí 15. 1. 2018 13:00	×
		úterý 16. 1. 2018 13:00	×
		úterý 23. 1. 2018 13:00	Prepínanie jazykového kódu vo webových korpusoch: slovenčina vs. čeština a angličtina Vladimír Benko Jedným z problémov práce s webovými korpusmi je značný podiel „šumu“ v textoch stiahnutých z internetu, pričom za šum považujeme všetky javy v zdrojových textoch spôsobujúce zlyhávanie štandardných nástrojov ich spracovanie a anotáciu. V našej prezentácii predstavíme prístup k riešeniu veľmi frekventovaného typu šumu tvorenému fragmentmi textu v cudzom jazyku v inak jednojazyčnom texte. Keďže v slovenských webových korpusoch majú takéto fragmenty obyčajne povahu českých alebo anglických viet, zamerali sme sa na identifikáciu týchto dvoch jazykov na úrovni vety a analýzu dosiahnutého výsledku v najväčšom slovesnom korpuse Omnia Slovaca Maior s rozsahom 4,95 miliardy tokenov.
		úterý 30. 1. 2018 13:00	×
		úterý 6. 2. 2018 13:00	×
		úterý 13. 2. 2018 13:00	×
		úterý 20. 2. 2018 13:00	Slovník afixů užívaných v češtině: jak pracoval s korpusovými daty Josef Šimandl Klára Osolsobě Prezentován bude jednak sám slovník a otázky tvoření slov, k nimž může inspirovat, jednak budou představeny způsoby práce s korpusovými daty v jednotlivých typech hesel. Pozornosti neujde ani vágnost některých slovotvorných prostředků nebo spolehlivost korpusových zjištění.
		úterý 27. 2. 2018 13:00
		úterý 6. 3. 2018 13:00
		úterý 13. 3. 2018 13:00	Sumava-corpus: anotované korpusy textů o Šumavě Michal Hořejší Přednáška představí korpusy textů, s jejichž pomocí provádím (kritickou) analýzu diskurzu (CDA) o Národním parku Šumava. Zaměřím se nejen na tvorbu korpusů a způsob/y jejich zpřístupnění, ale také na možnosti práce s korpusy v rámci CDA. Materiály ke stažení
		úterý 20. 3. 2018 13:00	Zpracování posesivních zájmen v druhém jazyce z kontrastivní perspektivy Eva Flanderková Barbara Mertins V přednášce (WiP) se zaměříme na osvojování posesivních zájmen v češtině, němčině a norštině. Popíšeme jejich zpracování rodilými mluvčími a navrhneme hypotézy pro jejich osvojování mluvčími druhého jazyka.
		úterý 27. 3. 2018 13:00
		úterý 3. 4. 2018 13:00	Corpus driven analysis of obsolescence of multi-word expressions in Late Modern English Ondřej Tichý This paper explores a new methodology for extracting multi-word constructions, that were once common but has since become obsolete (Tichý, 2018), from large corpora (esp. from the Google n-grams dataset of the Google Books project). It proceeds from a novel method for a bottom up multi-word construction extraction (Wahl & Gries, forthcoming), to the formulation of a semi-automatic procedure for identifying constructions that may have become lost or obsolete in the course of the last three centuries, from the Late Modern era to Present-day English (1700–2000). The procedure makes use of both relative frequencies to establish currency, as well collocational measures such as mutual infomation. In the analytical part, the paper focuses on analysing select constructions of the type there needs no (as in “there needs no priest”) whose obsolescence is indicative of wider structural and typological changes, e.g. as in this case a decline of impersonal constructions. Conditions, circumstances and consequences of the loss of such constructions are considered with a focus on the competing forms expressing similar functions that may be recognized as supplanting the old forms.
		úterý 10. 4. 2018 13:00	Metafory, kterými (se) učíme… nebo ne? Aneb cesta do hlubin študákovy metafor Róbert Bohát Mohly by metafory učení (se) poskytnout hlubší sondu do „študákovy“ (ale i kantorovy) duše? Jinými slovy, jaké jsou současné metafory učení (se) a jak ovlivňují úspěch či neúspěch kognitivních procesů při výuce? Jako výchozí bod pro další výzkum začíná tato studie shrnutím a kvalitativní analýzou autentických metafor učení (se) zaznamenaných v procesu výuky a z pedagogických dokumentů v průběhu vice než 10 let na anglickojazyčné střední škole International School of Prague. Dalším krokem bude využití nástrojů kognitivní a korpusové lingvistiky, které pomůžou tyto kvalitativní důkazy kategorizovat a kvantifikovat. Za tímto účelem bude vybudován Corpus Comenius (předložím náčrt jeho zamýšlené struktury) s anotací metafor podle metody MIPVU (Pragglejaz 2007). Tento projekt je inspirován studií Seminové et al. (2014) o vlivu metafor na pacienty trpící rakovinou; kromě pedagogického korpusu by dalším výstupem měl být Learning Metaphor Toolbox, který by mohl pomoci studentům, podobně jako Metaphor Menu od Seminové pomáhá pacientům. Materiály ke stažení
		úterý 17. 4. 2018 13:00	Představení online kurzu Introducion to Text Processing and Analysis pro DigiLing Lucie Chlumská Pavel Vondřička
		úterý 24. 4. 2018 13:00	Afaziologie a korpusová lingvistika Michal Láznička V přednášce představím možnosti využití korpusů v afaziologii jak z hlediska tvorby specializovaných korpusů, tak z hlediska využití korpusových dat v afaziologickém výzkumu. Představím existující korpusy afatické řeči a především zárodek vlastního korpusu češtiny v afázii.
		úterý 1. 5. 2018 13:00	×
		úterý 8. 5. 2018 13:00	×
		úterý 15. 5. 2018 13:00 *	Korpus ROMi a jeho specifika Drahoslava Kráčmarová Seminář v první části představí proces vzniku korpusu ROMi s ohledem na specifičnost sběru dat v sociálně vyloučených lokalitách. V druhé části semináře se podíváme na možnosti využití korpusu v učitelské praxi a při tvorbě didaktických nástrojů, zejména učebnic. Materiály ke stažení
		úterý 22. 5. 2018 13:00	Text a osobnost: Výzkum CPACT Dalibor Kučera Seminář je věnován představení a vybraným aspektům tříletého výzkumného projektu CPACT – Komputační psycholingvistická analýza českého textu (GA ČR 16-19087S). Výzkum CPACT je zaměřen na studium souvislostí mezi osobností člověka a slovy, která užívá; zejména na úrovni vztahů lingvistických charakteristik psaného/mluveného textu s výstupy psychologických testů zaměřených na sebeposouzení jedince a jeho posouzení druhou osobou. Výsledky výzkumu poukazují na značný potenciál ve využití komputačně-lingvistické analýzy v rámci psychologických disciplín, zejména v oblasti současné psychodiagnostiky.
		úterý 29. 5. 2018 13:00
		úterý 5. 6. 2018 13:00
		úterý 12. 6. 2018 13:00
		úterý 19. 6. 2018 13:00
		úterý 26. 6. 2018 13:00