Seminář ÚL | Český národní korpus

Místo konání: P104, hlavní budova, 1. patro
Online: seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Magdě.
Čas konání: středa, 14:10–15:40, není-li uvedeno jinak

		Datum	Téma · Přednášející · Abstrakt
		úterý 11. 10. 2016 13:00	Translationese and stylometry Rafał Ludwik Górski In the talk I shall present three case studies examining translationese with the tools of stylometry (Stylo package for R): Victorian translations from French to English, modern Polish literature contrasted to translations from English to Polish, and the style of “translations without translations”. Victorian literature exhibits is a clear separation of translations and non-translations both on lexical as well as syntactic level. In turn this separation is not as clear in case of modern Polish literary texts. Finally I shall introduce the literary phenomenon of the People’s Republic of Poland, namely novels written by Poles, which aimed at imitating translations of Western European crime stories. Some of them mimic translationese perfectly.
		středa 12. 10. 2016 17:30 hlavní budova, místnost č. 104	Historical linguistics and stylometry. Can the corpus tell us how to periodize the history of a language? Rafał Ludwik Górski How do we know when, say, Early Modern period of a given language expires and Late Modern commences? Typically coarse-grained periodizations are based on changes of the grammatical system, whereas fine-grained ones take as an evidence some sociolinguistic or philological arguments. Instead we propose a corpus driven approach. Using text categorisation methods, in a stepwise fashion we divide a diachronic corpus into two, as different as possible, subcorpora (Eder & Górski 2016). This allows us for identification of quantitatively different stages in language development. The underlying assumption is that effective categorisation is possible only if two requirements are satisfied: there is a true difference (be it lexical or grammatical) between older and newer texts and the two subcorpora are homogeneous.
		úterý 18. 10. 2016 13:00	NovaMorf Vladimír Petkevič
		úterý 25. 10. 2016 13:00	Longitudinální výzkum raných stádií osvojování češtiny Lucie Saicová Římalová Vystoupení se zaměří na vybrané metodologické otázky longitudinálních výzkumů osvojování jazyka dítětem, především na problematiku sběru a zpracování vhodných dat a na vybraná specifika jejich analýzy. Východiskem jsou autorčiny zkušenosti s výzkumem osvojování češtiny česky hovořícími dětmi od narození do cca 6 let, který je založen na videonahrávkách každodenní komunikace dětí s blízkými dospělými. Představeny budou i některé další relevantní výzkumy, především výzkum osvojování slovenštiny slovensky hovořícími dětmi, který byl pro autorčin výzkum inspirací.
		úterý 1. 11. 2016 13:00	Aktuální vývoj metody kolostrukční analýzy a popis češtiny Eva Lehečková Přednáška se zaměřuje na stručné představení metody kolostrukční analýzy vyvinuté S. Griesem a A. Stefanowitschem, která coby jedna z asociačních měr umožňuje měřit vztah mzi konkrétními lexikálními jednotkami a ustálenými syntaktickými konstrukcemi. Ukážu, jak se od doby svého vzniku metoda – i na základě kritických diskusí v odborné literatuře – vyvíjí, a možnosti jejího uplatnění doložím na případové studii zaměřené na češtinu a založené na psaných korpusech SYN. Materiály ke stažení
		úterý 8. 11. 2016 13:00	Určení nepředložkového akuzativu syntaktických substantiv a určení objektu a adverbiale v nepředložkovém akuzativu Vladimír Petkevič Autor předvede, jak je na základě syntaktických úvah možné disambiguovat v některých případech nepředložkový akuzativ syntaktických substantiv na základě exaktních pravidel v rámci morfologické disambiguace češtiny. Především se však pokusí určit povrchovou syntaktickou funkci syntaktických substantiv v již daném nepředložkovém akuzativu jakožto objekt nebo adverbiále času, míry a způsobu. Syntakticky motivované úvahy vyjádřené exaktními tvrzeními o syntaxi a morfologii češtiny by měly napomoci jak zlepšení automatické morfologické disambiguace nestatistického typu, tak automatické syntaktické analýze. Materiály ke stažení
		úterý 15. 11. 2016 13:00	třídnická hodina s dr. Křenem VELKÉ ÚTERÝ
		úterý 22. 11. 2016 13:00	Sledování očních pohybů v psycholingvistice Filip Smolík Sledování očních pohybů (eyetracking) patří k psychofyziologickým metodám, které se díky své relativně snadné dostupnosti velmi rozšířily v řadě oblastí kognitivní vědy, včetně studia jazyka. Zde lze rozlišit dvě nejčastější oblasti aplikace metody: jednak je to využití pro měření průběhu čtení, za druhé pak použití metody k měření zrakové pozornosti a jejích změn, které souvisejí se zpracováním jazykových podnětů, ať už v produkci, nebo v porozumění. Přednáška poskytne základní představu o tom, jakým způsobem je metoda v těchto oblastech využívána a jaké jsou její možnosti a omezení. Demonstruje některé vzorové studie, poskytne základní informace o povaze očních pohybů a historii jejich výzkumu. Upozorní i na možná využití mimo dva hlavní směry, zejména na možnost kognitivní pupilometrie.
		úterý 29. 11. 2016 13:00	Kvantitativní jazykověda staré čínštiny v plenkách Lukáš Zádrapa Současné možnosti a meze automatického zpracování staročínských textů. Korpusy, databáze a úskalí jejich využití
		úterý 6. 12. 2016 13:00	Představení žákovského korpusu LINDSEI_CZ a výsledků dosavadního výzkumu Tomáš Gráf V semináři představím žákovský korpus pokročilé mluvené angličtiny LINDSEI (Louvain International Database of Spoken English Interlanguage) a především jeho český subkorpus LINDSEI_CZ na pozadí žákovských korpusů vzniklých a vznikajících v Centru pro anglickou korpusovou lingvistiku (Centre for English Corpus Linguistics) v Université catholique de Louvain. Na prvním místě pojednám o metodologických otázkách vzniku tohoto korpusu a subkorpusu, a to jak ve světle zkušeností získaných při jeho zpracování, tak v reflexi na základě zatím proběhlého výzkumu. Dále představím výsledky dosavadní analýzy dat týkající se především chybového značkování, analýzy chyb a plynulosti, přičemž ani zde neponechám stranou relevantní metodologická zjištění vážící se k tvorbě žákovských korpusů, a to především s ohledem na design jednotlivých úloh a jejich vliv na zkoumané aspekty přesnosti a plynulosti, ale též ve vztahu k definici pokročilosti, jak je v některých žákovských korpusech pojímána. V závěru představím nové projekty, které v souvislosti s LINDSEI vznikají, obzvláště pak projekt morfologického značkování, projekt vyhodnocování pokročilosti a plánovanou monografii, která si klade za cíl zevrubně zhodnotit zkušenosti získané při tvorbě všech subkorpusů LINDSEI a přispět tak k řešení klíčových metodologických otázek tvorby žákovských a mluvených korpusů.
		úterý 13. 12. 2016 15:00	vánoční besídka
		úterý 20. 12. 2016 13:00
		úterý 27. 12. 2016 13:00
		úterý 3. 1. 2017 13:00
		úterý 10. 1. 2017 13:00
		úterý 17. 1. 2017 13:00
		úterý 24. 1. 2017 13:00
		úterý 31. 1. 2017 13:00
		úterý 7. 2. 2017 13:00
		úterý 14. 2. 2017 13:00
		úterý 21. 2. 2017 13:00 *	Jak najít rýmy ve foneticky transkribovaném korpusu básní Petr Plecháč Označkovat rýmující se verše ve foneticky transkribovaném korpusu básnických textů je na první pohled triviální úkol, který lze řešit jednoduchým regulárním výrazem. V praxi ale zjistíme, že úspěšnost takového přístupu není zdaleka optimální. Znatelně lepších výsledků můžeme dosáhnout, když se namísto příručkové definice rýmu spolehneme na fakt, že rýmový repertoár každého jazyka je omezený a rýmové páry se tak napříč texty nevyhnutelně opakují. Přednáška představí metodu značkování vycházející z tohoto předpokladu a její výsledky na korpusech česky, anglicky a francouzsky psaných básní. Materiály ke stažení
		úterý 28. 2. 2017 13:00	Jazykové korpusy ve výuce cizích jazyků − metoda, nástroje, praxe Adrian Jan Zasina Příspěvek prezentuje možnost využití jazykových korpusů ve výuce cizích jazyků, zvláště češtiny pro cizince a také angličtiny a polštiny. Pozornost je věnována zejména metodě Data-Driven Learning (DDL), využívající korpusová data ve výuce a dělící se tradičně na dvě odvětví: a) přímé využití ve výuce, b) nepřímé − úkoly připravené na základě korpusových dat. Autor krátce uvádí příklady aplikace této metody v České republice a Polsku. Druhá část se zaměřuje na nástroje, které lze použít ve výuce. Pro češtinu jsou prezentovány nástroje SyD a Treq a pro angličtinu též nástroj SKELL a korpusové manažery PELCRA a PoliCarp pro polštinu. Třetí část se soustředí na konkrétní cvičení pro studenty, která lze využít během výuky. Ve využití korpusů při výuce cizích jazyků sehrávají podstatnou roli korpusoví specialisté, kteří seznamují s korpusu nejen studenty, ale i učitele. Korpusy je možné zužitkovat nejen při výuce cizího, ale též mateřského jazyka.
		úterý 7. 3. 2017 13:00	Formální zachycení deklinace staročeských apelativních substantiv Boris Lehečka Pavlína Synková Seminář představí první hmatatelné, byť virtuální, výsledky formálního popisu staročeské morfologie. Na příkladu staročeských substantivních apelativ autoři objasní zvolenou metodu popisu, dosažené výsledky a upozorní na některé problematické jevy. Přednášející také ukáží použité nástroje pro analýzu a zpracování jazykových dat (textová banka, slovníky staré češtiny, zachycení deklinačních vzorů) a jeden ze způsobů využití formálního popisu: prezentaci deklinačních vzorů prostřednictvím webové aplikace. Materiály ke stažení
		úterý 14. 3. 2017 13:00	×
		úterý 21. 3. 2017 13:00	…!“ said Harry / s’exclama Harry / zajásal Harry Slovesa uvozující přímou řeč ve francouzštině, češtině a angličtině a jejich překladové protějšky (analýza dat z paralelního korpusu InterCorp) Olga Nádvorníková Způsoby uvození přímé řeči se ve francouzštině, češtině a angličtině liší nejen, pokud jde o typografický úzus (užívání uvozovek, pomlček aj.), ale také v typech sloves, která mohou přímou řeč uvozovat, a v míře jejich zastoupení. V přednášce ukážeme, že změny, k nimž při překladu uvozovacích sloves mezi těmito třemi jazyky dochází, mohou být způsobeny nejen systémovými rozdíly mezi jazyky nebo vlivem překladových univerzálií (zejména explicitace), ale především tlakem stylistické normy, která určuje míru opakování základních uvozovacích sloves (say/dire/říci) a typy jiných sloves, která mohou tuto funkci plnit (usmát se/povzdechnout si atd.). V první části přednášky se nejprve pokusíme určit míru zastoupení základních uvozovacích sloves say/dire/říci ve zkoumaných jazycích v beletristické části paralelního korpusu InterCorp a získané výsledky porovnáme jednak s příslušnými jednojazyčnými korpusy (FRANTEXT, BNC a SYNv4), jednak s příslušnými překladovými texty. V této souvislosti také poukážeme na některé technické problémy spojené s vyhledáváním uvozovacích vět (tokenizace, značkování atd.). Pro češtinu bude analýza doplněna o výsledky z korpusu JEROME. Ve druhé části přednášky pak ukážeme nejčastější typy změn, k nimž při překladu uvozovacích sloves dochází, a jejich důsledky pro celkové vyznění překládaného díla.
		úterý 28. 3. 2017 13:00	Temporalita a interakce v rozhovorech: jazykové prostředky češtiny užívané pro projektování, dodatky, konverzační opravy a překryvy replik Martin Havlík Ve svém příspěvku se ohlédnu za některými svými výzkumy, abych je utřídil do jednoho celku. Třídícím principem, podle nějž jsem své předchozí studie rovnal, je temporalita a interakce. Temporalita a interakce jsou přirozenou a nezbytnou vlastností jakéhokoli mluveného rozhovoru. Na tuto skutečnost poslední dobou často upozorňují interakční lingvisté, kteří vycházejí z konverzační analýzy. Jeden z těchto badatelů, Peter Auer, v několika programových textech představil tzv. on-line syntax (viz zejm. Auer, 2009). Upozorňuje na následující aspekty, jež z plynutí času vyplývají: a) rychlé vytrácení se, b) synchronizace, c) nevratnost. Z toho pak pro lingvisty vznikají výzvy k analyzování toho, jak konkrétní jazyky umožňují a) projektivitu (tedy predikci toho, co bude následovat), b) expanzivnost (tj. dodatek k již řečenému), c) konverzační opravy (opravy již řečeného), d) překryvy replik (souběžnost). Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences 31: 1–13.
		úterý 4. 4. 2017 13:00	Uvozovací slovesa v překladech tří různých jazyků Lenka Fárová Při zkoumání jazyka překladu se posledních dvacet let objevuje snaha o hledání překladových univerzálií, tedy jevů typických pro překladové texty. Na příkladu sloves uvozujících přímou řeč ve třech různých jazycích (češtině, finštině a angličtině) se pokusím poukázat na jistou problematičnost tohoto konceptu zejména v souvislosti s redukcí opakování. Výzkum se zaměřil na tři nejfrekventovanější uvozovací slovesa ve zkoumaných jazycích (said, sanoi a řekl/řekla) a kladl si následující otázky: 1) Je opakování uvozovacího slovesa zachováno nebo dochází k jeho redukci? 2) Liší se výsledky podle typu jazyka? V souvislosti s materiálem, jímž byly subkorpusy vytvořené s použitím beletristických textů z jádra paralelního korpusu InterCorp, se objevila ještě jedna otázka: 3) Nakolik může výběr textů v subkorpusu ovlivnit výsledky zkoumání?
		úterý 11. 4. 2017 13:00	×
		úterý 18. 4. 2017 13:00	×
		úterý 25. 4. 2017 13:00	×
		středa 26. 4. 2017 18:00 hlavní budova, místnost č. 104	Corpus data and aspects of the mental lexicon from a cognitive-linguistic perspective: frequency, contingency, recency, and context Stephan Th. Gries Over the last decades, linguistic research has become more diverse both theoretically and methodologically. With regard to the former, after a long period in which “theoretical linguistics” was synonymous with “generative linguistics”, now a wider variety of approaches have emerged; for this talk of interest are cognitive/usage-based approaches, which assume a less-than-modular linguistic system that is ‘governed’ to a large extent by domain-general mechanisms such as frequency, contingency, recency, context etc. With regard to the latter, linguists are now routinely using a wider range of data and it is corpus data that have seen a particular increase.Against this background, I will discuss in this talk ways in which corpus-based work can help explore the lexicon/construction in ways that properly operationalize the above domain-general determinants of processing and learning: frequency, contingency, recency, context. I will discuss two brief case studies – one on phonological similarity within lexical units (involving frequency), one on multi-word identification (adding contingency) – before I turn to a broader discussion of how to involve recency and context properly to our corpus-linguistic toolkit.
		čtvrtek 27. 4. 2017 18:00 hlavní budova, místnost č. 104	What statistical methods have to offer to linguistics: three (differently complex) case studies of spelling, morphological change, and foreign language learning Stephan Th. Gries This talk is basically a demonstration of how quantitative methods of different degrees of sophistication can inform linguistic research on various levels of linguistic analysis. I will report on three case studies. First, I will show how very simple statistics can be used to explore aspects of Spanish Internet Orthography, specifically how standard spellings are changed in online forums and comments and how even speakers’ typing is influenced by semantic and articulatory characteristics of what they are typing. Second, I will address a frequent question in historical data, namely how to study morphological change given the inherent noisiness and multidimensional nature of the data using exploratory as well as hypothesis-testing statistics. Finally, I will discuss a fairly new method designed to facilitate the exploration of how speakers of a certain kind (e.g., non-native speakers or indigenized variety speakers) differ from a ‘standard/reference’ group of speakers even when human annotators of, say, learner data are not available.
		úterý 2. 5. 2017 13:00
		úterý 9. 5. 2017 13:00	Přísloví a gramatika a další věci příslovečné Karel Kučera Řeč bude o frekvenci slovních druhů a vybraných gramatických kategorií v současných českých příslovích (s drobným diachronním intermezzem) a o faktorech vedoucích k frekvenčním rozdílům mezi příslovími a češtinou jako celkem (na základě Frekvenčních statistik češtiny + SYN2015). Zbude-li čas, dodám jako bonus něco o významové diferenciaci druhdy víceméně plně ekvivaletních členů trojice příslovečný – sprichwoertlich – proverbial (na základě korpusů a internetu).
		úterý 16. 5. 2017 13:00	×
		úterý 23. 5. 2017 13:00	× 24.–28.5. ICAME
		čtvrtek 1. 6. 2017 13:00	Texas Czech Legacy Project Lida Cope Tato přednáška bude zaměřena na Texas Czech Legacy Project, který je hostován na serveru University of Texas v Austinu. V přednášce představím cíle tohoto projektu a zvukový archív texaské češtiny, který je jeho hlavní součástí. Ústav českého národního korpusu se na této práci také podílí pomocí s přepisy nahrávek a konzultacemi. Archív je prohledávatelný a měl by se v budoucnu stát součástí korpusů kontaktních češtin na ÚČNK.
		úterý 6. 6. 2017 15:00	novinky z MDA parta brusiče Karhana
		úterý 6. 6. 2017 18:00	parta brusiče Karhana podruhé, tentokrát na filmovým plátně
		úterý 13. 6. 2017 13:00	Jak se (doopravdy) značkují korpusy Hana Skoumalová Technicky zaměřené povídání o tom, jak se značkují české korpusy. Jaké programy se používají, kdo je napsal a udržuje, jak to všechno drží pohromadě a kolik to zabere času. Seminář je vhodný pro ty, kdo chtějí vědět, jaké kroky se při značkování provádějí, a kdo si třeba chtějí spouštět značkování sami. Nebude v něm moc lingvistiky, ale nebude ani jenom pro programátory. Materiály ke stažení
		úterý 20. 6. 2017 13:00	×
		úterý 27. 6. 2017 13:00	×