Seminář ÚČNK

Harmonogram pro akademický rok 2016/2017

Místo konání
Panská 890/7 (Kaunický palác), 1. patro levého křídla
Online
seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Janě.
Čas konání
úterý, 13:00, není-li uvedeno jinak
Datum Téma · Přednášející · Abstrakt

Translationese and stylometry

  1. Rafał Ludwik Górski

In the talk I shall present three case studies examining translationese with the tools of stylometry (Stylo package for R): Victorian translations from French to English, modern Polish literature contrasted to translations from English to Polish, and the style of “translations without translations”. Victorian literature exhibits is a clear separation of translations and non-translations both on lexical as well as syntactic level. In turn this separation is not as clear in case of modern Polish literary texts. Finally I shall introduce the literary phenomenon of the People’s Republic of Poland, namely novels written by Poles, which aimed at imitating translations of Western European crime stories. Some of them mimic translationese perfectly.

hlavní budova, místnost č. 104

Historical linguistics and stylometry.

Can the corpus tell us how to periodize the history of a language?

  1. Rafał Ludwik Górski

How do we know when, say, Early Modern period of a given language expires and Late Modern commences? Typically coarse-grained periodizations are based on changes of the grammatical system, whereas fine-grained ones take as an evidence some sociolinguistic or philological arguments. Instead we propose a corpus driven approach. Using text categorisation methods, in a stepwise fashion we divide a diachronic corpus into two, as different as possible, subcorpora (Eder & Górski 2016). This allows us for identification of quantitatively different stages in language development. The underlying assumption is that effective categorisation is possible only if two requirements are satisfied: there is a true difference (be it lexical or grammatical) between older and newer texts and the two subcorpora are homogeneous.

NovaMorf

  1. Vladimír Petkevič

Longitudinální výzkum raných stádií osvojování češtiny

  1. Lucie Saicová Římalová

Vystoupení se zaměří na vybrané metodologické otázky longitudinálních výzkumů osvojování jazyka dítětem, především na problematiku sběru a zpracování vhodných dat a na vybraná specifika jejich analýzy. Východiskem jsou autorčiny zkušenosti s výzkumem osvojování češtiny česky hovořícími dětmi od narození do cca 6 let, který je založen na videonahrávkách každodenní komunikace dětí s blízkými dospělými. Představeny budou i některé další relevantní výzkumy, především výzkum osvojování slovenštiny slovensky hovořícími dětmi, který byl pro autorčin výzkum inspirací.

Aktuální vývoj metody kolostrukční analýzy a popis češtiny

  1. Eva Lehečková

Přednáška se zaměřuje na stručné představení metody kolostrukční analýzy vyvinuté S. Griesem a A. Stefanowitschem, která coby jedna z asociačních měr umožňuje měřit vztah mzi konkrétními lexikálními jednotkami a ustálenými syntaktickými konstrukcemi. Ukážu, jak se od doby svého vzniku metoda – i na základě kritických diskusí v odborné literatuře – vyvíjí, a možnosti jejího uplatnění doložím na případové studii zaměřené na češtinu a založené na psaných korpusech SYN.

Materiály ke stažení

Určení nepředložkového akuzativu syntaktických substantiv a určení objektu a adverbiale v nepředložkovém akuzativu

  1. Vladimír Petkevič

Autor předvede, jak je na základě syntaktických úvah možné disambiguovat v některých případech nepředložkový akuzativ syntaktických substantiv na základě exaktních pravidel v rámci morfologické disambiguace češtiny. Především se však pokusí určit povrchovou syntaktickou funkci syntaktických substantiv v již daném nepředložkovém akuzativu jakožto objekt nebo adverbiále času, míry a způsobu. Syntakticky motivované úvahy vyjádřené exaktními tvrzeními o syntaxi a morfologii češtiny by měly napomoci jak zlepšení automatické morfologické disambiguace nestatistického typu, tak automatické syntaktické analýze.

Materiály ke stažení

Sledování očních pohybů v psycholingvistice

  1. Filip Smolík

Sledování očních pohybů (eyetracking) patří k psychofyziologickým metodám, které se díky své relativně snadné dostupnosti velmi rozšířily v řadě oblastí kognitivní vědy, včetně studia jazyka. Zde lze rozlišit dvě nejčastější oblasti aplikace metody: jednak je to využití pro měření průběhu čtení, za druhé pak použití metody k měření zrakové pozornosti a jejích změn, které souvisejí se zpracováním jazykových podnětů, ať už v produkci, nebo v porozumění. Přednáška poskytne základní představu o tom, jakým způsobem je metoda v těchto oblastech využívána a jaké jsou její možnosti a omezení. Demonstruje některé vzorové studie, poskytne základní informace o povaze očních pohybů a historii jejich výzkumu. Upozorní i na možná využití mimo dva hlavní směry, zejména na možnost kognitivní pupilometrie.

Kvantitativní jazykověda staré čínštiny v plenkách

  1. Lukáš Zádrapa

Současné možnosti a meze automatického zpracování staročínských textů. Korpusy, databáze a úskalí jejich využití

Představení žákovského korpusu LINDSEI_CZ a výsledků dosavadního výzkumu

  1. Tomáš Gráf

V semináři představím žákovský korpus pokročilé mluvené angličtiny LINDSEI (Louvain International Database of Spoken English Interlanguage) a především jeho český subkorpus LINDSEI_CZ na pozadí žákovských korpusů vzniklých a vznikajících v Centru pro anglickou korpusovou lingvistiku (Centre for English Corpus Linguistics) v Université catholique de Louvain. Na prvním místě pojednám o metodologických otázkách vzniku tohoto korpusu a subkorpusu, a to jak ve světle zkušeností získaných při jeho zpracování, tak v reflexi na základě zatím proběhlého výzkumu.

Dále představím výsledky dosavadní analýzy dat týkající se především chybového značkování, analýzy chyb a plynulosti, přičemž ani zde neponechám stranou relevantní metodologická zjištění vážící se k tvorbě žákovských korpusů, a to především s ohledem na design jednotlivých úloh a jejich vliv na zkoumané aspekty přesnosti a plynulosti, ale též ve vztahu k definici pokročilosti, jak je v některých žákovských korpusech pojímána.

V závěru představím nové projekty, které v souvislosti s LINDSEI vznikají, obzvláště pak projekt morfologického značkování, projekt vyhodnocování pokročilosti a plánovanou monografii, která si klade za cíl zevrubně zhodnotit zkušenosti získané při tvorbě všech subkorpusů LINDSEI a přispět tak k řešení klíčových metodologických otázek tvorby žákovských a mluvených korpusů.

*

Jak najít rýmy ve foneticky transkribovaném korpusu básní

  1. Petr Plecháč

Označkovat rýmující se verše ve foneticky transkribovaném korpusu básnických textů je na první pohled triviální úkol, který lze řešit jednoduchým regulárním výrazem. V praxi ale zjistíme, že úspěšnost takového přístupu není zdaleka optimální. Znatelně lepších výsledků můžeme dosáhnout, když se namísto příručkové definice rýmu spolehneme na fakt, že rýmový repertoár každého jazyka je omezený a rýmové páry se tak napříč texty nevyhnutelně opakují. Přednáška představí metodu značkování vycházející z tohoto předpokladu a její výsledky na korpusech česky, anglicky a francouzsky psaných básní.

Materiály ke stažení

Jazykové korpusy ve výuce cizích jazyků − metoda, nástroje, praxe

  1. Adrian Jan Zasina

Příspěvek prezentuje možnost využití jazykových korpusů ve výuce cizích jazyků, zvláště češtiny pro cizince a také angličtiny a polštiny. Pozornost je věnována zejména metodě Data-Driven Learning (DDL), využívající korpusová data ve výuce a dělící se tradičně na dvě odvětví: a) přímé využití ve výuce, b) nepřímé − úkoly připravené na základě korpusových dat. Autor krátce uvádí příklady aplikace této metody v České republice a Polsku. Druhá část se zaměřuje na nástroje, které lze použít ve výuce. Pro češtinu jsou prezentovány nástroje SyD a Treq a pro angličtinu též nástroj SKELL a korpusové manažery PELCRA a PoliCarp pro polštinu. Třetí část se soustředí na konkrétní cvičení pro studenty, která lze využít během výuky. Ve využití korpusů při výuce cizích jazyků sehrávají podstatnou roli korpusoví specialisté, kteří seznamují s korpusu nejen studenty, ale i učitele. Korpusy je možné zužitkovat nejen při výuce cizího, ale též mateřského jazyka.

Formální zachycení deklinace staročeských apelativních substantiv

  1. Boris Lehečka
  2. Pavlína Synková

Seminář představí první hmatatelné, byť virtuální, výsledky formálního popisu staročeské morfologie. Na příkladu staročeských substantivních apelativ autoři objasní zvolenou metodu popisu, dosažené výsledky a upozorní na některé problematické jevy. Přednášející také ukáží použité nástroje pro analýzu a zpracování jazykových dat (textová banka, slovníky staré češtiny, zachycení deklinačních vzorů) a jeden ze způsobů využití formálního popisu: prezentaci deklinačních vzorů prostřednictvím webové aplikace.

Materiály ke stažení

  1. ×

…!“ said Harry / s’exclama Harry / zajásal Harry

Slovesa uvozující přímou řeč ve francouzštině, češtině a angličtině a jejich překladové protějšky (analýza dat z paralelního korpusu InterCorp)

  1. Olga Nádvorníková

Způsoby uvození přímé řeči se ve francouzštině, češtině a angličtině liší nejen, pokud jde o typografický úzus (užívání uvozovek, pomlček aj.), ale také v typech sloves, která mohou přímou řeč uvozovat, a v míře jejich zastoupení. V přednášce ukážeme, že změny, k nimž při překladu uvozovacích sloves mezi těmito třemi jazyky dochází, mohou být způsobeny nejen systémovými rozdíly mezi jazyky nebo vlivem překladových univerzálií (zejména explicitace), ale především tlakem stylistické normy, která určuje míru opakování základních uvozovacích sloves (say/dire/říci) a typy jiných sloves, která mohou tuto funkci plnit (usmát se/povzdechnout si atd.). V první části přednášky se nejprve pokusíme určit míru zastoupení základních uvozovacích sloves say/dire/říci ve zkoumaných jazycích v beletristické části paralelního korpusu InterCorp a získané výsledky porovnáme jednak s příslušnými jednojazyčnými korpusy (FRANTEXT, BNC a SYNv4), jednak s příslušnými překladovými texty. V této souvislosti také poukážeme na některé technické problémy spojené s vyhledáváním uvozovacích vět (tokenizace, značkování atd.). Pro češtinu bude analýza doplněna o výsledky z korpusu JEROME. Ve druhé části přednášky pak ukážeme nejčastější typy změn, k nimž při překladu uvozovacích sloves dochází, a jejich důsledky pro celkové vyznění překládaného díla.

Temporalita a interakce v rozhovorech: jazykové prostředky češtiny užívané pro projektování, dodatky, konverzační opravy a překryvy replik

  1. Martin Havlík

Ve svém příspěvku se ohlédnu za některými svými výzkumy, abych je utřídil do jednoho celku. Třídícím principem, podle nějž jsem své předchozí studie rovnal, je temporalita a interakce. Temporalita a interakce jsou přirozenou a nezbytnou vlastností jakéhokoli mluveného rozhovoru. Na tuto skutečnost poslední dobou často upozorňují interakční lingvisté, kteří vycházejí z konverzační analýzy. Jeden z těchto badatelů, Peter Auer, v několika programových textech představil tzv. on-line syntax (viz zejm. Auer, 2009). Upozorňuje na následující aspekty, jež z plynutí času vyplývají: a) rychlé vytrácení se, b) synchronizace, c) nevratnost. Z toho pak pro lingvisty vznikají výzvy k analyzování toho, jak konkrétní jazyky umožňují a) projektivitu (tedy predikci toho, co bude následovat), b) expanzivnost (tj. dodatek k již řečenému), c) konverzační opravy (opravy již řečeného), d) překryvy replik (souběžnost).

Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences 31: 1–13.

Uvozovací slovesa v překladech tří různých jazyků

  1. Lenka Fárová

Při zkoumání jazyka překladu se posledních dvacet let objevuje snaha o hledání překladových univerzálií, tedy jevů typických pro překladové texty. Na příkladu sloves uvozujících přímou řeč ve třech různých jazycích (češtině, finštině a angličtině) se pokusím poukázat na jistou problematičnost tohoto konceptu zejména v souvislosti s redukcí opakování. Výzkum se zaměřil na tři nejfrekventovanější uvozovací slovesa ve zkoumaných jazycích (said, sanoi a řekl/řekla) a kladl si následující otázky:

1) Je opakování uvozovacího slovesa zachováno nebo dochází k jeho redukci?

2) Liší se výsledky podle typu jazyka?

V souvislosti s materiálem, jímž byly subkorpusy vytvořené s použitím beletristických textů z jádra paralelního korpusu InterCorp, se objevila ještě jedna otázka:

3) Nakolik může výběr textů v subkorpusu ovlivnit výsledky zkoumání?

  1. ×
  1. ×
  1. ×
hlavní budova, místnost č. 104

Corpus data and aspects of the mental lexicon from a cognitive-linguistic perspective: frequency, contingency, recency, and context

  1. Stephan Th. Gries

Over the last decades, linguistic research has become more diverse both theoretically and methodologically. With regard to the former, after a long period in which “theoretical linguistics” was synonymous with “generative linguistics”, now a wider variety of approaches have emerged; for this talk of interest are cognitive/usage-based approaches, which assume a less-than-modular linguistic system that is ‘governed’ to a large extent by domain-general mechanisms such as frequency, contingency, recency, context etc. With regard to the latter, linguists are now routinely using a wider range of data and it is corpus data that have seen a particular increase.Against this background, I will discuss in this talk ways in which corpus-based work can help explore the lexicon/construction in ways that properly operationalize the above domain-general determinants of processing and learning: frequency, contingency, recency, context. I will discuss two brief case studies – one on phonological similarity within lexical units (involving

frequency), one on multi-word identification (adding contingency) – before I turn to a broader discussion of how to involve recency and context properly to our corpus-linguistic toolkit.

hlavní budova, místnost č. 104

What statistical methods have to offer to linguistics: three (differently complex) case studies of spelling, morphological change, and foreign language learning

  1. Stephan Th. Gries

This talk is basically a demonstration of how quantitative methods of different degrees of sophistication can inform linguistic research on various levels of linguistic analysis. I will report on three case studies. First, I will show how very simple statistics can be used to explore aspects of Spanish Internet Orthography, specifically how standard spellings are changed in online forums and comments and how even speakers’ typing is influenced by semantic and articulatory characteristics of what they are typing. Second, I will address a frequent question in historical data, namely how to study morphological change given the inherent noisiness and multidimensional nature of the data using exploratory as well as hypothesis-testing statistics. Finally, I will discuss a fairly new method designed to facilitate the exploration of how speakers of a certain kind (e.g., non-native speakers or indigenized variety speakers) differ from a ‘standard/reference’ group of speakers even when human annotators of, say, learner data are not available.

Přísloví a gramatika a další věci příslovečné

  1. Karel Kučera

Řeč bude o frekvenci slovních druhů a vybraných gramatických kategorií v současných českých příslovích (s drobným diachronním intermezzem) a o faktorech vedoucích k frekvenčním rozdílům mezi příslovími a češtinou jako celkem (na základě Frekvenčních statistik češtiny + SYN2015). Zbude-li čas, dodám jako bonus něco o významové diferenciaci druhdy víceméně plně ekvivaletních členů trojice příslovečný – sprichwoertlich – proverbial (na základě korpusů a internetu).

  1. ×
  1. × 24.–28.5. ICAME

Texas Czech Legacy Project

  1. Lida Cope

Tato přednáška bude zaměřena na Texas Czech Legacy Project, který je hostován na serveru University of Texas v Austinu. V přednášce představím cíle tohoto projektu a zvukový archív texaské češtiny, který je jeho hlavní součástí. Ústav českého národního korpusu se na této práci také podílí pomocí s přepisy nahrávek a konzultacemi. Archív je prohledávatelný a měl by se v budoucnu stát součástí korpusů kontaktních češtin na ÚČNK.

Jak se (doopravdy) značkují korpusy

  1. Hana Skoumalová

Technicky zaměřené povídání o tom, jak se značkují české korpusy. Jaké programy se používají, kdo je napsal a udržuje, jak to všechno drží pohromadě a kolik to zabere času. Seminář je vhodný pro ty, kdo chtějí vědět, jaké kroky se při značkování provádějí, a kdo si třeba chtějí spouštět značkování sami. Nebude v něm moc lingvistiky, ale nebude ani jenom pro programátory.

Materiály ke stažení

  1. ×
  1. ×