Seminář ÚL | Český národní korpus

Místo konání: P104, hlavní budova, 1. patro
Online: seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Magdě.
Čas konání: středa, 14:10–15:40, není-li uvedeno jinak

		Datum	Téma · Přednášející · Abstrakt
		úterý 9. 9. 2014 13:00	VELKÉ úterý ÚČNK
		úterý 16. 9. 2014 13:00	— seminář se nekoná
		úterý 23. 9. 2014 13:00	— seminář se nekoná
		úterý 30. 9. 2014 13:00	— seminář se nekoná
		úterý 7. 10. 2014 13:00 začíná semestr	— seminář se nekoná
		úterý 14. 10. 2014 13:00	Interview s Geoffreym Leechem - společné zhlédnutí a diskuze František Čermák a ÚČNK
		úterý 21. 10. 2014 13:00	Měl Dostál pravdu? Nový empirický přístup k vidu ve staroslověnštině / Was Dostál right? A New Empirical Approach to Aspect in Old Slavonic Laura Janda
		úterý 4. 11. 2014 13:00	— seminář se nekoná
		úterý 11. 11. 2014 13:00	15 přikázání korpusového lingvisty - diskuze František Čermák
		úterý 18. 11. 2014 13:00	Problémy lemmatizace a značkování starších českých textů Karel Kučera Martin Stluka Anna Zitová handout.docx
		pondělí 24. 11. 2014 15:50 místnost 104	Building onto the corpus-driven approach: a wider look on meaning Wolfgang Teubert What makes the corpus-driven approach stand out in language studies is its appeal as a ‘scientific’ methodology. Using computational tools to identify, count and measure real language data, we obtain dependable findings. Scientific practice, however, is no different from any other social practice: it is discursively constructed. In the absence of a ‘real’ fundament, there cannot be a ‘true’ bottom-up approach. All corpus research presupposes a consensus on the arbitrary decisions underlying our research question, and the findings obtained have to be interpreted to make sense. Meaning is found only in discourse.
		úterý 25. 11. 2014 13:00	Corpus linguistics and the meaning of lexical items: how to distinguish grief from mourning Wolfgang Teubert The meaning of a lexical item is not so much what we find in monolingual or bilingual dictionaries, for meaning is only in discourse. Traditional lexicography can only provide a first approach. It is in discourse that people negotiate what words mean, including, for instance, what distinguishes grief from mourning. For while words in isolation can mean almost anything, once they are embedded in a context it becomes clear what they actually mean there.
		úterý 2. 12. 2014 13:00	Corpus induced compilation of a large reference dictionary of German: opportunities and limitations Alexander Geyken
		úterý 9. 12. 2014 13:00	Korpusová historie očima pamětníků :) Jan Kocek a Věra Schmiedtová
		úterý 16. 12. 2014 13:00	vánoční besídka ÚČNK
		úterý 6. 1. 2015 13:00 končí semestr	— seminář se nekoná
		úterý 13. 1. 2015 13:00	— seminář se nekoná
		úterý 20. 1. 2015 13:00	— seminář se nekoná
		úterý 27. 1. 2015 13:00	Čtenářské výzkumy – k čemu, proč a jak Jiří Trávníček jaká jsme čtenářská kultura ve srovnání s jinými zeměmi? co se dá výzkumy zjistit? jaké jsou důvody, proč tyto výzkumy provádět? jaké je jejich metodologické zázemí? jak propojit kvantitativní a kvalitativní linii? kam čtení směřuje do budoucna?
		úterý 3. 2. 2015 13:00	— seminář se nekoná
		úterý 10. 2. 2015 13:00	Překladové protějšky jako ‚ukazatele významu‘ Markéta Malá Na příkladu anglických sponových sloves se pokusím ukázat, jak lze někdy díky paralelnímu korpusu postupovat i v korpusové lingvistice od významu k formální realizaci. Repertoár sponových sloves je v češtině užší než v angličtině, a tak využívá čeština k modifikaci připsání nějakého příznaku podmětu vedle spon také různých jiných prostředků. Jejich rozmanitost se projevuje v překladových protějšcích anglických sponových predikací. Na druhé straně mohou české překladové korespondence odhalit specifické vlastnosti (skupin) anglických sponových sloves. S českými protějšky anglických sponových sloves je dále možné pracovat jako s ‚ukazateli významu‘. Překladové protějšky spojené s určitou sémantickou skupinou sponových sloves se vyskytují také jako překlady jiných anglických konstrukcí, které nesou stejný význam. V překladových korespondencích se pak objevuje celý repertoár těchto anglických prostředků. Užití této metody má ale výrazná omezení: předpokládá ideálně existenci takových překladových protějšků, které jsou dostatečně frekventované a formálně i sémanticky jednoznačné.
		úterý 17. 2. 2015 13:00 začíná semestr	A corpus driven comparison of Slavic prepositions and derivational morphology, or: what massively parallel texts are good for Ruprecht von Waldenfels The comparison of cognate functional material in a closely related set of languages such as that of the Slavic genus is difficult and very labour-intensive, since differences tend to be subtle and rarely clear-cut. The talk presents a method to investigate such differences on the basis of translationally equivalent texts and a corpus driven system for the simple investigation of many, heterogenous linguistic variables. I use a word aligned, morphologically tagged and lemmatized parallel corpus of prose in all major Slavic languages (ParaSol, see www.parasolcorpus.org), to derive an extensionally defined handle on the domain of use of diverse linguistic categories across languages. In the talk, the use of prepositions and derivational affixes in translationally equivalent segments across all major Slavic standard languages is compared and evaluated using clustering algorithms as well as more qualitative techniques, showing the usefulness of the technique as well as new insights into difficult to see patterns of convergence and divergence of, say, Czech, in respect to other Slavic languages.
		úterý 24. 2. 2015 13:00	— seminář se nekoná
		úterý 3. 3. 2015 13:00	Diskuse ke klasifikaci textů interní schuse ÚČNK Pro SYN2015 jsme se rozhodli přikročit k jistým změnám v klasifikaci textů, které by měly vést k aktuálnějším kategoriím a vhodnější granularitě tam, kde je potřeba. Předběžný návrh změn je hotový, smyslem semináře bude jej projednat, opřipomínkovat a na základě společné diskuse případně ještě upravit. Součástí semináře nebude prezentace stávající podoby klasifikace ani navrhovaných změn, s obojím je třeba se seznámit předem s pomocí přiložených materiálů. Důrazně vás prosíme, abyste si dokumenty nastudovali a mohli tak rovnou vplout do konstruktivní debaty. Materiály obsahují následující soubory: `klasifikace_puvodni.xlsx`: přehledná tabulka se stávající klasifikací (kdo potřebuje ucelenější úvod, může začít heslem txtype_group na wiki) `klasifikace_zmeny.docx`: popis navrhovaných změn `klasifikace_kompletni_info.docx`: detailně popsaná nová klasifikace po uplatnění změn `klasifikace_prehledna_tabulka.xlsx`: přehledná tabulka s novou klasifikací klasifikace_materialy.zip
		úterý 10. 3. 2015 13:00	— seminář se nekoná
		úterý 17. 3. 2015 13:00	Kvantitativní charakteristiky termínů Dominika Kováříková Během přednášky představím metodu automatického vyhledávání termínů založenou na data miningu (vytěžování rozsáhlých dat). Budu se snažit odpovědět na následující otázky: co jsou to termíny, jak je co nejlépe popsat a v jakých textech a jakým způsobem je můžeme najít. Představím online nástroj Termit na vyhledávání termínů v jakémkoli textu.
		úterý 24. 3. 2015 13:00	— seminář se nekoná
		úterý 31. 3. 2015 13:00	Vytváření internetových korpusů bez spamu Vít Suchomel Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů spamováním. Přítomnost spamu v textových korpusech významně ovlivňuje výsledky odvozené ze statistického zpracování korpusových dat. Je tedy důležité zabývat se tímto problémem, abychom mohli během čištění korpusu odstraňovat i spam. V přednášce bude popsán výskyt spamu ve webových korpusech, nabídnuta možná řešení jeho identifikace, případně způsoby vyhnutí se spamu, a ukázány počáteční drobné výsledky.
		úterý 7. 4. 2015 13:00	Sociální sítě jako zdroje pro jazykové korpusy Josef Šlerka
		úterý 14. 4. 2015 13:00	Vzájemné vztahy Čechů a Slováků Milena Hebal-Jezierska Účelem této přednášky je představit vztahy Čechů a Slováků na základě českých a slovenských tiskových zpráv z let 2005-2009. K analýze jsme využili analýzu kolokací, synsémantických slov a vybraných slovních spojení (např. bratrství Čechů a Slováků). Na základě této analýzy jsou Češi a Slováci zobrazeni v různých kategoriích.
		úterý 21. 4. 2015 13:00	— seminář se nekoná
		úterý 28. 4. 2015 13:00	Čeština jako cizí jazyk v ČNK Alexandr Rosen Po úvodu do problematiky tvorby, anotace a využití akvizičních korpusů obecně se zaměříme na žákovské korpusy češtiny. Některé z nich jsou přístupné z rozhraní KonText, např. korpus CzeSL-SGT, vybavený automaticky pořízenou lingvistickou i chybovou anotací. Na podrobnější popis anotace tohoto korpusu navážeme v závěru úvahami na téma možností anotace češtiny jako cizího jazyka.
		úterý 5. 5. 2015 13:00	Akademický slovník současné češtiny (k některým otázkám koncepce a tvorby připravovaného slovníku) Pavla Kochová V oddělení současné lexikologie a lexikografie Ústavu pro jazyk český AV ČR, v. v. i., vzniká od začátku roku 2012 Akademický slovník současné češtiny (ASSČ). Navazuje na tradici všeobecných výkladových slovníků vznikajících v ÚJČ v průběhu 20. století, avšak mnohé aspekty se vzhledem k vývoji v oblasti lingvistiky řeší nově nebo odlišně. Přednáška se zaměří 1) na základní charakteristiku vznikajícího slovníku, 2) na základní principy tvorby ASSČ, zejména v porovnání s lexikografickými postupy předcházejících slovníků a představí 3) řešení vybraných lexikálněsémantických jevů v ASSČ.
		úterý 12. 5. 2015 13:00	K vývoji konkurujících si tvarů na základě dat z ČNK Neil Bermel Jednotlivé změny ve struktuře jazyka údajně začínají pomalu, nabírají na rychlosti ve „střední fázi“ a ke konci se zase zpomalují. Tím vytvářejí křivku ve tvaru prodlouženého S (Denison 2003). Při zkoumání současné frekvence tří případů variace v české morfosyntaxi jsme zjistili, že z hlediska historické pokročilosti této variace by měl být každý z nich umístěn jinde na této křivce: Ve vzoru hrad nahrazení Gsg. {a} expanzivními tvary na {u} už postoupilo dost daleko: expanzivní tvar tvoří 88 % všech výskytů v SYN2005. Ve vzoru hrad byly tvary Lsg. na {e/ě} nahrazeny expanzivními tvary na {u} v 69 % výskytů v SYN2005. Ve vzoru kost přechod tvarů na nový vzor píseň nedošel tak daleko: v Gsg. se zatím realizuje ve 38 % výskytů v SYN. Pro bližší seznámení s vývojem těchto jevů jsme využili grafických možností rozhraní SyD a korpusu Diakon. Probereme některá omezení a nedostatky tohoto přístupu, ale zároveň upozorníme na poznatky, které zkoumání těchto trendů poskytují a možnosti kompenzace nedostatků využitím korpusu Diakorp. Naše sondy ukazují, že oproti jasnému celkovému vzestupu jedné koncovky je historie jednotlivých slovních tvarů mnohem pestřejší. Svědčí to jednak o složitějším průběhu těchto změn v rámci českého deklinačního systému, jednak o historických skutečnostech jazykového vývoje v českých zemích.
		úterý 19. 5. 2015 13:00 končí semestr	Slovesný vid v češtině z hlediska nevidomého pozorovatele Ilona Kořánová V příspěvku představím teze své disertační práce. Témata, kterým se budu věnovat, uvádím v bodech. Dvojí význam vidový: Gramatikalizovaný vid lexému na jedné straně a význam sdělení na straně druhé Parametry vidových rozdílů a temporálně aspektuální markery: další činitelé, kteří spolu s predikátem vytvářejí vidový význam Děje a stavy Přechody mezi stavy Povaha vztahů mezi členy vidové dvojice Sémantické skupiny predikátů
		pondělí 25. 5. 2015 13:00	— seminář se nekoná
		úterý 2. 6. 2015 13:00	— seminář se nekoná
		úterý 9. 6. 2015 13:00	Dvě česká nářečí na území dnešní RF Sergej Skorvid Přednáška si klade za cíl přiblížit současný stav dvou českých nářečí na území dnešní RF, která vznikla v důsledku dvou vln stěhování rolníků na severní Kavkaz od druhé poloviny 60. let 19. stol. a na Sibiř z ukrajinského Čechohradu počátkem 20. stol. Přednášející ukáže, že v obou těchto nářečích je celkem dobře zachován systém výchozích českých dialektů, v prvním případě jihozápadního a v druhém severovýchodního, zároveň se však na nich projevil dlouhodobý vliv ruštiny a zčásti ukrajinštiny, a to v rovině nejen lexikální, nýbrž také fonetické a gramatické. Nahráváním rozhovorů s mluvčími obou nářečí, od roku 2009 na severním Kavkaze a od roku 2013 na Sibiři, vznikl dosti reprezentatvní mluvený korpus, který nyní čeká na zpracování.
		úterý 16. 6. 2015 13:00	Building and linking lexical resources: corpus, dictionary and thesaurus data Lars Trap-Jensen For more than a hundred years, The Society for Danish Language and Literature has been editing literary works and documenting the language from the earliest period to the present day. More than 200 titles and 800 volumes have been published within the fields of bibliography, medieval diplomatics, fiction, poetry and drama, lexicography, language history, grammar and corpus. In this talk, a selection of projects and resources will be presented, with special emphasis on the lexical resources. In particular, the perspectives and challenges of linking digital data will be explored.