VELKÉ úterý
- ÚČNK
Schedule for the academic year 2014/2015
Date | Topic · Speaker · Abstract | ||
---|---|---|---|
VELKÉ úterý
|
|||
—
|
|||
—
|
|||
—
|
|||
začíná semestr |
—
|
||
Interview s Geoffreym Leechem - společné zhlédnutí a diskuze
|
|||
Měl Dostál pravdu? Nový empirický přístup k vidu ve staroslověnštině / Was Dostál right? A New Empirical Approach to Aspect in Old Slavonic
|
|||
—
|
|||
15 přikázání korpusového lingvisty - diskuze
|
|||
Problémy lemmatizace a značkování starších českých textů
|
|||
místnost 104 |
Building onto the corpus-driven approach: a wider look on meaning
What makes the corpus-driven approach stand out in language studies is its appeal as a ‘scientific’ methodology. Using computational tools to identify, count and measure real language data, we obtain dependable findings. Scientific practice, however, is no different from any other social practice: it is discursively constructed. In the absence of a ‘real’ fundament, there cannot be a ‘true’ bottom-up approach. All corpus research presupposes a consensus on the arbitrary decisions underlying our research question, and the findings obtained have to be interpreted to make sense. Meaning is found only in discourse. |
||
Corpus linguistics and the meaning of lexical items: how to distinguish grief from mourning
The meaning of a lexical item is not so much what we find in monolingual or bilingual dictionaries, for meaning is only in discourse. Traditional lexicography can only provide a first approach. It is in discourse that people negotiate what words mean, including, for instance, what distinguishes grief from mourning. For while words in isolation can mean almost anything, once they are embedded in a context it becomes clear what they actually mean there. |
|||
Corpus induced compilation of a large reference dictionary of German: opportunities and limitations
|
|||
Korpusová historie očima pamětníků :)
|
|||
vánoční besídka
|
|||
končí semestr |
—
|
||
—
|
|||
—
|
|||
Čtenářské výzkumy – k čemu, proč a jak
|
|||
—
|
|||
Překladové protějšky jako ‚ukazatele významu‘
Na příkladu anglických sponových sloves se pokusím ukázat, jak lze někdy díky paralelnímu korpusu postupovat i v korpusové lingvistice od významu k formální realizaci. Repertoár sponových sloves je v češtině užší než v angličtině, a tak využívá čeština k modifikaci připsání nějakého příznaku podmětu vedle spon také různých jiných prostředků. Jejich rozmanitost se projevuje v překladových protějšcích anglických sponových predikací. Na druhé straně mohou české překladové korespondence odhalit specifické vlastnosti (skupin) anglických sponových sloves. S českými protějšky anglických sponových sloves je dále možné pracovat jako s ‚ukazateli významu‘. Překladové protějšky spojené s určitou sémantickou skupinou sponových sloves se vyskytují také jako překlady jiných anglických konstrukcí, které nesou stejný význam. V překladových korespondencích se pak objevuje celý repertoár těchto anglických prostředků. Užití této metody má ale výrazná omezení: předpokládá ideálně existenci takových překladových protějšků, které jsou dostatečně frekventované a formálně i sémanticky jednoznačné. |
|||
začíná semestr |
A corpus driven comparison of Slavic prepositions and derivational morphology, or: what massively parallel texts are good for
The comparison of cognate functional material in a closely related set of languages such as that of the Slavic genus is difficult and very labour-intensive, since differences tend to be subtle and rarely clear-cut. The talk presents a method to investigate such differences on the basis of translationally equivalent texts and a corpus driven system for the simple investigation of many, heterogenous linguistic variables. I use a word aligned, morphologically tagged and lemmatized parallel corpus of prose in all major Slavic languages (ParaSol, see www.parasolcorpus.org), to derive an extensionally defined handle on the domain of use of diverse linguistic categories across languages. In the talk, the use of prepositions and derivational affixes in translationally equivalent segments across all major Slavic standard languages is compared and evaluated using clustering algorithms as well as more qualitative techniques, showing the usefulness of the technique as well as new insights into difficult to see patterns of convergence and divergence of, say, Czech, in respect to other Slavic languages. |
||
—
|
|||
Diskuse ke klasifikaci textů
Pro SYN2015 jsme se rozhodli přikročit k jistým změnám v klasifikaci textů, které by měly vést k aktuálnějším kategoriím a vhodnější granularitě tam, kde je potřeba. Předběžný návrh změn je hotový, smyslem semináře bude jej projednat, opřipomínkovat a na základě společné diskuse případně ještě upravit. Součástí semináře nebude prezentace stávající podoby klasifikace ani navrhovaných změn, s obojím je třeba se seznámit předem s pomocí přiložených materiálů. Důrazně vás prosíme, abyste si dokumenty nastudovali a mohli tak rovnou vplout do konstruktivní debaty. Materiály obsahují následující soubory:
|
|||
—
|
|||
Kvantitativní charakteristiky termínů
Během přednášky představím metodu automatického vyhledávání termínů založenou na data miningu (vytěžování rozsáhlých dat). Budu se snažit odpovědět na následující otázky: co jsou to termíny, jak je co nejlépe popsat a v jakých textech a jakým způsobem je můžeme najít. Představím online nástroj Termit na vyhledávání termínů v jakémkoli textu. |
|||
—
|
|||
Vytváření internetových korpusů bez spamu
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů spamováním. Přítomnost spamu v textových korpusech významně ovlivňuje výsledky odvozené ze statistického zpracování korpusových dat. Je tedy důležité zabývat se tímto problémem, abychom mohli během čištění korpusu odstraňovat i spam. V přednášce bude popsán výskyt spamu ve webových korpusech, nabídnuta možná řešení jeho identifikace, případně způsoby vyhnutí se spamu, a ukázány počáteční drobné výsledky. |
|||
Sociální sítě jako zdroje pro jazykové korpusy
|
|||
Vzájemné vztahy Čechů a Slováků
Účelem této přednášky je představit vztahy Čechů a Slováků na základě českých a slovenských tiskových zpráv z let 2005-2009. K analýze jsme využili analýzu kolokací, synsémantických slov a vybraných slovních spojení (např. bratrství Čechů a Slováků). Na základě této analýzy jsou Češi a Slováci zobrazeni v různých kategoriích. |
|||
—
|
|||
Čeština jako cizí jazyk v ČNK
Po úvodu do problematiky tvorby, anotace a využití akvizičních korpusů obecně se zaměříme na žákovské korpusy češtiny. Některé z nich jsou přístupné z rozhraní KonText, např. korpus CzeSL-SGT, vybavený automaticky pořízenou lingvistickou i chybovou anotací. Na podrobnější popis anotace tohoto korpusu navážeme v závěru úvahami na téma možností anotace češtiny jako cizího jazyka. |
|||
Akademický slovník současné češtiny (k některým otázkám koncepce a tvorby připravovaného slovníku)
V oddělení současné lexikologie a lexikografie Ústavu pro jazyk český AV ČR, v. v. i., vzniká od začátku roku 2012 Akademický slovník současné češtiny (ASSČ). Navazuje na tradici všeobecných výkladových slovníků vznikajících v ÚJČ v průběhu 20. století, avšak mnohé aspekty se vzhledem k vývoji v oblasti lingvistiky řeší nově nebo odlišně. Přednáška se zaměří 1) na základní charakteristiku vznikajícího slovníku, 2) na základní principy tvorby ASSČ, zejména v porovnání s lexikografickými postupy předcházejících slovníků a představí 3) řešení vybraných lexikálněsémantických jevů v ASSČ. |
|||
K vývoji konkurujících si tvarů na základě dat z ČNK
Jednotlivé změny ve struktuře jazyka údajně začínají pomalu, nabírají na rychlosti ve „střední fázi“ a ke konci se zase zpomalují. Tím vytvářejí křivku ve tvaru prodlouženého S (Denison 2003). Při zkoumání současné frekvence tří případů variace v české morfosyntaxi jsme zjistili, že z hlediska historické pokročilosti této variace by měl být každý z nich umístěn jinde na této křivce:
Pro bližší seznámení s vývojem těchto jevů jsme využili grafických možností rozhraní SyD a korpusu Diakon. Probereme některá omezení a nedostatky tohoto přístupu, ale zároveň upozorníme na poznatky, které zkoumání těchto trendů poskytují a možnosti kompenzace nedostatků využitím korpusu Diakorp. Naše sondy ukazují, že oproti jasnému celkovému vzestupu jedné koncovky je historie jednotlivých slovních tvarů mnohem pestřejší. Svědčí to jednak o složitějším průběhu těchto změn v rámci českého deklinačního systému, jednak o historických skutečnostech jazykového vývoje v českých zemích. |
|||
končí semestr |
Slovesný vid v češtině z hlediska nevidomého pozorovatele
V příspěvku představím teze své disertační práce. Témata, kterým se budu věnovat, uvádím v bodech.
|
||
—
|
|||
—
|
|||
Dvě česká nářečí na území dnešní RF
Přednáška si klade za cíl přiblížit současný stav dvou českých nářečí na území dnešní RF, která vznikla v důsledku dvou vln stěhování rolníků na severní Kavkaz od druhé poloviny 60. let 19. stol. a na Sibiř z ukrajinského Čechohradu počátkem 20. stol. Přednášející ukáže, že v obou těchto nářečích je celkem dobře zachován systém výchozích českých dialektů, v prvním případě jihozápadního a v druhém severovýchodního, zároveň se však na nich projevil dlouhodobý vliv ruštiny a zčásti ukrajinštiny, a to v rovině nejen lexikální, nýbrž také fonetické a gramatické. Nahráváním rozhovorů s mluvčími obou nářečí, od roku 2009 na severním Kavkaze a od roku 2013 na Sibiři, vznikl dosti reprezentatvní mluvený korpus, který nyní čeká na zpracování. |
|||
Building and linking lexical resources: corpus, dictionary and thesaurus data
For more than a hundred years, The Society for Danish Language and Literature has been editing literary works and documenting the language from the earliest period to the present day. More than 200 titles and 800 volumes have been published within the fields of bibliography, medieval diplomatics, fiction, poetry and drama, lexicography, language history, grammar and corpus. In this talk, a selection of projects and resources will be presented, with special emphasis on the lexical resources. In particular, the perspectives and challenges of linking digital data will be explored. |