Multidimenzionální analýza češtiny

Co je multidimenzionální analýza?

Multidimenzionální analýza (MDA) je metoda vyvinutá korpusovým lingvistou Douglasem Biberem pro empirický výzkum textové variability. Variabilitu se MDA pokouší uchopit na základě funkce, kterou mají variantní prostředky v textech. Na rozdíl od dřívějších postupů není cílem MDA apriorní určení jazykových rysů, které jsou typické pro určitou komunikační oblast, ale naopak souvýskyt jazykových rysů v textech je východiskem pro interpretaci. Z rysů, které se pospolu v textech často vyskytují, lze následně odvodit, jakou funkci tyto rysy společně naplňují.

Jak se postupuje při MDA?

MDA byla jako výzkumná metoda modelování registrové variability uplatněna na popis mnoha jazyků. Výzkumný postup se během let ustálil a sestává z následujících kroků:

sestavení korpusu,
výběr rysů a jejich vyhledání v korpusu (operacionalizace),
statistické vyhodnocení pomocí faktorové analýzy,
interpretace výsledků.

Výsledky MDA můžou sloužit kromě popisu jazykové variability i k určení hlavních registrů v daném jazyce (viz registrová klasifikace, která funguje jako komplement ke klasifikaci na txtype/genre).

Multidimenzionální model češtiny

Na základě analýzy korpusu Koditex byl jako optimální vytvořen model s 8 dimenzemi:

dynamický (+) vs. statický (−),
spontánní (+) vs. připravený (–),
vyšší (+) vs. nižší (–) stupeň koheze,
polytematický (+) vs. monotematický (–),
vyšší (+) vs. nižší (–) míra explicitní adresnosti,
obecný (+) vs. konkrétní (–),
prospektivní (+) vs. retrospektivní (–),
postojovost (+) vs. faktuálnost (–).

Pojmenování dimenzí vychází především z informace, které jazykové rysy se na jejich ustavení podílejí největší měrou (viz soupis prominentních rysů), a z postavení textů na jednotlivých dimenzích (viz nástroj MDAvis).

Řešitelé projektu

Základní publikace projektu (popis české MDA)

Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková, A., & Zasina, A. J. (2018). Variabilita češtiny: Multidimenzionální analýza. Slovo a slovesnost, 79(4), 293–321.
Cvrček, V., Laubeová, Z., Lukeš, D., Poukarová, P., Řehořková, A., & Zasina, A. J. (2020). Registry v češtině. Nakladatelství Lidové noviny.
Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková, A., & Zasina, A. J. (2021). From extra- to intratextual characteristics: Charting the space of variation in Czech through MDA. Corpus Linguistics and Linguistic Theory, 17(2), 351–382.

Nástroj, korpus a jeho popis

Nástroj na prohlížení výsledků MDA

Spustit MDAvis

Lukeš, D., & Cvrček, V. (2021). MDAvis: A Shiny app for visualizing Multi-Dimensional Analysis results. Accessible on-line at https://korpus.cz/mdavis. Source code available at https://github.com/dlukes/shiny-mda.

Popis korpusu Koditex

Zasina, A. J., Lukeš, D., Komrsková, Z., Poukarová, P., & Řehořková, A. (2018). Koditex: Korpus diverzifikovaných textů (Verze 1). Ústav Českého národního korpusu FF UK. www.korpus.cz
Zasina, A. J., & Komrsková, Z. (2019). Koditex – korpus diverzifikovaných textů. Studie z aplikované lingvistiky, 10(1), 127–132.

Data

Cvrček, V. et al., 2018, Multi-Dimensional Analysis of Czech (Original data for a general-purpose multi-dimensional analysis model of register variation in Czech). https://doi.org/10.18710/QAJKZW, The Tromsø Repository of Language and Linguistics (TROLLing).
Lukeš, D. 2018, Tidiness: A measure based on information theory to help with selecting an appropriate number of dimensions to extract in MDA. Accessible on-line at https://github.com/czcorpus/mda.

Publikace založené na výsledcích projektu

Cvrček, V., Komrsková, Z., & Lukeš, D. (2018). Rozsah registrové variability textů. In D. Kučera, J. M. Havigerová, J. Haviger, V. Cvrček, Z. Komrsková, D. Lukeš, T. Jelínek, T. Urbánek, & J. Franková, Výzkum CPACT: Komputační psycholingvistická analýza českého textu (s. 153–172). Pedagogická fakulta Jihočeské univerzity v Českých Budějovicích.
Henyš, J. (2019). Registrová variabilita českých internetových textů [Diplomová práce, FF UK]. https://dspace.cuni.cz/handle/20.500.11956/110335
Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková, A., Zasina, A. J., & Benko, V. (2020). Comparing web-crawled and traditional corpora. Language Resources and Evaluation, 54, 713–745.
Cvrček, V., Laubeová, Z., Lukeš, D., Poukarová, P., Řehořková, A., & Zasina, A. J. (2020). Author and register as sources of variation: A corpus-based study using elicited texts. International Journal of Corpus Linguistics, 25(4), 461–488.
Cvrček, V. (2022). Proměny registrů české žurnalistiky 1995–2018. Časopis pro moderní filologii 104(1), 7-34.
Poukarová, P. – Cvrček, V. (2023): Proměny prózy v letech 1992 až 2018. Česká literatura 70(6), 678–710.
Cvrček, V., Laubeová, Z., Lukeš, D., Poukarová, P., Řehořková, A., & Zasina, A. J. (2024). Register differences and intra-register variation of elicited texts. Register Studies 5(2), 143–170.

Grantová podpora

Česká MDA byla provedena na půdě Univerzity Karlovy výzkumníky z Ústavu Českého národního korpusu v rámci grantu Jazyková variabilita v CNC v letech 2017-2020. Projekt byl financován z prostředku Operačního programu Výzkum, vývoj a vzdělávání MŠMT.