Pojem fonotaktická probabilita odkazuje k frekvenci, s níž se fonologické segmenty a sekvence těchto segmentů objevují ve slovech v určitém jazyce (Vitevich & Luce, 2004). Předchozí výzkumy ukázaly, že fonotaktická probabilita slov hraje důležitou roli při zpracování a akvizici jazyka (Jusczyk, Luce & Charles-Luce, 1994; Mattys & Jusczyk, 2001; Pitt & McQueen, 1998). Slova s vysokou fonotaktickou probabilitou jsou například rychleji rozpoznávána rodilými mluvčími v úlohách detekce slova (lexical decision tasks) (Luce & Large, 2001) a pseudoslova s vysokou fonotaktickou probabilitou jsou dospělými hodnocena jako více pravděpodobná slova daného jazyka (Vitevitch, Luce, Charles-Luce & Kemmerer, 1997). V této přednášce představíme kalkulačku fonotaktické probability pro češtinu, která je volně dostupná jako skript v programovacím jazyce Python. Kalkulačka vychází z údajů o frekvenci slov ze dvou volně dostupných korpusů českého jazyka: korpus psaného jazyka SYN2015 (Křen & Cvrček et al., 2015) a korpus mluveného jazyka ORAL v1 (Kopřivová et al., 2017). Výpočet kopíruje postup původní kalkulačky pro anglický jazyk (Vitevich & Luce, 2004) a výstupem je odhad fonotaktické (a navíc také ortotaktické) probability pro jakékoliv české slovo či pseudoslovo. Dále představíme výsledky experimentu, při kterém rodilí mluvčí hodnotili “českost” 40 pseudoslov s různou hodnotou fonotaktické probability na škále od 1 do 7.
Literatura:
Jusczyk, P. W., Luce, P. A., & Charles-Luce, J. (1994). Infants′ sensitivity to phonotactic patterns in the native language. Journal of Memory and Language, 33(5), 630-645.
Kopřivová, M., Lukeš, D., Komrsková, Z., Poukarová, P., Waclawičová, M., Benešová, L., Křen, M. (2017). ORAL: a corpus of informal spoken Czech. Institute of Czech National Corpus, Prague. [Corpus]. http://www.korpus.cz
Křen, M., Cvrček, V., Čapka, T., Čermáková, A., Hnátková, M., Chlumská, L., Jelínek, T., Kováříková, D., Petkevič, V., Procházka, P., Skoumalová, H., Škrabal, M., Truneček, P., Vondřička, P., Zasina, A. (2015). SYN2015: a representative corpus of written Czech. Institute of Czech National Corpus, Prague. [Corpus] http://www.korpus.cz
Luce, P. A., & Large, N. R. (2001). Phonotactics, density, and entropy in spoken word recognition. Language and Cognitive Processes, 16(5-6), 565-581.
Mattys, S. L., & Jusczyk, P. W. (2001). Phonotactic cues for segmentation of fluent speech by infants. Cognition, 78(2), 91-121.
Pitt, M. A., & McQueen, J. M. (1998). Is compensation for coarticulation mediated by the lexicon?. Journal of Memory and Language, 39(3), 347-370.
Vitevitch, M. S., & Luce, P. A. (2004). A web-based interface to calculate phonotactic probability for words and nonwords in English. Behavior Research Methods, Instruments, & Computers, 36(3), 481-487.
Vitevitch, M. S., Luce, P. A., Charles-Luce, J., & Kemmerer, D. (1997). Phonotactics and Syllable Stress: Implications for the Processing of Spoken Nonsense Words. Language and Speech, 40(1), 47-62.