Corpus-driven Analysis of Learner Finnish Jarmo H. Jantunen 8th Conference on Nordic languages as second languages Helsinki 10. 12.5.2007
Corpus-driven Analysis of Learner Finnish Cotextual patterns and previous findings on learner language Material Methods Tentative findings and hypotheses
Co-occurrence patterns of words Collocation: a statistical co-occurrence of two words (mm. Firth 1957, Sinclair 1996, Stubbs 2001) Colligation: a co-occurrence of a word and a grammatical category (mm. Firth 1957, Hoey 1997, Sinclair 1998) oikein very <ADJ, ADV> (Jantunen 2004) Semantic preference: a lexical set of frequently occurring collocates that share a semantic feature (Sinclair 1996, 1998; Stubbs 2001) oikein < value : hyvä, hyvin, mainio, onnistunut> (Jantunen 2004)
Some previous cotext (collocation) analyses on learner language Hasselgren 1994: language learners favour untypical intensifiers (apologize <very (much)> cf. apologize <sincerely, a lot>) Nesselhauf 2003: mistakes in verb-noun collocations (film <take> cf. film <make>) Granger 1998: even the very advanced learners make mistakes in collocations Grönholm 2001: collocation mistakes made by immersion students
Material Pilot corpus of the International Corpus of Leaner Finnish (ICLFI) 41.200 tokens 211 texts genres: applications, diaries, letters, post cards, report, replies, summaries etc. modes of the text production: individual work (191), pair/groupwork (20) first languages: Swedish 56, Russian 20, German 16, Japan 11 (total 19 different FLs) Comparison corpora: The Native Finnish Corpus (sub-corpus of the Corpus of Translated Finnish, Mauranen 2000) 3,8 milj. tokens The Textbank of Finnish
Methods Corpus-driven analysis (data-driven, Tognini- Bonelli 1996) The data will provide items that a researcher will use to test a hypothesis or generate a new hypothesis. Frequency analysis Key word analysis Cotext analysis WordSmith Tools software (Wordlist, Keywords, Concord; Scott 1999)
Key word analysis N Token F / Pilot Corpus F / Native Corpus keyness 1 TIMO [Timo-nom] 130 114 843,9 2 OLEN [be-1sg] 275 3 831 558,5 3 ON [be-3sg] 1 316 62 632 466,5 4 PALJON [much, lot of] 222 3 261 431.6 5 HE [they-nom] 262 5 858 338,5 6 KELLO [time/watch nom-sg] 86 435 322,2 7 MINÄ [I-nom] 377 11 728 312,3 8 KOSKA [because] 205 3 981 308,2 9 OSTAISIN [buy-1sg-cond] 34 6 274,5 10 OULU [Oulu-nom] 39 24 270,3 11 MINUN [I-gen] 187 4 026 251,9 12 SYÖN [eat-1sg] 37 29 245,5 13 TÄNÄÄN [today] 74 495 241,7 14 SIRKKA [Sirkka-nom] 38 45 230,9 15 KOTIIN [home-ill] 90 973 220,3 16 MENEN [go-1sg] 53 212 219,8 17 KUVASSA [picture-ine] 49 164 217,9 18 SÖIN [eat-1sg-past] 38 61 213,9 19 SAVONLINNASSA [Savonl-ine] 27 6 213,6 20 YLIOPISTOSSA [university-ine] 37 68 200,6
Collocates of paljon (MI-test, T-test) Pilot corpus of ICLFI (statistically significant) SE, SUOMI, PITÄÄ, RUOKA, KOSKA,, RAHA, OPISKELLA, TEHDÄ, ESIMERKIKSI, JO, KALA, SUOMI, USEIN, AINA, KÄYTTÄÄ, VIHREÄ, ERI, ERI, LAULAA, LAULAA, IHMINEN, IHMINEN, JUODA, JUODA, SAVONLINNA, SAVONLINNA, TIETÄÄ, TIETÄÄ, JOS, JOS OSTAA, NIIN, LIIAN, PUHUA, KUIN, TÄÄLLÄ, OPPIA, Textbank (30 most significant) NIIN, KUIN, KUINKA, YHTÄ, KOVIN, PUHUA, MAHDOLLISIMMAN, LIIAN, RAHA, MITEN, TODELLA, RIIPPUA, YLLÄTTÄVÄN, VÄKI, SIELLÄ, TÄÄLLÄ ERITTÄIN, POIKKEUKSELLISEN, LIIKKUA, OPPIA, POIKETA, HERÄTTÄÄ, VAIHDELLA, TEKEMINEN, ERITYISEN, MELKO, TURHAN, HELPPO, SISÄLTÄÄ, JULKISUUS NF: PALJON <degree modifiers>
et... olivat isossa juhlassa, joivat koko yön oikein paljon. Tänään tämä mies heräsi kello yhdeltä. keskustaan ja päättivät istua kahvilassa ja juoda paljon kahvia. Kesällä kaupungiin keskustassa teatterissa. P.P. Viime lauvantaina yöllä joimme paljon kosken korvaa, se on kiva! Moi Moi! ja järvessä joka illalla söimme makkara. Joimme paljon olutta. Viime lauvantaina illalla uimme j tarjosivat olutta. Onneksi Adam ei joi liian paljon ja ei minua. Kiinalaiset eivät puhu aulin joutui mennä ulos vain pari minuuttia sitten. Paljon olutta virtasi saunomisen aikana, ja kolm ivätkä ole hyödyllisiä. Ihmisten täytyy syödä mitä paljon vihanneksia ja valitettavasti McDonald's:i rkiksi dallaspullia. Yleensä Suomessa syödään paljon terveellisemmin kuin Amerikassa. Suomess vä, he menevät kalastamaan järvellä, ja Raija syö paljon kalaa. Koska hän syö ainaa kalaa, hanes ssapaljon Timo tilasi ruoka< food, mutta hän ei syönyt drinks, paljon. to Minäeat, täydyn to löytäädrink > hänet Timo Lle ja sukeltaisin ja katsoisin kalat. Söisin paljon tuoretta hedelmiä. Ostaisin markkinasta Lauantaina hyvä seisova pöytää. Minä söin paljon pizzaa. Siellä oli pastaa, pizzaa, kanaa ja salaatia Ltornit! Se on suuri ja vaikuttava. Söimme paljon hyvää ruokaa, esimerkiksi juustotorttu ja patonget -Villelle ruuat, mutta onneksi hän tykkäsi paljon niistä. Me syötiin raakoja kaloja, katkarapuja Otta. Annani luota söimme täytekakkua, paljon täytekakkua. Sitten menin kotiin. Itoa ranskaa kahvilaa. Hurjan hyvin! Söin paljon lehteväjä voisarvia. Tänään on k kuppia Colan kanssa, BigMac. McDonaldissa on paljon ruoka, joka ei ole terve. McDonalin ruokal maistuvaa ruokaa. Siksi että minä pidä tosi paljon kiinalaista ruokaa. Thaimaassa minä nauttisin N että minun matakani Aasiassa sisältäisi paljon hyvää maistuvaa ruokaa. Siksi että Kuuta Jouluaatto oli hauskaa ja mukava. Paljon roukaa, paljon pakettia, paljon naurua! hänen onkinsa ja alkoi kalastaa. Koska se ei ole paljon kaloja tällä paikalla, se kesti ihan kauan s) telivat, että he laittivat kalaruoka, koska heillä oli paljon kalaa. He kuitenkin huomasivat, että he u erilaisia kuvia. Kuvissa ovat eläimiä (esim.poro), paljon kaloja. Yksi kuvassa on gallerin ohjelma: ) än vaimo on maailman kuuluisia kalastaja ja liian paljon muikkuja on paistettu. Oliivin öljyä tuli It :issa kivan elokuvan jälkeen. Heillä on myös aika paljon makeita jälkiruokia ja lapsillekin tarjoteta ää sen. Täytyy olla kokenut kokki. Tarvitaan liian paljon hiiva ja sitten täytyy odottaa koska "voul-au-vent arjalan ihmisillä on nyt kuuma aika: metsässä on paljon erinlaisia sienia ja marjoita, joita täytyy p mutta kummallinen. Kauppoissa ostin paljon suomen levyitä, jogurtteja ja san Huomaan aina, että Suomessa ei ole niin paljon eri amerikkalaisia roskaruoka-ketjuja
Tentative findings and hypotheses Atypical cotextual frequencies and patterns: - lemma PALJON (overused) - collocations PALJON < SE, SUOMI, PITÄÄ RUOKA, KOSKA, RAHA, OPISKELLA, TEHDÄ, ESIMERKIKSI, JO, KALA, SUOMI, USEIN, AINA, KÄYTTÄÄ, VIHREÄ, ERI, LAULAA, IHMINEN, JUODA, SAVONLINNA, TIETÄÄ, JOS > (overused) - colligation PALJON <DEGREE MODIFIER> (underused) - semantic preference PALJON < food, drink, nutrition, to eat, to drink)> (overused) Hypotheses on atypicalities in learner language: - atypical frequencies of lexical items - atypical frequencies of co-occurrence patterns - atypical co-occurrence patterns (also other than collocations)
References Firth, J. R. 1957. Papers in Linguistics 1934 51. Oxford University Press. Granger, S. 1998. Prefabricated patterns in advanced EFL writing: collocations and formulae. - Cowie A. (toim.) Phraseology: theory, analysis and applications. Oxford University Press. 145-160. Grönholm, M. 2001. Idiomien ja kollokaatioiden oppiminen suomenkielisessä kielikylvyssä. Sulkala, H. & Nissilä, L. (toim.), XXVII Kielitieteen päivät Oulussa 10. 20.5.2000. Suomen ja saamen kielen ja logopedian laitos. Oulun yliopisto. 55 62. Hassselgren, A. 1994. Lexical teddy bears and advanced learners: a study into the ways Norwegian students cope with English vocabulary. International Journal of Applied Linguistics 4 (2). 237 260. Hoey, Michael 1997. From concordance to text structure: new uses for computer corpora. Lewandowska-Tomaszczyk, B Melia, P. (toim.), PALC'97. Applications in Language Corpora Proceedings s. 2 23. Lódz University Press. Jantunen, J. H. 2004. Synonymia ja käännössuomi. Korpusnäkökulma samamerkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Joensuun yliopiston humanistisia julkaisuja 35. Nesselhauf, N. 2003. The Use of collocations by Advanced Learners of English and Some Implications for Teaching. Applied Linguistics 24 (2). 223 242. Sinclair, J. 1996. The Search for Units of Meaning. Textus IX s. 75 106. Sinclair, J. 1998. The Lexical Item. Weigand, E. (toim.), Contrastive Lexical Semantics. Benjamins, Amsterdam. 1 24. Stubbs, M. 2001. Words and Phrases. Corpus Studies of Lexical Semantics. Blackwell, Oxford.