Corpus-driven analysis of cotextual units of meaning in learner language Jarmo Harri Jantunen NEW TRENDS IN CORPUS LINGUISTICS FOR LANGUAGE TEACHING AND TRANSLATION STUDIES. IN HONOUR OF JOHN SINCLAIR Granada 22-24 September 2008 Project home page: www.oulu.fi/hutk/sutvi/oppijankieli/en/ Email: jarmo.jantunen@oulu.fi
Topics of the presentation Corpus-driven approach Case study Material and methods Findings and further hypotheses
Corpus-driven approach (Tognini Bonelli 2001) - Corpus gives a holistic approach to language: lexico-grammatical approach. - Earlier findings and intuition do not play an imperative role. - Researcher s intuition is not reliable source of information. - Theory reflects the evidence provided by the corpus; it has no independent existence from the evidence. - Corpus provides new hypotheses and theories.
Method in today s case study Descriptive corpus-driven analysis The data will provide items that will be used to test a hypothesis or generate a new hypothesis. The findings are not treated as mistakes. Frequency analysis Key word analysis Cotext analysis Oxford WordSmith Tools 4.0 software (Wordlist, Keywords, Concord; Scott 2006)
Material in today s case study NNF: The International Corpus of Learner Finnish (ICLFI) 263.000 tokens 1480 texts genres: narratives, cameos, essays, news, diaries, learning diaries, argumentative texts, summaries, applications, letters, post cards, cartoons first languages: Swedish, German, Austrian German, Dutch, Icelandic; Italian, Spanish; Russian, Polish, Slovak, Czech; Chinese; Estonian proficiency levels: beginners, intermediates, advanced students www.oulu.fi/hutk/sutvi/oppijankieli/iclfi_corpus.html NF: The Native Finnish Corpus (sub-corpus of the Corpus of Translated Finnish; 3.8 million tokens; Mauranen 2000)
Key word analysis Key word is a word whose frequency is unusually high in a corpus in comparison with some norm (reference corpus) (Scott 2006). N Token F / ICLFI F / Native Corpus keyness 1 ON [to be-3sg] 9710 62607 4548,9 2 MINUN [I-gen] 1612 4025 2610,5 3 KELLO time, [time/watch nom-sg] watch 721 435 2469,7 4 MINÄ [I-nom] 2768 12286 2426,0 5 PALJON [much, lot of] 1316 3259 2145,7 6 MENEN [to go-1sg] 545 211 2112,8 7 KOSKA [because] 1393 3980 2003,4 8 SYÖN [to eat-1sg] 382 29 1882,5 9 PIDÄN [to like-1sg] 352 134 1369,9 10 OLEN [to be-1sg] 1135 4003 1318,1
Cotext analysis: lemma KELLO in NNF and NF, frequency and collocations NNF NF Atypically frequent in NNF: Atypical collocates in NNF: f 741 282 / 100.000 f 790 21 / 100.000 KAHDEKSAN eight 74 OLLA to be 144 PUOLI 'half' 63 JA and 86 KAKSITOISTA 'twelve' 54 VILKAISTA to glance at 63 SEITSEMÄN 'seven' 53 KATSOA to check 40 NOIN about 52 SE 'it' 23 KYMMENEN ten 49 KUN when 20 HERÄTÄ to wake up 45 EI 'not' 20 KUUSI six 43 SOIDA 'to ring' 19 OLLA to be 42 VIISI five 19 YKSITOISTA 'eleven' 38 YHDEKSÄN nine 19
Cotext analysis: KELLO in NNF and NF, semantic preference Semantic preference: a lexical set of frequently occurring collocates that share a semantic feature (Sinclair 1996, 1998; Stubbs 2001) NNF NF Atypically high proportion: Semantic preference KELLO < time > 95 % (of all occurrences) 29 % (of all occurrences) e.g. Herän kello kahdeksan. I woke up at eight o clock.
Concordance of KELLO <'time'> in NNF 1 Dalarnassa. Minä herään aamulla kello kuusi ja laitan vaatteet päälle. Minä kävelen 2 oin minun suomen iltakurssi alkaa kello kuusi. Kurssi on yliopistossa. Minä menen a 3 n vaatteet päälle aika myöhään. Kello kaksitoista minä lähden kaupunkiin kaverin 4 amme golfia Nintendossa Wiissä. Kello kaksitoista me syömme lounasta. Minä en s 5 me työskentelimme kaksi tuntia. Kello kaksitoista otimme lounastauko. Elin ja minä 6 sa. En ostanut joku. Menin kotiin kello kolme. Sitten puhuin puhelimeen ystävälle. P 7 n kotiin. Palaan takaisin kouluun kello kolmetoista. Koulussa työskentelen kello viite 8 uluun. Meillä oli luento joka alkoi kello kolmetoista. Sitten minä söin lounasta 9 tolla Uumajasta. Tänään heräsin kello kahdeksan. Nousin kello kymmenen. Tänään 10 sella aamulla. Syöden aamiainen kello kahdeksan ja sitten kävellen metsässä. Joka 11 lounasruoka ja hedelmät kassiin. Kello kahdeksan lähden työhön. Minä menen pol 12 yksyinen maanantai. Mutta hei... Kello on jo yksitoista, miksi minä kirjoitan kotona 13 Anssi ja Jutta ovat humallassa. Kello on kymmenen ja ulkona ihmiset juhlivat 14 lma kestaa kaksi tuntia ja loppuu kello 2 yössä. Olen yksin koska Natalia meni kotiin. 15 irjoittaa. Menin nukkumaan vasta kello 2 ja tiistaina minun täytyy nousta kello 6.30.. 16 ettavat kello 16:45, bussini lähtee kello 17:50 siis teoreettisesti minulla oli paljon aik 17 lan presidentti puhuu televisiossa kello 12.00. Loppiainen, se on kirkollinen juhla on 18 paljon tekemisstä ennen Torstaita kello 12. Aamupäivällä panen tavarat hyllyille. Kel
Cotext analysis: KELLO in NNF and NF, semantic preference (2) NNF Atypically low proportion: NF Semantic preference KELLO < looking at' > 0.7 % (of all occurrences) 14 % (of all occurrences)
Paradigmatic morphological preference in NNF and NF Paradigmatic morphological preference KELLO <nominative: kello, kellot> <partitive: kelloa, kelloja> <genetive: kellon, kellojen> <possessive suffix: kelloni, kellosi > NNF Atypical proportions: 724 (97.7%) 12 (1.6%) 4 (0.5%) 1 (0.1%) NF 464 (58.7%) 193 (24.4%) 94 (11.9%) 81 (10.3%) 16 elative (2.0%) 13 illative (1.6%)
Typical cotextual structures of KELLO in NFF and NF NF: <'looking at'> KELLO [part-poss] <end of sentence> tkaisematta. Kaukaa tulleet vilkuilevat kelloaan: viikonloppu pilalla. Maana mään. Hän oivalsi vasta nyt vilkaista kelloaan. Se oli jo puoli neljä. Hän oli neeseen hieman valoa. Hän katsoi kelloaan. Se oli yksi. Yksi yöllä! He oliva Kun lautanen oli tyhjä, Laura katsoi kelloaan ja kauhistui: Minun täytyy men NFF: <'waking up'> KELLO [nom] <'time'> ikko, 31.10.2007 Minun täytyi nousta kello puoli viisi aamulla ja kiirehtiä jun Tänään on lauantai. Minä herään kello yhdeksän ja juon kahvia äidin ja NFF: < day'> KELLO [nom] <'time'> Nousen aamulla suunnilleen kello kahdeksan, mutta joskus olen niin väs on myös sanonta, että ilta-päivänä kello 4-6 on paras urheilu tunti. En varmasti, hänen kaverinsa. Keskiviikkona kello 11.00 hän kestää takaisin kirjat kirjastossa NFF: < un/punctuality'> KELLO [nom] <'time'> iksi alkaa polttaa savuketta täsmälleen kello 17:50. Lopuksi savuin kotiin ja tsoivat tvtä. Timo meni kotiin tasan kello kymmenen ja sanoi Lisalle että h Ajan polkupyörällä koululle noin kello puoli yhdekseen. Menen luennolle.
Conclusions: In learner language: - lemma KELLO is atypically frequent - atypical collocations exist - atypical semantic preferences exist - atypical morfological preferences exist - the frequent cotextual patterns differ from those in NF. Hypotheses for further tests: - atypical frequencies of lexical items - atypical cotextual patterns - also other than collocations are widespread tendencies in learner language.
Literature Firth, J. R. 1957. Papers in Linguistics 1934 51. Oxford University Press. Granger, S. 1998. Prefabricated patterns in advanced EFL writing: collocations and formulae. - Cowie A. (toim.) Phraseology: theory, analysis and applications. Oxford University Press. 145-160. Hassselgren, A. 1994. Lexical teddy bears and advanced learners: a study into the ways Norwegian students cope with English vocabulary. International Journal of Applied Linguistics 4 (2). 237 260. Hoey, Michael 1997. From concordance to text structure: new uses for computer corpora. Lewandowska-Tomaszczyk, B Melia, P. (toim.), PALC'97. Applications in Language Corpora Proceedings s. 2 23. Lódz University Press. Jantunen, J. H. 2004. Synonymia ja käännössuomi. Korpusnäkökulma samamerkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Joensuun yliopiston humanistisia julkaisuja 35. Nesselhauf, N. 2003. The Use of collocations by Advanced Learners of English and Some Implications for Teaching. Applied Linguistics 24 (2). 223 242. Sinclair, J. 1996. The Search for Units of Meaning. Textus IX s. 75 106. Sinclair, J. 1998. The Lexical Item. Weigand, E. (toim.), Contrastive Lexical Semantics. Benjamins, Amsterdam. 1 24. Stubbs, M. 2001. Words and Phrases. Corpus Studies of Lexical Semantics. Blackwell, Oxford. Tognini-Bonelli, Elena 2001. Corpus Linguistics at Work. John Benjamins.