Corpus-driven analysis of cotextual units of meaning in learner language

Samankaltaiset tiedostot
Corpus-driven Analysis of Learner Finnish

Oppijansuomen piirteitä korpusvetoisesti

On a blind date with the data: Corpus-driven analysis as a method for studying learner language

KORPUSANALYYSI OPPIJANSUOMEN EPÄTYYPILLISISTÄ KONTEKSTUAALISTA RAKENTEISTA

Minulla on aivan paljon rahaa. - Elementtirakenteita kielenopetukseen?

One-to-many mapping between closely related languages and its influence on second language acquisition

OP1. PreDP StudyPlan

THE TEHDESSÄ CONSTRUCTION OF FINNISH AND THE TYPICALITY OF ADVANCED LEARNER LANGUAGE IN THE LIGHT OF NATIVE USERS' GRAMMATICALITY JUDGEMENTS

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

3. kappale (kolmas kappale) AI KA

General studies: Art and theory studies and language studies

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Results on the new polydrug use questions in the Finnish TDI data

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Vnitřní lokální pády statický: inessiv ssa směr od: elativ sta směr do: illativ Vn, -hvn, -seen

Helsinki, Turku and WMT

Increase of opioid use in Finland when is there enough key indicator data to state a trend?

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

MUSEOT KULTTUURIPALVELUINA

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Sisällysluettelo Table of contents

TIETEEN PÄIVÄT OULUSSA

Students Experiences of Workplace Learning Marja Samppala, Med, doctoral student

Odpowiedzi do ćwiczeń

Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille?

Vesitehokkuus liiketoiminnan uusi ajuri. Pöyry Forest Industry Consulting oy

E U R O O P P A L A I N E N

AJANILMAISUT AJAN ILMAISUT KOULUTUSKESKUS SALPAUS MODUULI 3

Information on Finnish Language Courses Autumn Semester 2019 Sanni Aava, Karoliina Salo & Hanna Jokela

Haasteita oppijankielen korpusanalyysille: oppijankielen universaalit

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Kielen opintopolut/ Language study paths

Salasanan vaihto uuteen / How to change password

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Expression of interest

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

Kielen opintopolut- Courses and Proficiency Levels Kielikeskus/Language Centre, Saimaan amk ja LUT Saksa/German

Suunnittelumallit (design patterns)

Efficiency change over time

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

MODUULI 1 TÄRKEÄT VERBIREKTIOT (VERBI + KYSYMYSSANA)

LAUSESANAT KONJUNKTIOT

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

XII International Congress for Finno-Ugric Studies, August 17-21, 2015, Oulu

Lähivõrdlusi Lähivertailuja19

SAMU ON TYÖSSÄ KOULUSSA. LAPSET JUOKSEVAT METSÄÄN. POJAT TULEVAT KAUPASTA.

Kohtaavatko työelämän kielitaitotarpeet ja suomalainen kielitaitovaranto? TkT Marjatta Huhta, Metropolia amk Professori Sauli Takala

Lataa Legislating the blind spot - Nikolas Sellheim. Lataa

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Basic Flute Technique

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Kokemuksia opintovierailulle osallistumisesta Study Visit september 23 september ICT in education

Co-Design Yhteissuunnittelu

Capacity Utilization

Statistical design. Tuomas Selander

Tehostettu kisällioppiminen tietojenkäsittelytieteen ja matematiikan opetuksessa yliopistossa Thomas Vikberg

MEETING PEOPLE COMMUNICATIVE QUESTIONS

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Ammatillinen opettajakorkeakoulu

MISSÄ OLET TÖISSÄ? MINKÄLAINEN ON SINUN TAVALLINEN TYÖPÄIVÄ?

Land-Use Model for the Helsinki Metropolitan Area

Rotarypiiri 1420 Piiriapurahoista myönnettävät stipendit

WP3 Decision Support Technologies

The role of 3dr sector in rural -community based- tourism - potentials, challenges

7.4 Variability management

Perusoikeusbarometri. Panu Artemjeff Erityisasiantuntija

Stormwater filtration unit

The use of the partitive case in Finnish learner language:

Business Opening. Arvoisa Herra Presidentti Very formal, recipient has a special title that must be used in place of their name

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

SELL Student Games kansainvälinen opiskelijaurheilutapahtuma

Valuation of Asian Quanto- Basket Options

NAO- ja ENO-osaamisohjelmien loppuunsaattaminen ajatuksia ja visioita

Accommodation statistics

asiantuntijuutta kohti kouluprojektia rakentamalla

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

anna minun kertoa let me tell you

Yksilöllistä, puhuroi, suorita - Mitä käyttöliittymien termien taakse kätkeytyy?

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

I. Principles of Pointer Year Analysis

Työharjoittelu Saksassa - Kleve Työharjoittelu paikka - Kleidorp Ajankohta

HARJOITUS- PAKETTI A

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

Täytyy-lause. Minun täytyy lukea kirja.

Hotel Pikku-Syöte: accommodation options and booking

F-SECURE TOTAL. Pysy turvassa verkossa. Suojaa yksityisyytesi. Tietoturva ja VPN kaikille laitteille. f-secure.com/total

* for more information. Sakari Nurmela

LYTH-CONS CONSISTENCY TRANSMITTER

Learner Language, Learner Corpora Oulu

Foreigners in Kuopio 2018

Vaihtoon lähdön motiivit ja esteet Pohjoismaissa. Siru Korkala

Kielitaito ja talous. Roope Uusitalo

Yliopisto-opinnoissa karttuvat työelämätaidot. Eila Pajarre, Mira Valkonen ja Sanna Kivimäki TTY

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Transkriptio:

Corpus-driven analysis of cotextual units of meaning in learner language Jarmo Harri Jantunen NEW TRENDS IN CORPUS LINGUISTICS FOR LANGUAGE TEACHING AND TRANSLATION STUDIES. IN HONOUR OF JOHN SINCLAIR Granada 22-24 September 2008 Project home page: www.oulu.fi/hutk/sutvi/oppijankieli/en/ Email: jarmo.jantunen@oulu.fi

Topics of the presentation Corpus-driven approach Case study Material and methods Findings and further hypotheses

Corpus-driven approach (Tognini Bonelli 2001) - Corpus gives a holistic approach to language: lexico-grammatical approach. - Earlier findings and intuition do not play an imperative role. - Researcher s intuition is not reliable source of information. - Theory reflects the evidence provided by the corpus; it has no independent existence from the evidence. - Corpus provides new hypotheses and theories.

Method in today s case study Descriptive corpus-driven analysis The data will provide items that will be used to test a hypothesis or generate a new hypothesis. The findings are not treated as mistakes. Frequency analysis Key word analysis Cotext analysis Oxford WordSmith Tools 4.0 software (Wordlist, Keywords, Concord; Scott 2006)

Material in today s case study NNF: The International Corpus of Learner Finnish (ICLFI) 263.000 tokens 1480 texts genres: narratives, cameos, essays, news, diaries, learning diaries, argumentative texts, summaries, applications, letters, post cards, cartoons first languages: Swedish, German, Austrian German, Dutch, Icelandic; Italian, Spanish; Russian, Polish, Slovak, Czech; Chinese; Estonian proficiency levels: beginners, intermediates, advanced students www.oulu.fi/hutk/sutvi/oppijankieli/iclfi_corpus.html NF: The Native Finnish Corpus (sub-corpus of the Corpus of Translated Finnish; 3.8 million tokens; Mauranen 2000)

Key word analysis Key word is a word whose frequency is unusually high in a corpus in comparison with some norm (reference corpus) (Scott 2006). N Token F / ICLFI F / Native Corpus keyness 1 ON [to be-3sg] 9710 62607 4548,9 2 MINUN [I-gen] 1612 4025 2610,5 3 KELLO time, [time/watch nom-sg] watch 721 435 2469,7 4 MINÄ [I-nom] 2768 12286 2426,0 5 PALJON [much, lot of] 1316 3259 2145,7 6 MENEN [to go-1sg] 545 211 2112,8 7 KOSKA [because] 1393 3980 2003,4 8 SYÖN [to eat-1sg] 382 29 1882,5 9 PIDÄN [to like-1sg] 352 134 1369,9 10 OLEN [to be-1sg] 1135 4003 1318,1

Cotext analysis: lemma KELLO in NNF and NF, frequency and collocations NNF NF Atypically frequent in NNF: Atypical collocates in NNF: f 741 282 / 100.000 f 790 21 / 100.000 KAHDEKSAN eight 74 OLLA to be 144 PUOLI 'half' 63 JA and 86 KAKSITOISTA 'twelve' 54 VILKAISTA to glance at 63 SEITSEMÄN 'seven' 53 KATSOA to check 40 NOIN about 52 SE 'it' 23 KYMMENEN ten 49 KUN when 20 HERÄTÄ to wake up 45 EI 'not' 20 KUUSI six 43 SOIDA 'to ring' 19 OLLA to be 42 VIISI five 19 YKSITOISTA 'eleven' 38 YHDEKSÄN nine 19

Cotext analysis: KELLO in NNF and NF, semantic preference Semantic preference: a lexical set of frequently occurring collocates that share a semantic feature (Sinclair 1996, 1998; Stubbs 2001) NNF NF Atypically high proportion: Semantic preference KELLO < time > 95 % (of all occurrences) 29 % (of all occurrences) e.g. Herän kello kahdeksan. I woke up at eight o clock.

Concordance of KELLO <'time'> in NNF 1 Dalarnassa. Minä herään aamulla kello kuusi ja laitan vaatteet päälle. Minä kävelen 2 oin minun suomen iltakurssi alkaa kello kuusi. Kurssi on yliopistossa. Minä menen a 3 n vaatteet päälle aika myöhään. Kello kaksitoista minä lähden kaupunkiin kaverin 4 amme golfia Nintendossa Wiissä. Kello kaksitoista me syömme lounasta. Minä en s 5 me työskentelimme kaksi tuntia. Kello kaksitoista otimme lounastauko. Elin ja minä 6 sa. En ostanut joku. Menin kotiin kello kolme. Sitten puhuin puhelimeen ystävälle. P 7 n kotiin. Palaan takaisin kouluun kello kolmetoista. Koulussa työskentelen kello viite 8 uluun. Meillä oli luento joka alkoi kello kolmetoista. Sitten minä söin lounasta 9 tolla Uumajasta. Tänään heräsin kello kahdeksan. Nousin kello kymmenen. Tänään 10 sella aamulla. Syöden aamiainen kello kahdeksan ja sitten kävellen metsässä. Joka 11 lounasruoka ja hedelmät kassiin. Kello kahdeksan lähden työhön. Minä menen pol 12 yksyinen maanantai. Mutta hei... Kello on jo yksitoista, miksi minä kirjoitan kotona 13 Anssi ja Jutta ovat humallassa. Kello on kymmenen ja ulkona ihmiset juhlivat 14 lma kestaa kaksi tuntia ja loppuu kello 2 yössä. Olen yksin koska Natalia meni kotiin. 15 irjoittaa. Menin nukkumaan vasta kello 2 ja tiistaina minun täytyy nousta kello 6.30.. 16 ettavat kello 16:45, bussini lähtee kello 17:50 siis teoreettisesti minulla oli paljon aik 17 lan presidentti puhuu televisiossa kello 12.00. Loppiainen, se on kirkollinen juhla on 18 paljon tekemisstä ennen Torstaita kello 12. Aamupäivällä panen tavarat hyllyille. Kel

Cotext analysis: KELLO in NNF and NF, semantic preference (2) NNF Atypically low proportion: NF Semantic preference KELLO < looking at' > 0.7 % (of all occurrences) 14 % (of all occurrences)

Paradigmatic morphological preference in NNF and NF Paradigmatic morphological preference KELLO <nominative: kello, kellot> <partitive: kelloa, kelloja> <genetive: kellon, kellojen> <possessive suffix: kelloni, kellosi > NNF Atypical proportions: 724 (97.7%) 12 (1.6%) 4 (0.5%) 1 (0.1%) NF 464 (58.7%) 193 (24.4%) 94 (11.9%) 81 (10.3%) 16 elative (2.0%) 13 illative (1.6%)

Typical cotextual structures of KELLO in NFF and NF NF: <'looking at'> KELLO [part-poss] <end of sentence> tkaisematta. Kaukaa tulleet vilkuilevat kelloaan: viikonloppu pilalla. Maana mään. Hän oivalsi vasta nyt vilkaista kelloaan. Se oli jo puoli neljä. Hän oli neeseen hieman valoa. Hän katsoi kelloaan. Se oli yksi. Yksi yöllä! He oliva Kun lautanen oli tyhjä, Laura katsoi kelloaan ja kauhistui: Minun täytyy men NFF: <'waking up'> KELLO [nom] <'time'> ikko, 31.10.2007 Minun täytyi nousta kello puoli viisi aamulla ja kiirehtiä jun Tänään on lauantai. Minä herään kello yhdeksän ja juon kahvia äidin ja NFF: < day'> KELLO [nom] <'time'> Nousen aamulla suunnilleen kello kahdeksan, mutta joskus olen niin väs on myös sanonta, että ilta-päivänä kello 4-6 on paras urheilu tunti. En varmasti, hänen kaverinsa. Keskiviikkona kello 11.00 hän kestää takaisin kirjat kirjastossa NFF: < un/punctuality'> KELLO [nom] <'time'> iksi alkaa polttaa savuketta täsmälleen kello 17:50. Lopuksi savuin kotiin ja tsoivat tvtä. Timo meni kotiin tasan kello kymmenen ja sanoi Lisalle että h Ajan polkupyörällä koululle noin kello puoli yhdekseen. Menen luennolle.

Conclusions: In learner language: - lemma KELLO is atypically frequent - atypical collocations exist - atypical semantic preferences exist - atypical morfological preferences exist - the frequent cotextual patterns differ from those in NF. Hypotheses for further tests: - atypical frequencies of lexical items - atypical cotextual patterns - also other than collocations are widespread tendencies in learner language.

Literature Firth, J. R. 1957. Papers in Linguistics 1934 51. Oxford University Press. Granger, S. 1998. Prefabricated patterns in advanced EFL writing: collocations and formulae. - Cowie A. (toim.) Phraseology: theory, analysis and applications. Oxford University Press. 145-160. Hassselgren, A. 1994. Lexical teddy bears and advanced learners: a study into the ways Norwegian students cope with English vocabulary. International Journal of Applied Linguistics 4 (2). 237 260. Hoey, Michael 1997. From concordance to text structure: new uses for computer corpora. Lewandowska-Tomaszczyk, B Melia, P. (toim.), PALC'97. Applications in Language Corpora Proceedings s. 2 23. Lódz University Press. Jantunen, J. H. 2004. Synonymia ja käännössuomi. Korpusnäkökulma samamerkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Joensuun yliopiston humanistisia julkaisuja 35. Nesselhauf, N. 2003. The Use of collocations by Advanced Learners of English and Some Implications for Teaching. Applied Linguistics 24 (2). 223 242. Sinclair, J. 1996. The Search for Units of Meaning. Textus IX s. 75 106. Sinclair, J. 1998. The Lexical Item. Weigand, E. (toim.), Contrastive Lexical Semantics. Benjamins, Amsterdam. 1 24. Stubbs, M. 2001. Words and Phrases. Corpus Studies of Lexical Semantics. Blackwell, Oxford. Tognini-Bonelli, Elena 2001. Corpus Linguistics at Work. John Benjamins.