On a blind date with the data: Corpus-driven analysis as a method for studying learner language



Samankaltaiset tiedostot
Corpus-driven analysis of cotextual units of meaning in learner language

Oppijansuomen piirteitä korpusvetoisesti

Corpus-driven Analysis of Learner Finnish

KORPUSANALYYSI OPPIJANSUOMEN EPÄTYYPILLISISTÄ KONTEKSTUAALISTA RAKENTEISTA

Minulla on aivan paljon rahaa. - Elementtirakenteita kielenopetukseen?

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

OP1. PreDP StudyPlan

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Results on the new polydrug use questions in the Finnish TDI data

General studies: Art and theory studies and language studies

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Salasanan vaihto uuteen / How to change password

Capacity Utilization

One-to-many mapping between closely related languages and its influence on second language acquisition

TIETEEN PÄIVÄT OULUSSA

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

The role of 3dr sector in rural -community based- tourism - potentials, challenges

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

MUSEOT KULTTUURIPALVELUINA

THE TEHDESSÄ CONSTRUCTION OF FINNISH AND THE TYPICALITY OF ADVANCED LEARNER LANGUAGE IN THE LIGHT OF NATIVE USERS' GRAMMATICALITY JUDGEMENTS

anna minun kertoa let me tell you

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Statistical design. Tuomas Selander

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

MEETING PEOPLE COMMUNICATIVE QUESTIONS

Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille?

Increase of opioid use in Finland when is there enough key indicator data to state a trend?

Sisällysluettelo Table of contents

Other approaches to restrict multipliers

Julkaisun laji Opinnäytetyö. Sivumäärä 43

7.4 Variability management

Information on preparing Presentation

The CCR Model and Production Correspondence

VUOSI 2015 / YEAR 2015

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Helsinki, Turku and WMT

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Lataa Legislating the blind spot - Nikolas Sellheim. Lataa

Suunnittelumallit (design patterns)

Efficiency change over time

Land-Use Model for the Helsinki Metropolitan Area

E U R O O P P A L A I N E N

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Lähivõrdlusi Lähivertailuja19

Ammatillinen opettajakorkeakoulu

Valuation of Asian Quanto- Basket Options

Vesitehokkuus liiketoiminnan uusi ajuri. Pöyry Forest Industry Consulting oy

Students Experiences of Workplace Learning Marja Samppala, Med, doctoral student

LYTH-CONS CONSISTENCY TRANSMITTER

SELL Student Games kansainvälinen opiskelijaurheilutapahtuma

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Basic Flute Technique

16. Allocation Models

Choose Finland-Helsinki Valitse Finland-Helsinki

HARJOITUS- PAKETTI A

Expression of interest

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Alueellinen yhteistoiminta

Haasteita oppijankielen korpusanalyysille: oppijankielen universaalit

Suomi 1B kertausmoniste

Rotarypiiri 1420 Piiriapurahoista myönnettävät stipendit

Uusia kokeellisia töitä opiskelijoiden tutkimustaitojen kehittämiseen

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Co-Design Yhteissuunnittelu

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

Stormwater filtration unit

1. Liikkuvat määreet

Miksi Suomi on Suomi (Finnish Edition)

Tehostettu kisällioppiminen tietojenkäsittelytieteen ja matematiikan opetuksessa yliopistossa Thomas Vikberg

Tietoa Joensuun Eliittikisoista

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

EXPERT SURVEY OF THE NEWS MEDIA

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

WP3 Decision Support Technologies

Vaihtoon lähdön motiivit ja esteet Pohjoismaissa. Siru Korkala

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

F-SECURE TOTAL. Pysy turvassa verkossa. Suojaa yksityisyytesi. Tietoturva ja VPN kaikille laitteille. f-secure.com/total

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Lapin Rovaniemen moduuli 2 verkko-opiskelijoiden kysymyksiä tetoimiston virkailijoiden tapaamiseen AC-huoneessa:

Jyrki Kontio, Ph.D

AYYE 9/ HOUSING POLICY

Uusi Ajatus Löytyy Luonnosta 3 (Finnish Edition)

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

XII International Congress for Finno-Ugric Studies, August 17-21, 2015, Oulu

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

Hankkeen toiminnot työsuunnitelman laatiminen

HOITAJAN ROOLI TEKNOLOGIAVÄLITTEISESSÄ POTILASOHJAUKSESSA VÄITÖSKIRJATUTKIJA JENNI HUHTASALO

7. Product-line architectures

Transkriptio:

On a blind date with the data: Corpus-driven analysis as a method for studying learner language Jarmo H. Jantunen 7th EAAL Conference April 24-25, 2008, Tallinn, Estonia http://www.oulu.fi/hutk/sutvi/oppijankieli/ jarmo.jantunen@oulu.fi

Topics of the presentation Corpus-driven approach Case study Material and methods Findings and further hypotheses

Two approaches to corpus data (Tognini Bonelli 2001) Corpus-based approach - Corpus is used to validate earlier theories. - Corpus is used to make corrections to earlier theories. - Corpus offers material to support and verify intuitive knowledge, to quantify existing categories or to select revealing samples. - Syntactic patterns are prioritised. - Researcher s intuition is important. Corpus-driven approach - Theory reflects the evidence provided by the corpus; it has no independent existence from the evidence. - Corpus provides new hypotheses and theories. - Corpus gives a holistic approach to language: lexico-grammatical approach. - Earlier findings and intuition do not play an imperative role. - Researcher s intuition is not reliable source of information.

Corpus-driven approach (Tognini Bonelli 2001) Many potentially meaningful patterns are not achieved in traditional approach; they are perhaps not recognised until the method is redefined. Cases which cannot be found in the data might also be interesting. Representativeness of the corpus is crucial. If the corpus is unrepresentative, there s a risk that the information is invalid.

Methods in today s case study Descriptive corpus-driven analysis The data will provide items that will be used to test a hypothesis or generate a new hypothesis. The findings are not treated as mistakes. Frequency analysis Key word analysis Cotext analysis Oxford WordSmith Tools 4.0 software (Wordlist, Keywords, Concord; Scott, Mike 2006)

Material NNF: The International Corpus of Learner Finnish (ICLFI) 121.000 tokens 436 texts genres: narratives, cameos, essays, news, diaries, learning diaries, argumentative texts, summaries, applications, letters, post cards, cartoons first languages: Swedish, Polish, Austrian German, Czech German, Russian, Dutch, Chinese, Icelandic proficiency levels: beginners, intermediates, advanced students NF: The Native Finnish Corpus (sub-corpus of the Corpus of Translated Finnish; 3,8 million tokens; Mauranen 2000)

Frequency analysis: wordlists of NNF and NF NF NNF ja on oli ei että se hän mutta kuin kun [and] [be-3sg] [be-3sg-past] [neg-3sg] [that] [it-nom] [s/he-nom] [but] [than] [when] ja on että hän oli ei mutta se minä koska [and] [be-3sg] [that] [s/he-nom] [be-3sg-past] [neg-3sg] [but] [it-nom] [I-nom] [because]

Key word analysis Key word is a word whose frequency is unusually high in a corpus in comparison with some norm (reference corpus) (Scott 2006). N Token F / ICLFI F / Native Corpus keyness 1 SINUHE [Sinuhe-nom] 233 1 1606,4 2 2007 [#] 193 0 1341,2 3 KOSKA [because] 722 3980 1237,0 4 TIMO [Timo-nom] 227 113 1152,2 5 ON [be-3sg] 3603 62607 1012,5 6 PALJON [much, lot of] 567 3 259 935,7 7 KELLO time, [time/watch nom-sg] watch 225 435 744,0 8 SINUHEN [Sinuhe-gen] 102 0 708,7 9 TÄNÄÄN [today] 217 494 664,21 10 MINUN [I-gen] 529 4025 658,35

Cotext analysis: KELLO in NNF and NF, frequencies and collocations NNF NF Atypically frequent in NNF: Atypical collocations in NNF: f 231 191 / 100.000 kello kahdeksan eight 27 kello olla to be 23 noin about kello 23 herätä to weak up kello 22 kello puoli half 17 kello kymmenen ten 16 kello kuusi six 14 f 790 21 / 100.000 kello olla to be 144 kello ja and 86 vilkaista to glance at kello 58 katsoa to check kello 36 kun when kello 19 kello viisi five 19 kello yhdeksän nine 19

Cotext analysis: KELLO in NNF and NF, semantic preference Semantic preference: a lexical set of frequently occurring collocates that share a semantic feature (Sinclair 1996, 1998; Stubbs 2001) Semantic preference KELLO < time > Atypically high proportion in NNF: 93 % (of all occurrences) NNF e.g. Heräsin kello yhdeksältä. I woke up at nine o clock. NF 29 % (of all occurrences)

Concordance of KELLO <time> in NNF 1 Dalarnassa. Minä herään aamulla kello kuusi ja laitan vaatteet päälle. Minä kävelen 2 oin minun suomen iltakurssi alkaa kello kuusi. Kurssi on yliopistossa. Minä menen a 3 n vaatteet päälle aika myöhään. Kello kaksitoista minä lähden kaupunkiin kaverin 4 amme golfia Nintendossa Wiissä. Kello kaksitoista me syömme lounasta. Minä en s 5 me työskentelimme kaksi tuntia. Kello kaksitoista otimme lounastauko. Elin ja minä 6 sa. En ostanut joku. Menin kotiin kello kolme. Sitten puhuin puhelimeen ystävälle. P 7 n kotiin. Palaan takaisin kouluun kello kolmetoista. Koulussa työskentelen kello viite 8 uluun. Meillä oli luento joka alkoi kello kolmetoista. Sitten minä söin lounasta 9 tolla Uumajasta. Tänään heräsin kello kahdeksan. Nousin kello kymmenen. Tänään 10 sella aamulla. Syöden aamiainen kello kahdeksan ja sitten kävellen metsässä. Joka 11 lounasruoka ja hedelmät kassiin. Kello kahdeksan lähden työhön. Minä menen pol 12 Se maistuu hyvältä. Juhla alkaa kello kahdeksan, mutta minä jään kauan. Kun No 13 ran ulos lenkille ja menin bussilla kello kahdeksan. Tulin töihin kello yhdeksään ja j 14 lma kestaa kaksi tuntia ja loppuu kello 2 yössä. Olen yksin koska Natalia meni kotiin. 15 irjoittaa. Menin nukkumaan vasta kello 2 ja tiistaina minun täytyy nousta kello 6.30.. 16 ettavat kello 16:45, bussini lähtee kello 17:50 siis teoreettisesti minulla oli paljon aik 17 lan presidentti puhuu televisiossa kello 12.00. Loppiainen, se on kirkollinen juhla on 18 paljon tekemisstä ennen Torstaita kello 12. Aamupäivällä panen tavarat hyllyille. Kel

Cotext analysis: KELLO in NNF and NF, semantic preference (2) NNF NF Semantic preference KELLO < looking' > Atypically low proportion in NNF: 1 % (of all occurrences) 14 % (of all occurrences)

Concordance of KELLO < looking > in NNF and NF NNF 1keiton riisillä. Ruoan jälkeen Timo katso kelloa, oliko viellä lounaksen jälkeen? Ei, Ti 2, kaikki ajattelevat kotiinmenoa ja katsovat kelloa kärsimättömästi. Tämmönen on op NF 1 to parkissa. Lainan ääni kohoaa. Katson kelloa, minulla on kolmetoista minuuttia aika 2 minuun, jos se kääntää päätään, katson kelloa, minä olen neljä minuuttia myöhässä, 3 ivahti. Havahduin ajatuksistani, katsoin kelloa ja totesin, että meidän oli pantava t 4 utuisiksi, mietin mä mitä tehdä. Katsoin kelloa ja ajattelin, että siellä ne nyt tanssisiv 5 joilla killui bonaa suupielissä. Mä vilkuilin kelloa ja mietin ratkaisua tilanteeseen. Kosk 6 sanoin kun huomasin, että se vilkuili kelloa eikä oikein tiennyt mitä sen pitäisi teh 7 katkaisematta. Kaukaa tulleet vilkuilevat kelloaan: viikonloppu pilalla. Maanantai 8 nen uskoutuessaan sinulle. Älä vilkuile kelloa." "38. Älä risteile kaukosäätimellä kan 9 lalle, sillä hän oli automaattisesti vilkaissut kelloaan, eikä se ikinä edistänyt tai jättän 10 tyy lähteä", Anni sanoi. Hän oli vilkaissut kelloa ja tajunnut, että heillä on vielä lähe 11 kaa ja onnellista laskeutumista. Vilkaisu kelloon kertoi, että Rauskin tuloon oli kolm 12 tkaa, mutta on aattona jo selvä, tuijottaa kelloa ja laskee montako tuntia pitää olla 13 pitää paikoillaan kädet tanassa, tuijottaa kellon heiluria ja kuunnella, kuinka vanha 14 Jassu raapaisi kynttilään tulen ja tihrusti kelloa. Kello oli ranteessa jotenkin hassus

Paradigmatic morfological preference in NNF and NF NNF NF Paradigmatic morfologial preference KELLO <nominative> <partitive> <genetive> <possessive suffix> Atypical proportions in NNF: 226 nominative (97,8%) 3 genitive (1,3%) 2 partitive (0,9%) 1 possessive suffix (kelloni, 0,4%) 464 nominative (58,7%) 193 partitive (24,4%) 94 genitive (11,9%) 16 elative (2,0%) 13 illative (1,6%) 81 possessive suffix (10,3%)

Typical cotextual structures of KELLO in NFF and NF NF: <'looking at'> KELLO [part-poss] <end of sentence> tkaisematta. Kaukaa tulleet vilkuilevat kelloaan: viikonloppu pilalla. Maana 1 mään. Hän oivalsi vasta nyt vilkaista kelloaan. Se oli jo puoli neljä. Hän oli 3 neeseen hieman valoa. Hän katsoi kelloaan. Se oli yksi. Yksi yöllä! He oliva 4 Kun lautanen oli tyhjä, Laura katsoi kelloaan ja kauhistui: Minun täytyy men NFF: <'waking up'> KELLO [nom] <'time'> 5 ikko, 31.10.2007 Minun täytyi nousta kello puoli viisi aamulla ja kiirehtiä jun 6 Minun päiväni Minä härrän Kello Kymmene. Hyvän yöunen jälkeen 7. Tänään on lauantai. Minä herään kello yhdeksän ja juon kahvia äidin ja NFF: < un/punctuality'> KELLO [nom] <'time'> 8 iksi alkaa polttaa savuketta täsmälleen kello 17:50. Lopuksi savuin kotiin ja 9 tsoivat tvtä. Timo meni kotiin tasan kello kymmenen ja sanoi Lisalle että h 10. Ajan polkupyörällä koululle noin kello puoli yhdekseen. Menen luennolle. 11 paikka teen suomen läksyä. Noin kello kuusi syön keskipäivää. Sitten soita

Conclusions 1. In learner language: - lemma KELLO is atypically frequent - atypical collocations exist - atypical semantic preferences exist - atypical morfological preferences exist - the frequent cotextual patterns differ from those in NF. Hypotheses for further tests: - atypical frequencies of lexical items - atypical cotextual patterns - also other than collocations are widespread tendencies in learner language.

Conclusions 2. Pros and cons of corpus-driven approach Cons (?) You might find information in the data that a) is unexpected b) is useless c) is difficult to explain d) does not confirm your intuition, theory or earlier findings e) the value of which depends on the quality of the data. Pros You might find information that a) is unexpected b) is useful in language description c) is against your intuition or general knowledge d) either confirm or weaken the hypotheses or theories. You ll find information that a) is based on the real language usage.

Going on a blind date again with the corpus data? Sure, without question!

Literature Firth, J. R. 1957. Papers in Linguistics 1934 51. Oxford University Press. Granger, S. 1998. Prefabricated patterns in advanced EFL writing: collocations and formulae. - Cowie A. (toim.) Phraseology: theory, analysis and applications. Oxford University Press. 145-160. Hassselgren, A. 1994. Lexical teddy bears and advanced learners: a study into the ways Norwegian students cope with English vocabulary. International Journal of Applied Linguistics 4 (2). 237 260. Hoey, Michael 1997. From concordance to text structure: new uses for computer corpora. Lewandowska-Tomaszczyk, B Melia, P. (toim.), PALC'97. Applications in Language Corpora Proceedings s. 2 23. Lódz University Press. Jantunen, J. H. 2004. Synonymia ja käännössuomi. Korpusnäkökulma samamerkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Joensuun yliopiston humanistisia julkaisuja 35. Nesselhauf, N. 2003. The Use of collocations by Advanced Learners of English and Some Implications for Teaching. Applied Linguistics 24 (2). 223 242. Sinclair, J. 1996. The Search for Units of Meaning. Textus IX s. 75 106. Sinclair, J. 1998. The Lexical Item. Weigand, E. (toim.), Contrastive Lexical Semantics. Benjamins, Amsterdam. 1 24. Stubbs, M. 2001. Words and Phrases. Corpus Studies of Lexical Semantics. Blackwell, Oxford. Tognini-Bonelli, Elena 2001. Corpus Linguistics at Work. John Benjamins.