Corpus-driven Analysis of Learner Finnish



Samankaltaiset tiedostot
Oppijansuomen piirteitä korpusvetoisesti

KORPUSANALYYSI OPPIJANSUOMEN EPÄTYYPILLISISTÄ KONTEKSTUAALISTA RAKENTEISTA

Corpus-driven analysis of cotextual units of meaning in learner language

On a blind date with the data: Corpus-driven analysis as a method for studying learner language

Minulla on aivan paljon rahaa. - Elementtirakenteita kielenopetukseen?

Objektiharjoituksia. Harjoitus 2 Tässä on lyhyitä dialogeja. Pane objektit oikeaan muotoon. 1) - Vien... TÄMÄ KIRJE postiin.

One-to-many mapping between closely related languages and its influence on second language acquisition

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Haasteita oppijankielen korpusanalyysille: oppijankielen universaalit

SAMU ON TYÖSSÄ KOULUSSA. LAPSET JUOKSEVAT METSÄÄN. POJAT TULEVAT KAUPASTA.

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

LAUSEEN KIRJOITTAMINEN. Peruslause. aamu - minä - syödä muro - ja - juoda - kuuma kahvi Aamulla minä syön muroja ja juon kuumaa kahvia.

Odpowiedzi do ćwiczeń

11th International Congress for Finno-Ugric Studies

THE TEHDESSÄ CONSTRUCTION OF FINNISH AND THE TYPICALITY OF ADVANCED LEARNER LANGUAGE IN THE LIGHT OF NATIVE USERS' GRAMMATICALITY JUDGEMENTS

Tervetuloa! Mä asun D-rapussa. Mun asunto on sellainen poikamiesboksi.

Results on the new polydrug use questions in the Finnish TDI data

LAUSESANAT KONJUNKTIOT

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

Laskelmia uudenvuodenpuheista

Korpuspohjainen tutkimus ruotsinkielisten suomenoppijoiden paikallissijojen käytöstä kirjallisessa tuotannossa

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Täytyy-lause. Minun täytyy lukea kirja.

Kysyminen & vastaaminen (Asking & Answering)

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

OP1. PreDP StudyPlan

VERBI + VERBI - LAUSE. -maan/-mään, -massa/-mässä, -masta/-mästä

General studies: Art and theory studies and language studies

XII International Congress for Finno-Ugric Studies, August 17-21, 2015, Oulu

Preesens, imperfekti ja perfekti

Yleinen kielitutkinto, keskitaso, harjoituksia /

MILLOIN PARTITIIVIA KÄYTETÄÄN? 1. NEGATIIVINEN LAUSE o Minulla ei ole autoa. o Lauralla ei ole työtä. o En osta uutta kännykkää.

o l l a käydä Samir kertoo:

LAUSETREENEJÄ. Kysymykset:

Statistical design. Tuomas Selander

Efficiency change over time

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Suomi 2A. Tiistai

FP3: Research task of UTA

RANS0002 P2. Phonetics and Pronunciation (Fonetiikka ja ääntäminen), O, 2 ECTS. RANS0010 P3. Translation Exercise (Käännösharjoitukset) s, O, 3 ECTS

Tallinnan yliopisto. Humanististen tieteiden instituuti. Sanojen nainen ja mies kollokaatiot suomenkielisissä teksteissä

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

AJANILMAISUT AJAN ILMAISUT KOULUTUSKESKUS SALPAUS MODUULI 3

Kappale 3. Hyvää ruokahalua!

The role of 3dr sector in rural -community based- tourism - potentials, challenges

Harjoittele suomea! Suomen kielen perusteita. Vihko 2. Jussi Örn

SUBSTANTIIVIT 1/6. juttu. joukkue. vaali. kaupunki. syy. alku. kokous. asukas. tapaus. kysymys. lapsi. kauppa. pankki. miljoona. keskiviikko.

TÄSSÄ VÄHÄN KORJAUKSIA Hyvää työtä!

Yksilöllistä, puhuroi, suorita - Mitä käyttöliittymien termien taakse kätkeytyy?

Kielen opintopolut/ Language study paths

Helsinki, Turku and WMT

Hei, mulla on nälkä, mennäänkö täältä ravintolaan syömään.

MISSÄ OLET TÖISSÄ? MINKÄLAINEN ON SINUN TAVALLINEN TYÖPÄIVÄ?

Learner Language, Learner Corpora Oulu

Lapin Rovaniemen moduuli 2 verkko-opiskelijoiden kysymyksiä tetoimiston virkailijoiden tapaamiseen AC-huoneessa:

E U R O O P P A L A I N E N

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

AFinLan syyssymposiumi Oulu

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Stormwater filtration unit

Vuoden Kokki 2016 Kysymyksiä ja vastauksia

Information on Finnish Language Courses Autumn Semester 2019 Sanni Aava, Karoliina Salo & Hanna Jokela

Pane verbi oikeaan muotoon (kolmas infinitiivi).

Valitse jokaiseen lauseeseen sopiva kysymyssana vastauksen mukaan:

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

HELPPO KOTIRUOKA. Valmiit ainekset viikon jokaiselle päivälle. Kuudes Kerros

KÄYDÄ

WP3 Decision Support Technologies

Students Experiences of Workplace Learning Marja Samppala, Med, doctoral student

Humanistinen tiedekunta / Henkilön nimi /

Suunnittelumallit (design patterns)

Travel General. General - Essentials. General - Conversation. Asking for help. Asking if a person speaks English

saalis ilma hieno ruoka Text Question Report Cross tabulate by language Finnish paremmiksi kavereilta ruuat maidottomia paremmat suolaa Answer date

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Vnitřní lokální pády statický: inessiv ssa směr od: elativ sta směr do: illativ Vn, -hvn, -seen

Tehostettu kisällioppiminen tietojenkäsittelytieteen ja matematiikan opetuksessa yliopistossa Thomas Vikberg

Ammatillinen opettajakorkeakoulu

VERBI + TOINEN VERBI = VERBIKETJU

Other approaches to restrict multipliers

苏 州 (Suzhou)

Syökää porkkanaa! Mikä akka asuu pellossa? Palsternakka. Miksi maanviljelijä ajaa jyrällä perunamaalla? Mikä kaali voi syödä sinut?

Lähivõrdlusi Lähivertailuja19

Nimeni on. Tänään on (pvm). Kellonaika. Haastateltavana on. Haastattelu tapahtuu VSSHP:n lasten ja nuorten oikeuspsykiatrian tutkimusyksikössä.

LET S GO! 4 KOEALUE 7-9 Nähnyt:

Mitä Piilaaksossa & globaalisti tapahtuu ja mitä Tekes voi tarjota yrityksille

Kielen opintopolut- Courses and Proficiency Levels Kielikeskus/Language Centre, Saimaan amk ja LUT Saksa/German

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

6. Vastaa kysymyksiin Onko sinulla isoveli? Oletko sinä lyhyt? Minkä väriset hiukset sinulla on? Onko sinulla siniset silmät? Oletko nyt iloinen?

Pro Kala Kala suomalaisten ruokapöydässä 2017

Valuation of Asian Quanto- Basket Options


Salasanan vaihto uuteen / How to change password

Jatko-opintovaihtoehdot/ Further studies

ERASMUS+ -tapaaminen Italian Bresciassa

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Suomea toisena kielenä oppivat lapset, vuorovaikutus ja kielitaito

Pricing policy: The Finnish experience

The Verbs Work and Play and Their Finnish Equivalents

Transkriptio:

Corpus-driven Analysis of Learner Finnish Jarmo H. Jantunen 8th Conference on Nordic languages as second languages Helsinki 10. 12.5.2007

Corpus-driven Analysis of Learner Finnish Cotextual patterns and previous findings on learner language Material Methods Tentative findings and hypotheses

Co-occurrence patterns of words Collocation: a statistical co-occurrence of two words (mm. Firth 1957, Sinclair 1996, Stubbs 2001) Colligation: a co-occurrence of a word and a grammatical category (mm. Firth 1957, Hoey 1997, Sinclair 1998) oikein very <ADJ, ADV> (Jantunen 2004) Semantic preference: a lexical set of frequently occurring collocates that share a semantic feature (Sinclair 1996, 1998; Stubbs 2001) oikein < value : hyvä, hyvin, mainio, onnistunut> (Jantunen 2004)

Some previous cotext (collocation) analyses on learner language Hasselgren 1994: language learners favour untypical intensifiers (apologize <very (much)> cf. apologize <sincerely, a lot>) Nesselhauf 2003: mistakes in verb-noun collocations (film <take> cf. film <make>) Granger 1998: even the very advanced learners make mistakes in collocations Grönholm 2001: collocation mistakes made by immersion students

Material Pilot corpus of the International Corpus of Leaner Finnish (ICLFI) 41.200 tokens 211 texts genres: applications, diaries, letters, post cards, report, replies, summaries etc. modes of the text production: individual work (191), pair/groupwork (20) first languages: Swedish 56, Russian 20, German 16, Japan 11 (total 19 different FLs) Comparison corpora: The Native Finnish Corpus (sub-corpus of the Corpus of Translated Finnish, Mauranen 2000) 3,8 milj. tokens The Textbank of Finnish

Methods Corpus-driven analysis (data-driven, Tognini- Bonelli 1996) The data will provide items that a researcher will use to test a hypothesis or generate a new hypothesis. Frequency analysis Key word analysis Cotext analysis WordSmith Tools software (Wordlist, Keywords, Concord; Scott 1999)

Key word analysis N Token F / Pilot Corpus F / Native Corpus keyness 1 TIMO [Timo-nom] 130 114 843,9 2 OLEN [be-1sg] 275 3 831 558,5 3 ON [be-3sg] 1 316 62 632 466,5 4 PALJON [much, lot of] 222 3 261 431.6 5 HE [they-nom] 262 5 858 338,5 6 KELLO [time/watch nom-sg] 86 435 322,2 7 MINÄ [I-nom] 377 11 728 312,3 8 KOSKA [because] 205 3 981 308,2 9 OSTAISIN [buy-1sg-cond] 34 6 274,5 10 OULU [Oulu-nom] 39 24 270,3 11 MINUN [I-gen] 187 4 026 251,9 12 SYÖN [eat-1sg] 37 29 245,5 13 TÄNÄÄN [today] 74 495 241,7 14 SIRKKA [Sirkka-nom] 38 45 230,9 15 KOTIIN [home-ill] 90 973 220,3 16 MENEN [go-1sg] 53 212 219,8 17 KUVASSA [picture-ine] 49 164 217,9 18 SÖIN [eat-1sg-past] 38 61 213,9 19 SAVONLINNASSA [Savonl-ine] 27 6 213,6 20 YLIOPISTOSSA [university-ine] 37 68 200,6

Collocates of paljon (MI-test, T-test) Pilot corpus of ICLFI (statistically significant) SE, SUOMI, PITÄÄ, RUOKA, KOSKA,, RAHA, OPISKELLA, TEHDÄ, ESIMERKIKSI, JO, KALA, SUOMI, USEIN, AINA, KÄYTTÄÄ, VIHREÄ, ERI, ERI, LAULAA, LAULAA, IHMINEN, IHMINEN, JUODA, JUODA, SAVONLINNA, SAVONLINNA, TIETÄÄ, TIETÄÄ, JOS, JOS OSTAA, NIIN, LIIAN, PUHUA, KUIN, TÄÄLLÄ, OPPIA, Textbank (30 most significant) NIIN, KUIN, KUINKA, YHTÄ, KOVIN, PUHUA, MAHDOLLISIMMAN, LIIAN, RAHA, MITEN, TODELLA, RIIPPUA, YLLÄTTÄVÄN, VÄKI, SIELLÄ, TÄÄLLÄ ERITTÄIN, POIKKEUKSELLISEN, LIIKKUA, OPPIA, POIKETA, HERÄTTÄÄ, VAIHDELLA, TEKEMINEN, ERITYISEN, MELKO, TURHAN, HELPPO, SISÄLTÄÄ, JULKISUUS NF: PALJON <degree modifiers>

et... olivat isossa juhlassa, joivat koko yön oikein paljon. Tänään tämä mies heräsi kello yhdeltä. keskustaan ja päättivät istua kahvilassa ja juoda paljon kahvia. Kesällä kaupungiin keskustassa teatterissa. P.P. Viime lauvantaina yöllä joimme paljon kosken korvaa, se on kiva! Moi Moi! ja järvessä joka illalla söimme makkara. Joimme paljon olutta. Viime lauvantaina illalla uimme j tarjosivat olutta. Onneksi Adam ei joi liian paljon ja ei minua. Kiinalaiset eivät puhu aulin joutui mennä ulos vain pari minuuttia sitten. Paljon olutta virtasi saunomisen aikana, ja kolm ivätkä ole hyödyllisiä. Ihmisten täytyy syödä mitä paljon vihanneksia ja valitettavasti McDonald's:i rkiksi dallaspullia. Yleensä Suomessa syödään paljon terveellisemmin kuin Amerikassa. Suomess vä, he menevät kalastamaan järvellä, ja Raija syö paljon kalaa. Koska hän syö ainaa kalaa, hanes ssapaljon Timo tilasi ruoka< food, mutta hän ei syönyt drinks, paljon. to Minäeat, täydyn to löytäädrink > hänet Timo Lle ja sukeltaisin ja katsoisin kalat. Söisin paljon tuoretta hedelmiä. Ostaisin markkinasta Lauantaina hyvä seisova pöytää. Minä söin paljon pizzaa. Siellä oli pastaa, pizzaa, kanaa ja salaatia Ltornit! Se on suuri ja vaikuttava. Söimme paljon hyvää ruokaa, esimerkiksi juustotorttu ja patonget -Villelle ruuat, mutta onneksi hän tykkäsi paljon niistä. Me syötiin raakoja kaloja, katkarapuja Otta. Annani luota söimme täytekakkua, paljon täytekakkua. Sitten menin kotiin. Itoa ranskaa kahvilaa. Hurjan hyvin! Söin paljon lehteväjä voisarvia. Tänään on k kuppia Colan kanssa, BigMac. McDonaldissa on paljon ruoka, joka ei ole terve. McDonalin ruokal maistuvaa ruokaa. Siksi että minä pidä tosi paljon kiinalaista ruokaa. Thaimaassa minä nauttisin N että minun matakani Aasiassa sisältäisi paljon hyvää maistuvaa ruokaa. Siksi että Kuuta Jouluaatto oli hauskaa ja mukava. Paljon roukaa, paljon pakettia, paljon naurua! hänen onkinsa ja alkoi kalastaa. Koska se ei ole paljon kaloja tällä paikalla, se kesti ihan kauan s) telivat, että he laittivat kalaruoka, koska heillä oli paljon kalaa. He kuitenkin huomasivat, että he u erilaisia kuvia. Kuvissa ovat eläimiä (esim.poro), paljon kaloja. Yksi kuvassa on gallerin ohjelma: ) än vaimo on maailman kuuluisia kalastaja ja liian paljon muikkuja on paistettu. Oliivin öljyä tuli It :issa kivan elokuvan jälkeen. Heillä on myös aika paljon makeita jälkiruokia ja lapsillekin tarjoteta ää sen. Täytyy olla kokenut kokki. Tarvitaan liian paljon hiiva ja sitten täytyy odottaa koska "voul-au-vent arjalan ihmisillä on nyt kuuma aika: metsässä on paljon erinlaisia sienia ja marjoita, joita täytyy p mutta kummallinen. Kauppoissa ostin paljon suomen levyitä, jogurtteja ja san Huomaan aina, että Suomessa ei ole niin paljon eri amerikkalaisia roskaruoka-ketjuja

Tentative findings and hypotheses Atypical cotextual frequencies and patterns: - lemma PALJON (overused) - collocations PALJON < SE, SUOMI, PITÄÄ RUOKA, KOSKA, RAHA, OPISKELLA, TEHDÄ, ESIMERKIKSI, JO, KALA, SUOMI, USEIN, AINA, KÄYTTÄÄ, VIHREÄ, ERI, LAULAA, IHMINEN, JUODA, SAVONLINNA, TIETÄÄ, JOS > (overused) - colligation PALJON <DEGREE MODIFIER> (underused) - semantic preference PALJON < food, drink, nutrition, to eat, to drink)> (overused) Hypotheses on atypicalities in learner language: - atypical frequencies of lexical items - atypical frequencies of co-occurrence patterns - atypical co-occurrence patterns (also other than collocations)

References Firth, J. R. 1957. Papers in Linguistics 1934 51. Oxford University Press. Granger, S. 1998. Prefabricated patterns in advanced EFL writing: collocations and formulae. - Cowie A. (toim.) Phraseology: theory, analysis and applications. Oxford University Press. 145-160. Grönholm, M. 2001. Idiomien ja kollokaatioiden oppiminen suomenkielisessä kielikylvyssä. Sulkala, H. & Nissilä, L. (toim.), XXVII Kielitieteen päivät Oulussa 10. 20.5.2000. Suomen ja saamen kielen ja logopedian laitos. Oulun yliopisto. 55 62. Hassselgren, A. 1994. Lexical teddy bears and advanced learners: a study into the ways Norwegian students cope with English vocabulary. International Journal of Applied Linguistics 4 (2). 237 260. Hoey, Michael 1997. From concordance to text structure: new uses for computer corpora. Lewandowska-Tomaszczyk, B Melia, P. (toim.), PALC'97. Applications in Language Corpora Proceedings s. 2 23. Lódz University Press. Jantunen, J. H. 2004. Synonymia ja käännössuomi. Korpusnäkökulma samamerkityksisyyden kontekstuaalisuuteen ja käännöskielen leksikaalisiin erityispiirteisiin. Joensuun yliopiston humanistisia julkaisuja 35. Nesselhauf, N. 2003. The Use of collocations by Advanced Learners of English and Some Implications for Teaching. Applied Linguistics 24 (2). 223 242. Sinclair, J. 1996. The Search for Units of Meaning. Textus IX s. 75 106. Sinclair, J. 1998. The Lexical Item. Weigand, E. (toim.), Contrastive Lexical Semantics. Benjamins, Amsterdam. 1 24. Stubbs, M. 2001. Words and Phrases. Corpus Studies of Lexical Semantics. Blackwell, Oxford.