PALJON-ADVERBIN KOLLOKOINTI OPPIJANSUOMESSA KORPUSVETOINEN TUTKIMUS

Samankaltaiset tiedostot

Haasteita oppijankielen korpusanalyysille: oppijankielen universaalit

Frekventtien adjektiivien kollokaatiot oppijansuomessa ja natiivisuomessa

Oppijansuomen piirteitä korpusvetoisesti

SANOA-VERBI FRASEOLOGISENA YKSIKKÖNÄ OPPIJANSUOMESSA

liitettä. Tekijä Tanja Seppälä Työn nimi Oppijansuomen kolligaatit ketjuuntuvissa verbirakenteissa Oppiaine. Työn laji pro gradu

KORPUSANALYYSI OPPIJANSUOMEN EPÄTYYPILLISISTÄ KONTEKSTUAALISTA RAKENTEISTA

LIKIMÄÄRÄN ILMAISIMET NATIIVI- JA OPPIJANSUOMESSA Lekseemien lähes ja melkein vierussanatarkastelu

FRASEOLOGISET VIRHEET KANSAINVÄLISESSÄ OPPIJAN- SUOMEN KORPUKSESSA

Lähdekielen vaikutuksen tutkimus korpusten pohjalta. Esitelmä Kielitieteen päivillä Oulussa Annekatrin Kaivapalu Tallinnan yliopisto

Learner Language, Learner Corpora Oulu

Alkukartoitus Opiskeluvalmiudet

Lähisukukielen vaikutus suomen ja viron omaksumiseen: korpuspohjainen tutkimus

Synonyymien EHKÄ ja MAHDOLLISESTI kollokaatit ja semanttiset preferenssit

Korpuspohjainen tutkimus ruotsinkielisten suomenoppijoiden paikallissijojen käytöstä kirjallisessa tuotannossa

Teoreettisen viitekehyksen rakentaminen

SAADA-verbin fraseologiaa: vertaileva korpustutkimus oppijan- ja natiivisuomesta

AFinLan syyssymposiumi Oulu

11th International Congress for Finno-Ugric Studies

TÄYTYMISTÄ ILMAISEVIEN MODAALIVERBIEN KOTEKSTI LEHTITEKSTEISSÄ JA INTERNETIN KESKUSTELUPALSTOILLA

Puhumaan oppii vain puhumalla.

ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto

Fakta- ja näytenäkökulmat. Pertti Alasuutari Tampereen yliopisto

Onko empiirinen käänne vain empirian kääntötakki?

Mitä on laadullinen tutkimus? Pertti Alasuutari Tampereen yliopisto

Miten tutkia lähdekielen vaikutusta oppijankielen universaalina piirteenä?

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Lähivõrdlusi Lähivertailuja21

Minulla on aivan paljon rahaa. - Elementtirakenteita kielenopetukseen?

TUTKIMUS KÄÄNNÖSSUOMESTA JA ASTEMÄÄRITTEIDEN SYNONYMIASTA

Tavoite Opiskelija osaa käyttää englannin kielen rakenteita, hallitsee kielen perusilmaukset ja ymmärtää opiskelijan arkielämään liittyvää kieltä

Viron kielen vaikutus suomen kielen verbien ja niiden rektioiden oppimiseen

Kielten oppiminen ja muuttuva maailma

A-venäjän ylioppilaskokeen kehittämishanke

TAITOTASOLTA TOISELLE:

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Mitä suomen intonaatiosta tiedetään

LAULUMUSIIKIN PÄÄAINE I

Laadullinen tutkimus. KTT Riku Oksman

KIELITIETEEN ELEKTRONINEN SANAST0: Hankkeen esittelyä. Sirpa Leppänen Jyväskylän yliopisto Kielten laitos/ englanti

vaikutusta ruotsinkielisten alkeistason suomenoppijoiden kirjallisiin

Oppimiskontekstin vaikutus oppijanpragmatiikkaan: astemääritteet leksikaalisina nallekarhuina 1

KOEKYSYMYKSIÄ IKI 7 -OPPIKIRJAN SISÄLTÖIHIN

KIELENOPPIMISYMPÄRISTÖN VAIKUTUS OPPIJANSUOMEN SANASTOON

FT Henna Makkonen-Craig Äidinkielen ja kirjallisuuden opetuksen foorumi

Yhteisöllistä oppimista edistävät ja vaikeuttavat tekijät verkkokurssilla

Sisällönanalyysi. Sisältö

Suomen kielen Osaamispyörä -työkalu

Kieliohjelma Atalan koulussa

Pro gradu -tutkielmien arvostelu maantieteessä

Oppilas keskustelee ryhmässä ja tuo esille mielipiteitään. Oppilas osallistuu luokan ja koulun ilmaisuesityksiin. Oppilas harjoittelee

Käyttöliittymä. Ihmisen ja tuotteen välinen rajapinta. ei rajoitu pelkästään tietokoneisiin

MONOGRAFIAN KIRJOITTAMINEN. Pertti Alasuutari

Suomen kielen opinnot maahanmuuttajien ammatilliseen peruskoulutukseen valmistavassa koulutuksessa

Lahjakkuutta ja erityisvahvuuksia tukeva opetus äidinkielen näkökulma

Alberta Language and Development Questionnaire (ALDeQ) A. Varhaiskehitys Lapsen nimi

Harjoitus 7: NCSS - Tilastollinen analyysi

Sanasto S2-oppimisessa. Maisa Martin Jyväskylän yliopisto

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat

arvioinnin kohde

Laajennettu tiedonkäsitys ja tiedon erilaiset muodot

arvioinnin kohde

Tutkimusyksikön johtajan/tutkinto-ohjelman vastuunhenkilön hyväksyntä

Prominenssin toteutuminen kolmessa yleispuhesuomen varieteetissa

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

HAVAINTO LÄhde: Vilkka 2006, Tutki ja havainnoi. Helsinki: Tammi.

Normaalikoulun kielivalintailta Welcome! Willkommen! Bienvenue!

Kielet sähköistävät. Mitä muutoksia perusopetuksen opetussuunnitelmaprosessi on tuomassa kieliin? Opetusneuvos Anna-Kaisa Mustaparta

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

hyvä osaaminen

Kandidaatintutkielman arviointikriteerit

Eväspussi. Onko lähipiirissä esiintynyt hitautta tai vaikeutta lukemaan ja kirjoittamaan oppimisessa? Millaista?

Työskentelyohjeita: Suomi toisena kielenä ja kirjallisuus oppimäärän opetuksen tavoitteet vuosiluokilla 1 2. Laaja alainen osaaminen

Opetuksen suunnittelun lähtökohdat. Keväällä 2018 Johanna Kainulainen

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

LAAJAVUOREN KOULUN. SAKSANKIELINEN OPETUS CLIL-OPETUS (Content and Language Integrated. Learning=SISÄLLÖN JA KIELEN YHDISTÄVÄ OPETUS Sirpa Rönkä

PÄIVI PORTAANKORVA-KOIVISTO

Uudet kielten opetussuunnitelmat käytäntöön :

PUHUMINEN Harjoit- Osaa KUULLUN YMMÄRTÄMINEN Harjoit-Osaa. pvm pvm pvm pvm TAITOTASO A1 Suppea viestintä kaikkien tutuimmissa tilanteissa

MONIKULTTUURISEN OPETUKSEN JA OHJAUKSEN HAASTEET. Selkokielen käyttö opetuksessa. Suvi Lehto-Lavikainen, Koulutuskeskus Salpaus

Kielenhuolto ja sen tarvitsema tutkimus muuttuvassa yhteiskunnassa. Salli Kankaanpää AFinLAn syyssymposiumi

Verbin valenssi määrää, minkälaisia argumentteja ja komplementteja verbi odottaa saavansa millaisissa lauseissa verbi voi esiintyä.

Yhdyssana suomen kielessä ja puheessa

LAADULLISEN TUTKIMUKSEN OMINAISLAATU

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TIETOINEN HAVAINTO, TIETOINEN HAVAINNOINTI JA TULKINTA SEKÄ HAVAINNOLLISTAMINEN

Monilukutaitoa kehittävän ilmiöopetuksen laatiminen. POM2SSU Kainulainen

Lukumummit ja -vaarit Sanavaraston kartuttamista kaunokirjallisuuden avulla

Gradu-seminaari (2016/17)

Kansainvälisen asiantuntijan viestintätaidot (25 op) Työelämässä tarvitaan monipuolisia viestintä- ja kulttuuritaitoja!

Laadullisen tutkimuksen luonne ja tehtävät. Pertti Alasuutari professori, Laitoksen johtaja Yhteiskuntatieteiden tutkimuslaitos

Tietokoneohjelmien käyttö laadullisen aineiston analyysin apuna

Aasian ja Afrikan kielet tulivat lukion opsperusteisiin. Mitä muita muutoksia päivitys tuo mukanaan?

Monikielisen viestinnän ja käännöstieteen syventävien opintojen vastaavuustaulukko

Puhumaan oppii vain puhumalla.

Tieteiden välinen kommunikaatio oikeus- ja yhteiskuntatieteiden välillä

Heikosta vastauksesta puuttuvat konkreettiset faktat, mikä näkyy esimerkiksi

Ostoskassit pullollaan miten kehittää

Aasian kieliä ja kulttuureita tutkimassa. Paja

SEISKALUOKKA. Itsetuntemus ja sukupuoli

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Transkriptio:

PALJON-ADVERBIN KOLLOKOINTI OPPIJANSUOMESSA KORPUSVETOINEN TUTKIMUS Suomen kielen pro gradu -tutkielma Oulun yliopisto huhtikuu 2009 Otto Kallioranta

2 1. JOHDANTO 1 1.1. Tutkimuksen lähtökohdat ja tavoitteet 1 1.2. Tutkimusaineisto 4 2. TUTKIMUKSEN TEOREETTINEN TAUSTA 7 2.1. Oppijankielen korpustutkimus 7 2.2. Intralingvaalinen kontrastiivinen analyysi 11 2.3. Frekvenssi ja kollokaatio osana sanastontutkimusta 12 2.4. Kontekstuaalinen semantiikka 15 2.4.1. Vapaan valinnan periaate ja idiomiperiaate 17 2.4.2. Kollokaatio 17 2.4.2.1. Kollokaation toistuvuus 18 2.4.2.2. Kollokaation tilastollinen merkitsevyys 19 2.4.2.3. Kollokaation ulottuvuus 20 2.5. Kielenainesten yli- ja aliedustuminen 21 3. TUTKIMUSMETODIT 23 3.1. Korpusvetoinen analyysi 23 3.2. Korpuslingvistinen avainsana-analyysi 24 3.3. Kollokaatioanalyysin tilastolliset menetelmät 26 4. OPPIJANSUOMEN AVAINSANAT 29 4.1. Avainsana-analyysi 29 4.2. Tehtävänannosta tai kirjoituskontekstista johtuvat avainsanat 30 4.3. Muusta kuin tehtävänannosta tai kirjoituskontekstista johtuvat avainsanat 32 5. TUTKIMUSYKSIKKÖNÄ PALJON-ADVERBI 35 5.1. Yleistä adverbeista 35 5.2. Paljon-kvanttoriadverbi 35 5.3. Paljon-adverbin saamat kollokaatit Kielitoimiston sanakirjassa 36 5.4. Paljon-adverbi muissa oppijankielen tutkimuksissa 38

3 6. PALJON-ADVERBIN KOLLOKATIONAALISET PIIRTEET 40 6.1. Paljon-adverbin vasemmanpuoleinen koteksti 40 6.1.1. Paljon-adverbin vasemmanpuoleiset kollokaatit tutkimusaineistossa 40 6.1.2. Paljon-adverbin vasemmanpuoleiset kollokaatit natiivisuomessa 41 6.1.3. Paljon-adverbin vasemman kotekstin kollokaattien erot tutkimusaineistossa ja natiivisuomessa 43 6.1.3.1. Tutkimusaineistolle ja natiivisuomelle yhteiset tilastollisesti merkitsevät vasemmanpuoleiset kollokaatit 43 6.1.3.2. Vain tutkimusaineistossa merkitsevät paljon-adverbin vasemmanpuoleiset kollokaatit 45 6.1.3.3. Vain natiivisuomessa merkitsevät paljon-adverbin vasemmanpuoleiset kollokaatit 47 6.2. Paljon-adverbin oikeanpuoleinen koteksti 52 6.2.1. Paljon-adverbin oikeanpuoleiset kollokaatit tutkimusaineistossa 52 6.2.2. Paljon-adverbin oikeanpuoleiset kollokaatit natiivisuomessa 53 6.2.3. Paljon-adverbin oikean kotekstin kollokaattien erot tutkimusaineistossa ja natiivisuomessa 54 6.2.3.1. Tutkimusaineistolle ja natiivisuomelle yhteiset tilastollisesti merkitsevät oikeanpuoleiset kollokaatit 55 6.2.3.2. Vain tutkimusaineistossassa merkitsevät paljon-adverbin oikeanpuoleiset kollokaatit 55 6.2.3.3. Vain natiivisuomessa merkitsevät paljon-adverbin oikeanpuoleiset kollokaatit 57 6.3. Tulosten koonti 62 7. TULOSTEN SOVELTAMINEN KIELENOPETUKSEEN 68 8. PÄÄTÄNTÖ 73 LÄHTEET JA LYHENTEET 78 LIITTEET

1. JOHDANTO 1.1. Tutkimuksen lähtökohdat ja tavoitteet Tässä pro gradu -tutkielmassa tarkoituksenani on kartoittaa oppijansuomen 1 sanastollisia yliedustumia ja kollokaatioita eli leksikaalisia myötäesiintymiä korpuslingvististen 2 metodien avulla. Teoreettisena viitekehyksenä esittelen oppijankielen sanastontutkimusta, oppijankielen korpustutkimusta ja kontekstuaalista semantiikkaa sekä määrittelen, mitä tarkoitan kollokaatiolla, kotekstilla, vapaan valinnan periaatteella ja idiomiperiaatteella, kielenainesten yli- ja aliedustumisella sekä intralingvaalisella kontrastiivisella analyysilla. Oppijankielen korpustutkimus, joka on maailmallakin varsin nuorta, on Suomessa vielä aivan alkutekijöissään: korpusten keruu on alussa, eikä aiempaa tutkimusta vielä ole. Maailmalla oppijankielen lähinnä oppijanenglannin korpustutkimus alkoi vasta 1980 90-lukujen taitteessa, kun tutkijat huomasivat oppijankielen korpusten potentiaalin (Granger 2002: 45). Oppijankielen korpukset ovat oivallinen lisä niin sanottujen luonnollisen kielen aineistojen tarpeeseen: oppijankielen korpusten koostamisen taustalla on nimittäin periaate, jonka mukaan kielenkäyttötilanteita ei kontrolloida, eli oppijankielen korpusten tarkoitus on koostua enemmän tai vähemmän spontaanista kielestä (Granger 1998a: 167 168; 2002: 48). 1 Oppijansuomi on yksi oppijankielen muodoista. Oppijankieli on kielenoppijan tuottamaa kieltä, ja se koostuu kielellisen kehityksen vaiheista. Sille on tyypillistä kehitys yksinkertaisesta kompleksiseen. (Nissilä 2003: 221.) Termiä oppijankieli välikielen sijaan ehdotti Latomaa (1996: 98), koska se ei aseta oppijalle odotuksia saavutettavan kielitaidon tasosta. Tässä tutkimuksessa käytän termejä oppijankieli ja oppijansuomi. 2 Korpuslingvistiikalla viitataan lingvistiikkaan, joka käyttää aineistonaan atk-pohjaisia korpuksia. Sana korpus taas viittaa kielitieteessä tutkimuksen perustana käytettyihin nykyisin lähes yksinomaan sähköisiin kielenaineskokoelmiin. Korpuksen ominaisuuksiin ajatellaan nykyään kuuluvan pysyvyys, monikäyttöisyys ja koostamisen suunnitelmallisuus. (Lehtinen ym. 1995: 12 13.)

2 Tutkimukseni taustalla on kontekstuaalisen semantiikan käsitys kielestä. Merkityksen kontekstuaalisuuden tutkiminen on kiinnostanut erityisesti niin sanottua brittiläistä koulukuntaa, jonka keskeisiä henkilöitä ovat J. R. Firth, M. A. K. Halliday ja John Sinclair. Kieliteorian lähtökohtana on aineistoon perustuva analyysi, eli se, että tutkimuksen kohteena olevan kielen tulee olla tuotettu niin sanotuissa luonnollisissa, todellisissa tilanteissa (Stubbs 1996: 22; Tognini-Bonelli 2001: 2). Kontekstuaalinen semantiikka pyrkii selvittämään merkitystä analysoimalla ilmausta lähellä olevaa tekstuaalista kontekstia tai koko ympärillä olevaa sosiaalista, kielenulkoista kontekstia (Jantunen 2004: 7). Tässä tutkielmassa keskityn ilmauksen lähellä olevan tekstuaalisen kontekstin eli kotekstin tarkasteluun. Pyrin selvittämään tilastollisten analyysien avulla, mitä kollokaatteja tarkastelun kohteeksi nouseva sana suosii kotekstissaan. Tarkastelemieni kollokaatioiden tilastollinen merkitsevyys kertoo siis siitä, mitkä kollokaatit ovat tarkastelun kohteeksi nousevalle sanalle tyypillisiä. Kollokaatioiden tyypillisyys lähestyy Sinclairin (1991: 109 114) ajatusta, jonka mukaan kollokaatiot rakentuvat idiomiperiaatteen, eivät vapaan valinnan periaatteen mukaan. Sinclair on siis sitä mieltä, että sanat eivät esiinny toistensa seurassa täysin vapaasti vaan niiden yhdistymistä ohjaa idiomaattinen valinta. Jantusen (2004: 15) mukaan sanojen yhdistymistä toistensa kanssa on kuitenkin pidettävä jatkumona, jonka toisessa päässä on täysin vapaa valinta ja toisessa päässä täysin rajoittunut myötäesiintyminen. Täysin vapaa valinta on abstraktio, ja suurin osa kollokaatioista sijoittuukin näiden ääripäiden väliin. Tutkimukseni on niin sanottu intralingvaalinen kontrastiivinen analyysi, eli en vertaile kahta eri kieltä toisiinsa, vaan saman kielen kahta eri varianttia, oppijansuomea ja natiivisuomea. Tutkimustavan tarkoituksena ei Grangerin (1998a: 175 176) 3 mukaan ole 3 Granger käyttää nimitystä interlingvaalinen viitatessaan sekä oppijankieltä ja natiivikieltä että kahta eri oppijankieltä toisiinsa.

3 tuoda esiin oppijankielen virheitä vaan sitä, millaisia epätyypillisiä frekvenssejä oppijankielestä löytyy natiivikieleen verrattuna. Lähestymistapani aineistoon on korpusvetoinen, eli Tognini-Bonellin (2001: 84 85) määritelmää noudattaen en päätä tutkimuksen kohteeksi nostamaani leksikaalista yksikköä etukäteen, vaan valitsen sen epätyypillisen taajan frekvenssin perusteella. Toisin sanoen tutkimuskohteen valinnan taustalla on huomio sen yliedustumisesta oppijansuomessa. Yliedustumisen selvittämiseksi teen avainsana-analyysin korpusten analysointiin monipuolisesti soveltuvan WordSmith Tools -ohjelmapaketin (Scott 1998) avulla. Tutkimuskysymykseni ovat seuraavat: 1) Mitä ovat tutkimusaineistoni oppijansuomen leksikaaliset yliedustumat? 2) Saako tutkimusyksiköksi valikoituva yliedustuma kotekstiinsa natiivisuomelle epätyypillisiä kollokaatioita, ja jos saa, niin mitä nämä kollokaatiot ovat? 3) Mitä natiivisuomelle tyypillisiä kollokaatteja tutkimusyksikön kotekstista puuttuu oppijansuomesta? 4) Miten saatuja tuloksia voisi hyödyntää kielenopetuksessa? Tutkimukseni on useimpien korpustutkimusten tapaan hyvin kvantitatiivista: avainsanaanalyysin tarkoitus on nostaa aineistosta esiin oppijansuomelle epätyypillisen taajafrekvenssiset sananmuodot, ja kollokaatioanalyysissa tarkastelen oppijansuomen epätyypillisiä kollokaatioita tilastollisen testauksen avulla. Tutkimustulosten kvalitatiivinen soveltaminen on kuitenkin tärkeää, eikä tässäkään tutkimuksessa tehdä poikkeusta: luvussa 7 pohdin, miten kollokaatioanalyysin tuloksia voisi hyödyntää kielenopetuksessa. Granger (1998a: 17) muistuttaakin, että korpustutkimuksen suurimpia vaaroja on rajoittuminen pelkkien tilastojen ja taulukoiden esittämiseen. Tutkimukseni on deskriptiivistä, sillä tutkimuskysymyksiini vastaamalla kuvailen oppijansuomea kielimuotona.

4 1.2. Tutkimusaineisto Käytän tutkimusaineistonani Kansainvälistä oppijansuomen korpusta (ICLFI, International Corpus of Learner Finnish) (Jantunen 2007), jonka koko tehdessäni tätä tutkimusta on 102 137 sanetta 4. Korpus koostuu ulkomaisissa yliopistoissa suomea vieraana kielenä 5 opiskelevien kielenoppijoiden kirjoittamista teksteistä. Aineisto sisältää useita eri tekstilajeja: kertomuksia, kuvauksia, päiväkirjoja, luentopäiväkirjoja, mielipidekirjoituksia, arvosteluja ja referaatteja. Kirjoittajien lähdekielten kirjo on myös laaja, sillä kirjoittajat opiskelevat useissa eri maissa (Ruotsissa, Saksassa, Tšekissä, Venäjällä, Puolassa, Kiinassa, Itävallassa ja Islannissa). Kaikki korpukseen tekstejä kirjoittaneet opiskelijat ovat täyttäneet taustatietolomakkeen (Liite 1), josta käy ilmi muun muassa kielitaidon taso, opiskelijan kansalaisuus ja lähdekieli, muut opiskelijan hallitsemat kielet, opiskelijan mahdollisesti Suomessa viettämän ajan pituus, vanhempien lähdekieli ja suomen kielen kursseilla käytetyt oppikirjat. Taustatietojen avulla on mahdollista tutkia esimerkiksi sitä, miten eri lähdekielten edustajien tekstit poikkeavat toisistaan. Koska korpuksen koostaminen on kuitenkin varsin alkuvaiheessa, on aineisto niin pieni, ettei taustamuuttujien vaikutukseen ole tässä tutkimuksessa mahdollista kiinnittää huomiota. Vertaankin oppijansuomea natiivisuomeen kokonaisuutena, taustamuuttujista välittämättä. Tutkimukseni on siis varsin pilottiluonteista. Seuraavassa taulukossa näkyy tärkeimpien taustamuuttujien, eli lähdekielten ja kielitaidon tason, jakaumat tutkimusaineistossa. 4 Saneella viittaan yksittäiseen sananmuotoesiintymään aineistossa, lemmalla taas eri sananmuotojen muodostamaan abstraktioon, lekseemiin (ks. Karlsson 1998: 187 188). 5 Suomea voi opiskella sekä toisena että vieraana kielenä. Näiden termien ero on siinä, että toista kieltä omaksutaan kieliyhteisön parissa, vierasta kieltä taas opitaan kieliyhteisön ulkopuolella. (Latomaa Tuomela 1993: 238 244.)

5 TAUKUKKO 1. Tutkimusaineiston kirjoittajien lähdekielet ja kielitaidon tasot sanemäärittäin. Lähdekieli Sanemäärä Taso Sanemäärä puola 27 289 saksa 21 300 ruotsi 20 147 venäjä 19 330 tsekki 7 398 kiina 3 753 islanti slovakki 1 222 1 010 romania 343 viro 210 persia 135 Alkeistaso 34 544 Keskitaso 33 025 Edistyneet 34 568 Suurin osa kirjoittajista puhuu äidinkielenään opiskelumaansa kieltä. Taulukosta voi kuitenkin huomata, että joukossa on sellaisiakin lähdekieliä, jotka ovat opiskelumaassa vieraita kieliä. Jotkut kirjoittajista siis opiskelevat suomea itselleen vieraalla kielellä, mikä on luonnollisesti yksi tuotokseen vaikuttavista tekijöistä. Aineisto jakautuu eri lähdekieliin melko epätasaisesti, mutta kielitaidon tasojakauma näyttäisi sen sijaan olevan melko tasainen. Vertailuaineistona käytän Käännössuomen korpuksen (Mauranen 2000) noin neljän miljoonan saneen natiivisuomen osakorpusta, jonka sisältö koostuu sekä kaunokirjallisuudesta (romaaneista, lastenkirjoista ja dekkareista) että tietokirjallisuudesta (tieteellisistä ja populaaritieteellisistä teksteistä ja muistelmista). Grangerin (1998a: 175 176) mukaan käytettävän vertailuaineiston tulisi vastata mahdollisimman hyvin tutkimusaineistoa. Tässä tutkimuksessa käyttämäni aineistot vastaavatkin toisiaan monilta osin: molemmissa on mukana sekä asiatekstiä että kaunokirjallista tekstiä. Tietokirjallisuutta oppijoiden teksteistä edustavat selkeimmin luentopäiväkirjat ja referaatit, kaunokirjallista tekstiä kertomukset ja kuvaukset. Näiden välimaastoon sijoittuvat päiväkirjat, mielipidekirjoitukset ja arvostelut; samaan luokkaan voisi laskea myös vertailuaineiston populaaritieteelliset tekstit ja muistelmat. Korpusten välillä on yhtäläisyyksistä huolimatta kuitenkin myös paljon eroja: esimerkiksi lastenkirjojen ja dekkareiden kieli ei tietenkään täysin vastaa oppijoiden kirjoittajien vapaamuotoisten kertomusten tai kuvausten kieltä. Minun on kuitenkin tässä tutkimuksessa hyväksyttävä aineistojen vastaavuuksien

6 puutteet osittain sopivamman vertailuaineiston, osittain vielä koostamisen alkuvaiheessa olevan korpuksen vuoksi. Vertailuaineistoni koostuu ammattikirjoittajien kirjoittamista teksteistä. Oppijankielen vertaamista ammattikirjoittajien kieleen on kritisoitu: muun muassa Hyland ja Milton ovat sitä mieltä, että ammattikirjoittajien tekstit edustavat oppijoille epärealistista standardia (Hyland Milton 1997: 184). Gilquin ja Paquot myöntävät, että natiivien opiskelijoiden tekstit olisivat paras vertailukohta yliopistossa opiskelevien kielenoppijoiden teksteille, jos tarkoituksena olisi kuvailla oppijankieltä mahdollisimman oikeudenmukaisesti. Heidän mielestään tällaisten tutkimusten tulosten soveltaminen kielenopetukseen on kuitenkin kyseenalaista. (Gilquin Paquot 2008.) Leech (1998: xix) on sitä mieltä, että natiivit opiskelijat eivät välttämättä edes kirjoita kieltä, jota kaikki haluaisivat jäljitellä. Ädel (2006: 14) muistuttaa myös, että ammattikirjoittajien tekstit voivat tarjota normin, jonka edistyneet oppijat yrittävät saavuttaa ja jota heidän opettajansa yrittävät tukea. Ammattikirjoittajien tekstien käyttäminen vertailukorpuksena saa siis tutkimuskirjallisuudesta paljon tukea. Aineiston pienuuden vuoksi tekstilajikohtainen vertailu ei tässä tutkimuksessa ole mahdollista, mikä tietenkin osaltaan vähentää tutkimustulosten yleistettävyyttä. Yliedustumia kartoittaessani pyrin kuitenkin ottamaan huomioon sen, ovatko jotkut yliedustumat tyypillisempiä tietylle tekstilajille, tietyn tasoisille kielenpuhujille tai tietyn lähdekielen edustajille. Tarkastelu on melko summittaista, sillä tutkimusaineisto ei ole miltään osin yhteismitallinen, toisin sanoen tekstien sanemäärät eri muuttujilla mitattuna eivät ole suhteessa toisiinsa yhtä suuret. Tällä tarkoitan sitä, että jollakin muuttujalla voi olla suhteettoman suuri osuus aineistossa (esimerkiksi puolaa lähdekielenään puhuvien suuri osuus), eikä tällöin ole mielekästä sanoa, että jokin yliedustuma johtuu juuri tästä muuttujasta.

7 2. TUTKIMUKSEN TEOREETTINEN TAUSTA 2.1. Oppijankielen korpustutkimus Korpuslingvistiikka tuli mukaan kielentutkimukseen 1960-luvulla 6, kun uuden teknologian myötä tiedon käsittely helpottui. Englanti on eniten korpuslingvistisesti analysoitu kieli, ja englanninkieliset korpukset ovatkin laajentuneet ja monipuolistuneet vuosien aikana valtavasti. Oppijankielen lähinnä oppijanenglannin tutkimukseen korpuslingvistiikka tuli kuitenkin vasta 1980-luvun lopulla, kun oppijanenglannin tutkimuksen asiantuntijat ja kustantamot huomasivat korpusten potentiaalin. (Granger 1998a: 166 167; Granger 2002: 45.) Oppijankielen tutkimuksessa on pitkään sivuutettu niin sanotuissa spontaaneissa tilanteissa tuotettuihin luonnollisen kielenkäytön aineistoihin pohjautuva tutkimus. Spontaani tilanne tarkoittaa sellaista tuottamistilannetta, jossa oppijaan ei kohdisteta minkäänlaista kontrollia. (Granger 1998a: 167 168.) Syitä tällaisissa tilanteissa tuotettujen aineistojen sivuuttamiseen on monia. Tietyt kielenainekset esiintyvät spontaanissa kielessä harvoin tai eivät ollenkaan, eikä spontaanissa tilanteessa tuotettu kieli näytä oppijan kielenkäytön koko repertuaaria, sillä oppijat käyttävät vain hallitsemiaan alueita ja välttelevät vaikeiksi kokemiaan asioita esimerkiksi kiertoilmausten avulla. Tutkija tarvitsee myös laajan aineiston kyetäkseen yleistämään jonkin ilmiön spontaaniuden. (Larsen- Freeman Long 1993: 26 27.) Yksi syy on myös se, että kielenkäyttötilanteen muuttujien vaikutusta ei voi tutkia systemaattisesti, jos niitä ei ole kontrolloitu (Granger 1998a: 168). 6 Tunnetuin ja ensimmäinen lienee Yhdysvalloissa kerätty amerikan-englanninkielinen Brown-korpus (Standard Corpus of Present-Day Edited American English, Francis & Kucera) (Granger 1998a: 167). Korpustutkimuksen pioneerityötä on tehty myös Oulun yliopistossa, jossa kerättiin suomen yleiskieltä 1960-luvulla ilmestyneistä sanoma- ja aikakauslehdistä, radio-ohjelmista sekä kauno- ja tietokirjallisuudesta (Saukkonen 1982).

8 Luonnollisen kielenkäytön aineistojen puutteiden vuoksi on kerätty laajoja oppijankielen toistaiseksi lähinnä oppijanenglannin korpuksia, jotka vastaavat hyvin luonnollisen kielenkäytön aineistoja kohtaan suunnattuun kritiikkiin. Granger (2002: 48) kutsuu korpuksen tätä ominaisuutta autenttisuudeksi mutta lisää kuitenkin, että oppijankielen korpukset ovat harvoin yhtä autenttisia kuin natiivikielen korpukset, koska oppijoiden tuotokseen vaikuttavia tekijöitä on mahdotonta täysin karsia. Muita oppijankielen korpuksen keskeisiä piirteitä ovat seuraavat: Korpuksen tulee koostua yhtenäisistä teksteistä, ei yksittäisistä lauseista tai sanoista. Korpuksen koostamisessa noudatetaan selkeitä kriteereitä. Korpuksen tarkoitus on edistää käytäntöä eli toisen/vieraan kielen oppimista ja opettamista. Korpukseen kerätään tiedot myös muuttujista, kuten tehtävänannosta ja oppijoista. (Granger 2002: 48 50.) Maailman suurimmat oppijankielen korpukset ovat enimmäkseen englanninkielisiä: Cambridge Learner Corpus (CLC) 7 (20 miljoonaa sanetta), Longman Learners Corpus (LLC) 8 (10 miljoonaa sanetta) ja International Corpus of Learner English (ICLE) 9, (2 miljoonaa sanetta). Viimeksi mainittu ICLE-korpus (Granger 1993) on ensimmäisiä oppijankielen korpuksia, ja se on koottu englannin kielen korpuslingvistiikan keskuksessa Louvainissa (The Louvain Centre for English Corpus Linguistics). Muita pienempiä oppijankielen korpuksia ovat muun muassa Antwerp Corpus of Institutional Dis- 7 http://www.cambridge.org/elt/corpus/learner_corpus.htm (19.6.2008) 8 http://www.pearsonlongman.com/dictionaries/corpus/learners.html (19.6.2008) 9 http://cecl.fltr.ucl.ac.be/cecl-projects/icle/icle.htm (19.6.2008)

9 course (ACID) 10, oppijanranskan korpus FRIDA 11 sekä Corpus of English by Japanese Learners (CEJL) 12. (Eslon Metslang 2007: 101 102.) Pitkäaikaisin kokemus ei-englanninkielisten oppijankielten korpusten keräämisestä on pohjoismaissa: Björn Hammarberg keräsi jo vuosina 1973 1980 SSM-korpuksen (Svenska som Målspråk), jonka laajuus on 112 000 sanetta ja joka koostuu eritasoisten ja eri äidinkielisten oppijoiden ruotsinkielisistä esseistä. Muita pohjoismaissa kerättyjä korpuksia ovat muun muassa Tukholman yliopiston kielitieteellisessä tiedekunnassa kerätty Andraspråkets StrukturUtveckling korpus (ASU), Göteborgissa kerätty SVenska AndraspråksTExter eli SVANTE-korpus sekä oppijannorjan korpus Language learner corpus of Norwegian as a second language. (Eslon Metslang 2007: 104.) Suomessa ja Virossa oppijankielen korpusten kokoaminen on vasta aivan alussa. Virossa kerätään viron oppijankielen korpusta (Eesti vahekeele korpus) 13, joka koostuu venäjää äidinkielenään puhuvien vironoppijoiden kirjallisista töistä (Eslon Metslang 2007: 105). Suomessa on tällä hetkellä kolme oppijankielen korpusta: käyttämäni Kansainvälinen oppijansuomen korpus ja erittäin edistyneiden suomenoppijoiden tieteellistä asiaproosaa sisältävä Turun korpus (Siitonen Ivaska 2008), joiden keruu on vielä alkuvaiheessavaiheessa, sekä Jyväskylän yliopiston CEFLING-hankkeessa 14 kerätty oppijansuomen korpus, joka koostuu yleisten kielitutkintojen testiaineistoista. Korpukset eroavat toisistaan siten, että Jyväskylän korpus koostuu suomea toisena kielenä ja Kansainvälinen oppijansuomen korpus suomea vieraana kielenä oppineiden teksteistä, Turun korpus taas sisältää tekstejä sellaisilta suomenoppijoilta, jotka ovat aloittaneet suo- 10 http://www.contragram.ugent.be/newsle12.html (19.6.2008) 11 http://www.latl.unige.ch/freetext/en/description.html (19.6.2008) 12 http://www.lb.u-tokai.ac.jp/lcorpus (19.6.2008) 13 http://evkk.tlu.ee/ (28.2.2009) 14 http://www.jyu.fi/hum/laitokset/kielet/cefling/suom (28.2.2009)

10 menopintonsa kotimaansa yliopistossa mutta jatkaneet opintojaan Suomessa joko suomen tai sen sukukielten maisteriohjelmassa (Siitonen Ivaska 2008). Oppijankielen tutkimuksessa on valta-asema oppijanenglannilla, ja siitä tehtyjä tutkimuksia on julkaistu ylivoimaisesti eniten. 15 Edistyneiden englanninoppijoiden sanastollisia frekvenssejä on tutkinut Ringbom, joka huomasi muun muassa, että suomalaisten, suomenruotsalaisten ja ruotsalaisten oppijoiden englannin kielessä tekemät sanastolliset virheet näyttäisivät harvoin olevan transferin vaikutusta (Ringbom 1998: 48). Oppijanenglannista on tehty myös jonkin verran kollokaatioanalyyseja, joista moni pohjautuu ICLE-korpukseen: Nesselhauf (2003: 235) on esimerkiksi huomannut, että saksankieliset englanninoppijat käyttävät lähdekielen vaikutuksesta monia kollokaatiorakenteita, jotka poikkeavat natiivienglannista (esim. make homework). Oppijanenglannin adverbi verbi-kollokaatioista havintoja on tehnyt Hasselgren (1994) ja määrite-adjektiivikollokaatioista Granger (1998b). Oppijansuomen korpustutkimus on vielä alkutekijöissään, mikä on luonnollista, koska oppijansuomen korpusten kerääminen on aloitettu vasta viime aikoina. Manuaalisin menetelmin oppijansuomen kollokaatteja on tutkinut aiemmin muun muassa Grönholm (2000, 2001), joka tarkasteli tutkimuksissaan esimerkiksi ruotsinkielisten käyttämiä adjektiivi substantiivi-kollokaatioita. Grönholmin kollokaatiomääritelmä on kuitenkin varsin väljä verrattuna korpustutkimuksessa käytettyihin määritelmiin, sillä hän ulottaa kollokaation koskemaan myös monisanaisia ilmauksia ja fraaseja. Grönholm (2000: 116) puhuu myös kollokaation eriasteisesta kiinteydestä, mutta tilastollisia menetelmiä hän ei kiinteyden osoittamiseksi käytä. Oppijansuomen kollokaatioita korpusten avulla on tarkastellut tietääkseni ainoastaan Jantunen (2007) pienen pilottiaineiston avulla. 15 Melko kattava bibliografia oppijanenglannin tutkimuksesta löytyy osoitteesta http://cecl.fltr.ucl.ac.be/learner%20corpus%20bibliography.html (28.2.2009)

11 2.2. Intralingvaalinen kontrastiivinen analyysi Intralingvaalinen kontrastiivinen analyysi eroaa kieliä keskenään vertailevasta kontrastiivisesta analyysista siten, että siinä ei vertailla kahta eri kieltä vaan natiivin ja oppijan variantteja samasta kielestä. Analyysissa tarkastellaan sitä, miten natiivi ja ei-natiivi kielenkäyttäjä käyttävät kieltä samankaltaisissa tilanteissa. (Pery-Woodley 1990: 144; Granger 1996: 43.) Toinen tapa on tarkastella kahden eri kielen oppijankieliä toisiinsa. Granger (1996: 44; 1998a: 175) käyttää molemmista tutkimustavoista nimitystä interlingvaalinen kontrastiivinen analyysi (interlingual contrastive analysis), mutta puhuttaessa saman kielen varianttien vertailusta käytetään usein termiä intralingvaalinen (ks. esim. Jantunen 2007). Tutkimukseni on nimenomaan intralingvaalinen kontrastiivinen analyysi, koska vertailen saman kielen kahta eri varianttia, oppijansuomea ja natiivisuomea, toisiinsa. Intralingvaalisen kontrastiivisen analyysin tarkoitus ei ole heijastella oppijankielen virheitä, kuten kontrastiivisen analyysin piirissä on usein tehty, vaan tavallisten sanojen, fraasien ja rakenteiden natiivikielestä poikkeavaa frekvenssiä. Oppijankielen ja natiivikielen vertailuun tarvitaan tietysti samaa tekstityyppiä edustava natiivikielinen korpus, sillä tekstityyppien erilaisuus saattaa vääristää analyysin tulosta. (Granger 1998a: 175 176.) Joidenkin mielipiteiden mukaan oppijankieltä ei tulisi lainkaan tutkia suhteessa johonkin natiivikielen normiin vaan ainoastaan itsenäisenä kielimuotona (Granger 2002: 53). Grangerin mukaan kontrastiivinen analyysi sekä kontrastiivinen inter- ja intralingvaalinen analyysi täydentävät toisiaan. Tulosten tulkinnassa kontrastiivisesta vertailusta on hyötyä, sillä moni oppijankielen ilmiö saattaa selittyä oppijan lähdekielen vaikutuksesta. Granger antaa esimerkin, jossa lauseenalkuiset konnektorit yliedustuvat kolmen eri lähdekielisen oppijaryhmän teksteissä. Ainoa tapa selittää konnektoreiden yliedustuminen on tarkastella kunkin oppijaryhmän lähdekieltä. (Granger 2002: 53). Kontrastiivista analyysia on hyödyntänyt myös Altenberg (2002), jonka tutkimuksesta ilmenee, että

12 ruotsalaisten englanninoppijoiden käyttämän make-verbin yliedustuminen voi olla osaltaan ruotsin göra-verbistä johtuvaa siirtovaikutusta. 2.3. Frekvenssi ja kollokaatio osana sanastontutkimusta Tässä tutkimuksessa tarkastelemani ilmiöt, sanastollinen frekvenssi ja kollokaatio, kuuluvat molemmat sanastontutkimuksen kenttään. Oppijankielen sanastontutkimuksessa sanastollista frekvenssiä ja kollokaatiota on tarkasteltu osana sanan hallintaa: tiedot sanan frekvenssistä ja tyypillisimmistä kollokaateista kuuluvat natiivin kielenpuhujan kielelliseen kompetenssiin. Muita sanan osaamisen kriteereitä ovat kyky sekä vastaanottaa että tuottaa sanan eri muodot, hallita sanan syntaktinen käyttäytyminen ja sanan semanttiset roolit, hahmottaa sana osana erilaisia ilmauksia sekä muita monisanaisia yksiköitä, tunnistaa sana sekä kontekstissa että ilman kontekstia sekä osata käyttää sanaa sille sopivassa kontekstissa. Kaikkia sanan osaamisen eri puolia eivät natiivitkaan kielenpuhujat täysin hallitse. (Puro 1999: 7; Karlsson 1998: 188 189.) Sanan frekvenssi tarkoittaa sanan esiintymistiheyttä tietyssä aineistossa; sanalla on siis sitä korkeampi frekvenssi, mitä useammin se esiintyy (Saukkonen ym. 1979: 7). Scott ja Tribble (2006: 23 26) jakavat sanat frekvenssin mukaan kolmeen eri luokkaan: korkeafrekvenssisiin, keskifrekvenssisiin sekä ns. hapax legomen -sanoihin, jotka esiintyvät tekstissä vain kerran. Tietoon sanan frekvenssistä kuuluu käsitys siitä, kuinka yleinen sana on erilaisissa yhteyksissä. Tieto frekvenssistä syntyy samalla tavoin kuin muukin tieto sanasta eli kielenoppijan kokemuksesta. Se on siis osa sitä tietoa, joka oppijalla on sanasta. Frekvenssin voi nähdä sekä pragmatiikan että semantiikan osana, sillä tiedolla sanan yleisyydestä luomme sanan merkitystä ja suhteita muihin sanoihin. Frekvenssi liittyy myös muistiin, sillä yleisesti ollaan sitä mieltä, että sanan yleisyys vaikuttaa sen oppimiseen. (Puro 1999: 8.) Kaikki sanat eivät ole yhtä tärkeitä kielenoppimisen kannalta. Kielenoppijan tulisi hallita kielestä noin 3 000 sanaa selviytyäkseen tyydyttävästi arkielämän tilanteissa. Suurin osa taajaan esiintyvästä sanastosta on sisältösanoja, ja jo 2 000 sanaa osaamalla voi

13 ymmärtää kahdeksankymmentä prosenttia kirjoitetusta kielestä. (Nation Waring 2005: 6 10.) Kollokationaaliset rakenteet tuottavat kielenoppijalle usein ongelmia. Kjellmerin mukaan kielenoppija ja natiivi eroavat kollokaatioiden tuottajina suuresti, sillä oppijalla on usein käytössään vain harvoja automaattistuneita kollokationaalisia rakenteita. Hän joutuu siis jatkuvasti tuottamaan rakenteita, jotka eivät välttämättä ole natiivin näkökulmasta hyväksyttäviä. Sanastoa ei tulisikaan opettaa kielenoppijalle yksittäisinä sanoina vaan tavallisimpina kollokationaalisina rakenteina. Tämä on tärkeää jo aivan kielenopiskelun alussa, kun oppijat ovat vielä kiinnostuneita etupäässä hyvin korkeafrekvenssisistä sanoista. (Kjellmer 1991: 124 125.) Nesselhaufin mukaan kyky tuottaa kollokaatioita on erityisen tärkeää edistyneille oppijoille, mutta siitä huolimatta myös edistyneet oppijat kompastelevat jatkuvasti kollokaatioita tuottaessaan. Kollokaatioiden merkitys on monella tavoin suuri: niillä näyttäisi olevan tärkeä rooli sekä kielenoppimisessa että sujuvan puheen ja kirjoituksen tuottamisessa, niiden ansiosta tekstin vastaanottajan ei tarvitse keskittyä erikseen jokaisen sanan ymmärtämiseen ja ne ovat merkkinä sanojen kuulumisesta tiettyihin kielellisiin luokkiin. (Nesselhauf 2005: 2.) Keskenään kilpailevat sanamääritelmät vaikeuttavat oppijankielen sanastontutkimusta (Puro 1999: 4). Muun muassa Carter on kritisoinut sitä, että sanasto määritellään usein joko sanavarastoksi tai -luetteloksi, jolloin sanat nähdään valmiiseen kieliopilliseen rakenteeseen sijoitettavana fonologisesti, aakkosellisesti tai semanttisesti järjestäytyneenä ryhmänä. Tällaisen määrittelyn tekee hänen mukaansa puutteelliseksi erityisesti sanojen polyseemisyys sekä se, että jotkin sanat saavat enemmän merkityssisältöä kuin jotkin toiset. (Carter 1989: 28 29.) Carter ei kuitenkaan kritiikistään huolimatta määrittele sanastoa uudelleen. Yksi kiistanaihe on ollut myös se, erotetaanko kielioppi ja sanasto toisistaan (Puro 1999: 4). Erottamista ovat vastustaneet esimerkiksi Sinclair (2004: 176)

14 ja Singleton (2000: 10 12), sillä jokainen sana sisältää väistämättä paljon kieliopillista tietoa sen käytöstä ja jokaisella kieliopillisella ilmiöllä on myös leksikaalinen ulottuvuus. Lewis (1993: vi, 19) taas ajattelee kieliopin olevan alisteinen leksikolle ja suurimman osan kielestä sisältyvän monisanaisiin jaksoihin (chunks). 16 Tässä tutkimuksessa näkemys sanaston ja kieliopin suhteesta on samanlainen kuin Singletonilla: sanasto ja kielioppi ovat toisistaan riippuvaisia. Tämän näkemyksen taustalla on erityisesti merkityksen kontekstuaalisesta kiinnostunut brittiläinen koulukunta (Stubbs 1996: 36), jonka ajatuksia esittelen seuraavassa luvussa. Sinclair (2004: 18), yksi brittiläisen koulukunnan päähahmoista, antaa esimerkin siitä, miten kielioppi ja sanasto ovat toisistaan riippuvaisia: englannin kielessä nomini lap syli toimii mieluummin prepositiolausekkeen määritteenä kuin lauseen subjektina tai objektina. Stubbs (1996: 36 37) toteaa Sinclairin väitteen todeksi 2,2 miljoonan sanan korpuksen avulla: siinä 19 lap-sanan esiintymästä vain yhdessä sana toimii muussa funktiossa kuin prepositiolausekkeen täydennyksenä. Esimerkkinä lap-sanan toimimisesta prepositiolausekkeessa Stubbs antaa muun muassa lauseen he used to sit me on his lap. Oppijankielen sanastontutkimusta on tehty erityisesti 1980-luvulta lähtien. Kansainvälinen tutkimus käsittelee nykyään muun muassa luetun ymmärtämisen ja sanaston kehittymisen suhdetta, harvinaisia ja moniosaisia sanoja sanastossa, sanaston oppimista ja metakognitioita, toisen kielen sananmuodostusprosesseja, passiivisen ja aktiivisen sanaston suhdetta toisen kielen oppimisessa, sanastoa ja ääntämistä sekä fonologiaa. (Puro 1999: 2 4.) 16 Kielen jaksomalli on Nattingerin ja DeCarrion (1992: 1) ajatus: heidän mukaansa suurin osa kielestä muistetaan leksikaalis-kieliopillisina jaksoina, esimerkiksi monisanaisina yksiköinä, lauseenrakentajina ja täysin institutionaalistuneina lauseina.

15 2.4. Konteksuaalinen semantiikka Kontekstuaalinen semantiikka pyrkii selvittämään merkityksen muodostumista analysoimalla ilmausta ympäröivää lähintä tekstikontekstia tai laajempaa, koko sosiaalisesta ympäristöstä muodostuvaa kontekstia (Jantunen 2004: 7). Merkityksen kontekstuaalisuudesta on ollut kiinnostunut erityisesti niin sanottu brittiläinen koulukunta, jonka keskeisimpiä hahmoja ovat J. R. Firth, M. A. K. Halliday ja John Sinclair. Erityisesti Sinclair kehitti korpuslingvistisiä metodeja merkityksen kontesktuaalisuuden tutkimisessa. Kieliteorian lähtökohtana on aineistoon perustuva analyysi. Tämä tarkoittaa sitä, että tutkimuksen kohteena olevan kielen tulee olla tuotettu luonnollisissa, todellisissa tilanteissa. (Stubbs 1996: 22; Tognini-Bonelli 2001: 2.) Firthin näkemyksen mukaan huolellisenkin introspektiivisen havainnoinnin avulla saamamme tieto ihmisen sisäisistä mentaalisista prosesseista on niin vähäistä, että kielen tutkiminen mentaalisia prosesseja tarkastelemalla pikemminkin vähentää tietoa kielestä kuin lisää sitä. Ainoa mahdollisuus tässä tilanteessa on rajoittua tutkimuksessa siihen, mikä on näkyvää ja aistein havaittavaa. (Firth 1968 [1957]: 169 170.) Leech (1981: 9) kiteyttää ajatuksen sanomalla, että kieltä on tutkittava sen omilla oikeuksilla, eikä hakea selityksiä kielen ulkopuolelta. Jantusen (2004: 7) mukaan lähestymistavalle on ominaista merkityksen ja muodon sekä leksikon ja kieliopin yhteyden korostaminen. Sinclair huomauttaakin, että yksittäinen kieliopillinen tai leksikaalinen valinta näyttäisi olevan tyypillinen vain sanan tietylle merkitykselle. Sinclair kritisoi myös perinteisiä sanakirjoja, jotka antavat sanalle useita irrallisia merkityksiä mutta eivät anna esimerkkejä siitä, mikä on sanan merkitys kussakin yhteydessä. (Sinclair 1991: 6 7.) Konteksuaalinen semantiikka ei pyri kuvaamaan kielenkäyttäjien jakamia abstrakteja käsitteitä vaan keskittyy tutkimaan konkreettisia toistuvia käyttöyhteyksiä ja niiden tavanomaisia merkityksiä. Tutkimuksen keskipisteessä on paradigmaattisen ja syntagmaattisen ulottuvuuden kohtauspiste eli Jantusta lainaten ne säännöt ja preferenssit, joiden perusteella ilmaus valitaan muiden ilmausten joukosta (paradigmaattinen suhde)

16 muiden ilmausten kanssa lineaariseen jatkumoon (syntagmaattinen suhde). (Jantunen 2004: 8.) Jantunen ottaa esimerkiksi syntagmaattisesta suhteesta segmentin <pieni satuja rakastava lapsi itki tyynynsä märäksi>, jossa syntagmaattiseen suhteeseen kuuluviksi voidaan osoittaa esimerkiksi tapaukset PIENI <LAPSI> ja LAPSI <SATU>. Esimerkkinä paradigmaattisesta suhteesta voisi olla se, että satu on valikoitunut lapsen kollokaatiksi, koska lapsella on juuri tämä denotaatio: sadun kanssa samaan paradigmaan kuuluvia ilmauksia ovat myös esimerkiksi tarina ja kirja. (Jantunen 2004: 8 9.) Kontekstuaalista merkitystä tarkoitettaessa on usein puhuttu kollokatiivisesta merkityksestä (Partington 1998: 15), jolla tarkoitetaan sanojen taipumusta esiintyä toistuvasti toisten sanojen kanssa. Käsitettä on usein selvennetty vertailemalla synonyymiparien kollokatiivista valintaa. Kontekstuaalisesta merkityksestä puhuttaessa on kuitenkin kysymys kollokatiivista merkitystä laajemmasta ilmiöstä, sillä se pitää sisällään myös leksikaalis-kieliopillisia ja leksikaalis-semanttisia suhteita. (Jantunen 2004: 9.) Tässä tutkimuksessa keskeisimmällä sijalla on kuitenkin nimenomaan kollokatiivinen merkitys eikä brittiläisen koulukunnan korostama leksikon ja kieliopin yhteys saa yksittäisiä havaintoja lukuun ottamatta paljoa huomiota. Korpuslingvistiikassa on usein keskitytty analysoimaan merkitystä koteksti-käsitteen avulla, joka on laajempi kuin koko sosiaalisesta ympäristöstä muodostuva kontekstikäsite (Jantunen 2004: 7, 11). Sinclair (1991: 172) tiivistää kotekstin tarkoittavan sanan tai ilmauksen tarkkarajaista tekstuaalista lähiympäristöä. Kotekstin rajojen määrittely on korpustutkimuksessa tärkeää, ja Jantusen (2004) tavoin viittaan sillä tässä tutkimuksessa tutkittavan ilmauksen ennalta rajattuun tarkastelualueeseen. Vaikka tässä tutkimuksessa keskitynkin ainoastaan kotekstin tutkimiseen, on kielenulkoisessa kontekstissa olevilla muuttujilla suuri merkitys kielenoppijoiden tuotoksiin. Tästä muistuttaa Tognini-Bonelli (2001: 87 88), jonka mukaan kontekstuaaliset elementit reaalistuvat kotekstissa usein monin tavoin, mikä on syytä huomioida esimerkiksi kielen eri variantteja tutkittaessa.

17 2.4.1. Vapaan valinnan periaate ja idiomiperiaate Sinclair on esittänyt paljon lainatut sanojen yhdistymisperiaatteet, joita ovat vapaan valinnan periaate (open choise principle) ja idiomiperiaate (idiom principle). Ensin mainittu tarkoittaa sanojen vapaata yhdistymisperiaatetta kieliopillisuuden täyttyessä, toinen sanojen yhdistymistä idiomaattisen valinnan mukaan. Sanojen yhdistyminen idiomaattisen valinnan mukaan tarkoittaa sitä, että kielenkäyttäjän sanastollisia valintoja ohjaavat usein kielenkäyttäjän käytössä olevat valmiit konstruktiot. Sinclair pitää vapaan valinnan mahdollisuutta näennäisenä, sillä sanat eivät hänen mukaansa esiinny tekstissä mielivaltaisessa järjestyksessä. Esimerkkinä idiomaattisesta valinnasta Sinclair mainitsee kollokaatiot. (Sinclair 1991: 110, 173, 175.) Jantusen mukaan sanojen yhdistymistä toistensa kanssa on kuitenkin pidettävä jatkumona, jonka toisessa päässä on hypoteettinen sanojen täysin vapaa valinta ja toisessa täysin rajoittunut myötäesiintyminen. Jatkumon ääripäiden välissä sanojen valintaa ohjaavat myötäesiintymispreferenssit (mikä on tyypillistä), eivät tiukat rajoitukset (mikä on mahdollista). Sanoilla voi olla laaja joukko kollokaatteja ympäristössään, mutta siitä huolimatta ne voivat suosia joitakin sanoja enemmän kuin toisia. (Jantunen 2004: 15.) Jatkumoperiaatetta soveltaen voisi ajatella, että tilastollinen merkitsevyys kertoo siitä, mihin kohtaan jatkumoa kollokaatio sijoittuu. Toisin sanoen mitä merkitsevämpi kollokaatio, sitä lähempänä idiomia se jatkumolla on. 2.4.2. Kollokaatio Termin kollokaatio esitteli ensimmäisen kerran Firth (1957: 194 195). Kollokaatiotutkimuksessa on siteerattu viljalti Firthin (1968 [1957]: 179) lausetta you shall know a word by the company it keeps, mutta kollokaatioanalyysit lisääntyivät kuitenkin merkittävästi vasta 1980- ja 1990-luvuilla laajojen korpusten myötä. Nykyisin kollokaatioanalyysit ovat kontekstuaalisen kielenkuvauksen keskeisintä aluetta (Jantunen 2004: 15). Sinclair määrittelee kollokaation vähintään kahden sanan esiintymiseksi toistensa lähellä, tavallisesti enintään neljän sanan päässä toisistaan. Sinclairin mukaan kollokaatioita

18 voivat olla sekä harvoin että usein toistensa seurassa esiintyvät leksikaaliset kombinaatiot. (Sinclair 1991: 170.) Leech (1974: 20) taas ymmärtää kollokaation psykologisesti: kollokaatio tarkoittaa sanojen tuottamia assosiaatioita eli sanoja, jotka merkityksensä perusteella tapaavat esiintyä lähellä toisiaan. Leechin esimerkissä hyvännäköistä tarkoittavat pretty ja handsome voidaan erottaa toisistaan juuri niiden tuottamien assosiaatioiden perusteella: tyypillisiä kollokaatteja sanalle pretty ovat esimerkiksi girl tyttö, woman nainen ja village kylä, kun taas handsome-sanan tyypillisiä kollokaatteja ovat esimerkiksi man mies, vessel alus, laiva ja overcoat päällystakki. Partingtonin (1998: 16) mukaan natiivin kielenpuhujan kommunikatiiviseen kompetenssiin kuuluu tieto siitä, milloin sanoille on tyypillistä esiintyä toistensa yhteydessä. Hoeyn (1991: 6 7) määritelmä on tilastollinen: kollokaatio on suhde, jossa leksikaaliset elementit esiintyvät toistensa seurassa enemmän kuin sattumanvaraisesti. Firthin (1957: 196) perusoletus sanojen syntagmaattisesta suhteesta on lukuisia kollokaation määritelmiä yhdistävä piirre sanojen syntagmaattinen leksikaalinen myötäesiintyminen toisten sanojen kanssa on tärkeä osa sanojen merkitystä, ja se ilmenee kontekstuaalisena leksikaalisena valintana. Kollokaatiota on ilmiönä pyritty rajaamaan muutamilla piirteillä, joista keskeisimpiä ovat toistuvuus, tilastollinen merkitsevyys ja ulottuvuus (Jantunen 2004: 15 16). Tässä tutkimuksessa rajaan kollokaatiota ilmiönä juuri näiden piirteiden avulla. 2.4.2.1. Kollokaation toistuvuus Leksikon syntagmaattisia suhteita on kuvattu usein juuri tyypillisten kollokaatioiden avulla. Jantusen mukaan termejä, joilla tyypillisyyteen on tutkimuskirjallisuudessa viitattu, ovat muun muassa habitual collocation (Firth 1957), habitual co-occurence (Stubbs 1995a; 1996), regulary co-occur (Halliday Hasan 1976), occur repeatedly (Carter 1989 (1987), recurrent sequences/co-occurence (Kjellmer 1984; Smadja 1993). Samasta asiasta hieman toisistaan poikkeavilla termeillä tarkoitetaan sitä, että syntagmaattisessa suhteessa olevien sanojen yhdessä esiintymisen tulee olla taajaa, jotta voidaan puhua kollokaatiosta. (Jantunen 2004: 16.)

19 Edellä mainittujen Sinclairin (1991: 170) ja Leechin (1974: 20) kollokaatiotulkintojen välillä on helposti havaittava suhde, sillä tietyn sanan tuottamat assosiaatiot esiintyvät usein myös tekstissä lähellä toisiaan. Tämän suhteen pohjalta tekstin lukija huomaa, ovatko tekstissä esiintyvät kollokaatiot tyypillisiä vai epätyypillisiä. Kollokationaalinen normi eli se, mitkä kollokaatiot ovat tyypillisiä ja mitkä epätyypillisiä on riippuvainen muun muassa genrestä, rekisteristä ja tyylistä, ja sitä voidaan rikkoa esimerkiksi huumorin avulla. (Partington 1998: 17, 121.) 2.4.2.2. Kollokaation tilastollinen merkitsevyys Leksikaalisia myötäesiintymiä on tarkasteltu myös tilastollisen merkitsevyyden näkökulmasta, sillä kollokaattia on pidetty analyysin kannalta sitä merkitsevämpänä, mitä useammin se esiintyy. Tilastollista menetelmää käytettäessä leksikaaliset kombinaatiot jaetaan kolmeen ryhmään: 1) kerran tai harvoin esiintyviin kollokaatioihin, jotka eivät ole merkittäviä tutkimuksen kannalta, 2) kollokaatioihin, jotka ylittävät tutkimuksen kannalta relevantin esiintymistaajuuden sekä 3) tilastollisesti merkittäviin kollokaatioihin. (Jantunen 2004: 17.) Hoeyn (1991: 6 7) mukaan leksikaaliset elementit esiintyvät kollokaatiossa toistensa seurassa enemmän kuin pelkän sattuman pohjalta voisi olettaa. Partington (1998: 16) kutsuu tätä Hoeyn kollokaatiomääritelmää tilastolliseksi määritelmäksi. Tilastollisen testauksen tarkoitus onkin juuri paljastaa tekstistä tällaiset enemmän kuin sattumanvaraisesti yhdessä esiintyvät leksikaaliset kombinaatiot (Berry-Roughe 1973: 103). Tilastollista merkitsevyyttä laskettaessa otetaan huomioon tarkastelun kohteena olevan sanan eli noodin sekä kollokaattien todelliset frekvenssit jollakin tarkastelualueella, odotetut frekvenssit tällä alueella sekä tarkastelualueen ja aineiston koot (Barnbrook 1996: 87 106). Tarkastelualue tarkoittaa kollokaation ulottuvuutta eli esimerkiksi Sinclairin (1991: 170) määritelmän mukaan kollokaattien esiintymistä enintään neljän sanan päässä toisistaan. Tarkastelun kohteena olevaa sanaa kutsutaan siis noodiksi, ja valitulla tarkaste-

20 lualueella esiintyviä sanoja kollokaateiksi. Tarkastelualueen sanoja ovat siis kollokaatit, jotka esiintyvät tietyllä etäisyydellä noodista. (Barnbrook 1996: 92.) Laskettaessa tarkastelualueen sanojen oletettua frekvenssiä tarvitaan tieto sanan frekvenssistä sekä koko tekstissä että tarkastelualueella. Ainoa käytännössä mahdollinen tapa oletetun frekvenssin selville saamiseksi on asettaa lähtökohdaksi, että sanat esiintyvät tekstissä tasaisesti, vaikka näin asia ei tietenkään todellisuudessa ole. Sanan todellisen frekvenssin, tarkastelualueen frekvenssin ja koko korpuksen koon avulla lasketaan, kuinka useasti sana esiintyisi tarkastelualueella, jos se esiintyisi tekstissä tasaisesti. (Barnbrook 1996: 92 93.) Jantunen (2004: 18) korostaa myös sitä, että testien avulla tilastollisesti merkitseviksi osoittautuvat kollokaatiot eivät välttämättä ole semanttiseen myötäesiintymistendenssiin perustuvia: tilastollisen laskennan perusteella merkitseväksi osoittautunut kollokaatio TÄRKEÄ <TEKIJÄ> (Jantunen 2001) ei ole semanttiseen myötäesiintymistendenssiin perustuva kuten esimerkiksi Scottin ja Tribblen (2006: 34) esimerkissä kollokaatio LEHMÄ <MAITO>. 2.4.2.3. Kollokaation ulottuvuus Kollokaation ulottuvuudesta puhuttaessa on otettava huomioon kollokationaaliseen suhteeseen kuuluvien sanojen lukumäärä, noodin ja sen kollokaattien välimatka toisistaan, noodin ja sen kollokaattien kieliopillinen suhde sekä tarkastelualueen symmetrisyys (Jantunen 2004: 18). Kollokaatioiksi on laskettu usein vain kahden sanan myötäesiintymät (Sinclair 1987: 325), mutta esimerkiksi Kjellmer ja Smadja pitävät kollokaatioina myös useampisanaisia yhdistelmiä. Kjellmerin (1984: 167) mukaan kollokaatio erottuu tekstistä sitä paremmin, mitä pitempi se on: in the case erottuu paremmin kuin the case. Smadja (1993: 148) taas pitää useampisanaisia yhdisteitä sellaisina kollokaatioina, joita ei voi rikkoa muuttamatta niiden merkitystä. Kahden sanan myötäesiintymät eroavat useampisanaisista kombinaatioista siten, että kollokaattien välissä voi olla useampikin sana välissä, kun taas useampisanaiset kombinaatiot muodostuvat peräkkäisistä sanoista (Jantunen 2004: 18). Kjellmerin (1984: 167) mukaan on myös epätodennäköistä, että useampisanaiset kombinaatiot esiintyisivät

21 tekstissä useammin kuin kerran. Kollokaatiot ja useampisanaiset yhdistelmät onkin yleensä erotettu toisistaan, ja tutkimuskirjallisuudessa on puhuttu monisanaisia yhdistelmiä tarkoitettaessa esimerkiksi klustereista (Scott 1998: 59). Tässä tutkimuksessa käsittelen kollokaatiota kahden sanan myötäesiintymänä, en useamman sanan yhdisteenä. Kollokationaalisen suhteen muodostavien sanojen on katsottu esiintyvän toistensa lähellä, ja tämä läheisyys on haluttu usein määritellä tarkasti, sillä tarkastelualueen koko vaikuttaa merkitsevästi tutkimustuloksiin (Jantunen 2004: 19). Usein käytettyjä havaintovälejä ovat 2:2 tai 3:3, mikä tarkoittaa kahta tai kolmea sanaa noodin eli tarkastelun kohteena olevan sanan molemmin puolin. Mitään yhteisymmärrystä havaintovälin koosta ei kuitenkaan ole. (Stubbs 1995b: 32 33.) Jones ja Sinclair (1974: 21 22) tutkivat noodista 1 10 sanan päässä olevien sanojen lukumäärää ja tulivat siihen tulokseen, että neljää asemaa kauempana olevat sanat kollokoivat harvoin noodin kanssa. Tässä tutkimuksessa tarkastelen Cleariin nojautuen kollokaatteja enintään kahden sanan etäisyydellä noodista, sillä on todettu, että lähimpänä olevat sanat kollokoivat noodin kanssa vahvimmin (Clear 1993: 176). Ulottuvuuteen liittyy Jantusen (2004: 20) mukaan myös kysymys, otetaanko tarkastelualueella huomioon kieliopilliset rakenteet välimatkan rinnalla. Stubbsin (1995b: 246) määritelmässä kollokaatiossa on kysymys pelkästään leksikaalisesta suhteesta sanojen välillä, kun taas Kjellmer (1984: 163) ottaa kieliopillisen rakenteen kollokaation kriteeriksi leksikaalisuuden rinnalle. Clear (1993: 276) pitää merkitsevää kollokationaalista suhdetta epätodennäköisenä myös eri virkkeissä olevien lekseemien välillä. Eri mieltä Clearin kanssa on kuitenkin esimerkiksi Berry-Roughe (1973: 108 109), jonka mukaan kaikki merkitsevät kollokaatit eivät löydy välttämättä ole saman virkkeen sisällä. Itse tarkastelen kollokaatiota puhtaasti leksikaalisena ilmiönä, vaikka teenkin joitakin havaintoja myös noodin ja kollokaattien kieliopillisista suhteista. Clearin tavoin lasken kollokaateiksi kuitenkin vain ne, jotka esiintyvät noodin kanssa samassa virkkeessä. 2.5. Kielenainesten yli- ja aliedustuminen

22 Ensimmäisenä oppijankielen yli- ja aliedustumiin kiinnitti huomiota Levenston (1971). Yliedustumilla tarkoitetaan piirteitä, joilla on natiivikieleen verrattuna poikkeuksellisen suuri frekvenssi, aliedustumien frekvenssi on taas natiivikieleen verrattuna poikkeuksellisen pieni. Levenston kiinnitti huomiota muun muassa leksikaalisten piirteiden ja kieliopillisten rakenteiden poikkeaviin frekvensseihin oppijankielessä. Hänen mukaansa poikkeamat johtuvat lähdekielen mallista. Kielenainesten liika- ja vajaakäyttö voi kieliopillisesta virheettömyydestä riippumatta aiheuttaa kielenkäyttöön piirteitä, joita lukija tai puhuja ei tarkoita. Tällaisia piirteitä ovat esimerkiksi jaarittelu ja liiallinen muodollisuus. Levenstonin mielestä yli- ja aliedustumien analysointi on hyödyllistä erityisesti edistyneille oppijoille. (Levenston 1971: 115, 121.) Oppijankielen tutkimuksen lähtökohtana onkin usein havainto jonkin kielenpiirteen yliedustumisesta, joskus myös aliedustumisesta (Jantunen 2008: 4). Tässä analyysissa tutkin sananmuotojen yliedustumia. Kielenainesten liika- ja vajaakäyttö voi selittyä monella tavoin. Kyse voi olla kielenoppijan kommunikaatiostrategiasta, jolloin tämä käyttää taajaan niitä kielenaineksia, joita osaa, ja välttelee niitä, joita ei osaa. Ilmiö voi myös kertoa siitä, mitä kielenoppijalle ei vielä ole opetettu. (Gabel 2001: 271.) Yliedustumien syynä voi siten olla vaikeaksi koettujen kielenpiirteiden korvautuminen helpommilla. Usein yliedustumisessa voi nähdä myös lähdekielen vaikutuksen. (Ellis 1995: 305 306.) Yliedustumia aiheuttaa myös muun muassa jonkin kielenpiirteen yleistyminen merkitystään laajempaan käyttöön (Levenston 1971: 118) ja jonkin vasta omaksutun kielenpiirteen käyttö sille soveltumattomissa yhteyksissä (Latomaa 1996: 99).

23 3. TUTKIMUSMETODIT 3.1. Korpusvetoinen analyysi Korpusvetoisessa analyysissa tutkimuskohteiksi valittavia kielenaineksia ei valita etukäteen, vaan ne nousevat korpuksesta. Korpusvetoisen tutkimuksen vastakohta on korpuslähtöinen tutkimus, jossa korpusta käytetään olemassa olevien teorioiden vahvistamiseen. Korpuslähtöisessä tutkimuksessa tutkittava kielenpiirre valitaan siis etukäteen. Korpusvetoisessa tutkimuksessa teoreettiset väittämät ovat sen sijaan sidoksissa siihen, mitä korpus tuo esille. Korpusta ei siis nähdä ainoastaan esimerkkivarastona, jolla vahvistetaan olemassa olevia teorioita. Korpuksen tutkiminen johtaa hypoteeseihin, hypoteesit yleistyksiin ja yleistykset tulosten liittämiseen teoreettisiin väittämiin. Tutkimustapojen eron voisi kiteyttää seuraavasti: korpuslähtöisesti tutkittaessa todetaan, että korpus voi todistaa jonkin asian, kun taas korpusvetoisesti tutkittaessa kysytään, mitä kaikkea korpus voi todistaa. (Tognini-Bonelli 2001: 65, 78, 84 85.) Korpusvetoisen analyysin tarkoitus on luoda kielellisiä kategorioita kielessä usein toistuvien piirteiden avulla. Piirteisiin pääsee Tognini-Bonellin mukaan käsiksi tarkastelemalla tutkittaviksi nousseiden kielenainesten kotekstia. Helpoimmin havaittavina kielenpiirteinä Tognini-Bonelli pitää juuri kollokaatiota sekä kolligaatiota, joka tarkoittaa Firthin (1957: 181) määritelmän mukaan sanaluokkien, lauseenjäsenluokkien tai erilaisten sananmuotojen yhteisesiintymistä syntagmaattisessa suhteessa. Tognini-Bonellin mukaan on tärkeää tarkastella myös sitä, miten kielen ulkopuolinen konteksti vaikuttaa kielellisen ilmiön frekvenssiin. Myös nämä kielenpiirteet, joiden frekvenssi kielessä on sidoksissa kontekstiin, osallistuvat kielellisten kategorioiden luontiin. (Tognini-Bonelli 2001: 87 89.) Tekemäni avainsana-analyysi sopii hyvin metodiksi korpusvetoiseen analyysiin, sillä sen avulla on mahdollista löytää aineistosta epätyypillisen frekventtejä kielenpiirteitä. Analyysi toimii siis Tognini-Bonellin tähdentämän tutkijan intuition apuna.