MORFOSYNTAKTISET OBJEKTIVIRHEET OPPIJANSUOMESSA KORPUSPOHJAINEN KUVAUS SUOMENOPPIJOIDEN KIELITAIDON TARKKUUDEN KEHITYKSESTÄ

MORFOSYNTAKTISET OBJEKTIVIRHEET OPPIJANSUOMESSA KORPUSPOHJAINEN KUVAUS SUOMENOPPIJOIDEN KIELITAIDON TARKKUUDEN KEHITYKSESTÄ Suomen kielen pro gradu -tutkielma Oulun yliopisto 15.5.2017 Olli-Juhani Piri

SISÄLLYS 1. JOHDANTO 1 1.1. Tutkimuksen taustaa 1 1.2. Tutkimuksen aihe ja hypoteesit 3 2. TUTKIMUSAINEISTO 6 2.1. Aineisto 6 2.2. Kansainvälinen oppijansuomen korpus 8 2.3. Eurooppalainen viitekehys 11 2.4. Annotointi 13 3. TUTKIMUSMETODIT JA TUTKIMUKSEN TEOREETTINEN TAUSTA 16 3.1. Oppijankielen tutkimuksesta 16 3.2. Virheiden hakeminen ja luokittelu 18 3.3. Potentiaalisen esiintymisen analyysi 23 3.4. Virheanalyysi 27 3.5. Kielitaidon tarkkuus ja tarkkuuden kehityksen mallintaminen 31 4. SUOMEN KIELEN OBJEKTI 34 4.1. Objekti ja objektin morfosyntaksi 34 4.2. Objekti oppijansuomessa 37 5. MORFOSYNTAKTISESTI VIRHEELLISTEN JA VIRHEETTÖMIEN OBJEK- 40 TIEN MÄÄRÄT JA OSUUDET 5.1. Kaikki objektin morfosyntaktiset virheet 40 5.2. Virheettömät ja virheelliset objektit eriteltynä 43 5.2.1. Partitiivivirheet 44 5.2.2. Nominatiivivirheet 45 5.2.3. Genetiivivirheet 48 5.2.4. Akkusatiivivirheet 49

6. KIELITAIDON TARKKUUDEN KEHITYS JA VIRHETAPAUSTEN KUVAILU 51 VIRHERYHMITTÄIN 6.1. Partitiivivirheiden kehitys 52 6.2. Genetiivivirheiden kehitys 62 6.3. Nominatiivivirheiden kehitys 69 6.4. Akkusatiivivirheiden kehitys 74 7. YHTEENVETO JA POHDINTA 80 7.1. Tutkimustulosten yhteenvetoa ja pohdintaa 80 7.2. Potentiaalisen esiintymisen analyysi osana oppijansuomen tutkimusta 85 8. PÄÄTÄNTÖ 88 LÄHTEET JA LYHENTEET 91 LIITTEET

1. JOHDANTO 1.1. Tutkimuksen taustaa Pro gradu -tutkielmassani mallinnan potentiaalisen esiintymisen analyysin avulla, kuinka suomenoppijoiden kielitaidon tarkkuus kehittyy Eurooppalaisen viitekehyksen taitotasojen A2 B2 välillä. Tutkimuskohteenani ovat suomenoppijoiden tuottamat morfosyntaktiset objektivirheet ja morfosyntaktisesti virheettömät objektit. Viivadiagrammeilla kuvaamani taitotasojen välisen muutoksen lisäksi esittelen, erittelen ja kuvailen, millaisia morfosyntaktisia objektivirheitä oppijat ovat tuottaneet. Lopuksi luon myös katsauksen siihen, kuinka hyvin harvoin käytetty tutkimusmetodini asettuu oppijansuomen tutkimukseen. Suomen kielen objekti on tutkitusti suomenoppijalle yksi hankalimmista syntaksiin liittyvistä opittavista ilmiöistä (Aalto ym. 1997: 534). Suomenoppijan tuottamassa kielenaineksessa epätyypillisyyksiä ilmenee etenkin objektin morfosyntaksissa, tarkemmin määriteltynä objektin sijanvalinnassa (ks. esimerkiksi Leinonen 2016 tai Ranua & Ruotsalainen 2007). Siksi olenkin valinnut tutkimuskohteekseni kansainvälisessä oppijansuomen korpuksessa (ICLFI) olevissa teksteissä esiintyvät suomenoppijoiden tuottamat morfosyntaktiset objektivirheet ja morfosyntaktisesti virheettömät objektit. Tutkimuksessani objektin morfosyntaktisella virheellä tarkoitan objektin lukuun ja sijanvalintaan liittyviä virheitä. Morfosyntaktisesti virheettömässä objektissa oppija on onnistunut tuottamaan suomen kielen sääntöjen mukaisen objektin sijamuodon tai luvun. Korpuspohjaisessa 1 opinnäytetutkimuksessani käytän potentiaalisen esiintymisen analyysiksi (ks. Brunni, Airaksinen & Jantunen 2016) kutsuttua oppijankielen, ja etenkin oppijansuomen, tutkimuksessa harvoin hyödynnettyä tutkimusmetodia. Oppijansuomella tarkoitan yhtä oppijankielen muodoista. Oppijansuomi on kie- 1 Sähköiseen aineistoon pohjautuva tutkimus, jossa tarkasteltavat kielen yksiköt tai ilmiöt on määritelty jo ennen tutkimuksen aloitusta (Tognini-Bonelli 2001: 65 66).

2 lenoppijan eli tässä tapauksessa suomenoppijan tuottamaa kielellistä ainesta. Oppijankielellä taas tarkoitan yleisellä tasolla kielenoppijoiden tuottamaa kielenainesta. (Kajander 2013: 14; Kallioranta 2009: 1.) Potentiaalisen esiintymisen analyysille on ominaista, että oppijoiden tuottamat virhetapaukset suhteutetaan sanemäärien sijaan virheen potentiaalisiin esiintymiin, eli karkeasti arvioituna kaikkiin niihin paikkoihin, joissa virhe voisi esiintyä (ks. luku 3.3.). Potentiaalisen esiintymisen analyysin on kuvailtu menevän aiempia suhteutusmenetelmiä ainakin yhden askeleen pidemmälle. Menetelmä mahdollistaa astetta tarkemmin oppijankielen tarkkuuden kehityksen mallintamisen etenkin, kun tutkimuskohteeksi on valittu hallittavissa oleva ja vahvasti normeihin nojautuva opittavan kielen ilmiö. Suomen kielen objektin morfosyntaktinen järjestelmä nojaa vahvasti säännönmukaisuuteen (ks. VISK 925), minkä takia tutkimuskohde sopii hyvin potentiaalisen esiintymisen analyysin kohteeksi. (Thewissen 2015: 143 144.) Oppijansuomen tutkimuksessa kiinnitetään usein huomiota, yleisemmän tason ilmiöksi määriteltyihin, oppijoiden käyttämän kielen tarkkuuteen, sujuvuuteen ja kompleksisuuteen (ks. luku 3.5.). Martinin ja Alasen mukaan (ks. 2011: 34) tutkimukselleni olennaisessa kielitaidon tarkkuudessa on kyse kielenoppijoiden tekemistä virheistä. Virheellä tarkoitan poikkeamaa kohdekielen normien eli suomen kielen sääntöjen mukaisesta kielenaineksesta. Virhe on häiriö, joka syntyy oppijan tuottaessa opittavaa kieltä (Corder 1976: 260). Onkin syytä muistaa, että oppijoiden lisäksi myös natiivit tekevät paljon virheitä (Lähdemäki 1995: 27). Kielitaidon tarkkuudella tarkoitetaan pohjimmillaan sitä, kuinka suomenoppijan tuottama kielenaines eroaa norminmukaisesta suomen kielestä (ks. Wulff & Gries 2011: 62). Mitä kehittyneempi suomenoppijan kielitaidon tarkkuus on tutkimuksessani, sitä vähemmän virheitä tuotetussa kielenaineksessa esiintyy. Morfosyntaktisiin objektivirheisiin liittyvän kielitaidon tarkkuuden kehitystä tarkastelen Eurooppalaisen viitekehyksen (2003) taitotasokuvausten puitteissa. Eurooppalainen viitekehys on kuvaus siitä, mitä kielenoppijan tulisi pystyä kielellä tekemään ja missä taidoissa on puutetta (Lesonen 2013: 3 4). Eurooppalaisen viitekehyksen mukaan aineistoni teksteistä tehdyt arviot kuvaavat tekstin tasoa, eivät

3 niinkään oppijan (Jantunen 2011: 97). Tutkimuksessani käsittelemäni A-taso tarkoittaa alkeistasoa ja B-taso keskitasoa. Eurooppalaista viitekehystä ja sen mukaisia taitotasokuvauksia käsittelen tarkemmin luvussa 3.3. Eurooppalaisen viitekehyksen taitotasokuvausten ja oppijansuomen piirteitä käsittelevien tutkimusten perusteella suomenoppijoiden kielitaidon tarkkuus kehittyy kielitaidon karttuessa (ks. esimerkiksi Lesonen 2013, Mustonen & Siivelt 2009 tai Brunni ym. 2016). Suomenoppijoiden kielitaidon tarkkuuden kehityksen ja oppijoiden tuottamien virheiden kuvailulla tarkoituksenani onkin tuoda kaivattu lisä oppijansuomea koskevien tutkimusten kirjoon (ks. Jantunen 2007: 67). Morfosyntaktisten objektivirheiden kehityksen kuvaaminen metodeillani antaa monin tavoin varovaisen, mutta aineistoni laajuuden takia toivoakseni myös osuvan kuvan kielitaidon tarkkuuden kehityksestä. Tavoitteenani on, että tutkimukseni tuloksia voisi soveltuvissa määrin hyödyntää pohjana tuleville ja lisänä nykyisille tutkimuksille, oppimateriaalien suunnittelussa ja vahvasti intuitioon perustuvien (ks. Thewissen 2015: 22) Eurooppalaisen viitekehyksen taitotasokuvausten kehittämisessä. Tutkimukseni ei tarjoa monien taustamuuttujien takia (ks. luku 2.2.) absoluuttista kuvaa kehityksestä, mutta avaa taas uuden väylän kielenoppimisen prosessien ymmärtämiseen. 1.2. Tutkimuksen aihe ja hypoteesit Mallinnan korpuspohjaisessa tutkimuksessani potentiaalisen esiintymisen analyysin tulosten, suhteellisten esiintymien, avulla, kuinka oppijoiden kielitaidon tarkkuus kehittyy Eurooppalaisen viitekehyksen taitotasojen A2 B2 välillä. Suhteellisella esiintymällä tarkoitan oppijoiden tuottamien virheiden ja potentiaalisten esiintymien muodostamaa suhdelukua eli virheiden osuutta potentiaalisista esiintymistä. Luon tutkielmassani katsauksen siihen, kuinka oppijoiden tuottamat morfosyntaktiset objektivirheet kehityttävät oppijoiden kielitaidon karttuessa. Suhteellisen esiintymän pieneneminen tarkoittaa tutkimuksessani tarkkuuden kehitystä. Tutkielmassani vastaan seuraaviin tutkimuskysymyksiin.

4 1) Millaisia morfosyntaktisia objektivirheitä oppijat tekevät, ja kuinka paljon niitä on? 2) Millaisia morfosyntaktisten objektivirheiden pääryhmien ja oppijoiden tuottamien virheellisten sijamuotojen suhteelliset esiintymät ovat? 3) Millaista muutosta suhteellisissa esiintymissä tapahtuu Eurooppalaisen viitkehyksen taitotasojen A2 B2 välillä? 4) Kehittyykö suomenoppijoiden kielitaidon tarkkuus morfosyntaktisten objektivirheiden suhteellisten esiintymien perusteella? 5) Mitä tekijät voivat selittää suhteellisissa esiintymissä tapahtuvaa muutosta? Tutkielmassani luon mahdollisimman tarkan kuvauksen oppijoiden tuottamista morfosyntaktisista objektivirheistä sekä niiden kehityksestä aineistoni ja pro gradu -tutkielman laajuuden puitteissa. Esittelen virheitä niin lukujen kuin aineistoesimerkkien avulla. Tutkimustulosteni kokoavassa tarkastelussa luon katsauksen siihen, millaista kielitaidon tarkkuuden kehitystä on tapahtunut ja miten kehitys asettuu aiempien tutkimusten viitekehykseen. Lisäksi arvioin, kuinka hyvin valitsemani, harvoin käytetty, tutkimusmetodi (ks. luku 3.3.) soveltuu tutkimustarkoitukseen. Suomenoppijoiden tuottamista objekteista ja objektin morfologiasta on olemassa useita aiempia tutkimuksia (ks. luku 3.1.), mutta tutkimukseni kaltaista potentiaalisiin esiintymiin pohjautuvaa kvantitatiivista tutkimusta ei juurikaan ole tehty (ks. luku 3.3.). Tästä syystä minulla ei ole vankkoja ennakko-olettamuksia tutkimustulosteni suhteen, mutta esitän kaksi hypoteesia. Pohdin alla lueteltuja hypoteesejani ja tutkimusmetodin osuvuutta tutkielmani yhteenvedossa ja päätännössä. (ks. luvut 7 ja 8.). 1) Suomenoppijat tuottavat paljon objekteja, joihin on virheellisesti tuotettu perusmuoto eli nominatiivi (ks. Rinne 1996). Nominatiivien käyttö vähenee edistyneemmillä taitotasoilla, sillä nominatiivi on varsin harvinainen objektin sijamuoto (ks. VISK 925, 935). 2) Kielitaidon karttuessa suomenoppijoiden kielitaidon tarkkuus kehittyy taitotasojen A2 B2 välillä. Suomenoppijoiden tuottamien morfosyntaktisten objektivirheiden suhteelliset esiintymät pienenevät taitotasojen A2 B2 välillä, sillä Eurooppalaisen viitekehyksen (2003) mukaan kielitaito kehittyy (ks. myös Brunni ym. 2016).

5 Hypoteesini perustuvat pitkälti siihen olettamukseen, että oppijoiden kielitaidon tarkkuus kehittyy aineistoni tekstien perusteella sitä myötä, kun Eurooppalaisen viitekehyksen mukainen taitotaso nousee. Lisäksi hypoteesieni pohjana toimivat XLIII Kielitieteen päivillä Oulussa vuonna 2016 esitellyt tutkimustulokset (ks. Brunni ym. 2016 tai luku 6). Vaikka objektin morfosyntaktisten virheiden suhteellinen esiintymä laskisi kokonaisuudessaan, lienee mahdollista, että esimerkiksi jonkin tyyppiset virhekategorian sisäiset virheet lisääntyvät, kun taas toiset vähenevät. Virhetyyppejä käsittelen analyysiluvuissa 5 ja 6.

6 2. TUTKIMUSAINEISTO Seuraavissa alaluvuissa kuvailen tutkimusaineistoani, annotointia ja olennaisimpia taustamuuttujia, kuten lähdekieliä ja Eurooppalaisen viitekehyksen taitotasokuvauksia. 2.1. Aineisto Tutkimusaineistoni koostuu kieliopillisesti annotoidusta ja virheannotoidusta kansainvälisestä oppijansuomen korpuksesta 2 (ICLFI) poimituista suomea vieraana kielenä opiskelleiden oppijoiden tuottamista teksteistä (ks. Jantunen & Pikola 2015: 89). Annotoinnilla tarkoitetaan lingvistisen metatiedon sisällyttämistä korpukseen. Metatiedolla voidaan tarkoittaa esimerkiksi saneiden kieliopillisia funktioita tai saneissa ilmeneviä virheitä. (ks. Jantunen 2011: 92 tai luku 2.4.) Tekstit ovat hollanninkielisten, kiinankielisten, ruotsinkielisten, tsekinkielisten ja vironkielisten ulkomailla suomea opiskelevien oppijoiden tuottamia. Kyseiset äidinkielet valikoituivat aineistooni, sillä ICLFI on virheannotoitu niiltä osin. Kaikki aineistoni tekstit on arvioitu Eurooppalaisen viitekehyksen (2013) taitotasokuvausten mukaisesti. A2- taso kuvaa alkeistason edistyneempää osaa, selviytyjän tasoa. B1-taso kuvaa taas keskitason varhaisempaa osaa, kynnystaitotasoa ja B2-taso edistyneempää osaa, osaajan tasoa (ks. luku 2.3.). (Jantunen 2011: 92.) Aineistooni kuuluu yhteensä 1 129 suomenoppijoiden tuottamaa tekstiä. Teksteissä on yhteensä 180 661 sanetta. Taitotasolta A2 on yhteensä 383 tekstiä, taitotasolta B1 on 537 tekstiä ja taitotasolta B2 on 209 tekstiä. Tutkimukseeni sisältyvät tekstit ja sanemäärät taitotasoittain ja lähtökielittäin on esiteltynä taulukossa 1. Olen poiminut teksteistä taitotasoittain oppijoiden tuottamat morfosyntaktiset objektivirheet sekä laskenut oppijoiden tuottamat morfosyntaktisesti virheettömät objektit. Pohjana tutkimusaineistolleni olen käyttänyt valmiiksi koottuja lukuja objektien ja objektivirheiden määristä (ks. esimerkiksi Brunni ym. 2016). 2 Oppijansuomen sähköinen tutkimusaineisto, joka on koostettu hankkeessa Korpustutkimus oppijankielen kielikohtaisista ja universaaleista ominaisuuksista (ks. luku 2.2.).

7 Taulukko 1. Tutkimusaineistoon sisältyvät tekstit ja sanemäärät kielittäin ja taitotasoittain (ICLFI-manuaali: 21). KIELI JA TAITOTASO HOLLANTI A2 B1 B2 KIINA A2 B1 B2 RUOTSI A2 B1 B2 TSEKKI A2 B1 B2 VIRO A2 B1 B2 YHTEENSÄ A2 B1 B2 TEKSTIEN MÄÄRÄ 299 175 87 37 218 29 129 60 151 25 107 19 297 40 183 74 164 114 31 19 1129 383 537 209 SANE- MÄÄRÄ 22840 8830 8094 5916 41668 4029 23027 14612 28750 4044 19231 5475 54843 4285 30421 20378 22560 9211 4834 8515 180661 30399 85597 54896

8 Taulukossa 2 on esitettynä oppijoiden tuottamien morfosyntaktisesti virheellisten ja virheettömien objektien määrät. Olen rajannut aineistooni kuuluvaksi vain taitotasoilla A2, B1 ja B2 esiintyvät objektit, sillä aineistoa ei ole riittävästi saatavilla taitotasoilta A1, C1 ja C2. Luvussa 5 olen eritellyt tarkemmin oppijoiden tuottamia objektin morfosyntaktisia virheitä virhetyypeittäin ja taitotasoittain. TAULUKKO 2. Tutkimusaineistoon sisältyvien morfosyntaktisesti virheellisten ja virheettömien objektien määrät taitotasoittain. TAITO- TASO VIRHEELLISET OBJEKTIT VIRHEETTÖMÄT OBJEKTIT OBJEKTEJA YHTEENSÄ A2 418 911 1329 B1 1066 2791 3857 B2 362 1925 2287 YHT. 1846 5627 7473 Taitotasolla A2 esiintyy 418 morfosyntaktisesti virheellistä objektia ja 911 morfosyntaktisesti virheetöntä objektia. Tasolla B1 virheellisiä objekteja on 1066 ja virheettömiä 2791. B2-tasolla virheellisiä objekteja on 362 ja virheettömiä objekteja 1925. Aineistooni sisältyy yhteensä 7473 objektia. Vaikka objektien määrät vaihtelevatkin taitotasoittain, pysyvät objektien osuudet sanemääristä lähes samana kaikilla taitotasoilla. Objektien kokonaismäärän osuus taitotason A2 saneista on 4,3 prosenttia, tason B1 saneista 4,5 prosenttia ja tason B2 saneista 4,2 prosenttia. 2.2. Kansainvälinen oppijansuomen korpus Kansainvälinen oppijansuomen korpus eli International Corpus of Learner Finnish (ICLFI) on sähköinen aineistokokoelma, joka on koostettu Oulun yliopiston hankkeessa Korpustutkimus oppijankielen kielikohtaisista ja universaaleista ominaisuuksista. Korpuksen koostaminen on aloitettu vuonna 2007. ICLFI koostuu suo-

9 menoppijoiden kirjoittamista teksteistä, jotka kerätty useista ulkomaisista yliopistoista. Mukana hankkeessa on ollut useita yliopistoja. (Jantunen 2011: 88; Jantunen & Pirkola 2015: 89.) ICLFI:ssa olevien tekstien tuottajat ovat opiskelleet suomen kieltä ulkomaisessa yliopistossa pää- tai sivuaineena tai yksittäisinä kursseina. Kansainvälisen oppijansuomen korpukselle on toteutettu kieliopillinen annotaatio ja osittainen virheannotaatio. Kaikkiin teksteihin on lisätty kattavasti metatietoa esimerkiksi tekstintuottajasta ja itse tekstistä. Tärkeimpiä metatietoja ovat suomenoppijan lähdekieli, taitotaso, sukupuoli ja ikä. ICLFI onkin koostettu osakorpuksiin lähdekielen, taitotason ja tekstilajien perusteella. (Jantunen & Piltonen 2009: 450; Jantunen 2011: 88; Jantunen & Pirkola 2015: 89) Jantusen (2011: 89) vuonna 2011 esittämien tilastojen perusteella ICLFI:ssa oli tuolloin miljoona sanetta ja 5 400 tekstiä. Kyseessä on monikielinen korpus, ja lähdekieliä korpuksessa onkin yhteensä 22. Korpus on kerätty sähköisin ja manuaalisin menetelmin. Korpusaineisto on luokiteltu Eurooppalaisen viitekehyksen (2003) taitotasokuvauksiin perustuvan luokittelun mukaisesti, mutta tekstintuottajat on jaettu alkeistasoon, keskitasoon sekä edistyneeseen tasoon myös opiskeluajan mukaan. Korpus on sanaluokka-annotoitu osittain, annotoitu morfosyntaktisesti ja virheannotoitu osittain. Lisäksi korpus on myös lemmatisoitu kokonaan. (Jantunen 2011: 89 90; Jantunen & Pirkola 2015: 94 96, 99.) ICLFI:ssä esiintyviä virheellisiä ja virheettömiä tapauksia on myös eritelty ja laskettu erillisiin Microsoft Excel -tiedostoihin. Kyseisiä tilastoja on hyödynnetty esimerkiksi Brunnin, Airaksisen ja Jantusen (2016) posteriesityksessä. ICLFI on monitekstilajinen korpus, ja se sisältää tekstejä niin fiktiivisistä kuin ei-fiktiivisistäkin genrekategorioista. Lisäksi kyseessä on yleiskorpus, koska ICLFI:n tekstien aihepiirejä ei ole rajattu. ICLFI on myös synkroninen korpus, mutta tietyissä tapauksissa myös diakroninen ulottuvuus voi olla saatavilla: joskus samoilta oppijoilta on voitu kerätä useiden vuosikurssien ajan. Korpuksen sisältämät tekstit on kirjoitettu joko sähköisesti tai käsin. (Jantunen 2011: 91 92)

10 Laajoissa korpusaineistoissa on huomattavasti taustamuuttujia, kuten on myös kansainvälisessä oppijansuomen korpuksessa. ICLFI:n tutkimuskäyttömahdollisuudet ovat kuitenkin hyvät, sillä taustamuuttujat on dokumentoitu tarkasti. Aineisto sisältää merkinnät keräämistavasta, tekstien tuottajista sekä tekstien luomistilanteista. Aineistoni sisältää huomattavasti tietoa niin oppijoista, tekstistä kuin oppimiskontekstista. (Jantunen 2011: 93.) Jantunen on esitellyt ICLFI:iin liittyvät muuttujat vuonna 2011 julkaistussa artikkelissaan. Metatiedot taustamuuttujista on kuvattu myös vuonna 2014 julkaistussa Jantusen, Brunnin, Lehdon ja Airaksisen artikkelissa. ICLFI:iin liittyviä taustamuuttujia on määritelty yhteensä 22. Taustamuuttujista seitsemän liittyy oppijaan, kuusi oppimiskontekstiin, kuusi tekstiin ja kolme muihin ominaisuuksiin. Kaikki kyseiset metatiedot on esitetty jokaisen aineistoni tekstin alussa. Aineistoni laajuuden takia en ole voinut ottaa huomioon taitotasojen lisäksi esimerkiksi oppijan saamaa opetuksen määrää, vaikka tieto olisikin saatavilla. Tutkimukselleni olennaisimmat taustamuuttujat ovat tekstin taitotaso ja oppijan lähdekieli. (Jantunen 2011: 93, Jantunen ym. 2014: 66 67.). Kaikista eniten oppijankielen tutkimuksissa on kiinnitetty huomiota taustamuuttujiin, jotka ovat oppijan äidinkieli ja taitotaso. Tieto oppijoiden lähdekielistä mahdollistaa esimerkiksi siirtovaikutuksen tutkimuksen. Tieto taitotasoista taas esimerkiksi taitotasoittaisen vertailun. Sen lisäksi, että tiedot tarjoavat tutkijalle mahdollisuuksia esimerkiksi rajata tai vertailla aineistoaan, tarjoavat ne myös mahdollisuuden tulkita tutkimustuloksia mahdollisimman läpinäkyvästi. Tutkimuksessani huomio kiinnittyy Eurooppalaisen viitekehyksen taitotasoihin, joiden mukaan olen aineistoni luokitellut ja joihin taitotasojen välisen vertailuni perustan. Kaikki aineistoni tekstit on arvioitu Eurooppalaisen viitekehyksen (2003) taitotasokuvausten mukaisesti vähintään kaksi kertaa. Tekstintuottajaan liittyviin taustamuuttujiin lukeutuva taitotaso on lähinnä kuvaus tekstin tasosta, ei oppijan tasosta. Yhdeltä oppijalta saattaa olla tekstejä, jotka on arvioitu useille eri taitotasoilla. (Jantunen 2011: 93, Jantunen ym. 2014: 67.)

11 Tutkimuksessani lähdekielellä tarkoitan oppijan äidinkieltä. Muita vastaavia termejä ovat esimerkiksi ykköskieli ja ensikieli (Kaivapalu 2005: 17). Tutkimukseni kannalta on merkityksellistä, että korpusaineistosta muodostuu laaja ja verrannollinen yleinen oppijankieliaineisto (ks. Jantunen ym. 2015: 67). On kuitenkin syytä muistaa, että kieltenväliset vaikutussuhteet eli siirtovaikutus määritellään useimmiten yksilölliseksi oppijakohtaiseksi taustamuuttujaksi, mikä vaikuttaa väistämättä myös minun tutkimukseeni ja tutkimustuloksiini (ks. Ellis 2008: 351; Jantunen 2011: 93). Siirtovaikutuksen suhdetta tutkimustuloksiini käsittelen suppeasti luvussa 8.2. Taitotasojen ja oppijoiden äidinkielten lisäksi ICLFI:n tekstit on luokiteltu myös tekstilajin perusteella (ks. Jantunen 2011: 89). Tutkimuksessani en ole eritellyt tekstilajeja toisistaan. Aineistoni on monitekstilajinen ja sisältää tekstejä monista niin fiktiivisistä kuin ei-fiktiivisistäkin tekstilajikategorioista. Monilajinen korpus antaa kielivariantista, tässä tapauksessa oppijansuomesta, monipuolisemman kuvan kuin yksilajinen korpus. Siksi onkin mahdollista, että tekstilajien laaja kirjo luo haasteita minunkin tutkimukselleni, sillä tekstilajit saattavat poiketa toisistaan huomattavasti, mikä tuo lisähaasteita vertailuun. Joidenkin lähdekielten kohdalla jokin tietty tekstilaji voi yliedustua, kun taas toisen kielen kohdalla tekstilaji voi aliedustua. Aineistoni eri tekstilajeja edustavien tekstien määriä ei ole tasattu. (Jantunen 2011: 88, 90; Jantunen ym. 2014: 67.) 2.3. Eurooppalainen viitekehys Eurooppalainen viitekehys on luotu pohjaksi oppijoiden kielitaidon edistymisen seurantaan. Eurooppalaisen viitekehyksen puitteissa oppijat nähdään sosiaalisina toimijoina, eli kielenkäyttäjällä on vuorovaikutustilanteessa suoritettavanaan määrätty tehtävä. Ennen kaikkea viitekehyksen taitotasokuvaus kuvaa sitä, mitä kielenoppijan tulisi pystyä kielellä tekemään ja mitä tietoja ja taitoja hänen on kehitettävä. (Lesonen 2013: 3 4.) Eurooppalainen viitekehys kuvaa funktioita, jotka ovat kielenkäytön kannalta olennaisia kielestä riippumatta, mikä on aiheuttanut kritiikkiä taitotasokuvauksia kohtaan (Little 2007: 647; Alderson 2007: 660).

12 Eurooppalaisen viitekehyksen taitotasokuvaukset jakautuvat kolmeen tasoon: A, B ja C. A-tasolla oleva oppija on perustason kielenkäyttäjä, B-tason oppija on itsenäinen kielenkäyttäjä ja C-tason oppija on taitava kielenkäyttäjä. Lisäksi A-, B- ja C-tasot jaetaan alatasoihin: alkeistasoon (A1), selviytyjän tasoon (A2), kynnystaitotasoon (B1), osaajan tasoon (B2), taitajan tasoon (C1) ja mestarin tasoon (C2). Tasojen lisäksi Eurooppalaisen viitekehyksen avulla on mahdollista arvioida kielenkäyttöä yksityiskohtaisemmin: kirjoittamista, ymmärtämistä ja puhumista. (Eurooppalainen viitekehys 2003: 47; Lesonen 2013: 5.) Tutkimusaineistoni on luokiteltu Eurooppalaisen viitekehyksen (2003) taitotasokuvausten perusteella tasoihin A2, B1 ja B2. ICLFI:n tekstit on arvioitu vähintään kaksi kertaa. Epäselvissä tapauksissa teksti on arvioitu kolmannen kerran. (Jantunen & Pirkola 2015: 96.) A2-tason oppija kykenee kirjoittamaan esimerkiksi lyhyitä muistiinpanoja, viestejä tai lyhyen kirjeen. B1-tason oppija pystyy tuottamaan yksinkertaista sekä yhtenäistä tekstiä itseä kiinnostavista aiheista, ja B2-tason oppija pystyy kirjoittamaan kirjoitelman tai raportin, jossa perustellaan, ja kirjeitä, joissa pystytään ilmaisemaan henkilökohtaista merkitystä. Tarkemmin kuvailtuna A-tason oppija kykenee tuottamaan yksinkertaisia, irrallisia ilmauksia ja lauseita ja kykenee yhdistämään niitä tavanomaisilla sidesanoilla. B1-tason oppija taas kykenee tuottamaan yhtenäisiä tekstejä tavallisista aiheista yhdistämällä lyhyempiä, yksinkertaisia ilmauksia yhtenäiseksi tuotokseksi. B2-tasolla, eli osaajan tasolla, oppija kykenee tuottamaan selkeää ja yksityiskohtaista tekstiä erilaisista itseään kiinnostavista aiheista sekä tuottamaan yhteenvetoja ja arvioimaan useista lähteistä poimimiaan tietoja ja perusteluja. (Eurooppalainen viitekehys 2003: 50 51, 96; Lesonen 2013: 5 6.) Gerard Westhoff on esittänyt vuonna 2007 kritiikkiä viitekehyksestä. Westhoffin kritiikki kohdistuu kieliopin huomioimiseen viitekehyksessä. Hän toteaakin, että viitekehys jättää avoimeksi, mitä kieliopillisia asioita oppijan tulisi hallita, jotta tämä voisi saavuttaa tasoilla vaaditut viestinnälliset tavoitteet. Eurooppalainen viitekehys ei ota kantaa kieliopin hallitsemiseen. Eurooppalainen viitekehys on esittänyt kielestä riippumattoman kuvauksen oppijan hallitsemista kielellistä rakenteista (ks. taulukko 3), mutta viitekehyksessä myönnetään, että kaikkiin kieliin soveltuvaa as-

13 teikkoa ei käytännössä voida laatia. (Eurooppalainen viitekehys 2003: 161; Westhoff 2007: 676, Lesonen 2013: 8.) Vaikka Eurooppalainen viitekehys esittääkin mallin kieliopillisesti virheettömyydestä, uskoakseni tarvitaan lisää tarkentavaa tutkimustietoa opittavien kielten ilmiöistä, kuten objekteista. TAULUKKO 3. Kieliopillinen virheettömyys Eurooppalaisen viitekehyksen mukaan (Eurooppalainen viitekehys 2003: 161). A2 Käyttää joitakin yksinkertaisia rakenteita oikein, mutta tekee silti systemaattisesti virheitä perusrakenteissa, esimerkiksi sekoittaa aikamuotoja ja tekee kongruessivirheitä. Viesti tulee kuitenkin yleensä selväksi. B1 Käyttää yleensä tutuissa tilanteissa melko virheettömästi ulkoa opettelemiaan, usein esiintyviä jokapäiväisiä ilmauksia ja lauserakenteita. / Rakenteet ovat jokseenkin virheettömiä tutuissa kielenkäyttötilanteissa. Kielen hallinta on yleensä hyvä, mutta äidinkielen vaikutus on selvästi havaittavissa. virheistä huolimatta viesti tulee selväksi. B2 Hallitsee rakenteet suhteellisen hyvin. Virheet eivät aiheuta väärinkäsityksiä. / Hallitsee rakenteet hyvin. Satunnaisia lipsahduksia, epäsystemaattisia virheitä sekä vähäisempiä puutteita saattaa esiintyä lauserakenteissa. Ne ovat kuitenkin harvinaisia, ja puhuja saattaa korjata niitä jälkeenpäin.

14 2.4. Annotointi ICLFI on kieliopillisesti annotoitu ja virheannotoitu korpus. Annotoinnilla tarkoitetaan lingvistisen metatiedon sisällyttämistä korpukseen. Kyse voi olla esimerkiksi saneiden kieliopillisista funktioista tai virheistä. Käyttämäni korpusaineisto on virheannotoitu, kuten on ollut tyypillistä oppijankielen korpusten annotoinnissa (ks. Granger 2004). Kansainvälinen oppijansuomen korpus on virheannotoinnin lisäksi myös annotoitu kieliopillisesti. (Jantunen 2011: 98 99.) Korpusaineiston annotoinnin johdosta minun on ollut mahdollista poimia aineistostani kaikki morfosyntaktiset objektivirheet ja oikein käytetyt objektit. Olen käynyt kaikki virhetapaukset läpi käsin varmistaakseni aineistoni osuvuuden. Tarvittaessa olen rajannut aineistoni ulkopuolelle tapauksia, jotka eivät sovi tutkimukseeni. Aineistossani esiintyi esimerkiksi elatiiveja, jotka on koodattu morfosyntaktisesti virheettömiksi objekteiksi, vaikka elatiivi ei kuulu objektin sijoihin (ks. VISK 925). Suuren korpusaineiston annotointi käsin olisi hyvin työlästä, joten ICLFI on koodattu puoliautomaattisesti. Oppijoiden kirjoittamat tekstit on ensin siirretty Microsoft Word -tekstinkäsittelyohjelmaan, jossa oikeinkirjoitusvirheet ja taivutusmuotojen ongelmat on poistettu. Virheiden korjaamisen jälkeen tekstitiedostot on siirretty Connexorin Fi-fdg-jäsentimeen, joka lemmatisoi ja koodaa aineiston morfosyntaktisesti automaattisesti. Prosessin jälkeen tekstiin palautuvat suomenoppijoiden tuottamat virheelliset muodot Lemmatisoinnin ja morfosyntaktisen koodauksen jälkeen tekstiin on voinut jäädä virheitä, joten aineisto on tarkistettu manuaalisesti. Tutkimuksessa käyttämäni aineisto on täten tarkistettu kaksi kertaa. (Jantunen 2011: 98 99; Jantunen ym. 2014: 68 71.) Kansainvälisessä oppijansuomen korpuksessa käytetty virheiden luokittelu perustuu virheiden luonteeseen. Virhe voi olla esimerkiksi sanastollinen tai syntaktinen. Tutkimukselleni olennaisin virheiden yläkategoria on morfosyntaktiset virheet, joihin kuuluvat viittaussuhteet, possessiivisuffiksi, kongruenssi, subjektin sija ja luku, objektin sija ja luku, predikatiivin sija ja luku, adverbiaalin sija ja luku sekä rektio (Brunni ym. 2015: 144). Näistä tutkimusaineistooni olen valikoinut objektin sija- ja

15 lukuvirheet (ks. luvut 2 ja 3.2.). ICLFI:n virheiden tarkat kuvaukset ja virhekategorioiden määrittelyt ja koodaamisen perusteet on esitetty virhekoodausmanuualissa (ks. ICLFI-manuaali), jotta virhekoodaajasta johtuva subjektiivisuus saataisiin häivytettyä. Joitain tapauksia on myös pohdittu useiden tutkijoiden kesken. (Jantunen ym. 2014: 71 72.) Objektin morfosyntaktisissa virheissä koodit ovat esimerkiksi mallia <err= U makkaraa _MSYN _OBJ_PTV>, jossa on ilmaistu virheetön muoto (makkaraa), virheen kategoria (MSYN eli morfosyntaktinen virhe), lauseenjäsen (OBJ eli objekti) ja sijamuoto (PTV eli partitiivi) (ICLFI-manuaali: 12). ICLFI:ssa esimerkiksi objektin morfosyntaktisella partitiivivirheellä tarkoitetaan virhettä, jossa suomenoppija on tuottanut partitiivin sijaan virheellisen sijamuodon, kuten genetiivin. Siksi onkin syytä muistaa, että virhetapauksia käsiteltäessä esimerkiksi partitiivivirheellä ei tarkoiteta muotoa, jossa oppija olisi tuottanut virheellisesti partitiivin, vaan toisin päin.

16 3. TUTKIMUSMETODIT JA TUTKIMUKSEN TEOREETTINEN TAUSTA Tutkimukseni kannalta on kolme tärkeää tutkimusmetodia: virheanalyysi, potentiaalisen esiintymisen analyysi ja kielitaidon tarkkuuden kehityksen mallintaminen, jotka esittelen seuraavissa alaluvuissa. Esittelen seuraavissa alaluvuissa ensin suppeasti oppijankielen tutkimuksen taustaa, minkä jälkeen käyttämiäni metodeja ja niihin liittyvää teoreettista viitekehystä. 3.1. Oppijansuomen tutkimuksesta Kielenoppijoiden tuottamaa kieltä on kuvattu jo paljon oppijanenglannin kaltaisten indoeurooppalaisten kielten osalta. Ei-indoeurooppalaisten oppijankielten tutkimus, kuten oppijansuomen tutkimus, on jäänyt indoeurooppalaisia kieliä huomattavasti vähemmälle. Kansainvälisen oppijansuomen korpuksen kaltaisen sähköisten aineistojen on osaltansa tarkoitus paikata tutkimusaukkoa. Viime vuosina oppijansuomesta tehtyjen tutkimusten määrä on lisääntynyt. (Jantunen 2007: 67 68.) Oppijankielen korpustutkimusten tehtävänä on kuvata niin tapauskohtaisesti kuin yleisemmälläkin tasolla oppijankielen lainalaisuuksia. Jos jokin kielen ilmiö esiintyy useissa lähdekielissä, on ilmiötä mahdollista pitää laaja-alaisena tendenssinä oppijankielessä. Pro gradu -tutkielmassani onkin kyse yleisemmän tason oppijansuomen kuvauksesta. Vaikka virheanalyysin ongelmista (ks. luku 3.4.) on ollut paljon puhetta, on se yleistynyt yhdeksi merkittävimmistä tavoista analysoida oppijankieltä. Näin myös oppijansuomen tutkimuksessa. Oppijankielen tutkimukselle onkin tyypillistä, että kielivariantista tehdään ensin kvantitatiivisia huomioita ja myöhemmin niitä täydennetään kvantitatiivisilla tuloksilla. Tyypillisiä havaintoja oppijankielen tutkimuksessa ovatkin kielenainesten liikakäyttö tai alikäyttö (ks. Ellis 1994a). (Jantunen 2007: 71, 74.)

17 Yksi oppijankielen suosituimmista analyysimenetelmistä on tällä hetkellä korpuspohjainen virheanalyysi 3. Laajempien kokonaisuuksien avulla pyritään havaitsemaan oppijankielen yleisiä tendenssejä. Näin on myös oppijansuomen tutkimuksena, etenkin kun laajat ICLFI:n kaltaiset sähköiset korpusaineistot ovat mahdollistaneet korpuspohjaisen virheanalyysin toteuttamisen (ks. luvut 2.2. ja 3.4.). Korpustutkimukselle on tavanomaista, että tutkitaan kielelle tyypillisiä ja toistuvia rakenteita, mikä vaatii perehtymisen kielen elementtien frekvensseihin. Seppälän (2013) tapaan en käytä tutkimuksessani tilastollisia testejä, vaan pro gradu -tutkielmassani on kyse frekvensseihin perustuvasta deskriptiivisestä katsauksesta. (Jantunen 2007: 85; Seppälä 2013: 317.) Oppijansuomesta on tehty tähän päivään mennessä lukuisia korpustutkimuksia. Tutkimusten aiheet ovat vaihdelleet fraseologiasta aina lausetyyppeihin ja sanastotutkimukseen. Esimerkiksi Seppälä (2013: 315) kuvailee kansainväliseen oppijansuomen korpukseen pohjautuvalla pro gradu -tutkimuksellaan oppijoiden ketjuuntuvia verbirakenteita. Spoelman (2013: 6) on selvittänyt väitöstutkimuksessaan suomenoppijoiden partitiivin käyttöä. Spoelmanin aineisto niin ikään on peräisin ICLFI:sta (Spoelman 2013: 6). Spoelmanin tapaan myös Roth on tarkastellut oppijansuomen partitiivia. Sen sijaan esimerkiksi Määttä on tutkinut suomen kielen paikallissijojen oppimista (Jantunen & Piltonen 2009: 451). Varrio (2014: 3 4) taas selvitti samaan korpukseen pohjautuvassa pro gradu -tutkimuksessaan, millaisia eroja natiivien ja ei-natiivien kielenkäyttäjien välillä on sanoa-lekseemin fraseologisessa käytössä. Kuten edellä luetelluista tutkimuksista selviää, laaja annotoitu oppijankielen korpusaineisto taipuu moneen tarkoitukseen: niin yksityiskohtaiseen laadulliseen tutkimukseen kuin laajempia kehityskulkuja ilmaisevaan kvantitatiiviseen tutkimukseen. Kansainvälisen oppijansuomen korpuksen (ks. luku 2.2.) lisäksi oppijansuomesta on olemassa muitakin korpuksia. Esimerkiksi Ilmari Ivaska (2015) on toteuttanut väitöstutkimuksenaan korpusvetoisen avainrakenneanalyysin edistynei- 3 Engl. computer-aided error analysis (ks. Granger 1998 tai Jantunen 2007: 85.)

18 den suomenoppijoiden korpuksesta (LAS2). LAS2 on osa vuonna 2007 Turun yliopistossa käynnistettyä tutkimushanketta, jossa on kerätty suomea toisena kielenään käyttävien yliopisto-opiskelijoiden tuottamia tekstejä (Ivaska 2015: 58 59). Oppijankielisten aineistojen koonti ja analysointi luovat osiltansa koko ajan entistä tarkempaa kuvaa suomen kielestä. Oppijansuomen analysointi antaa mahdollisuuden päästä yhä lähemmäksi oppijankielen luonteen ymmärtämistä. Oppijansuomen tutkimustuloksia voidaan hyödyntää esimerkiksi oppimateriaaleissa, sanakirjoissa sekä opetustyössä. Korpuksen laatu vaikuttaa, mihin tutkimustarkoituksiin sähköistä tutkimusaineistoa voidaan käyttää. (Jantunen & Piltonen 2009: 456; Jantunen & Pirkola 2015: 101.) Seuraavaksi kuvailen tutkimuksen kulun mukaisessa järjestyksessä, millaisia tutkimusmetodeja hyödynnän ja millaiseen teoreettiseen taustaan metodini pohjaavat. 3.2. Virheiden hakeminen ja luokittelu Olen rajannut aineistoni objektin morfosyntaktisiin virheisiin. Olen poiminut aineistoni ICLFI:sta WordSmith Tools -tietokoneohjelman hakutoiminnolla, joka mahdollistaa koodien perusteella korpuksesta tehtävät haut (ks. Scott 2004). Virheannotoinnissa suomenoppijoiden tuottamiin teksteihin on lisätty virhekoodi heti morfologisen koodin perään. Näin tietoa korpuksesta voi hakea niin morfologisella koodilla kuin virhekoodillakin. Aineistoni kannalta olennaisinta on, että koodeja pystyy myös yhdistämään ohjelman hakutoiminnossa. Esimerkiksi haussa voi yhdistää tiedon suomenoppijan tuottamasta muodosta ja tiedon siitä, mikä muodon olisi pitänyt olla. (Jantunen ym. 2014: 74 75.) Olen tehnyt hakuja yhdistelemällä morfosyntaktisen objektin virhekoodin, *<err*obj, variaatioita kieliopillisen koodin, @OBJ_, variaatioihin (ks. ICLFI-manuaali). Joissain tapauksissa kaikki tarvittava metatieto ei ole saatavilla pelkässä virhekoodissa tai kieliopillisessa koodissa. Esimerkiksi, kun nominin luku on koodattu

19 kieliopilliseen koodiin, ei sitä ole uudestaan koodattu virhekoodiin. Tällöin haussa joudutaan yhdistämään sekä kieliopillinen koodi että virhekoodi. Ensin olen hakenut ICLFI:sta kaikki objektin virhetapaukset edellä mainitulla virhekoodilla. Olen käynyt kaikki virhekoodatut tapaukset läpi manuaalisesti ja erotellut, minkä sijamuodon oppija on valinnut ja tuottanut virheettömän muodon sijaan. Sitten olen eritellen hakenut edellä mainitulla kieliopillisella koodilla kaikkien objektin sijamuotojen eli nominatiivin, genetiivin, partitiivin ja akkusatiivin (ks. VISK 925) perusteella kaikki tapaukset, joissa oppija on tuottanut objektin. Tällöin olen saanut tulokseksi kaikki tapaukset, joissa oppija on tuottanut esimerkiksi partitiivimuotoisen objektin, oli se sitten väärin tai oikein. Lopuksi olen vähentänyt relevantit virheelliset muodot esimerkiksi kaikista hakemistani partitiivimuotoisista objekteista. Relevanteilla muodoilla tarkoitan esimerkiksi genetiivin sijaan tuotettuja partitiiveja. Kun virheelliset muodot on vähennetty kaikista partitiivimuotoisista objekteista, jäljelle jäävät morfosyntaktisesti virheettömät partitiivimuotoiset objektit. Edellä kuvailtu hakuprosessi on toistettu jokaisen käsitellyn taitotason kohdalla. Olen luokitellut objektit neljään objektin sijamuotoihin perustuvaan ryhmään hakujen perusteella. Olen käynyt manuaalisesti läpi kaikki tapaukset ja luokitellut oppijoiden tuottamat virheelliset muodot alaryhmiin oppijoiden tuottamien virheellisten sijamuotojen ja lukujen perusteella. Kansainvälisessä oppijansuomen korpuksessa esiintyvät virhetapaukset jaetaan yhdeksään pääluokkaan (ICLFI-manuaali: 3 4). Pääluokat prosenttiosuuksineen suhteessa toisiinsa ovat esiteltynä taulukossa 4. Taulukkoon 4 perustuvat ympyrädiagrammit ovat nähtävillä liitteessä 1.

20 TAULUKKO 4. ICLFI:n virheiden pääkategoriat ja niiden prosenttiosuudet virheiden yhteismäärästä taitotasoittain. (ICLFI-manuaali: 3 4, Brunni ym. 2016.) ICLFI:n virheiden pääryhmät A2 B1 B2 Ortografiset virheet 15 % 21 % 22 % Fonologiset virheet 8 % 6 % 6 % Morfofonologiset virheet 7 % 6 % 5 % Morfologiset virheet 14 % 10 % 9 % Morfosyntaktiset virheet 27 % 27 % 27 % Syntaktiset virheet 4 % 5 % 5 % Leksikaaliset virheet 20 % 17 % 18 % Fraseologiset virheet 3 % 6 % 6 % Selittämättömät virheet 2 % 2 % 2 % Oppijoiden tuottamien virheiden määrät vähenevät suhteessa sanemäärään taitotasojen A2 B2 välillä (Brunni ym. 2016). Kuten taulukossa 4 on esitetty, oppijoiden tuottamien morfosyntaktisten virheiden määrä ei pienene suhteessa taitotasolla esiintyviin muihin virheisiin. Esimerkiksi morfologisten virheiden ja morfofonologisten virheiden määrät pienenevät suhteessa muihin virheisiin. ICLFI:ssa esiintyvät morfosyntaktiset virheet jakautuvat seitsemään eri kategoriaan. Lauseenjäsenten sija- ja lukuvirheiden lisäksi morfosyntaktisiin virheisiin luetaan myös viittausuhdevirheet, kongruenssivirheet ja rektiovirheet (ICLFI-manuaali: 3 4, Jantunen ym. 2014: 72). Taulukossa 5 on nähtävillä tutkimusaineistoni rajauksen mukaisesti ICLFIn morfosyntaktiset virhekategoriat ja virhekategorioiden prosenttiosuudet suhteessa toisiinsa Eurooppalaisen viitekehyksen (2003) taitotasoilla A2, B1 ja B2. Morfosyntaktiset virheet on esitettynä myös ympyrädiagrammissa liitteessä 2.

21 TAULUKKO 5. Morfosyntaktiset virhekategoriat ja virheiden prosenttiosuudet morfosyntaktisten virheiden yhteismäärästä taitotasoittain. (ICLFI-manuaali: 3 4). Morfosyntaktiset alaluokat A2 B1 B2 Viittaussuhde, possessiivisuffiksi 19 % 12 % 18 % Kongruenssi (verbi + määrite) 24 % 27 % 27 % Subjektin sija ja luku 8 % 8 % 8 % Objektin sija ja luku 21 % 21 % 18 % Predikatiivin sija ja luku 10 % 10 % 12 % Adverbiaalin sija ja luku 17 % 18 % 14 % Rektio 3 % 4 % 3 % Kuten taulukossa 5 on esitetty, objektin morfosyntaktisten virheiden prosenttiosuus suhteessa muihin morfosyntaktisiin virheisiin ei pienene tasojen A2 ja B1 välillä, mutta laskee kolmella prosenttiyksiköllä tasojen B1 ja B2 välillä. Muissakin ryhmissä muutosta tapahtuu hyvin maltillisesti, ja morfosyntaktisten virheiden osuudet suhteessa toisiinsa pysyvät kaikilla aineistoni taitotasoilla hyvin samanlaisina. Morfosyntaktisten objektivirheiden ryhmän suuruus kaikilla käsittelemilläni taitotasoilla voi olla merkki siitä, että oppijat kokevat suomen kielen objektin morfosyntaksin, todennäköisesti sijanvalinnan, haastavaksi. Tasojen B1 ja B2 välillä tapahtuva pieni muutos taas voi olla merkki siitä, että juuri kyseisten tasojen välillä tapahtuu notkahdus kohti yhä parempaa objektin sijajärjestelmän hallintaa. Pelkkä suuren ryhmän prosenttiosuuksien ilmaiseminen suhteessa muihin virheisiin ei vielä paljasta, tapahtuuko virheryhmän sisällä muutosta. Tähän kysymykseen ja edellä esittämiini hypoteeseihin pureudun luvuissa 5 ja 6. Virhekategoriat ja tyypit ovat esiteltyinä taulukossa 6. Olen luokitellut morfosyntaktiset objektivirheet neljään virhekategoriaan.

22 TAULUKKO 6. Objektin morfosyntaktisten virheiden kategoriat ja virhetyypit. OBJEKTIN MORFOSYNTAKTISTEN VIRHEIDEN KATEGORIAT Partitiivivirhe Partitiivin sijaan tuotettu genetiivi Partitiivin sijaan tuotettu nominatiivi Partitiivin sijaan tuotettu akkusatiivi Partitiivin sijaan tuotettu muu kuin objektin sija Väärä partitiivin luku Nominatiivivirhe Nominatiivin sijaan tuotettu partitiivi Nominatiivin sijaan tuotettu genetiivi Nominatiivin sijaan tuotettu akkusatiivi Nominatiivin sijaan tuotettu muu kuin objektin sija Väärä nominatiivin luku Genetiivivirhe Genetiivin sijaan tuotettu partitiivi Genetiivin sijaan tuotettu nominatiivi Genetiivin sijaan tuotettu akkusatiivi Genetiivin sijaan tuotettu muu kuin objektin sija Väärä genetiivin luku Akkusatiivivirhe Akkusatiivin sijaan tuotettu partitiivi Akkusatiivin sijaan tuotettu genetiivi Akkusatiivin sijaan tuotettu nominatiivi Akkusatiivin sijaan tuotettu muu kuin objektin sija Väärä akkusatiivin luku Kuten taulukossa 6 on esitetty, aineistossani esiintyy neljäntyyppisiä morfosyntaktisia objektivirheitä: partitiivivirheitä, genetiivivirheitä, nominatiivivirheitä ja akkusatiivivirheitä. Objektin morfosyntaktiset virhekategoriat jakautuvat lisäksi viiteen virhetyyppiin. Objektin morfosyntaktisella virheellä tarkoitan aina tapausta, jossa

23 oppija on tuottanut väärän sijamuodon virheettömän sijamuodon sijaan. Esimerkiksi partitiivin sijaan tuotettu genetiivi on partitiivivirhe, kuten on taulukossa 5 nähtävillä. Lisäksi mukana on myös lukuvirheitä, joissa esimerkiksi monikkovirheellä tarkoitetaan tapausta, jossa suomenoppija on tuottanut monikon sijaan yksikön. Akkusatiivin lukuvirheellä tarkoitan virheellistä valintaa monikkomuotoisen ja yksikkömuotoisen persoonapronominin väliltä (ks. VISK 81). Luokittelu perustuu objektilausekkeen edussanan sijamuotoon, johon kiinnitän ensisijaisen huomioni tutkimuksessani. Olen lisäksi tehnyt huomioita myös edussanan määritteistä luvussa 6. Virheryhmiin luokittelu ja virhetyypit perustuvat suomen kielen objektin morfosyntaktisiin sääntöihin (ks. luku. 4.1.). ICLFI:n virheannotointisysteemi sallii virheiden päällekkäisyyden huomioinnin. Koodauksessa on huomioitu virheen useammat tulkintamahdollisuudet. Myös objektin morfosyntaktisissa virhekoodeissa on annettu useita vaihtoehtoja, jotka mahdollistavat monitulkintaisuuden huomioimisen. (Jantunen ym. 2014: 74.) Olen esittänyt luvussa 6 jokaisen virheryhmän kohdalla mahdolliset päällekkäiset virheet ja tulkintaongelmat. 3.3. Potentiaalisen esiintymisen analyysi Hakujen ja luokittelun jälkeen olen laskenut virheiden ja oppijoiden tuottamien virheellisten muotojen avulla niin potentiaaliset esiintymät kuin suhteelliset esiintymätkin, toisin sanoen olen toteuttanut potentiaalisen esiintymisen analyysin. Potentiaalisen esiintymisen analyysilla tarkoitetaan laskentamenetelmää, jota voidaan käyttää esimerkiksi sähköisessä aineistossa esiintyvien virheiden suhteellisten esiintymien määrittämisessä. Thewissen (2015: 22) käyttää menetelmästä englanninkielistä termiä potential occasion analysis, josta on myöhemmin käytetty suomenkielistä vastinetta potentiaalisen esiintymisen analyysi (Brunni ym. 2016). Tänä päivänä sähköisessä muodossa olevaa tutkimusaineistoa on saatavilla yhä enemmän, minkä johdosta korpuksiin pohjautuva tutkimuskin on lisääntynyt (ks.

24 Sardinha 1999: 1). Kielenoppijoiden kielitaidon tarkkuutta on usein mitattu ja kielitaidon kehitystä kuvattu korpuspohjaisen virheanalyysin avulla (ks. Wulff & Gries 2011: 62 63). Tällaisessa analyysissa tutkimusaineistossa olevat oppijoiden tuottamat virhetapaukset on usein suhteutettu tutkittavan aineiston sanemäärään. Tällöin on voitu karkeasti mallintaa frekvenssien avulla, millä tavalla oppijat ovat virheitä tuottaneet. Mallinnus on mahdollistanut esimerkiksi taitotasojen välisen vertailun. Menetelmä on suosittu, eikä sen hyötyä ja käytännöllisyyttä etenkään kvantitatiivisessa oppijankielen tutkimuksessa voida kiistää. (Thewissen 2015: 143 144.) Potentiaalisen esiintymisen analyysi nojaa vahvasti virheannotoituun, tässä tutkimuksessa oppijansuomen, korpusaineistoon (ks. luku 2.2.). Sen sijaan, että laskettaisiin oppijankielen korpusaineistosta esiintyvästä tekstistä virheet suhteessa tekstin sanemäärään, potentiaalisen esiintymisen analyysissa laskutoimituksen nimittäjä rajoitetaan virheen potentiaalisten esiintymien ympäristöön. Potentiaalisen esiintymisen analyysin tulokseksi saadaan potentiaalisen virheen indeksi (potential error index), jota nimitän tutkimuksessani suhteelliseksi esiintymäksi (ks. Thewissen 2015: 143). Virheiden suhteellinen esiintymä viittaa suhdelukuun, jossa osoittajana on tutkitun virheen esiintymisten määrä ja nimittäjänä on niiden saneiden määrä, joissa virhe olisi voinut esiintyä. (Schachter & Celce-Murcia 1977: 446; Thewissen 2015: 49.). Objektivirheiden ja virheettömien objektien summaa, eli tapauksia, joissa virhe olisi voinut esiintyä, nimitän tutkimuksessani potentiaalisiksi esiintymiksi. Menetelmää on hyvin harvoin käytetty tietokonepohjaisessa oppijankielen virheanalyysissa (Thewissen 2015: 22). Vaikka potentiaalisen esiintymisen analyysi ei ole yhtä yksityiskohtainen kuin pakollisen esiintymisen analyysi (obligatory occasion analysis), on se lupaava menetelmä virheiden tarkkuuden kehityksen määrittämiseen. Pakollisen esiintymisen analyysi on menetelmä, jossa määritellään kohdekielen ilmiö, jossa konteksti vaatii saneen tiettyyn muotoon. Pakollinen esiintymä lasketaan asettamalla nimittäjäksi virheettömät tapaukset ja osoittajaksi tapausten, joissa oikean muodon olisi tullut esiintyä ja tapausten, joissa oppija on osannut tuottaa muodon oikein, summa. (Thewissen 2015: 49.)

25 Muutama vuosikymmen sitten tutkijat Scott ja Tucker (1974: 71) selvittivät, että toistaiseksi ei vielä ollut tehty oppijankielen tutkimusta, jossa perehdyttäisiin tiettyjen virhetyyppien frekvenssiin suhteessa kyseisen virheen potentiaalisiin esiintymiin. Samankaltaisiin tuloksiin päätyivät myös tutkijat Schachter ja Celce-Murcia (1977: 446). Yhtenä mahdollisena syynä potentiaalisen esiintymisen analyysin välttelyyn voidaan mahdollisesti pitää aineiston laajuutta ja aineiston manuaalista käsittelyä, mikä vaatisi todella suuren määrän työtä. Tästä syystä virheanalyysissa on usein pitäydytty yksinkertaisemmissa menetelmissä. (Ellis 1994a: 45 46; Thewissen 2015: 49, 74 75.) Potentiaalisen esiintymisen analyysin kaltaisia menetelmiä ovat aiemmin Thewissenin (2015) lisäksi englanninkielissä tutkimuksessa hyödyntäneet Schachter (1974), Politzer ja Ramirez (1973), Harley ja King (1989) ja Engber (1995). Tutkimusten aiheina ovat olleet englannin kielen relatiivilauseiden virheet, morfologian, syntaksin ja sanaston virheet, leksikaaliset verbivirheet sekä leksikaaliset virheet. (Thewissen 2015: 52.) Alustavaa tutkimusta morfologisesti rikkaasta suomen kielestä ovat tehneet Sisko Brunni ja Valtteri Airaksinen Oulun yliopistosta sekä professori Jarmo Jantunen Jyväskylän yliopistosta. XLIII Kielitieteen päivillä esitellyissä tutkimustuloksissa käsiteltiin objektien, fraseologian sekä määritteiden virheryhmien suhteellisten esiintymien kehitystä (Brunni ym. 2016.). Lisäksi Maria Huttu- Hiltunen (2017: 1) on tehnyt pro gradu -tutkielmansa virolaisten suomenoppijoiden kirjoitelmissa olevista joka-, kuka- ja mikä-relatiivikonstruktioiden virheistä. Huttu- Hiltunen on ottanut tutkimuksessaan huomioon potentiaalisen esiintymisen analyysin mukaisesti myös relatiivikonstruktioiden virheelliset tapaukset suhteessa kaikkiin relatiivikonstruktioiden esiintymiin (Huttu-Hiltunen 2007: 69 70). Korpusaineistosta tehtävä potentiaalisen esiintymisen analyysi vaatii kaksinkertaisesti koodatun aineiston (ks. luku 2.2.). Aineiston tulee olla sekä virhekoodattu että kieliopillisesti koodattu, jotta on mahdollista tietokonepohjaisesti laskea sekä virheiden määrät että saneet, joissa virhe voisi mahdollisesti esiintyä (Thewissen 2015: 143). Kaavassa 1 esittelen esimerkkitapauksen avulla, kuinka suhteellinen esiintymä lasketaan. Vasemmalla puolella kaavassa 1 on esitetty laskukaava

26 Thewissenin (2015: 144) mukaan ja oikealla puolella on esitettynä esimerkkitapaus. Tutkimuksessani esitän suhteelliset esiintymät prosenttilukuina. Olen esitellyt morfosyntaktiset virhekategoriat, kuten partitiivivirheet, tarkemmin luvussa 3.2. KAAVA 1. Suhteellisen esiintymän laskukaava. Virheiden määrä Potentiaalisten esiintymien määrä Objektin morfosyntaktiset partitiivivirheet Objektin morfosyntaktisten partitiivivirheiden ja morfosyntaktisesti virheettömien partitiiviobjektien summa = Suhteellinen esiintymä (%) Potentiaalisen esiintymisen analyysin on tarkoitus tarjota uusi suunta korpuspohjaiselle virheanalyysille. Ringbom (1987: 79) totesi jo 1980-luvun lopulla, että tutkijoiden tulisi hyödyntää potentiaalisten esiintymien konseptia kielentutkimuksessa. Menetelmään liittyy tarkka nimittäjän valinta jokaiselle virhetyypille, millä mahdollistetaan parempi ja merkityksellisempi kuva kielellisen aineksen muodostamisen onnistumisesta ja epäonnistumisesta. (Hawkins & Buttery 2010: 15; Thewissen 2015: 170.) Potentiaalisten esiintymien määrittelyyn ja valintaan liittyy kuitenkin pulmia. Potentiaalisen esiintymisen analyysi vaatii vahvasti säännönmukaisuuteen nojaavan kielen ilmiön, jotta tulokset olisivat mahdollisimman selkeitä (Thewissen: 143 144). Suomen kielen objektin morfosyntaksi nojaa vahvasti säännönmukaisuuteen (ks. VISK 925 935), mutta siinäkin on oikkunsa. Kaikissa tapauksissa ei välttämättä ole selvää, onko kyse virheestä. Esimerkiksi aina ei ole selvää, onko oppija halunnut tuottaa partitiiviobjektin vai totaaliobjektin. Siksi olenkin rajannut aineistostani pois tapauksia, joissa virhetyyppi ei ole selkeästi luokiteltavissa. Menetelmän tarkoituksena ei ole asettaa tarkkoja sääntöjä virheiden laskemiselle, vaan tarjota mahdollisuus mennä askelta pidemmälle kuin aiemmin nimittäjän valinnassa on menty. Siksi onkin jokaisen tutkijan omalla vastuulla valita omaan tutkimukseensa sopiva menetelmä. Potentiaalisen esiintymisen analyysi tarjoaa toimi-

27 van ja arvokkaan metodin, joka on todettu käyttökelpoiseksi etenkin oppijanenglannin tutkimuksessa. Thewissen (2017: 170) uskoo metodin soveltuvan erityisesti tutkimukseen, jossa tarkoituksena on mallintaa kielitaidon tarkkuuden kehitystä Eurooppalaisen viitekehyksen taitotasojen välillä, mikä on juuri tämän tutkimuksen tarkoitus. (Thewissen 2015: 170 171.) Arvioin metodin käyttökelpoisuutta oppijansuomen tutkimuksessa luvussa 7.1. 3.4. Virheanalyysi Potentiaalisen esiintymisen jälkeen olen tarkastellut oppijoiden teksteistä poimittuja morfosyntaktisesti virheettömiä objekteja ja morfosyntaktisia objektivirheitä ja kuvaillut niitä aineistoesimerkkien, kohdekielen normien eli Isossa suomen kieliopissa (VISK) esitettyjen suomen kielen objektisääntöjen, potentiaalisten ja suhteellisten esiintymien ja frekvenssien perusteella. Esitän tutkimukseni aineistoesimerkit konkordansseina eli tekstiriveinä, joissa on nähtävillä korpusaineistosta haettu morfosyntaktisesti virheellinen objekti ja sen koteksti eli ympäristö (Seppälä 2013: 317; Sinclair 1991: 32). Esimerkkejä olen pyrkinyt kuvailemaan tarkasti ja kohdekielen normien puitteissa (ks. Sajavaara 1999: 116 117). Jokaisen aineistomerkin kohdalla lukee myös aineistoni tekstin tunnistekoodi (esim. VI0001), jossa kirjainyhdistelmä kertoo, mitä maasta oppija on kotoisin. Vaikka virheiden selityksessä yleensä pyritään erottamaan äidinkielen aiheuttamat sekä kohdekielen ja opetuksen aiheuttamat virheet, esitän niistä huomioita vain paikoin luvuissa 6 ja 7. Virhetapausten käsittelyssä tutkimuksessani on kyse pitkälti partitiiviobjektin ja totaaliobjektin välisestä sijavalinnasta sekä totaaliobjektin sisäisestä sijavalinnasta. Kiinnitän huomiota myös objektin lukuun sekä muihin kuin objektin sijoihin. Suomen kielen objekteja ja oppijansuomen objekteista tehtyjä tutkimuksia käsittelen luvussa 4. Oppijoiden virheiden kerääminen kirjallisista tuotoksista lukeutuu virheanalyysin perusmetodeihin (Sajavaara 1999: 118). 1960-luvun lopulla virheanalyysi, eli kielitieteellisen tutkimuksen menetelmä, joka pyrkii tulkitsemaan kielenoppijoiden te-