Mitä tilastollinen tarkastelu voi kertoa sosiaalisen median kielestä?

Samankaltaiset tiedostot
Oppilas keskustelee ryhmässä ja tuo esille mielipiteitään. Oppilas osallistuu luokan ja koulun ilmaisuesityksiin. Oppilas harjoittelee

7.LUOKKA. Tavoitteisiin liittyvät sisältöalueet. Laaja-alainen osaaminen. Opetuksen tavoitteet

VIESTINTÄSUUNNITELMA CITIZEN MINDSCAPES TUTKIMUSRYHMÄLLE

Englanti. 3. luokan keskeiset tavoitteet

LUKUVUOSITODISTUKSEN ARVIOINTILAUSEET VUOSILUOKILLE 1 4

Laskelmia uudenvuodenpuheista

Mitä tahansa voi saavuttaa kunhan vain yrittää!

OPS OPPIMISTAVOITTEET JA OPETUKSEN KESKEISET SISÄLLÖT TOINEN KOTIMAINEN KIELI

Vieraan kielen B1-oppimäärän opetuksen tavoitteisiin liittyvät keskeiset sisältöalueet vuosiluokalla 6

Äi 8 tunti 6. Tekstin rakenne, sitaattitekniikka

Suomen kielen Osaamispyörä -työkalu

Humanistiset tieteet

Lausuminen kertoo sanojen määrän

Kirjallisuustieteet, kulttuurin ja taiteen tutkimus, saamelainen kulttuuri

Kielen hyvän osaamisen taso on 6. luokan päättyessä taitotasokuvauksen mukaan:

Tutkija somessa Jenni Valta Turun yliopiston viestintä

T3 ohjata oppilasta havaitsemaan kieliä yhdistäviä ja erottavia ilmiöitä sekä tukea oppilaan kielellisen uteliaisuuden ja päättelykyvyn kehittymistä

Kulttuuritaidot Oppilas tutustuu ruotsinkieliseen ja pohjoismaiseen elämänmuotoon ja oppii arvostamaan omaa ja muiden kulttuuria

SUBSTANTIIVIT 1/6. juttu. joukkue. vaali. kaupunki. syy. alku. kokous. asukas. tapaus. kysymys. lapsi. kauppa. pankki. miljoona. keskiviikko.

Akateemiset fraasit Tekstiosa

Osaamistavoitteiden asettaminen omalle opintojaksolle - Flipparit

Venäjän kieli ja TVT:n käyttömahdollisuudet

Lahjakkuutta ja erityisvahvuuksia tukeva opetus äidinkielen näkökulma

Finnish ONL attainment descriptors

Oppilas esittää ajatuksiaan ja ilmaisee mielipiteensä parille tai ryhmälle. Oppilas osaa kuunnella toisia.

Purot.net Wiki. Tutkielma. Paavo Räisänen. Centria Ammattikorkeakoulu

2. Olio-ohjelmoinnin perusteita 2.1

ARVIOININ TUKITAULUKKO VUOSILUOKILLE UE

Uusien kanavien haasteet ja mahdollisuudet mediaviestinnässä. Kasper Stenbäck Johtaja, verkko ja teknologiat Cocomms Oy

Puhutun ja kirjoitetun rajalla

MONISTE 2 Kirjoittanut Elina Katainen

Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100% Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100% Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100%

Esko Korpilinna ja ketsua. Esitys Ruutiukoissa Matti Kataja

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

MOT-hanke. Metodimessut Jorma Joutsenlahti & Pia Hytti 2. MOT-hanke

Eiran aikuislukiossa voi toisena kotimaisena kielenä opiskella ruotsia. Opiskelija valitsee joko pitkän tai keskipitkän oppimäärän.

Aivovammaliitto ry Sosiaalinen media Pia Warvas ja Asta Hietanen Lokakuu 2015

Liite A: Kyselylomake

FT Henna Makkonen-Craig Äidinkielen ja kirjallisuuden opetuksen foorumi

OPISKELE KIELIÄ AIKUISLUKIOSSA

Oulun murteessa on käytössä myös nää-pronomini, joka tarkoittaa sinä. Sää on kuitenkin enemmän käytetty.

Rakastan työtäni mutta miksi?

Nettilukutehtävien laatiminen Googlen täsmähakukoneella. Carita Kiili Kasvatustieteiden laitos Jyväskylän yliopisto

Alkukartoitus Opiskeluvalmiudet

RANSKA Perusopetuksen vuosiluokilla 7-9 alkanut oppimäärä (B2) Valtakunnalliset syventävät kurssit, B2

ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto

Tutkija somessa Jenni Valta Turun yliopiston viestintä

Siltaaminen: Piaget Matematiikka Inductive Reasoning OPS Liikennemerkit, Eläinten luokittelu

Historian ja etnologian laitos

Adjektiivit. Yleistä ja taivutus. Adjektiivi + substantiivi. Vertailumuodot

Politiikka-asiakirjojen retoriikan ja diskurssien analyysi

2. Olio-ohjelmoinnin perusteita 2.1

9.2. Ruotsi B1 kielenä

Suomalaisten yritysten kokemuksia Kiinasta liiketoiminta-alueena

Tavoitteet Sisällöt Arvioinnin kohteet oppiaineissa ja hyvän osaamisen kuvaus

Sosiaalisen median ohje 2018

9.2. Oppiaineiden ja aineryhmien / kurssien tavoitteet, sisällöt, työtavat ja arviointi

Suomen kielioppi: Harjoitukset - Harjoituslista. Aakkoset ja äänteet

Tavoite Opiskelija osaa käyttää englannin kielen rakenteita, hallitsee kielen perusilmaukset ja ymmärtää opiskelijan arkielämään liittyvää kieltä

Syyslukukauden 2012 opintotarjonta

CHERMUG-pelien käyttö opiskelijoiden keskuudessa vaihtoehtoisen tutkimustavan oppimiseksi

Kulttuuritaidot Oppilas oppii tuntemaan Ranskaa ja ranskankielisiä alueita ranskankielisille kulttuureille ominaisia tapoja ja kohteliaisuussääntöjä

LAULUMUSIIKIN PÄÄAINE I

Yhdistyspäivä

subjektin ellipsi: kahdesta samasta subjektista jälkimmäistä ei toisteta

kehittämässä: -oppimäärä Arvioinnin kielitaitoa suomen kieli ja kirjallisuus

Kielten oppiminen ja muuttuva maailma

Neljä viidestä suomalaisesta uskoo, että poliitikot ymmärtävät tarkoituksella väärin toisiaan

Alberta Language and Development Questionnaire (ALDeQ) A. Varhaiskehitys Lapsen nimi

Englanti 3. luokka OPPISISÄLLÖT. Kasvu kulttuuriseen moninaisuuteen ja kielitietoisuuteen (S1)

Vinkkejä kirjoittamiseen. Kultaiset säännöt:

Monilukutaito. Marja Tuomi

Harjoitus 5 (viikko 41)

Eväspussi. Onko lähipiirissä esiintynyt hitautta tai vaikeutta lukemaan ja kirjoittamaan oppimisessa? Millaista?

Adjektiivit. Yleistä ja taivutus. Adjektiivi + substantiivi. Vertailumuodot

Äidinkieli ja kirjallisuus, luokat 3-6 Suomen kieli ja kirjallisuus

KiMeWebin käyttöohjeet

Asuntopolitiikan tutkimus ja julkinen keskustelu

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

Ma Tänään rapistelemme ja mittailemme sanomalehteä.

RANSKAN KIELI B2 RANSKAN KIELI B2 8 LUOKKA

Sana rakenteen kategoriana (A. Radford: Transformational Grammar. A First Course)

Kempeleen kunta Liite 1

Mitä suomen intonaatiosta tiedetään

Sanomalehtiviikko. KAUKOPUTKI LÖYTÄÄ UUTISET Tehtäväpaketti luokkalaisille. Lähde uutisseikkailuun toimittaja Simo Siiven opastuksella

Sosiaalinen media Facebook, Twitter, Nimenhuuto

ITALIAN KULTTUURI-INSTITUUTTI KURSSIT KESÄ 2017

Jokainen ryhmäläinen kertoo vuorollaan ensimmäisen ajatuksen, joka tulee mieleen sanasta itsetunto.

Moodle-oppimisympäristö

Fysikaaliset tieteet, kemia ja matemaattiset tieteet

Suoritusraportointi: Loppuraportti

Viestinnällä lisäarvoa & tehokkuutta! Työyhteisöviestinnästä kriisi- ja muutosviestintään. Strategisesta vuoropuhelusta henkilöbrändäykseen.

TAVOITTEET journalistin reitin suunnittelu omien tavoitteiden asettaminen median tehtäviin tutustuminen

Luonnollisella kielellä keskustelevat järjestelmät

Eskon ja Allin ihmemaa Sivu 1 / 8

ESIPUHE... 3 SISÄLLYSLUETTELO JOHDANTO... 6

Harjoitus 5. Esimerkki ohjelman toiminnasta: Lausekielinen ohjelmointi I Kesä 2018 Avoin yliopisto 1 / 5

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

JUJUPRIX Kalle Tuominen & Timo Mäkeläinen Markkinointiviestinnän suunnittelutoimisto Mainio Oy. kalle@mainiota.fi timo.makelainen@mainiota.

Koulun kielikasvatus S2- näkökulmasta Kielikasvatusfoorumi Finlandia-talo Jyrki Kalliokoski

Transkriptio:

Mitä tilastollinen tarkastelu voi kertoa sosiaalisen median kielestä? Aatu Liimatta Reddit on pääasiassa englanninkielinen sosiaalisen median sivusto, jossa keskustelu keskittyy eri aihealueiden ympärille. Tilastollisia menetelmiä käyttämällä voidaan saada selville, että Redditin sisällä kielenkäyttö vaihtelee tilanteen mukaan samoin kuin sen ulkopuolellakin. Ihmiset ovat taitavia käyttämään kieltä aina tilanteen vaatimalla tavalla. Mikä Reddit? Sosiaalisen median sivusto Reddit (www.reddit.com) on suhteellisen tuntematon, vaikka se on kolmanneksi suosituin englanninkielinen sosiaalinen media Facebookin ja Twitterin jälkeen. Reddit koostuu niin kutsutuista aliredditeistä (subreddit) eli eri aihealueita käsittelevistä alifoorumeista. Kuka tahansa voi aloittaa uuden aliredditin, joten Redditin aihealueet kattavat kaiken kuviteltavissa olevan maan ja taivaan väliltä (ja paljon sellaista mitä ei voi kuvitellakaan). Redditin käyttäjät voivat tehdä postauksia eri aliredditeihin. He voivat myös kommentoida muiden tekemiä postauksia ja vastata kommentteihin. Näin käydyt keskustelut ovat varmastikin Redditin suosituinta sisältöä. Käyttäjät voivat myös tilata haluamansa aliredditit, jolloin niiden viestiketjut näkyvät heidän Reddit-etusivullaan. 1 / 7

Kuva 1. Mielenkiintoisille kuville tarkoitettu alireddit, /r/pics,. Kuva 2. Keskustelua kypärien tärkeydestä ja rekkojen turvallisuudesta /r/picsaliredditistä. Aliredditien aiheet voivat olla niinkin yleisiä kuin uutiset (/r/worldnews), politiikka (/r/politics), kuvat (/r/pics), televisio (/r/television), pelit (/r/games), vitsit (/r/jokes), matematiikka (/r/mathematics) tai kieli (/r/language), tai hyvinkin tarkkaan rajattuja, 2 / 7

kuten tiettyjä kaupunkeja, tiettyjä poliittisia näkökulmia tai tiettyjä elokuvia, televisiosarjoja ja tietokonepelejä käsittelevät aliredditit. Myös vaikkapa monille sisäpiirin vitseille on omat aliredditinsä. Monet aliredditit ovat aiheeltaan lähellä toisiaan, mutta käsittelevät aihetta hiukan eri näkökulmista tai omalla tavallaan. Esimerkiksi historia -alireddit (/r/history) on tarkoitettu kaikelle keskustelulle ja linkeille historiaan liittyen, kun taas kysy historiantutkijoilta (/r/askhistorians) on tarkkaan moderoitu alireddit, jossa historiantutkijat ja asiansa osaavat harrastajat vastaavat esitettyihin historiaan liittyviin kysymyksiin lähes akateemisin standardein. Tilastollista rekisteritutkimusta Mutta mitä tilastollinen tarkastelu voi kertoa Redditin kielestä? Paljonkin, riippuen siitä, mitä halutaan tarkastella. Itse olen kiinnostunut rekisteritutkimuksesta, joka vertailee eri tilanteiden kielenkäytölle tyypillisiä ja epätyypillisiä piirteitä. Lehtiuutinen kirjoitetaan eri sanankääntein kuin postikortti lomamatkalta, ja poliitikko puhuu toimittajille eri tavoin kuin opettaja luokalleen. Mutta miten on Redditin laita? Miten eri alireddittien kielenkäyttö eroaa toisistaan? Miten tällaisia eroja voidaan tutkia? Yksittäisten tekstiesimerkkien vertailu, kuten yhden postikortin vertaaminen yhteen uutisartikkeliin, tai yhden Reddit-viestin vertaaminen toiseen, saattaa kertoa jotakin näiden kielimuotojen eroista, mutta todennäköisesti kertoo enemmän postikortin tai artikkelin kirjoittajan yksilöllisestä kielenkäytöstä kuin postikorttien tai uutisartikkelien kielenkäytöstä yleensä. Niinpä on tarpeen ottaa käyttöön suurten tekstiaineistojen eli korpusten tilastollinen vertailu. Yksi tunnetuimpia ja käytetyimpiä rekisteritutkimuksen korpusmenetelmiä on Douglas Biberin jo 1980-luvun loppupuolella kehittämä moniulotteinen rekisterianalyysi. Tätä menetelmää käytettäessä vertaillaan useita kymmeniä kielen peruspiirteitä kuten eri sanaluokkia, verbien aikamuotoja, eri persoonapronomineja ja erilaisia rakenteita. Näiden rakenteiden tekstikohtaiset esiintymistiheydet lasketaan tietokoneohjelman avulla. Eri piirteet esiintyvät eri teksteissä eri tiheyksillä. Esiintymistiheyksiä tilastollisesti vertailemalla voidaan löytää piirrekimppuja, joiden piirteet tapaavat esiintyä teksteissä yhdessä ja vastaavasti olla poissa teksteistä yhtä aikaa. Jokainen tällainen kimppu muodostaa rekisteriulottuvuuden : onhan olemassa jokin syy, miksi nämä piirteet esiintyvät yhdessä ja miksi kirjoittaja tai puhuja on päättänyt käyttää (tai olla käyttämättä) näitä piirteitä. Tällä menetelmällä on pitkät perinteet. Jo vuonna 1988 Biber vertaili laajasti 23 englannin kielen puhuttua ja kirjoitettua tekstilajia, mm. erilaisia faktatekstejä kuten 3 / 7

uutisjuttuja, pääkirjoituksia, elämäkertoja ja virallisia asiakirjoja; eri fiktiogenrejä; ja puhuttua kieltä kuten keskusteluja, haastatteluja ja puheita. Hän löysi näistä tekstilajeista kuusi rekisteriulottuvuutta. Näistä tärkein ja tunnetuin on ensimmäinen ulottuvuus, osallistuva tai informatiivinen tuotto (Involved vs. Informational Production). Toisin sanottuna kaikki tutkitut tekstit ja tekstilajit asettuvat jollekin kohtaa akselia, jonka toisessa päässä sijaitsevat osallistuvat tekstilajit, Biberin materiaalissa ennen kaikkea puhelinkeskustelut, ja toisessa päässä tiiviisti tietoa sisältävät tekstilajit kuten akateeminen teksti ja uutistekstit. Osallistuville teksteille tyypillisiä piirteitä englannin kielessä Biberin tutkimuksen mukaan ovat esimerkiksi ihmisten ajattelua ja mielipiteitä ilmaisevat verbit ja preesensmuotoiset verbit ylipäänsä sekä lyhennetyt muodot kuten I m ja can t (eikä I am ja cannot) ja toisen persoonan pronomini you. Informatiivisissa teksteissä nämä piirteet taas ovat harvinaisempia. Sen sijaan informatiiviset tekstit sisältävät paljon substantiiveja, ja niiden sanat ovat keskimäärin pidempiä ja vaihtelevampia. (Biber 1988.) Redditin rekisteriulottuvuudet Teen väitöskirjaa tilastollisten menetelmien soveltamisesta sosiaalisen median ja erityisesti Redditin rekisteritutkimukseen, ja alustavien havaintojen mukaan myös Redditin sisältä voi Biberin menetelmän avulla löytää selkeitä rekisteriulottuvuuksia. Tarkastelemalla 27 aliredditin joukkoa (johon kuuluu mm. aiemmin mainitsemani /r/askhistorians) olen saanut selville, että analysoimani aliredditit asettuvat ainakin kolmelle rekisteriulottuvuudelle. Tietenkin on pidettävä mielessä, että kaikki aliredditit sijoittuvat joka ulottuvuudella jonnekin kahden ääripään välille, ja monissa aliredditeissä ulottuvuuden kaksi napaa ovat varsin hyvin tasapainossa. Ensimmäinen ulottuvuus, joka selittää suurimman osan rekisterivaihtelusta alireddittien välillä, on henkilöfokus tai asiafokus (Personal vs. Factual Focus). Jotkin aliredditit, kuten japanilaisia tarinapelejä käsittelevä /r/visualnovels, keskittyvät voimakkaammin henkilöihin, ajatuksiin ja mielipiteisiin; toiset taas keskittyvät faktoihin ja asiatietoon, kuten /r/askhistorians tai tietokoneeseen kytkettäviä radiovastaanottimia käsittelevä /r/rtlsdr. Ulottuvuuden asiafokus-pään aliredditeille tyypillinen kielenpiirre on substantiivien suuri määrä. Henkilöfokus-pään aliredditeissä käytetään vähemmän substantiiveja, mutta sen sijaan runsaammin henkilön ajattelua kuvaavia verbejä kuten think, feel, understand, assume (ajatella, tuntea, ymmärtää, olettaa) ja sanallista ulosantia kuvaavia verbejä kuten say, admit, suggest, claim (sanoa, myöntää, ehdottaa, väittää) sekä mm. adverbejä kuten quickly (nopeasti) ja lyhennettyjä muotoja kuten I m ja can t. 4 / 7

Toinen ulottuvuus on informatiivinen tai osallistuva tyyli (Informational vs. Involved Style). Kuten yllä mainitsemani Biberin ensimmäinen ulottuvuus, tämä Redditin ulottuvuus kuvastaa sitä, kuinka keskusteleva aliredditin tyyli on, vai sisältääkö se enemmän tiiviin informatiivisia tekstejä. Toiset aliredditit ovat tyyliltään enemmän keskustelevia, kuten kauniisiin luontokuviin keskittyvä /r/earthporn; toiset, esimerkiksi /r/askhistorians, taas sisältävät paljon informatiivista, tiivistä tekstiä. Informatiivisen pään teksteille tyypillisiä piirteitä ovat mm. keskimäärin pidemmät sanat ja nominalisaatiot eli muista sanaluokista muodostetut substantiivit kuten movement (liike, verbistä move) tai carelessness (huolimattomuus, adjektiivista careless). Osallistuvalle tyylille näiden piirteiden sijaan tyypillisiä ovat ennen kaikkea ensimmäisen persoonan pronominit kuten I ja me. Kuva 3. /r/askhistorians on tyypillinen esimerkki asiafokuksen ja informatiivisen tyylin aliredditistä. Huomaa mm. sanojen pituus, substantiivien määrä, ja nominalisaatio periodization, sekä ensimmäisen persoonan pronominien ja lyhennettyjen muotojen puute. Kuva 4. /r/whatisthisthing-aliredditissä käyttäjät auttavat toisiaan tunnistamaan tuntemattomia asioita. Tämä esimerkki on rekisteriltään päinvastainen kuin ylempi /r/askhistoriansesimerkki: sanat ovat lyhyempiä ja substantiiveja on vähemmän, mutta sen sijaan ajattelua kuvaavia verbejä kuten think ja know, lyhennettyjä muotoja ja ensimmäisen persoonan pronomineja on enemmän. Kolmas ulottuvuus on nykyajan tai menneen ajan fokus (Non-Past vs. Past Focus). Jotkin aliredditit, mukaan lukien /r/askhistorians, keskittyvät menneeseen aikaan, esimerkiksi menneisiin tapahtumiin, historiaan tai tarinoiden kertomiseen, kun taas toiset, kuten algoritmeja käsittelevä /r/algorithms, keskittyvät voimakkaasti nykyaikaan 5 / 7

tai abstrakteihin asioihin. Tämän ulottuvuuden ääripäitä luonnollisesti hallitsevat eri aikamuodot, nykyajan teksteissä preesens ja menneen ajan teksteissä mennyt aikamuoto, mutta nykyajan teksteihin liittyy myös paljon muita piirteitä kuten erilaisia tulevaisuutta ja tulevaisuuden mahdollisuuksia kuvaavia apuverbejä (esim. will, can, may) ja alistuskonjunktiot if ja unless. Kieli on kommunikaation väline Mutta eivätkö nämä ulottuvuudet, henkilöfokus tai asiafokus, informatiivinen tai osallistuva tyyli ja nykyajan tai menneen ajan fokus, kuulosta siltä, että minkä tahansa tekstin maailmassa pystyisi luokittelemaan niiden avulla, eikä vain Redditin aliredditejä? Kyllä vain, ja mielestäni nimenomaan tässä piilee asian kauneus. Kielestä, kielimuodosta tai kielenkäytön tilanteesta riippumatta moniulotteinen rekisterianalyysi tapaa löytää aina tiettyjä samantyyppisiä rekisteriulottuvuuksia, mutta myös tutkimuksen rajauksen mukaan uniikkeja, nimenomaan kyseiseen kielen muotoon tai tilanteeseen liittyviä ulottuvuuksia (Biber 2014; vrt. Biber 1995, Biber 2016). Reddit ei siis tässä suhteessa eroa muista ihmisten käyttämistä kommunikaatiokanavista. Paljolti samantyyppiset tilannekohtaiset vaatimukset asettavat rajoja kielelle niin Redditissä kuin sen ulkopuolellakin. Mutta toisaalta jokaisen kommunikaatiokanavan vaatimukset ovat erilaiset, ja siten joka tilanteen kielelliset ratkaisut ovat uniikkeja. Loppujen lopuksihan kieli on kommunikaation väline. Usein haluamme luokitella tekstejä ja kieltä eri tavoin: puhuttua tai kirjoitettua kieltä, nuorten tai aikuisten kieltä, uutisten tai kaunokirjallisuuden kieltä, hyvää tai huonoa kieltä. Olen ehkä puolueellinen, mutta väitän, että rekisteritutkimus on yksi parhaita tapoja nähdä, että kieli ei ole sellainen tarkasti lokeroitava, jäykkä järjestelmä tiukoilla säännöillä kuin usein helposti kuvittelemme, vaan oikeastaan ääretön määrä mahdollisuuksia, joita kielen käyttäjät osaavat soveltaa ja hyödyntää aina tilanteen vaatimusten ja tarpeiden mukaan, jotta tehokas ja asianmukainen kommunikaatio säilyisi, niin sosiaalisessa mediassa kuin sen ulkopuolellakin. Ei postikorttiakaan kirjoiteta kuin lehtiuutista. Kirjoittaja on englantilaisen filologian tohtorikoulutettava Helsingin yliopiston nykykielten laitoksella. 6 / 7

Powered by TCPDF (www.tcpdf.org) Kieli, koulutus ja yhteiskunta - toukokuu 2017 Lähteet Biber, D. (1988). Variation across Speech and Writing. Cambridge: Cambridge University Press. Biber, D. (1995). Dimensions of Register Variation: A Cross-Linguistic Comparison. Cambridge: Cambridge University Press. Biber, D. (2014). Using multi-dimensional analysis to explore cross-linguistic universals of register variation. Languages in contrast, 14(1), 7 34. Biber, D., & Egbert, J. (2016). Register variation on the searchable web: A multidimensional analysis. Journal of English Linguistics, 44(2), 95 137. 7 / 7