3. Datan tutkiminen ja visualisointi 3.1. Johdanto. 3.2. Datan koostaminen: yksinkertaisia esimerkkejä



Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Laskennallinen data-analyysi II

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

1 Kannat ja kannanvaihto

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)

Sovellettu todennäköisyyslaskenta B

Harjoitusten 5 vastaukset

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kanta ja Kannan-vaihto

Regressioanalyysi. Kuusinen/Heliövaara 1

Lineaarikuvauksen R n R m matriisi

, on säännöllinen 2-ulotteinen pinta. Määrää T x0 pisteessä x 0 = (0, 1, 1).

Luottamusvälit. Normaalijakauma johnkin kohtaan

Laskennallinen data-analyysi II

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Matematiikan tukikurssi

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

Kvantitatiiviset menetelmät

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Ratkaisuehdotukset LH 7 / vko 47

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

pitkittäisaineistoissa

Moniulotteisia todennäköisyysjakaumia

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Matemaattinen Analyysi / kertaus

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

tilastotieteen kertaus

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Testejä suhdeasteikollisille muuttujille

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Osa 2: Otokset, otosjakaumat ja estimointi

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Tutkimustiedonhallinnan peruskurssi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

T Luonnollisten kielten tilastollinen käsittely

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Osafaktorikokeet. Heliövaara 1

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0004/A0006 Matriisilaskenta

Estimointi. Vilkkumaa / Kuusinen 1

DIFFERENTIAALI- JA INTEGRAALILASKENTA I.1. Ritva Hurri-Syrjänen/Syksy 1999/Luennot 6. FUNKTION JATKUVUUS

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Harjoitus 2: Matlab - Statistical Toolbox

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

7. laskuharjoituskierros, vko 10, ratkaisut

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Sovellettu todennäköisyyslaskenta B

pitkittäisaineistoissa

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ominaisvektoreiden lineaarinen riippumattomuus

Ratkaisuehdotukset LH 3 / alkuvko 45

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Tilastolliset toiminnot

Oppimistavoitematriisi

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

1 Rajoittamaton optimointi

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

s = 11 7 t = = 2 7 Sijoittamalla keskimmäiseen yhtälöön saadaan: k ( 2) = 0 2k = 8 k = 4

MS-A0002 Matriisilaskenta Luento 1:Vektorit ja lineaariyhdistelyt

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Vektoreiden virittämä aliavaruus

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Til.yks. x y z

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Oppimistavoitematriisi

1 Ominaisarvot ja ominaisvektorit

3 Raja-arvo ja jatkuvuus

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 1: Parametrisoidut käyrät ja kaarenpituus

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Transkriptio:

3. Datan tutkiminen ja visualisointi 3.. Johdanto ässä luvussa tarkastellaan rakenteiden datasta etsimisen visuaalisia menetelmiä. Näistä on usein hyötyä lähdettäessä tutkimaan datan sisältöä. avallaan nämä ovat vastakohtina mallien muodostamiselle datalle. Menetelmien rajoitukset tulevat luonnollisesti vastaan käsiteltäessä hyvin laajoja tietojoukkoja. utkivaa data analyysia voidaan kuvata dataperusteisena hypoteesin luontina. Dataa tutkitaan rakenteita etsittäessä, jolloin rakenteet saattavat kuvata merkityksellisiä muuttujien välisiä relaatioita. ämä ei ole tavanomaista tilastollista hypoteesin testaamista, jossa on valmiiksi annettu malli ja tilastollisesti testataan, onko jollakin todennäköisyydellä data kyseisen mallin mukaista. Dataperusteisessa lähestymisessä sitä vastoin datan hahmot luovat hypoteesit. 3. luku 69 Hahmoja etsittäessä ei voida testata sitä, onko löydetty hahmo pohjana olevan jakauman todellinen ominaisuus, ottamatta huomioon haun laajuutta, so. tutkittujen hahmojen lukumäärää. Luvussa 3.. käydään läpi yksinkertaiset tilastolliset tunnusluvut. Luvussa 3.3. tarkastellaan yhden muuttujan jakauman visualisointimenetelmiä ja luvussa 3.4. kahden muuttujan suhteiden esittämistä. Lopuksi pohditaan usean muuttujan välisten suhteiden esittämistä. 3. luku 70 3.. Datan koostaminen: yksinkertaisia esimerkkejä Keskiarvo on monesti yksinkertaisin tunnusluku, jota tarvitaan lukuisissa yhteyksissä. Otoksen keskiarvo, kun data arvot ovat x(),,x(n), määritellään tavalliseen tapaan. ˆ= x( / n i (Perusjoukon keskiarvoa merkitään symbolilla.) Keskiarvo on paikan mitta. oinen sellainen on mediaani, jota sekä suurempia että pienempiä datapisteitä on yhtä paljon (arvoja ollessa parillinen määrä mediaani on yleensä kahden keskimmäisen puolivälistä). Datan yleisimmin esiintyvä arvo on moodi. oisinaan jakaumilla voi olla yhtä useampia moodeja, jolloin se on multimodaalinen (bimodaalinen kahden huipun tilanteessa). Muita paikan mittoja ovat jakauman eri osia vastaavat fraktiilit. Ensimmäinen kvartiili eli alakvartiili on arvo, joka on seuraavaksi suurin jakauman pienimmän neljänneksen jälkeen ja kolmas eli yläkvartiili on kolme neljäosan jälkeen. (Mikä on toinen?) Vastaavasti on määriteltävissä desileejä ja persentiilejä. Vaihtelevat hajonnan tai vaihtelevuuden mitat ovat tavallisia. Näitä ovat keskihajonta eli standardipoikkeama ja tämän neliö, varianssi, joka määritellään alkuperäisten data arvojen ja näiden keskiarvon erotusten neliöiden keskiarvona seuraavasti. σˆ = ( x( ) µ / n i 3. luku 7 3. luku 7

Kun keskiarvo minimoi näiden erotusten neliöiden summaa, keskiarvo liittyy läheisesti varianssiin. Jos on tuntematon, kuten yleensä on käytännössä, sitä estimoidaan otoksesta lasketulla keskiarvolla saaden oheisen kaavan. ( ( ) ˆ) x i µ /( n ) i Keskihajonta on varianssin neliöjuuri. σˆ = ( x( ) µ / n i Kvartiilien väli, kolmannen ja ensimmäisen kvartiilin erotus, on joissakin sovelluksissa kiinnostava, niin myös suurimman ja pienimmän datapisteen erotus. Vinous mittaa, onko jakaumalla yhtä pitkää häntää ja määritellään mm. oheisella kaavalla. ( x( ˆ) µ ( ( x( ˆ) µ ) 3/ Ihmisten tulojen jakauma on melko vino, ts. valtaosan tulot ovat pieniä tai keskimääräisiä, mutta hyvin suurituloisia on vähän. ällöin voi esiintyä oikealle vino jakauma. vastaavasti saattaa olla (harvemmin) vasemmalle vinoja jakaumia. Symmetrisessä tilanteessa vinous on nolla. 3 3. luku 73 3. luku 74 3.3. Yksittäisten muuttujien esittäminen Yksi perusesitystavoista yksittäisen muuttujan kohdalla on histogrammi, joka kuvaa muuttujan tapausten lukumäärät perättäisin välein. Pienien datajoukkojen tilanteessa histogrammi saattaa olla harhaanjohtava, sillä silloin arvojen määrien satunnaisheilahtelut tai välien vaihtoehtoiset valinnat voivat antaa melko erilaisia diagrammeja. Datajoukon koon kasvaessa näiden vaikutus vähenee. Suurien datajoukkojen yhteydessä jopa vähäiset histogrammin piirteet voivat edustaa jakauman todellisia ominaisuuksia. 400 00 Kuva 3.. esittää erään yhdysvaltalaisen supermarketin asiakkaiden luottokorttiostoja yhtä luottokorttiyhtiötä käytettäessä, kun on annettu, monenako kahden viikon jaksoina vuodessa asiakas käytti luottokorttiaan. 0 0 30 40 50 viikkoja Kuva 3.. Luottokortin käyttöä viikkomäärittäin. 3. luku 75 3. luku 76

Suuri osa asiakkaista ei käyttänyt luottokorttia ollenkaan tai vain hyvin harvoin, minkä osoittaa suuri vasemmanpuoleinen moodi. Käyttömäärien kasvaessa henkilöiden määrä vähenee suhteellisen nopeasti, mutta suurimmilla käyttömäärillä on pienehkö moodi hyvin aktiivisia asiakkaita, jotka käyttivät säännöllisesti luottokorttiaan. 80 40 Esim. 3.. Kuva 3.. esittää henkilöjoukolta mitattua diastolista verenpainetta. Alkuperäinen tietolähde (UCI Machine Learning data archive) väitti, ettei data sisältäisi puuttuvia arvoja. Selvästi väite ei pidä paikkaansa, koska muutaman kymmenen henkilön verenpaine olisi ollut nolla. Mitä todennäköisimmin puuttuvat arvot oli merkitty nollalla. Vaikka histogrammilla on rajoituksensa, sillä voi nopeasti selvittää tällaisia epäilyttäviä arvoja, jotka voisivat muussa tapauksessa sotkea analyysia. 3. luku 77 0 40 60 80 00 0 Kuva 3.. Mitattujen diastolisten verenpaineiden jakauma sekä nolla arvoja. 3. luku 78 Histogrammien epätasaisuuksia voidaan tasoittaa (suodattaa) eri tavoin. Kätevä keino on käyttää kernelestimaattia, jollainen tasoittaa datapisteen yli sen lokaalisen naapuruston. Olkoon mitattava muuttuja X, jolle saadaan arvot {x(),,x(n)}. Datapisteen x( vaikutus estimaattiinsa x* jossakin pisteessä riippuu siitä, kuinka kaukana x( ja x* ovat toisistaan. ämän vaikutuksen laajuus riippuu valitusta kernelfunktion muodosta ja leveydestä. Kun kernelfunktio on K ja sen leveys h, estimoitu tiheysarvo (diagrammin arvo) pisteessä x on seuraava arvo. n x x( fˆ( x) = K( ) nh i= h Kernelestimaatin laatu riippuu vähemmän funktion K muodosta kuin arvosta h. Funktion K yleinen muoto on normaali eli Gaussin käyrä, jonka leveysparametri (keskihajonta) on h seuraavasti. t ( ) K( t, h) = Ce h ässä C on normalisointivakio ja t=x x( on kyselypisteen x ja pisteen x( välinen etäisyys. Kaistanleveys h on ekvivalentti Gaussin kernelfunktion keskihajonnan kanssa. 3. luku 79 3. luku 80

Estimaatin sovitus on optimoitavissa formaalein menetelmin tuntemattomalle jakaumalle, mutta tässä kiinnostus on graafisissa menetelmissä. Vaihtelemalla arvoa h voidaan etsiä otosjakauman muodosta omituisuuksia. Pienet h:n arvot johtavat hyvin teräviin estimaatteihin (lähes ilman tasoittamista), kun taas suuret arvot johtavat liikanaiseen tasoitukseen. ässä saadaan ääriarvot seuraavasti. Kun h lähenee nollaa, raja lähenee kutakin kokeellista datapistettä x( ( deltafunktio ) ja kun h lähenee ääretöntä, saadaan tasainen jakauma. Eräs hyödyllinen kuvaustapa on laatikkopiirrokset (boxplot). Laatikko käsittää pääosan jakaumasta, esim. ensimmäisen ja kolmannen kvartiilin välin. Lisäksi siihen voidaan merkitä suoralla jokin paikkamitta, kuten datan mediaani. Myös voidaan merkitä kokeellisen jakauman päät. Laatikkopiirros on esitetty kuvassa 3.3., jossa jakauman koskee edelliseen kuvaan liittyvää diabetes dataa. 3. luku 8 3. luku 8 diastolinen verenpaine 0 80 40 + + + 3.4. Kahden muuttujan välisen suhteen esitysmuotoja Sirontakuva on tavanomainen menetelmä kuvata kahden muuttujan välistä suhdetta. Kuvassa 3.4. on muuan esimerkki tästä. Siinä on huomattava korrelaatio muuttujien välillä. Kun toisella niistä on pieniä arvoja, niin on toisellakin ja vastaavasti suuria molemmilla. Osa datajoukosta on kuitenkin poikkeavia havaintoja. 0 + luokka Kuva 3.3. Laatikkopiirros yhden muuttujan tapauksessa diabetes datajoukosta. Laatikon ylä ja alataso vastaavat kvartiileja ja jana keskellä mediaania. Lisäksi on merkitty hajonnan rajat.5 kertaa kvartiilien väli laatikon päistä. Näiden rajojen ulkopuoliset yksittäiset pisteet on merkitty erikseen. 3. luku 83 Aina sirontakuvista ei tiedonlouhinnassa ole hyötyä. Näin voi käydä, jos kuvassa on aivan liikaa datapisteitä, jolloin ilmiöt tai niiden ominaisuudet hukkuvat kuvan suureen datajoukkoon. Virheelliseen mielikuvaan voi johtaa helposti myös sellainen kuva, jossa on paljon päällekkäisiä datapisteitä (nähdään kuitenkin vain yhtenä). 3. luku 84

Kuva 3.4. (a) ässä ovat data arvot (ylin signaalinpätkä, mitattu 400 Hz:llä 5 s), jotka kuvaavat vestibulo okulaarista silmänliikettä ja alin sen stimulaatiota, melkein symmetristä pään liikettä. Näistä on muodostettu kuva (b), jossa lineaarisen regressiosuoran avulla on laskettu korjattu kalibraatiokerroin (aluksi epätarkempi estimaatti ylimmän pätkän muodostamisessa), jonka mukainen tarkemmin kalibroitu silmänliikesignaali on keskimmäisenä. Virhettä aiheuttivat nopeat sakaadiset silmänliikkeet, jotka näkyvät piikkeinä vastesignaalissa. 3. luku 85 Kuva 3.4. (b) Sirontakuva, jossa on muuttujien välillä voimakas korrelaatio ja jossa on myös poikkeavia havaintoja. ämä on saatu osasta (a), kun on otettu stimulaatiosta ja vasteesta (muuttujina) arvot (pareina) tasolle. Loivempi suora (sen kulmakerroin) kuvaa alkuperäistä kalibraatiokerrointa, jota on tarkennettu poistamalla poikkeavat havainnot (pienet, kauimmaiset rypäät) ja laskemalla sitten uusi regressiosuora. 3. luku 86 Muitakin ongelmallisia kuvauksia sirontakuvissa voi sattua, esimerkkinä tilanne, jossa on määrätyllä kuvausalueella melko tasaisesti ja satunnaisesti datapisteitä, mutta sitten yhdessä nurkassa vinoutuneesti hyvin paljon datapisteitä (voi olla päällekkäisiäkin). ällaisen tulkinta voi olla vaikeaa ja epämääräistä. Ääriviivapiirros voi olla apuna kuvattuun ongelmaan. Siinä datapisteiden edellisen kaltainen keskittymä voidaan saada esiin. Ajan mukaan muuttuvia ilmiöitä kuvataan yleisesti käyrillä, kuten oli kuvassa 3.4.(a). Siitä nähtiin selvästi siniaaltomainen perusmuoto sekä silmänliike että päänliikesignaalissa. ämä johtui suoraan näiden muodostamisesta. Katse oli kiinnitettynä koko testin ajan kiinteään pisteeseen, mutta pää liikkui toistuvasti vasemmalta oikealle ja takaisin. Lisäksi liikkeen nopeutta kasvatettiin (äänimerkin mukaan). ämän vuoksi käyrien siniaallon tapainen muoto kasvaa taajuudeltaan ajan mittaan. 3. luku 87 Pään liikkeet olivat symmetrisiä silmänliikkeille, mikä näkyy käyrien symmetrisyytenä. Jälkimmäisissä oli kuitenkin häiritseviä sakaadeja, jotka toimivat tässä (aivojen aikaansaamina) automaattisina korjausliikkeinä. arkkaan katsoen signaaleissa on pientä peruslinjan (hetken intervallin keskiarvon) liukumista alaspäin (silmä) tai ylöspäin (pää). ämä ei johdu todellisesta ilmiöstä, vaan sähköisen mittalaitteen ominaisuudesta, joka pitäisi joissakin tilanteissa ottaa huomioon. Hyvin tavallinen esitysmuoto on juuri käyrä, kuten kuvassa 3.4., kun toinen muuttuja on aika. Kuvan 3.4. tapauksessa oli kysymyksessä lyhyt fysiologisen mittauksen aika, 5 s. Kuvassa 3.5. on esimerkki Suomen väestötilastotiedoista 900 luvulla. ästä huomaa selkeästi monia kyseistä ilmiötä koskevia seikkoja. 3. luku 88

Fertility indeces by age Fertility index 300.0 50.0 00.0 50.0 00.0 50.0 0.0 5 9 0 4 5 9 30 34 35 39 40 44 45 49 Kuvassa 3.6. on vielä yksi esitys, jossa on väestötietoja. Siinä on yhdistetty kahden samankaltaisen muuttujan (naiset ja miehet) tiedot, jotka sinänsä ovat yhden muuttujan (ihminen) tietoja, histogrammeja. 900 90 90 930 940 950 Kuva 3.5. Suomen väestötilastoja 900 luvulta: hedelmällisyysluvut (syntynyttä lasta / 000 naista) keskimäärin viiden vuoden ikäjaksoryhmittäin. Huomaa syntyvyyden väheneminen ja sotaaikojen vaikutus. 960 970 980 990 Year Graafiset esitykset minkälaisia ne ovatkaan kannattaa suunnitella tarkkaan, jotta niistä saa hyvän ja oikeellisen kuvan, mitä data sisältää ja tämän mahdollisia piirteitä ja rakenteita. 3. luku 89 3. luku 90 Age distribution in Finland in 997 300,000 00,000 00,000 0 00000 00000 300000 Male Female 75 79 60 64 45 49 30 34 5 9 Kuva 3.6. Suomen väestötietoja: väestöpyramidi. Huomaa keskiikäisten suhteellisen suuri määrä ja naisten hienoinen enemmistö, joka johtuu miesten matalammasta keskimääräisestä eliniästä. 90 0 4 Age group 3.5. Kahta useamman muuttujan esittäminen Kun visuaalisia kuvauksia on esitettävä tasolla, kuten kuvaruutu tai paperi, voidaan pohjimmiltaan luonnollisella tavalla esittää vain yksi tai kaksiulotteisia kuvauksia. Korkeampiulotteiset kuvaukset on tavalla tai toisella epäsuorasti saatava aikaan. Kysymys on jonkinlaisesta projektiosta. Edellä esitettiin sirontakuvan idea. Sitä voidaan laajentaa kullekin muuttujaparille muuttujien joukosta, jolloin saadaan sirontakuvamatriisi. Siinä ei luonnollisestikaan ole halkaisijalla kuvauksia. Esimerkkinä voisi olla kuvan 3.7. kaltainen, jossa on sirontakuvat pareittain muuttujien kuvauksina. Näistä voisi sitten olla osa keskenään voimakkaasti korreloivia ja osa kenties heikommin. 3. luku 9 3. luku 9

v v v 3 v Sirontakuvamatriisi ei ole oikeasti monimuuttujaesitys, vaan usean kaksimuuttujaisen esityksen kokoelma. ällainen projektio luonnollisesti kadottaa jotakin informaatiota. v v 3 Kuva 3.7. Sirontakuvamatriisi, jossa sirontakuvat on muodostettu kaikille muuttujien {v,v,v 3 } pareille. Ristikkopiirroksessakin (trellis plot) käytetään useita kahden muuttujan kuvauksia. ällöin kiinnitetään jokin tietty muuttujapari, jota on tarkoitus kuvata, ja annetaan sarja sirontakuvia (myös muut tyypit soveltuvat, kuten histogrammit, aikasarjat yms.) yhden tai useamman muun muuttujan suhteen. Kuvassa 3.8. on luonnos tällaisesta. Myös ikoneita voidaan käyttää kuvaamaan monimuuttajakuvausta. Ne ovat pieniä diagrammeja, joissa eri piirteiden merkitys on kuvattu määrättyjen muuttujien arvoilla. ähtiikonit ovat tavallisimpia, joissa eri suunnat origosta nähden vastaavat eri muuttujia ja näihin suuntiin projisoitujen säteiden pituudet vastaavat muuttujien arvoa. 3. luku 93 3. luku 94 miehet naiset ikä 9 4 vuotta v v Rinnakkaisten koordinaattien piirros esittää muuttujat rinnakkaisina akseleina ja jokaisen tapauksen paloittain lineaarisena kuvauksena yhdistäen tapauksen mittausarvot. Kuva 3.9. on esimerkki tällaisesta. v v Esityksissä voidaan käyttää myös värejä kuvaamaan jotain ominaisuuksia. ikä 8 8 vuotta v v Kuvassa 3.0. on vielä yksi kuvaus, jossa käyrä on edennyt ajan mittaan tasossa muodostaen lopulta vyyhdin esittäen koehenkilön tasapainon ylläpitämistä eli massakeskipisteen paikkaa ajan mittaan origon suhteen. v Kuva 3.8. Ristikkokuvaus koehenkilöiden tiedoista, jossa ikä on kiinnitetty kahteen ryhmään ja toisaalta on kiinnitetty sukupuoleen. v 3. luku 95 Kuva liittyy imo ossavaisen virtuaalitodellisuusmenetelmien tutkimukseen tasapainotutkimuksia varten. 3. luku 96

lukema 4 lukema 3 lukema lukema min max Kuva 3.9. Rinnakkaisten koordinaattien piirros, jossa kuvataan usean koehenkilön (murtoviivat) datoja perättäisten mittauskertojen kuluessa. 3. luku 97 Kuva 3.0. ässä on mitattu koehenkilön huojumista eli tasapainon ylläpitämistä seistessä (60 s). Mittaus on tehty voimalevyllä, joka mittaa koehenkilön heilumista sivusuunnassa (X) sekä etu ja takasuunnassa (Y). Koehenkilö on koko mittauksen ajan ollut jonkin verran oikealle vinossa, koska käyrä on selvästi origosta oikealle. 3. luku 98 3.6. Pääkomponenttianalyysi Edellä tarkastellut menetelmät kuvasivat pohjimmiltaan vain kahden muuttujien välisiä suhteita, vaikka olivat yhdistettyjä laajaan kokonaisuuteen. ällöin monimutkaisemmat suhteet saattaisivat jäädä osin havaitsematta. Projektiot eri suuntiin tehtyinä (määriteltyinä joillakin painotetuilla lineaarisilla kombinaatioilla) ovat hyödyllisiä esittämään monimutkaisia kuvauksia. Vain muutaman muuttujan ollessa kyseessä kiinnostavat piirteet voivat olla löydettävissä manuaalisella käsittelyllä kiertämällä datajakaumaa avaruudessa. Muuttujien määrän kasvaessa tarvitaan tehokkaita laskentamenetelmiä. On määriteltävä, mikä on kiinnostava projektio, jotta se voidaan hakea algoritmisesti. Laskennallisesti tahokas eksplisiittinen ratkaisu on löydettävissä eräälle tietylle määritelmälle, mitä tulee kiinnostavalle suunnalle. ämä saadaan haettaessa projektio tietylle kaksiulotteiselle tasolle, jolle erotusten neliösumma datapisteiden ja näiden projektioiden tasolla välillä on pienempi kuin minkä muun projektiotason tahansa ollessa kysymyksessä ässä tarkastellaan kaksiulotteista projektiotasoa yksinkertaisuuden vuoksi, mutta yleisesti k ulotteinen taso on yhtä käyttökelpoinen ( k p, p alkuperäinen dimensio). ason voidaan osoittaa olevan () lineaarikombinaation virittämä, jonka muuttujilla on maksimiotosvarianssi, ja () lineaarikombinaation virittämä, jolla on maksimivarianssi, mutta joka ei korreloi edellisen lineaarikombinaation suhteen. ässä kiinnostavuus määritellään maksimivaihtelevuuden suhteen. 3. luku 99 3. luku 00

Prosessia voidaan luonnollisesti jatkaa hakemalla lisää lineaarikombinaatioita, jotka maksimoivat varianssia ollen korreloimatta jo valittujen suhteen. Jos käy hyvin, löydetään pieni määrä sellaisia komponentteja, jotka kuvaavat datan melko tarkasti. Päämääränä on saada esiin datan sisäinen vaihtelevuus. ämä on hyvin hyödyllistä pyrittäessä pienentämään datajoukon dimensiota joko sen tulkinnan helpottamiseksi tai keinona välttää ylisovitus ja käyttää menettelyä esiprosessointina ennen varsinaista analyysia. Olkoon X n p datamatriisi, jossa rivit vastaavat tapauksia (rivi on datavektori x() ja sarakkeet muuttujia. arkkaan ottaen matriisin i:s rivi on i:nnen datavektorin x( transpoosi x, koska nämä on tapana esittää nimenomaan sarakevektoreina. Oletetaan lisäksi X:n keskiarvon lasketun niin, että kukin muuttuja on suhteessa kyseisen muuttujan otoskeskiarvoon (siis estimoitu keskiarvo on vähennetty kunkin sarakkeen arvoista). Olkoon a projektion painoarvojen p sarakevektori (vielä tuntematon), joka johtaa suurimpaan varianssiin, kun data X projisoidaan vektorille a. Minkä tahansa erityisen datavektorin x projektio on oheinen lineaarikombinaatio. p a x = a j x j j= Kaikkien X:n datavektorien projektioarvot a:lla voidaan ilmaista tulona Xa, josta tulee projektioarvojen n sarakevektori. Varianssi vektorin a suhteen on määriteltävissä niin ikään σ ( Xa) ( Xa) a X Xa a a = = = Va, 3. luku 0 3. luku 0 missä V=X X on datan p p kovarianssimatriisi (X:llä on 0 keskiarvo), kuten luvussa määriteltiin. äten yo. varianssi (skalaari, jota halutaan maksimoida) on ilmaistavissa sekä a:n että datan kovarianssimatriisin V funktiona. ämä varianssin maksimointi ei ole suoraan hyvin määritelty, sillä varianssia voitaisiin kasvattaa rajatta kasvattamalla yksinkertaisesti a:n komponentteja. ätä varten määritellään rajoitukseksi a:n normalisointi, jolloin on a a=. Normalisointirajoituksella voidaan optimointiongelma kirjoittaa maksimoiden suuretta u = a Va λ( a a ), missä on Lagrangen kerroin. Osittaisderivoimalla tämä suhteen saadaan u = Va λ a = 0, a joka sieventyy tuttuun ominaisarvomuotoon ( V λ I) a = 0. a:n Ensimmäinen a:n pääkomponentti on ominaisvektori, joka liittyy kovarianssimatriisin V suurimpaan ominaisarvon. oinen pääkomponentti (ortogonaalinen ensimmäiseen nähden, jolla on suurin projisoitu varianss V:n toiseksi suurinta ominaisarvoa vastaava ominaisvektori ja yleisesti sama pätee k:nnelle pääkomponentille. 3. luku 03 3. luku 04

Käytännössä on monesti tarpeen saada projektio useampaan kuin kahteen dimensioon. (Kahdella on silti merkityksensä visualisoinnissa avaruuden ollessa alunpitäen pienidimensioinen.) Jos datalle lasketaan projektio k ensimmäiselle ominaisvektorille, projektioiden varianssi on ilmaistavissa summana k j= j, missä j on j:s ominaisarvo. Neliövirhe datamatriisin X approksimoinnin suhteen on vastaavasti ilmaistavissa seuraavalla osamäärällä käyttäen vain k ensimmäistä ominaisarvoa p λ j j= k+. p λ l l= Sopivan arvon k valitsemiseksi kasvatetaan tavallisesti sitä, kunnes riittävän pieni neliövirhearvo saavutetaan. Suuridimensioisessa tapauksessa, jos muuttujat korreloivat voimakkaasti keskenään, on mahdollista saada melko pienellä määrällä pääkomponentteja, esim. 5 tai 0, 90 % datan varianssista. Heikommin korreloiville muuttujille tilanne on tietysti merkittävästi huonompi, ja selitys voi olla vain 40 tai 60 % ensimmäisille pääkomponenteille. Hyödyllinen visuaalinen kuvaus on scree piirros, joka esittää peräkkäisten vähenevien ominaisarvojen selittämän varianssin osuuden. Kuva 3.. on luonnos sellaisesta, joka esitettäisiin sekä korrelaatiomatriisille että kovarianssimatriisille. 3. luku 05 3. luku 06 0.7 varianssin selitetty osuus Kuva 3.. on Jorma Laurikkalan tutkimuksesta inkontinenssidatalla. Aineistossa oli alunperin 5 muuttujaa, joista valittiin 8 tilastollisesti tärkeintä (muutamissa paljon puuttuviakin arvoja) oheiseen pääkomponenttianalyysiin. 5 ominaisarvot Pääkomponenttien laskenta suoraan ominaisarvoyhtälöistä käsittää aikakompleksisuuden O(np + p 3 ), joista edellinen tekijä tulee matriisin V laskennasta ja jälkimmäinen ominaisarvoyhtälöiden laskennasta. ämä tarkoittaa, että menetelmää voidaan hyvin soveltaa melko suurille tietuemäärille n, mutta kohtuullisen pienille muuttujamäärille (dimensio) p. Muunkinlaisia menetelmiä laskea pääkomponentit on olemassa. Kuva 3.. Scree kuva (luonnos). 3. luku 07 3. luku 08

4 3 0 0 Dimension 3 4 5 4 3 0 3 4 Dimension 3 5 4 3 0 3 Dimension (a) Dimension (b) Kuva 3.. (a) Alkuperäisestä datasta lasketut kaksi ensimmäistä pääkomponenttia (akselit) ja (b) kun ensin kohinaiset ja poikkeavat tapaukset oli poistettu, samaa dataa käyttäen saadut kaksi ensimmäistä pääkomponenttia. Mustat neliöt tarkoittavat normaaleja (terveitä) ja muut neljän eri tautiluokan tapauksia. 3. luku 09