3. Datan tutkiminen ja visualisointi 3.1. Johdanto Datan koostaminen: yksinkertaisia esimerkkejä
|
|
- Akseli Korpela
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 3. Datan tutkiminen ja visualisointi 3.. Johdanto ässä luvussa tarkastellaan rakenteiden datasta etsimisen visuaalisia menetelmiä. Näistä on usein hyötyä lähdettäessä tutkimaan datan sisältöä. avallaan nämä ovat vastakohtina mallien muodostamiselle datalle. Menetelmien rajoitukset tulevat luonnollisesti vastaan käsiteltäessä hyvin laajoja tietojoukkoja. utkivaa data analyysia voidaan kuvata dataperusteisena hypoteesin luontina. Dataa tutkitaan rakenteita etsittäessä, jolloin rakenteet saattavat kuvata merkityksellisiä muuttujien välisiä relaatioita. ämä ei ole tavanomaista tilastollista hypoteesin testaamista, jossa on valmiiksi annettu malli ja tilastollisesti testataan, onko jollakin todennäköisyydellä data kyseisen mallin mukaista. Dataperusteisessa lähestymisessä sitä vastoin datan hahmot luovat hypoteesit. 3. luku 69 Hahmoja etsittäessä ei voida testata sitä, onko löydetty hahmo pohjana olevan jakauman todellinen ominaisuus, ottamatta huomioon haun laajuutta, so. tutkittujen hahmojen lukumäärää. Luvussa 3.. käydään läpi yksinkertaiset tilastolliset tunnusluvut. Luvussa 3.3. tarkastellaan yhden muuttujan jakauman visualisointimenetelmiä ja luvussa 3.4. kahden muuttujan suhteiden esittämistä. Lopuksi pohditaan usean muuttujan välisten suhteiden esittämistä. 3. luku Datan koostaminen: yksinkertaisia esimerkkejä Keskiarvo on monesti yksinkertaisin tunnusluku, jota tarvitaan lukuisissa yhteyksissä. Otoksen keskiarvo, kun data arvot ovat x(),,x(n), määritellään tavalliseen tapaan. ˆ= x( / n i (Perusjoukon keskiarvoa merkitään symbolilla.) Keskiarvo on paikan mitta. oinen sellainen on mediaani, jota sekä suurempia että pienempiä datapisteitä on yhtä paljon (arvoja ollessa parillinen määrä mediaani on yleensä kahden keskimmäisen puolivälistä). Datan yleisimmin esiintyvä arvo on moodi. oisinaan jakaumilla voi olla yhtä useampia moodeja, jolloin se on multimodaalinen (bimodaalinen kahden huipun tilanteessa). Muita paikan mittoja ovat jakauman eri osia vastaavat fraktiilit. Ensimmäinen kvartiili eli alakvartiili on arvo, joka on seuraavaksi suurin jakauman pienimmän neljänneksen jälkeen ja kolmas eli yläkvartiili on kolme neljäosan jälkeen. (Mikä on toinen?) Vastaavasti on määriteltävissä desileejä ja persentiilejä. Vaihtelevat hajonnan tai vaihtelevuuden mitat ovat tavallisia. Näitä ovat keskihajonta eli standardipoikkeama ja tämän neliö, varianssi, joka määritellään alkuperäisten data arvojen ja näiden keskiarvon erotusten neliöiden keskiarvona seuraavasti. σˆ = ( x( ) µ / n i 3. luku 7 3. luku 7
2 Kun keskiarvo minimoi näiden erotusten neliöiden summaa, keskiarvo liittyy läheisesti varianssiin. Jos on tuntematon, kuten yleensä on käytännössä, sitä estimoidaan otoksesta lasketulla keskiarvolla saaden oheisen kaavan. ( ( ) ˆ) x i µ /( n ) i Keskihajonta on varianssin neliöjuuri. σˆ = ( x( ) µ / n i Kvartiilien väli, kolmannen ja ensimmäisen kvartiilin erotus, on joissakin sovelluksissa kiinnostava, niin myös suurimman ja pienimmän datapisteen erotus. Vinous mittaa, onko jakaumalla yhtä pitkää häntää ja määritellään mm. oheisella kaavalla. ( x( ˆ) µ ( ( x( ˆ) µ ) 3/ Ihmisten tulojen jakauma on melko vino, ts. valtaosan tulot ovat pieniä tai keskimääräisiä, mutta hyvin suurituloisia on vähän. ällöin voi esiintyä oikealle vino jakauma. vastaavasti saattaa olla (harvemmin) vasemmalle vinoja jakaumia. Symmetrisessä tilanteessa vinous on nolla luku luku Yksittäisten muuttujien esittäminen Yksi perusesitystavoista yksittäisen muuttujan kohdalla on histogrammi, joka kuvaa muuttujan tapausten lukumäärät perättäisin välein. Pienien datajoukkojen tilanteessa histogrammi saattaa olla harhaanjohtava, sillä silloin arvojen määrien satunnaisheilahtelut tai välien vaihtoehtoiset valinnat voivat antaa melko erilaisia diagrammeja. Datajoukon koon kasvaessa näiden vaikutus vähenee. Suurien datajoukkojen yhteydessä jopa vähäiset histogrammin piirteet voivat edustaa jakauman todellisia ominaisuuksia Kuva 3.. esittää erään yhdysvaltalaisen supermarketin asiakkaiden luottokorttiostoja yhtä luottokorttiyhtiötä käytettäessä, kun on annettu, monenako kahden viikon jaksoina vuodessa asiakas käytti luottokorttiaan viikkoja Kuva 3.. Luottokortin käyttöä viikkomäärittäin. 3. luku luku 76
3 Suuri osa asiakkaista ei käyttänyt luottokorttia ollenkaan tai vain hyvin harvoin, minkä osoittaa suuri vasemmanpuoleinen moodi. Käyttömäärien kasvaessa henkilöiden määrä vähenee suhteellisen nopeasti, mutta suurimmilla käyttömäärillä on pienehkö moodi hyvin aktiivisia asiakkaita, jotka käyttivät säännöllisesti luottokorttiaan Esim. 3.. Kuva 3.. esittää henkilöjoukolta mitattua diastolista verenpainetta. Alkuperäinen tietolähde (UCI Machine Learning data archive) väitti, ettei data sisältäisi puuttuvia arvoja. Selvästi väite ei pidä paikkaansa, koska muutaman kymmenen henkilön verenpaine olisi ollut nolla. Mitä todennäköisimmin puuttuvat arvot oli merkitty nollalla. Vaikka histogrammilla on rajoituksensa, sillä voi nopeasti selvittää tällaisia epäilyttäviä arvoja, jotka voisivat muussa tapauksessa sotkea analyysia. 3. luku Kuva 3.. Mitattujen diastolisten verenpaineiden jakauma sekä nolla arvoja. 3. luku 78 Histogrammien epätasaisuuksia voidaan tasoittaa (suodattaa) eri tavoin. Kätevä keino on käyttää kernelestimaattia, jollainen tasoittaa datapisteen yli sen lokaalisen naapuruston. Olkoon mitattava muuttuja X, jolle saadaan arvot {x(),,x(n)}. Datapisteen x( vaikutus estimaattiinsa x* jossakin pisteessä riippuu siitä, kuinka kaukana x( ja x* ovat toisistaan. ämän vaikutuksen laajuus riippuu valitusta kernelfunktion muodosta ja leveydestä. Kun kernelfunktio on K ja sen leveys h, estimoitu tiheysarvo (diagrammin arvo) pisteessä x on seuraava arvo. n x x( fˆ( x) = K( ) nh i= h Kernelestimaatin laatu riippuu vähemmän funktion K muodosta kuin arvosta h. Funktion K yleinen muoto on normaali eli Gaussin käyrä, jonka leveysparametri (keskihajonta) on h seuraavasti. t ( ) K( t, h) = Ce h ässä C on normalisointivakio ja t=x x( on kyselypisteen x ja pisteen x( välinen etäisyys. Kaistanleveys h on ekvivalentti Gaussin kernelfunktion keskihajonnan kanssa. 3. luku luku 80
4 Estimaatin sovitus on optimoitavissa formaalein menetelmin tuntemattomalle jakaumalle, mutta tässä kiinnostus on graafisissa menetelmissä. Vaihtelemalla arvoa h voidaan etsiä otosjakauman muodosta omituisuuksia. Pienet h:n arvot johtavat hyvin teräviin estimaatteihin (lähes ilman tasoittamista), kun taas suuret arvot johtavat liikanaiseen tasoitukseen. ässä saadaan ääriarvot seuraavasti. Kun h lähenee nollaa, raja lähenee kutakin kokeellista datapistettä x( ( deltafunktio ) ja kun h lähenee ääretöntä, saadaan tasainen jakauma. Eräs hyödyllinen kuvaustapa on laatikkopiirrokset (boxplot). Laatikko käsittää pääosan jakaumasta, esim. ensimmäisen ja kolmannen kvartiilin välin. Lisäksi siihen voidaan merkitä suoralla jokin paikkamitta, kuten datan mediaani. Myös voidaan merkitä kokeellisen jakauman päät. Laatikkopiirros on esitetty kuvassa 3.3., jossa jakauman koskee edelliseen kuvaan liittyvää diabetes dataa. 3. luku 8 3. luku 8 diastolinen verenpaine Kahden muuttujan välisen suhteen esitysmuotoja Sirontakuva on tavanomainen menetelmä kuvata kahden muuttujan välistä suhdetta. Kuvassa 3.4. on muuan esimerkki tästä. Siinä on huomattava korrelaatio muuttujien välillä. Kun toisella niistä on pieniä arvoja, niin on toisellakin ja vastaavasti suuria molemmilla. Osa datajoukosta on kuitenkin poikkeavia havaintoja. 0 + luokka Kuva 3.3. Laatikkopiirros yhden muuttujan tapauksessa diabetes datajoukosta. Laatikon ylä ja alataso vastaavat kvartiileja ja jana keskellä mediaania. Lisäksi on merkitty hajonnan rajat.5 kertaa kvartiilien väli laatikon päistä. Näiden rajojen ulkopuoliset yksittäiset pisteet on merkitty erikseen. 3. luku 83 Aina sirontakuvista ei tiedonlouhinnassa ole hyötyä. Näin voi käydä, jos kuvassa on aivan liikaa datapisteitä, jolloin ilmiöt tai niiden ominaisuudet hukkuvat kuvan suureen datajoukkoon. Virheelliseen mielikuvaan voi johtaa helposti myös sellainen kuva, jossa on paljon päällekkäisiä datapisteitä (nähdään kuitenkin vain yhtenä). 3. luku 84
5 Kuva 3.4. (a) ässä ovat data arvot (ylin signaalinpätkä, mitattu 400 Hz:llä 5 s), jotka kuvaavat vestibulo okulaarista silmänliikettä ja alin sen stimulaatiota, melkein symmetristä pään liikettä. Näistä on muodostettu kuva (b), jossa lineaarisen regressiosuoran avulla on laskettu korjattu kalibraatiokerroin (aluksi epätarkempi estimaatti ylimmän pätkän muodostamisessa), jonka mukainen tarkemmin kalibroitu silmänliikesignaali on keskimmäisenä. Virhettä aiheuttivat nopeat sakaadiset silmänliikkeet, jotka näkyvät piikkeinä vastesignaalissa. 3. luku 85 Kuva 3.4. (b) Sirontakuva, jossa on muuttujien välillä voimakas korrelaatio ja jossa on myös poikkeavia havaintoja. ämä on saatu osasta (a), kun on otettu stimulaatiosta ja vasteesta (muuttujina) arvot (pareina) tasolle. Loivempi suora (sen kulmakerroin) kuvaa alkuperäistä kalibraatiokerrointa, jota on tarkennettu poistamalla poikkeavat havainnot (pienet, kauimmaiset rypäät) ja laskemalla sitten uusi regressiosuora. 3. luku 86 Muitakin ongelmallisia kuvauksia sirontakuvissa voi sattua, esimerkkinä tilanne, jossa on määrätyllä kuvausalueella melko tasaisesti ja satunnaisesti datapisteitä, mutta sitten yhdessä nurkassa vinoutuneesti hyvin paljon datapisteitä (voi olla päällekkäisiäkin). ällaisen tulkinta voi olla vaikeaa ja epämääräistä. Ääriviivapiirros voi olla apuna kuvattuun ongelmaan. Siinä datapisteiden edellisen kaltainen keskittymä voidaan saada esiin. Ajan mukaan muuttuvia ilmiöitä kuvataan yleisesti käyrillä, kuten oli kuvassa 3.4.(a). Siitä nähtiin selvästi siniaaltomainen perusmuoto sekä silmänliike että päänliikesignaalissa. ämä johtui suoraan näiden muodostamisesta. Katse oli kiinnitettynä koko testin ajan kiinteään pisteeseen, mutta pää liikkui toistuvasti vasemmalta oikealle ja takaisin. Lisäksi liikkeen nopeutta kasvatettiin (äänimerkin mukaan). ämän vuoksi käyrien siniaallon tapainen muoto kasvaa taajuudeltaan ajan mittaan. 3. luku 87 Pään liikkeet olivat symmetrisiä silmänliikkeille, mikä näkyy käyrien symmetrisyytenä. Jälkimmäisissä oli kuitenkin häiritseviä sakaadeja, jotka toimivat tässä (aivojen aikaansaamina) automaattisina korjausliikkeinä. arkkaan katsoen signaaleissa on pientä peruslinjan (hetken intervallin keskiarvon) liukumista alaspäin (silmä) tai ylöspäin (pää). ämä ei johdu todellisesta ilmiöstä, vaan sähköisen mittalaitteen ominaisuudesta, joka pitäisi joissakin tilanteissa ottaa huomioon. Hyvin tavallinen esitysmuoto on juuri käyrä, kuten kuvassa 3.4., kun toinen muuttuja on aika. Kuvan 3.4. tapauksessa oli kysymyksessä lyhyt fysiologisen mittauksen aika, 5 s. Kuvassa 3.5. on esimerkki Suomen väestötilastotiedoista 900 luvulla. ästä huomaa selkeästi monia kyseistä ilmiötä koskevia seikkoja. 3. luku 88
6 Fertility indeces by age Fertility index Kuvassa 3.6. on vielä yksi esitys, jossa on väestötietoja. Siinä on yhdistetty kahden samankaltaisen muuttujan (naiset ja miehet) tiedot, jotka sinänsä ovat yhden muuttujan (ihminen) tietoja, histogrammeja Kuva 3.5. Suomen väestötilastoja 900 luvulta: hedelmällisyysluvut (syntynyttä lasta / 000 naista) keskimäärin viiden vuoden ikäjaksoryhmittäin. Huomaa syntyvyyden väheneminen ja sotaaikojen vaikutus Year Graafiset esitykset minkälaisia ne ovatkaan kannattaa suunnitella tarkkaan, jotta niistä saa hyvän ja oikeellisen kuvan, mitä data sisältää ja tämän mahdollisia piirteitä ja rakenteita. 3. luku luku 90 Age distribution in Finland in ,000 00,000 00, Male Female Kuva 3.6. Suomen väestötietoja: väestöpyramidi. Huomaa keskiikäisten suhteellisen suuri määrä ja naisten hienoinen enemmistö, joka johtuu miesten matalammasta keskimääräisestä eliniästä Age group 3.5. Kahta useamman muuttujan esittäminen Kun visuaalisia kuvauksia on esitettävä tasolla, kuten kuvaruutu tai paperi, voidaan pohjimmiltaan luonnollisella tavalla esittää vain yksi tai kaksiulotteisia kuvauksia. Korkeampiulotteiset kuvaukset on tavalla tai toisella epäsuorasti saatava aikaan. Kysymys on jonkinlaisesta projektiosta. Edellä esitettiin sirontakuvan idea. Sitä voidaan laajentaa kullekin muuttujaparille muuttujien joukosta, jolloin saadaan sirontakuvamatriisi. Siinä ei luonnollisestikaan ole halkaisijalla kuvauksia. Esimerkkinä voisi olla kuvan 3.7. kaltainen, jossa on sirontakuvat pareittain muuttujien kuvauksina. Näistä voisi sitten olla osa keskenään voimakkaasti korreloivia ja osa kenties heikommin. 3. luku 9 3. luku 9
7 v v v 3 v Sirontakuvamatriisi ei ole oikeasti monimuuttujaesitys, vaan usean kaksimuuttujaisen esityksen kokoelma. ällainen projektio luonnollisesti kadottaa jotakin informaatiota. v v 3 Kuva 3.7. Sirontakuvamatriisi, jossa sirontakuvat on muodostettu kaikille muuttujien {v,v,v 3 } pareille. Ristikkopiirroksessakin (trellis plot) käytetään useita kahden muuttujan kuvauksia. ällöin kiinnitetään jokin tietty muuttujapari, jota on tarkoitus kuvata, ja annetaan sarja sirontakuvia (myös muut tyypit soveltuvat, kuten histogrammit, aikasarjat yms.) yhden tai useamman muun muuttujan suhteen. Kuvassa 3.8. on luonnos tällaisesta. Myös ikoneita voidaan käyttää kuvaamaan monimuuttajakuvausta. Ne ovat pieniä diagrammeja, joissa eri piirteiden merkitys on kuvattu määrättyjen muuttujien arvoilla. ähtiikonit ovat tavallisimpia, joissa eri suunnat origosta nähden vastaavat eri muuttujia ja näihin suuntiin projisoitujen säteiden pituudet vastaavat muuttujien arvoa. 3. luku luku 94 miehet naiset ikä 9 4 vuotta v v Rinnakkaisten koordinaattien piirros esittää muuttujat rinnakkaisina akseleina ja jokaisen tapauksen paloittain lineaarisena kuvauksena yhdistäen tapauksen mittausarvot. Kuva 3.9. on esimerkki tällaisesta. v v Esityksissä voidaan käyttää myös värejä kuvaamaan jotain ominaisuuksia. ikä 8 8 vuotta v v Kuvassa 3.0. on vielä yksi kuvaus, jossa käyrä on edennyt ajan mittaan tasossa muodostaen lopulta vyyhdin esittäen koehenkilön tasapainon ylläpitämistä eli massakeskipisteen paikkaa ajan mittaan origon suhteen. v Kuva 3.8. Ristikkokuvaus koehenkilöiden tiedoista, jossa ikä on kiinnitetty kahteen ryhmään ja toisaalta on kiinnitetty sukupuoleen. v 3. luku 95 Kuva liittyy imo ossavaisen virtuaalitodellisuusmenetelmien tutkimukseen tasapainotutkimuksia varten. 3. luku 96
8 lukema 4 lukema 3 lukema lukema min max Kuva 3.9. Rinnakkaisten koordinaattien piirros, jossa kuvataan usean koehenkilön (murtoviivat) datoja perättäisten mittauskertojen kuluessa. 3. luku 97 Kuva 3.0. ässä on mitattu koehenkilön huojumista eli tasapainon ylläpitämistä seistessä (60 s). Mittaus on tehty voimalevyllä, joka mittaa koehenkilön heilumista sivusuunnassa (X) sekä etu ja takasuunnassa (Y). Koehenkilö on koko mittauksen ajan ollut jonkin verran oikealle vinossa, koska käyrä on selvästi origosta oikealle. 3. luku Pääkomponenttianalyysi Edellä tarkastellut menetelmät kuvasivat pohjimmiltaan vain kahden muuttujien välisiä suhteita, vaikka olivat yhdistettyjä laajaan kokonaisuuteen. ällöin monimutkaisemmat suhteet saattaisivat jäädä osin havaitsematta. Projektiot eri suuntiin tehtyinä (määriteltyinä joillakin painotetuilla lineaarisilla kombinaatioilla) ovat hyödyllisiä esittämään monimutkaisia kuvauksia. Vain muutaman muuttujan ollessa kyseessä kiinnostavat piirteet voivat olla löydettävissä manuaalisella käsittelyllä kiertämällä datajakaumaa avaruudessa. Muuttujien määrän kasvaessa tarvitaan tehokkaita laskentamenetelmiä. On määriteltävä, mikä on kiinnostava projektio, jotta se voidaan hakea algoritmisesti. Laskennallisesti tahokas eksplisiittinen ratkaisu on löydettävissä eräälle tietylle määritelmälle, mitä tulee kiinnostavalle suunnalle. ämä saadaan haettaessa projektio tietylle kaksiulotteiselle tasolle, jolle erotusten neliösumma datapisteiden ja näiden projektioiden tasolla välillä on pienempi kuin minkä muun projektiotason tahansa ollessa kysymyksessä ässä tarkastellaan kaksiulotteista projektiotasoa yksinkertaisuuden vuoksi, mutta yleisesti k ulotteinen taso on yhtä käyttökelpoinen ( k p, p alkuperäinen dimensio). ason voidaan osoittaa olevan () lineaarikombinaation virittämä, jonka muuttujilla on maksimiotosvarianssi, ja () lineaarikombinaation virittämä, jolla on maksimivarianssi, mutta joka ei korreloi edellisen lineaarikombinaation suhteen. ässä kiinnostavuus määritellään maksimivaihtelevuuden suhteen. 3. luku luku 00
9 Prosessia voidaan luonnollisesti jatkaa hakemalla lisää lineaarikombinaatioita, jotka maksimoivat varianssia ollen korreloimatta jo valittujen suhteen. Jos käy hyvin, löydetään pieni määrä sellaisia komponentteja, jotka kuvaavat datan melko tarkasti. Päämääränä on saada esiin datan sisäinen vaihtelevuus. ämä on hyvin hyödyllistä pyrittäessä pienentämään datajoukon dimensiota joko sen tulkinnan helpottamiseksi tai keinona välttää ylisovitus ja käyttää menettelyä esiprosessointina ennen varsinaista analyysia. Olkoon X n p datamatriisi, jossa rivit vastaavat tapauksia (rivi on datavektori x() ja sarakkeet muuttujia. arkkaan ottaen matriisin i:s rivi on i:nnen datavektorin x( transpoosi x, koska nämä on tapana esittää nimenomaan sarakevektoreina. Oletetaan lisäksi X:n keskiarvon lasketun niin, että kukin muuttuja on suhteessa kyseisen muuttujan otoskeskiarvoon (siis estimoitu keskiarvo on vähennetty kunkin sarakkeen arvoista). Olkoon a projektion painoarvojen p sarakevektori (vielä tuntematon), joka johtaa suurimpaan varianssiin, kun data X projisoidaan vektorille a. Minkä tahansa erityisen datavektorin x projektio on oheinen lineaarikombinaatio. p a x = a j x j j= Kaikkien X:n datavektorien projektioarvot a:lla voidaan ilmaista tulona Xa, josta tulee projektioarvojen n sarakevektori. Varianssi vektorin a suhteen on määriteltävissä niin ikään σ ( Xa) ( Xa) a X Xa a a = = = Va, 3. luku 0 3. luku 0 missä V=X X on datan p p kovarianssimatriisi (X:llä on 0 keskiarvo), kuten luvussa määriteltiin. äten yo. varianssi (skalaari, jota halutaan maksimoida) on ilmaistavissa sekä a:n että datan kovarianssimatriisin V funktiona. ämä varianssin maksimointi ei ole suoraan hyvin määritelty, sillä varianssia voitaisiin kasvattaa rajatta kasvattamalla yksinkertaisesti a:n komponentteja. ätä varten määritellään rajoitukseksi a:n normalisointi, jolloin on a a=. Normalisointirajoituksella voidaan optimointiongelma kirjoittaa maksimoiden suuretta u = a Va λ( a a ), missä on Lagrangen kerroin. Osittaisderivoimalla tämä suhteen saadaan u = Va λ a = 0, a joka sieventyy tuttuun ominaisarvomuotoon ( V λ I) a = 0. a:n Ensimmäinen a:n pääkomponentti on ominaisvektori, joka liittyy kovarianssimatriisin V suurimpaan ominaisarvon. oinen pääkomponentti (ortogonaalinen ensimmäiseen nähden, jolla on suurin projisoitu varianss V:n toiseksi suurinta ominaisarvoa vastaava ominaisvektori ja yleisesti sama pätee k:nnelle pääkomponentille. 3. luku luku 04
10 Käytännössä on monesti tarpeen saada projektio useampaan kuin kahteen dimensioon. (Kahdella on silti merkityksensä visualisoinnissa avaruuden ollessa alunpitäen pienidimensioinen.) Jos datalle lasketaan projektio k ensimmäiselle ominaisvektorille, projektioiden varianssi on ilmaistavissa summana k j= j, missä j on j:s ominaisarvo. Neliövirhe datamatriisin X approksimoinnin suhteen on vastaavasti ilmaistavissa seuraavalla osamäärällä käyttäen vain k ensimmäistä ominaisarvoa p λ j j= k+. p λ l l= Sopivan arvon k valitsemiseksi kasvatetaan tavallisesti sitä, kunnes riittävän pieni neliövirhearvo saavutetaan. Suuridimensioisessa tapauksessa, jos muuttujat korreloivat voimakkaasti keskenään, on mahdollista saada melko pienellä määrällä pääkomponentteja, esim. 5 tai 0, 90 % datan varianssista. Heikommin korreloiville muuttujille tilanne on tietysti merkittävästi huonompi, ja selitys voi olla vain 40 tai 60 % ensimmäisille pääkomponenteille. Hyödyllinen visuaalinen kuvaus on scree piirros, joka esittää peräkkäisten vähenevien ominaisarvojen selittämän varianssin osuuden. Kuva 3.. on luonnos sellaisesta, joka esitettäisiin sekä korrelaatiomatriisille että kovarianssimatriisille. 3. luku luku varianssin selitetty osuus Kuva 3.. on Jorma Laurikkalan tutkimuksesta inkontinenssidatalla. Aineistossa oli alunperin 5 muuttujaa, joista valittiin 8 tilastollisesti tärkeintä (muutamissa paljon puuttuviakin arvoja) oheiseen pääkomponenttianalyysiin. 5 ominaisarvot Pääkomponenttien laskenta suoraan ominaisarvoyhtälöistä käsittää aikakompleksisuuden O(np + p 3 ), joista edellinen tekijä tulee matriisin V laskennasta ja jälkimmäinen ominaisarvoyhtälöiden laskennasta. ämä tarkoittaa, että menetelmää voidaan hyvin soveltaa melko suurille tietuemäärille n, mutta kohtuullisen pienille muuttujamäärille (dimensio) p. Muunkinlaisia menetelmiä laskea pääkomponentit on olemassa. Kuva 3.. Scree kuva (luonnos). 3. luku luku 08
11 Dimension Dimension Dimension (a) Dimension (b) Kuva 3.. (a) Alkuperäisestä datasta lasketut kaksi ensimmäistä pääkomponenttia (akselit) ja (b) kun ensin kohinaiset ja poikkeavat tapaukset oli poistettu, samaa dataa käyttäen saadut kaksi ensimmäistä pääkomponenttia. Mustat neliöt tarkoittavat normaaleja (terveitä) ja muut neljän eri tautiluokan tapauksia. 3. luku 09
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotTUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa
LisätiedotLaskennallinen data-analyysi II
Laskennallinen data-analyysi II Saara Hyvönen, Saara.Hyvonen@cs.helsinki.fi Kevät 2007 Ulottuvuuksien vähentäminen, SVD, PCA Laskennallinen data-analyysi II, kevät 2007, Helsingin yliopisto visualisointi
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotTUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance (s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi),
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Lisätiedot1 Kannat ja kannanvaihto
1 Kannat ja kannanvaihto 1.1 Koordinaattivektori Oletetaan, että V on K-vektoriavaruus, jolla on kanta S = (v 1, v 2,..., v n ). Avaruuden V vektori v voidaan kirjoittaa kannan vektorien lineaarikombinaationa:
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotLineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)
Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe 26.10.2017 Ratkaisuehdotus 1. (35 pistettä) (a) Seuraavat matriisit on saatu eräistä yhtälöryhmistä alkeisrivitoimituksilla. Kuinka monta ratkaisua yhtälöryhmällä
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
LisätiedotHarjoitusten 5 vastaukset
Harjoitusten 5 vastaukset 1. a) Regressiossa (1 ) selitettävänä on y jaselittäjinävakiojax matriisin muuttujat. Regressiossa (1*) selitettävänä on y:n poikkeamat keskiarvostaan ja selittäjinä X matriisin
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotMS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016
LisätiedotKoska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.
24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ
LisätiedotVektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on
13 Pistetulo Avaruuksissa R 2 ja R 3 on totuttu puhumaan vektorien pituuksista ja vektoreiden välisistä kulmista. Kuten tavallista, näiden käsitteiden yleistäminen korkeampiulotteisiin avaruuksiin ei onnistu
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 3B Tilastolliset datajoukot Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotKanta ja Kannan-vaihto
ja Kannan-vaihto 1 Olkoon L vektoriavaruus. Äärellinen joukko L:n vektoreita V = { v 1, v 2,..., v n } on kanta, jos (1) Jokainen L:n vektori voidaan lausua v-vektoreiden lineaarikombinaationa. (Ts. Span(V
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotLineaarikuvauksen R n R m matriisi
Lineaarikuvauksen R n R m matriisi Lauseessa 21 osoitettiin, että jokaista m n -matriisia A vastaa lineaarikuvaus L A : R n R m, jolla L A ( v) = A v kaikilla v R n. Osoitetaan seuraavaksi käänteinen tulos:
Lisätiedot, on säännöllinen 2-ulotteinen pinta. Määrää T x0 pisteessä x 0 = (0, 1, 1).
HY / Matematiikan ja tilastotieteen laitos Vektorianalyysi II, syksy 017 Harjoitus 4 Ratkaisuehdotukset 4.1. Osoita, että tasa-arvojoukko S F (0), F : R 3 R, F (x) = 3x 1 x 3 + e x + x e x 3, on säännöllinen
LisätiedotLuottamusvälit. Normaalijakauma johnkin kohtaan
Luottamusvälit Normaalijakauma johnkin kohtaan Perusjoukko ja otanta Jos halutaan tutkia esimerkiksi Suomessa elävien naarashirvien painoa, se voidaan (periaatteessa) tehdä kahdella tavalla: 1. tutkimalla
LisätiedotLaskennallinen data-analyysi II
Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin
LisätiedotJärvi 1 Valkjärvi. Järvi 2 Sysijärvi
Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää
LisätiedotMatematiikan tukikurssi
Matematiikan tukikurssi Kurssikerta 4 Jatkuvuus Jatkuvan funktion määritelmä Tarkastellaan funktiota f x) jossakin tietyssä pisteessä x 0. Tämä funktio on tässä pisteessä joko jatkuva tai epäjatkuva. Jatkuvuuden
LisätiedotInversio-ongelmien laskennallinen peruskurssi Luento 2
Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +
LisätiedotTalousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu
Talousmatematiikan perusteet: Luento 14 Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu Luennolla 6 Tarkastelimme yhden muuttujan funktion f(x) rajoittamatonta optimointia
LisätiedotKvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2017 http://www.uta.fi/sis/mtt/mtttp1/syksy_2017.html HARJOITUS 3 viikko 40 Joitain ratkaisuja 1. Suoritetaan standardointi. Standardoidut arvot ovat z 1 =
LisätiedotNumeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33
Numeeriset menetelmät TIEA381 Luento 6 Kirsi Valjus Jyväskylän yliopisto Luento 6 () Numeeriset menetelmät 4.4.2013 1 / 33 Luennon 6 sisältö Interpolointi ja approksimointi Polynomi-interpolaatio: Vandermonden
Lisätiedot3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä
3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21
LisätiedotTilastotieteen kertaus. Kuusinen/Heliövaara 1
Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
LisätiedotRatkaisuehdotukset LH 7 / vko 47
MS-C34 Lineaarialgebra, II/7 Ratkaisuehdotukset LH 7 / vko 47 Tehtävä : Olkoot M R symmetrinen ja positiividefiniitti matriisi (i) Näytä, että m > ja m > (ii) Etsi Eliminaatiomatriisi E R siten, että [
LisätiedotVapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.
Vapaus Määritelmä Oletetaan, että v 1, v 2,..., v k R n, missä n {1, 2,... }. Vektorijono ( v 1, v 2,..., v k ) on vapaa eli lineaarisesti riippumaton, jos seuraava ehto pätee: jos c 1 v 1 + c 2 v 2 +
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotTilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotMoniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
LisätiedotYhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.
2. MS-A000 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 2..205 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x x 2 =
LisätiedotMatemaattinen Analyysi / kertaus
Matemaattinen Analyysi / kertaus Ensimmäinen välikoe o { 2x + 3y 4z = 2 5x 2y + 5z = 7 ( ) x 2 3 4 y = 5 2 5 z ) ( 3 + y 2 ( 2 x 5 ( 2 7 ) ) ( 4 + z 5 ) = ( 2 7 ) yhteys determinanttiin Yhtälöryhmän ratkaiseminen
LisätiedotTUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi
LisätiedotIlkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia
Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen
Lisätiedottilastotieteen kertaus
tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas f 332 = 3 Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta? Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotNäistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.
[MTTTP1] TILASTOTIETEEN JOHDANTOKURSSI, kevät 2019 https://coursepages.uta.fi/mtttp1/kevat-2019/ HARJOITUS 3 Joitain ratkaisuja 1. x =(8+9+6+7+10)/5 = 8, s 2 = ((8 8) 2 + (9 8) 2 +(6 8) 2 + (7 8) 2 ) +
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotKannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:
8 Kanta Tässä luvussa tarkastellaan aliavaruuden virittäjävektoreita, jotka muodostavat lineaarisesti riippumattoman jonon. Merkintöjen helpottamiseksi oletetaan luvussa koko ajan, että W on vektoreiden
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
LisätiedotMS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016
LisätiedotT Luonnollisten kielten tilastollinen käsittely
T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
LisätiedotEsim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4
18.9.2018/1 MTTTP1, luento 18.9.2018 KERTAUSTA Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4 pyöristetyt todelliset luokka- frekvenssi luokkarajat luokkarajat keskus 42 52 41,5
LisätiedotTalousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu
Talousmatematiikan perusteet: Luento 13 Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu Viime luennolla Aloimme tarkastella yleisiä, usean muuttujan funktioita
LisätiedotOsafaktorikokeet. Heliövaara 1
Osafaktorikokeet Heliövaara 1 Osafaktorikokeet Kun faktorien määrä 2 k -faktorikokeessa kasvaa, tarvittavien havaintojen määrä voi ylittää kokeentekijän resurssit. Myös estimoitavien korkean asteen yhdysvaikutustermien
LisätiedotMS-A0003/A Matriisilaskenta Laskuharjoitus 6
MS-A3/A - Matriisilaskenta Laskuharjoitus 6 Ratkaisuehdotelmia. Diagonalisointi on hajotelma A SΛS, jossa diagonaalimatriisi Λ sisältää matriisin A ominaisarvot ja matriisin S sarakkeet ovat näitä ominaisarvoja
LisätiedotMTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
LisätiedotMS-A0004/A0006 Matriisilaskenta
4. MS-A4/A6 Matriisilaskenta 4. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto..25 Tarkastellaan neliömatriiseja. Kun matriisilla kerrotaan vektoria, vektorin
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
LisätiedotDIFFERENTIAALI- JA INTEGRAALILASKENTA I.1. Ritva Hurri-Syrjänen/Syksy 1999/Luennot 6. FUNKTION JATKUVUUS
DIFFERENTIAALI- JA INTEGRAALILASKENTA I.1 Ritva Hurri-Syrjänen/Syksy 1999/Luennot 6. FUNKTION JATKUVUUS Huomautus. Analyysin yksi keskeisimmistä käsitteistä on jatkuvuus! Olkoon A R mielivaltainen joukko
LisätiedotInversio-ongelmien laskennallinen peruskurssi Luento 4
Inversio-ongelmien laskennallinen peruskurssi Luento 4 Kevät 20 Regularisointi Eräs keino yrittää ratkaista (likimääräisesti) huonosti asetettuja ongelmia on regularisaatio. Regularisoinnissa ongelmaa
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
LisätiedotTässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
Lisätiedot3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä
1 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a
LisätiedotMetsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 2. AINEISTO...
Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3
Lisätiedot7. laskuharjoituskierros, vko 10, ratkaisut
7. laskuharjoituskierros, vko 10, ratkaisut D1. a) Oletetaan, että satunnaismuuttujat X ja Y noudattavat kaksiulotteista normaalijakaumaa parametrein E(X) = 0, E(Y ) = 1, Var(X) = 1, Var(Y ) = 4 ja Cov(X,
LisätiedotVastepintamenetelmä. Kuusinen/Heliövaara 1
Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat
.9. Kaksiulotteiset satunnaismuuttujat MS-A Todennäköisslaskennan ja tilastotieteen peruskurssi Viikko Moniulotteiset satunnaismuuttujat sekä niiden jakaumat ja tunnusluvut; Moniulotteisia jakaumia Usein
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 21. syyskuuta 2007 Antti Rasila () TodB 21. syyskuuta 2007 1 / 19 1 Satunnaismuuttujien riippumattomuus 2 Jakauman tunnusluvut Odotusarvo Odotusarvon ominaisuuksia
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156
LisätiedotOminaisvektoreiden lineaarinen riippumattomuus
Ominaisvektoreiden lineaarinen riippumattomuus Lause 17 Oletetaan, että A on n n -matriisi. Oletetaan, että λ 1,..., λ m ovat matriisin A eri ominaisarvoja, ja oletetaan, että v 1,..., v m ovat jotkin
LisätiedotRatkaisuehdotukset LH 3 / alkuvko 45
Ratkaisuehdotukset LH 3 / alkuvko 45 Tehtävä : Olkoot A, B, X R n n, a, b R n ja jokin vektorinormi. Kätetään vektorinormia vastaavasta operaattorinormista samaa merkintää. Nätä, että. a + b a b, 2. A
LisätiedotMoniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?
TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä
LisätiedotTilastolliset toiminnot
-59- Tilastolliset toiminnot 6.1 Aineiston esittäminen graafisesti Tilastollisen aineiston tallentamisvälineiksi TI-84 Plus tarjoaa erityiset listamuuttujat L1,, L6, jotka löytyvät 2nd -toimintoina vastaavilta
LisätiedotOppimistavoitematriisi
Oppimistavoitematriisi Lineaarialgebra ja matriisilaskenta I Esitiedot Arvosanaan 1 2 riittävät Arvosanaan 3 4 riittävät Arvosanaan 5 riittävät Yhtälöryhmät (YR) Osaan ratkaista ensimmäisen asteen yhtälöitä
LisätiedotYhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.
2. MS-A4/A6 Matriisilaskenta 2. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 5.9.25 Tarkastellaan esimerkkinä lineaarista yhtälöparia { 2x x 2 = x + x 2
LisätiedotLineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi
Lineaarikuvaukset aiheita ten ten 1 Matematiikassa sana lineaarinen liitetään kahden lineaariavaruuden väliseen kuvaukseen. ten Määritelmä Olkoon (L, +, ) ja (M, ˆ+, ˆ ) reaalisia lineaariavaruuksia, ja
Lisätiedot1 Rajoittamaton optimointi
Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y
LisätiedotJohdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka
Lisätiedots = 11 7 t = = 2 7 Sijoittamalla keskimmäiseen yhtälöön saadaan: k ( 2) = 0 2k = 8 k = 4
BM0A5800 Funktiot, lineaarialgebra ja vektorit Harjoitus 5, Syksy 05. (a) i. Jotta vektori c sijaitsisi a:n ja b:n virittämällä tasolla, c on voitava esittää a:n ja b:n lineaarikombinaationa. c ta + sb
LisätiedotMS-A0002 Matriisilaskenta Luento 1:Vektorit ja lineaariyhdistelyt
MS-A0002 Matriisilaskenta Luento 1:Vektorit ja lineaariyhdistelyt Antti Rasila 2016 Vektorit Pysty- eli sarakevektori v = ( v1 v 2 missä v 1, v 2 ovat v:n komponentit. ), Matriisilaskenta 2/6 Vektorit
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotVektoreiden virittämä aliavaruus
Vektoreiden virittämä aliavaruus Määritelmä Oletetaan, että v 1, v 2,... v k R n. Näiden vektoreiden virittämä aliavaruus span( v 1, v 2,... v k ) tarkoittaa kyseisten vektoreiden kaikkien lineaarikombinaatioiden
Lisätiedot1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet
VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen
LisätiedotTil.yks. x y z
Tehtävien ratkaisuja. a) Tilastoyksiköitä ovat työntekijät: Vatanen, Virtanen, Virtanen ja Voutilainen; muuttujina: ikä, asema, palkka, lasten lkm (ja nimikin voidaan tulkita muuttujaksi, jos niin halutaan)
LisätiedotAki Taanila YHDEN SELITTÄJÄN REGRESSIO
Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...
LisätiedotP (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.
Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin
LisätiedotOppimistavoitematriisi
Oppimistavoitematriisi Lineaarialgebra ja matriisilaskenta I Arvosanaan 1 2 riittävät Arvosanaan 5 riittävät Yhtälöryhmät (YR) Osaan ratkaista ensimmäisen asteen yhtälöitä ja yhtälöpareja Osaan muokata
Lisätiedot1 Ominaisarvot ja ominaisvektorit
1 Ominaisarvot ja ominaisvektorit Olkoon A = [a jk ] n n matriisi. Tarkastellaan vektoriyhtälöä Ax = λx, (1) 1 missä λ on luku. Sellaista λ:n arvoa, jolla yhtälöllä on ratkaisu x 0, kutsutaan matriisin
Lisätiedot3 Raja-arvo ja jatkuvuus
3 Raja-arvo ja jatkuvuus 3. Raja-arvon käsite Raja-arvo kuvaa funktion kättätmistä jonkin lähtöarvon läheisdessä. Raja-arvoa tarvitaan toisinaan siksi, että funktion arvoa ei voida laskea kseisellä lähtöarvolla
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotMS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 1: Parametrisoidut käyrät ja kaarenpituus
MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 1: Parametrisoidut käyrät ja kaarenpituus Antti Rasila Aalto-yliopisto Syksy 2015 Antti Rasila (Aalto-yliopisto) MS-A0202 Syksy 2015 1 / 18
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
Lisätiedot