Matematiikan opiskelun esteiden analysointi logistisella regressioanalyysillä

Koko: px
Aloita esitys sivulta:

Download "Matematiikan opiskelun esteiden analysointi logistisella regressioanalyysillä"

Transkriptio

1 TAMPEREEN TEKNILLINEN YLIOPISTO Teknis-luonnontieteellinen osasto HELI RAASSINA Matematiikan opiskelun esteiden analysointi logistisella regressioanalyysillä DIPLOMITYÖ Aihe hyväksytty Teknis-luonnontieteellisen osastoneuvoston kokouksessa Tarkastajat: professori Seppo Pohjolainen erikoistutkija Kirsi Silius

2 Alkusanat Tämä diplomityö on toteutettu osana Tampereen teknillisen yliopiston matematiikan laitoksen ja hypermedialaboratorion laajempaa matematiikan opetuksen kehittämistutkimusta. Saadessani diplomityöpaikan matematiikan opetuksen kehittämiseen liittyen tunsin, että tutkimusaihe on kuin räätälöity minua varten. Tutkimuksen parissa työskentely onkin mahdollistanut kahden mielenkiinnon kohteeni yhdistämisen - matematiikan ja kasvatustieteiden. Haluankin kiittää professori Seppo Pohjolaista sekä erikoistutkija Kirsi Siliusta työni aiheesta sekä diplomityöprosessin aikana saamastani ohjauksesta. Kiitos myös lehtori Osmo Kalevalle logistiseen regressioanalyysiin liittyvistä selvennyksistä ja neuvoista sekä työtovereilleni mieltä avartavista keskusteluista ja loistavasta työilmapiiristä. Lämmin kiitos myös vanhemmilleni, sisaruksilleni sekä miehelleni Pekalle koko opiskeluaikana saamastani tuesta. Tampereella 31. toukokuuta 2005 Heli Raassina Iidesranta 6 C Tampere heli.raassina@tut.fi

3 Sisältö Tiivistelmä Abstract Käytetyt lyhenteet ja symbolit iv v vi 1 Johdanto 1 2 Matematiikkaa tutkimuksen taustalla Todennäköisyyslaskentaa Tilastomatematiikan peruskäsitteitä Binäärinen logistinen regressioanalyysi Kun selitettävä muuttuja on binäärinen Ongelmia Logistinen funktio Logistisen funktion ominaisuuksia Logistisen regressiomallin muodostaminen Kertoimien estimointi Riskisuhteen ja laskettujen kertoimien välinen yhteys Muuttujien valitseminen regressiomalliin Mitkä muuttujat ovat merkitseviä logistisessa regressiomallissa? Askeltavat muuttujienvalintamenetelmät Mallin hyvyyden arviointi Logistisen regressiomallin selitysaste Logistisen regressioanalyysin rajoitukset ja oletukset Opiskelusta oppimiseen Mitä oppiminen on? Oppiminen jatkuvana prosessina iii

4 4.2 Oppimistyylejä ja -strategioita Käsitteiden määrittely Tutkimuksia oppimisstrategioista Kolb ja kokemuksellinen oppiminen Vermuntin oppimistyylit Muita tutkimuksen taustalla olevia teorioita Gardnerin seitsemän lahjakkuutta Bloomin taksonomia Teorioiden yhtäläisyyksiä Tutkimuksia matematiikan opiskelumenetelmistä Yliopistotulokkaiden matematiikan opiskelumenetelmiä Kognitiiviset opiskelumenetelmät Pinnallinen ja syvällinen jäsentäminen ongelmanratkaisussa 53 5 Tutkimuksen toteutus Kohdejoukon muotoutuminen Tutkimuskysymykset Mittari ja mittauksen toteuttaminen Aineiston kerääminen Aineiston käsittely Tutkimustulokset Aineiston kuvailua Jumpan suorittaneiden opiskelijoiden kuvailua Jumppaajien profilointi Profiilien yhtäläisyyksiä ja eroavaisuuksia Jumppaajien opintomenestykseen vaikuttavia tekijöitä Kurssin läpäisemisen ennustaminen logistisen regressiomallin avulla Kurssin läpäisseiden ja reputtaneiden eroavaisuudet ryhmittäin Jumppaajien matematiikan taidoissa ilmenneitä ongelmia Tulosten pohdintaa Tutkimuksen luotettavuus Opetuksen kehittäminen Opiskelijaprofiileiltaan erilaisten jumppaajien huomioiminen opetuksessa Matematiikan jumpan kehittäminen Yhteenveto 89 iv

5 Kirjallisuutta 93 Liitteet 97 A Kysymyslomake 97 B Ryhmäkeskiarvot 106 C Kurssin läpäiseminen 114

6 TAMPEREEN TEKNILLINEN YLIOPISTO Teknis-luonnontieteellinen osasto Matematiikan laitos Raassina, Heli: Matematiikan opiskelun esteiden analysointi logistisella regressioanalyysillä Diplomityö, 96 sivua, 20 liitesivua Tarkastajat: professori Seppo Pohjolainen ja erikoistutkija Kirsi Silius Käsitellään osastoneuvostossa kesäkuussa 2005 Tiivistelmä Tässä diplomityössä selvitetään Tampereen teknilliseen yliopistoon tulevien uusien opiskelijoiden matematiikan opiskelun esteitä. Tutkimuksen kohdejoukon muodostavat ne opiskelijat, jotka menestyivät heikosti syksyllä 2004 järjestetyssä matematiikan perustaitojen testissä. Nämä 170 opiskelijaa ohjattiin kertaamaan matematiikan perustaitoja nk. matematiikan jumppaan. Jumppa oli mahdollista suorittaa ohjatussa ryhmässä tai etäopiskeluna. Jumpan suorittaneille opiskelijoille (N=122) tehtiin kysely, jolla pyrittiin kartoittamaan opiskelijan oppimistyylejä, oppimisstrategioita, opiskelumenetelmiä sekä odotuksia matematiikan opetukselta. Lisäksi ohjatuissa jumpparyhmissä kerättiin opiskelijoiden matematiikantaidoissa ilmenneitä ongelmia opettajapäiväkirjan avulla. Kyselylomakkeella kerätyn aineiston perusteella jumppaajat profiloitiin hierarkista klusterianalyysiä käyttäen viiteen ryhmään. Ryhmien ominaisuuksia tarkasteltiin kunkin ryhmittelyssä mukana olleen muuttujan suhteen laskettujen ryhmäkeskiarvojen perusteella. Näiden ominaisuuksien mukaan opiskelijaprofiilit nimettiin seuraavasti: toistamissuuntautuneet, soveltajat, itsenäiset oppijat, merkityssuuntautuneet sekä suuntautumattomat. Lisäksi tutkittiin insinöörimatematiikka 1 -opintojakson läpäisemiseen yhteydessä olevia tekijöitä logistisen regressioanalyysin avulla. Muodostuneen logistisen regressiomallin avulla voitiin päätellä, että opiskeluaktiivisuus edesauttaa kurssin läpäisemistä kun taas opiskelijan riippuvuus ulkoisesta motivoinnista heikentää kurssin läpäisyn todennäköisyyttä. Opettajapäiväkirjalle tehdyn sisällönanalyysin perusteella jumppaajien suurimmat ongelmat matematiikan taidoissa liittyivät asian unohtamiseen sekä heikkoon käsitteiden hallintaan. Jumppaajien oppimisen edistämiseksi tutkimuksessa esitetään vuorovaikutteisuuteen sekä opiskelijoiden aktivointiin pohjautuvien työtapojen käyttämistä opetuksessa. Lisäksi erilaisille opiskelijaprofiileille suositellaan omia laskuharjoitusryhmiä, joissa olisi helpointa huomioida kunkin profiilin opiskelijoiden ominaiset tavat opiskella.

7 TAMPERE UNIVERSITY OF TECHNOLOGY Department of Science and Engineering Institute of Mathematics Raassina, Heli: An analysis using logistic regression of obstacles to learning engineering mathematics Master of the Science Thesis, 96 pages, 20 Appendix pages Examiner: Professor Seppo Pohjolainen and Senior Researcher Kirsi Silius Evaluated by the Department Council in June 2005 Abstract The aim of this master of the science thesis is to analyse learning differences of the students entering Tampere University of Technology. In the fall 2004 new students took a test of basic skills in mathematics. Those 170 students, whose test result were unsatisfying were advised to practise their mathematical skills. These students were offered an opportunity to train basics in mathematics in the guided study group or in the distance learning group. The students, who took part in training groups and completed the exercises (N=122), answered a questionnaire. Questionnaire was planned to investigate students learning styles, learning strategies, learning methods and expectations of the education. In addition, in the guided study groups common questions and mistakes made by students were written down to the teaching diary. By the data collected by the questionnaire, students were profiled into five groups using hierarchical cluster analysis. After that the separate mean values of variables for all of the groups were calculated. Differences between groups were examined by comparing the mean values of the groups. Each group was named after its characteristic features as reproduction directed learners, application directed learners, independent learners, meaning directed learners and undirected learners. Furthermore the factors, which were connected to passing the course of engineering mathematics, were studied using logistic regression. Logistic regression model indicates that active studying enhances passing the course. On the other hand, students dependence of external motivation decreased probability of passing the course. From the content of the teaching diary arose two reasons, which explained the problems in mathematical skills: forgetting and weak understanding of mathematical concepts. To improve the learning of these students, it is recommended to use teaching methods, which are based on interaction and students activation. The best way to respect the different learning profiles, is to set up own tutorials to the students of each learning profile.

8 Käytetyt lyhenteet ja symbolit #(A) A c A B A B A \ B A B Ĉ cov(x, Y ) D E(X) E(Y X) F f : R R f(x) f X (x) f(x, y) f(y x) F (x) g(x ) l(β) L(β) LR OR O(Y ) P (A) P (A B) r jk s j s 2 j tapahtuman A suotuisten alkeistapausten lukumäärä A:n komplementti Joukkojen A ja B yhdiste Joukkojen A ja B leikkaus Joukkojen A ja B erotus A on B:n osajoukko Hosmerin ja Lemeshown testisuure satunnaismuuttujien X ja Y välinen kovarianssi poikkeavuus satunnaismuuttujan X odotusarvo ehdollinen odotusarvo kokoelma perusjoukon Ω osajoukkoja kuvaus eli funktio joukosta R joukkoon R tiheysfunktio reunatiheysfunktio yhdistetty tiheysfunktio ehdollien tiheysfunktio kertymäfunktio logit-muunnos uskottavuusfunktio logaritminen uskottavuusfunktio uskottavuusosamäärä riskisuhde Tapahtuman Y riski tapahtuman A todennäköisyys ehdollinen todennäköisyys j:nnen ja k:nnen muuttujan välinen korrelaatiokerroin j:nteen muuttujaan liittyvä keskihajonta j:nteen muuttujaan liittyvä otosvarianssi

9 s jk V (X) W x j χ 2 x i x X y i j:nnen ja k:nnen muuttujan välinen otoskovarianssi satunnaismuuttujan X varianssi Waldin testisuure j:nteen muuttujaan liittyvä otoskeskiarvo Pearsonin χ 2 -testisuure i:nteen havaintoon liittyvä selittävän muuttujan arvo vektorin x transpoosi havaintomatriisi i:nteen havaintoon liittyvä selitettävän muuttujan arvo R reaalilukujen joukko β logistisen regressiomallin kertoimista muodostettu vektori ˆβ logistiseen regressiomalliin estimoiduista kertoimista muodostettu vektori µ odotusarvo π(x) logistinen regressiomalli π(x ) usean muuttujan logistinen regressiomalli σ 2 varianssi Ω perusjoukko ω i perusjoukon Ω i:s alkio, alkeistapaus tyhjä joukko {ω 1, ω 2,... ω n } alkioiden ω 1, ω 2,... ω n muodostama joukko ω i Ω ω i on Ω:n alkio (Ω, F, P ) todennäköisyysavaruus TTY Tampereen teknillinen yliopisto ix

10 Luku 1 Johdanto Tampereen teknillisessä yliopistossa opintonsa aloittavien opiskelijoiden lukumäärä on kasvanut viimeisen kymmenen vuoden aikana usealla sadalla opiskelijalla [31]. Ikäluokkien pienentyessä tämä väistämättä tarkoittaa myös sitä, että yhä suurempi osa ikäluokasta aloittaa opintonsa yliopistossa. Valtakunnallisesti vuonna 2004 yliopistojen teknillistieteellisille aloille hakeneista opiskelijoista 55 %:a pääsi aloittamaan opintonsa kyseisellä alalla. Vertailupohjana mainittakoon, että mm. luonnontieteellisellä alalla vastaava prosenttiosuus on 36 %, kauppatieteellisellä alalla 29 % ja lääketieteellisellä alalla 19 %. [33] Näin ollen teknillisille aloille pyrkivät opiskelijat eivät kohtaa niin suurta karsintaa kuin esim. lääketieteelliselle alalle hakeneet. Tämän seurauksena teknillisellä alalla aloittavien opiskelijoiden joukko on entistä heterogeenisempää ja siten opiskelijoiden lähtötiedot ja -taidot voivat poiketa huomattavasti toisistaan. Tämän diplomityön tausta-asetelman luovat käytännön opetustyössä nousseet havainnot, joiden mukaan kaikilla opintonsa aloittavilla opiskelijoilla matematiikan tiedot ja taidot eivät ole yliopisto-opintojen edellyttämällä tasolla. Tampereen teknillisen yliopiston matematiikan laitoksella opiskelijoiden oppimisen tukeminen ja opetuksen kehittäminen on otettu vakavasti. Tämä tutkimus liittyykin laajempaan TTY:n matematiikan laitoksen ja hypermedialaboratorion yhteiseen matematiikan opetuksen kehittämistutkimukseen. Laajemman tutkimuksen puitteissa syksyllä 2004 Tampereen teknillisessä yliopistossa opintojakson insinöörimatematiikka 1 suorittavat opintonsa aloittavat opiskelijat ohjattiin tietokoneavusteiseen matematiikan perustaitotestiin. Testin tarkoituksena oli löytää ne opiskelijat, joiden matematiikan perustaidoissa on selkeitä puutteita. Heikosti testissä menestyneille opiskelijoille tarjottiin mahdollisuutta kerrata lukiosta tuttuja matematiikan perusasioita ensimmäisten opiskeluviikkojen aikana. Tässä diplomityössä tarkastelun kohteena ovat ne opiskelijat, jotka heikon testimenestyksen perusteella ohjattiin kertaamaan matematiikan perustaitoja nk. matematiikan jumppaan. Tutkimuksen tarkoituksena on selvittää, onko jumppaan ohjattujen opiskelijoi- 1

11 LUKU 1. JOHDANTO 2 den opiskelumenetelmissä, oppimistyyleissä ja -strategioissa havaittavissa sellaisia ominaisuuksia, jotka olisivat yhteydessä heikkoihin matematiikan oppimistuloksiin ja siten mahdollisesti myös menestymiseen yliopisto-opinnoissa. Toisaalta tutkimuksessa aiotaan selvittää, minkälaisia ongelmia jumppaan ohjatuilla opiskelijoilla on matematiikan taidoissa ja mitkä tekijät vaikuttavat heidän opintomenestykseensä kurssilla insinöörimatematiikka 1. Opintomenestykseen vaikuttavia tekijöitä analysoidaan binäärisen logistisen regressioanalyysin avulla. Tutkimuksen tavoitteena on löytää opetuksellisia keinoja, joilla matematiikassa heikommin pärjäävien oppimista voitaisiin edesauttaa ja tukea. Vaikka tutkimusaineiston analysoinnissa on käytetty useampaa tilastollista menetelmää, luodaan tässä työssä tarkempi katsaus binäärisen logistisen regressioanalyysin teoreettiseen taustaan. Seuraavassa luvussa määrittellään binäärisen logistisen regression teoreettisessa tarkastelussa vilahtavia matemaattisia peruskäsitteitä ja luvussa kolme siirrymme varsinaiseen analyysimenetelmän teoriaan. Luku neljä puolestaan käsittelee tutkimuksen taustalla esiintyviä kasvatustieteen käsitteitä, ja samaisessa luvussa luodaan katsaus tutkimuksen taustalla vaikuttaviin oppimisen teorioihin ja aikaisempiin tutkimuksiin. Viidennessä luvussa käsitellään tutkimuksen toteuttamiseen liittyviä kysymyksiä. Luku kuusi puolestaan sisältää tutkimuksen tulokset: jumppaajista löydetyt opiskelijaprofiilit, opintomenestykseen vaikuttavat tekijät sekä jumppaajien matematiikan taidoissa havaittujen ongelmien analyysin. Lisäksi luvussa pohditaan tutkimuksen luotettavuutta ja sitä, miten erilaiset matematiikan jumppaajat voitaisiin ottaa huomioon opetuksessa. Lopuksi luvussa seitsemän on esitetty yhteenveto koko tutkimuksesta.

12 Luku 2 Matematiikkaa tutkimuksen taustalla Vaikka tutkimuksen toteuttamisessa on käytetty useampia tilastollisia menetelmiä, perehdymme seuraavassa tarkemmin vain logistiseen regressioanalyysin teoreettiseen taustaan. Logistista regressioanalyysiä on käytetty tässä tutkimuksessa mallintamaan kurssin läpäisemistä ja syntyneestä mallista voi lukea tarkemmin kappaleesta 6.3. Seuraavassa perehdymme tämän työn taustalla vaikuttaviin matematiikan peruskäsitteisiin, minkä jälkeen siirrymme tarkastelemaan logistista regressioanalyysiä. 2.1 Todennäköisyyslaskentaa Todennäköisyyslaskennassa on kysymys satunnaisten ilmiöiden todennäköisyysmallien muodostamisesta, analysoinnista ja vertailemisesta [27]. Seuraavaksi perehdymme todennäköisyyslaskennan peruskäsitteisiin. Oletamme, että joukkoopin perusteet ovat lukijalla hallussa. Tämä osio perustuu pääasiassa lähteisiin [27] ja [34] ellei toisin mainita. Perusjoukko ja alkeistapaus Tutkittavan ilmiön kaikki mahdolliset tulokset muodostavat perusjoukon Ω. Esimerkiksi kahta noppaa heitettäessä silmälukujen summaksi voidaan saada luvut Perusjoukko Ω = {2, 3,..., 11, 12}. Perusjoukon alkioita ω i, i = 1,..., n kutsutaan alkeistapauksiksi. Siis perusjoukko Ω = {ω 1, ω 2,..., ω n }, missä n on alkeistapausten lukumäärä. 3

13 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 4 Tapahtuma Tapahtuma A on mielivaltainen perusjoukon Ω osajoukko. Nopanheitossa tapahtuma A voisi merkitä tapahtumaa silmälukujen summa on pienempi kuin viisi. Tällöin tapahtuma A = {2, 3, 4}. Helposti huomataan, että A Ω. Klassillinen todennäköisyys Äärellisen perusjoukon Ω = {ω 1,..., ω n } alkeistapaukset ovat yhtä todennäköisiä, jos niiden todennäköisyys P (ω i ) = 1/n. Tällöin tapahtuman A todennäköisyys saadaan jakamalla tapahtuman A toteuttavien alkeistapausten lukumäärä #(A) koko otosavaruuden alkeistapausten lukumäärällä #(Ω). Siis P (A) = #(A) #(Ω). Käytetään perusjoukon Ω tapahtumien kokoelmasta merkintää F. Määritelmä 1 Perusjoukon Ω osajoukoista muodostettu kokoelma F on σ- algebra, jos (i) (ii) (iii) Ω F A F A c F A i F(i = 1, 2,... ) A i F. i=1 Kun tapahtuma A F on annettu, sen todennäköisyys P (A) on yksikäsitteisesti määrätty reaaliluku. Näin ollen todennäköisyys P on kuvaus F R Määritelmä 2 Kuvaus P : F R on todennäköisyys, jos (i) P (A) 0 kaikilla A F (ii) P (Ω) = 1 (iii) Jos A i F (i = 1, 2,... ) ja A i A j = (i j), niin P ( A i ) = P (A i ). i=1 i=1 Kolmikkoa (Ω, F, P ) sanotaan todennäköisyysavaruudeksi, jos Ω on ei-tyhjä joukko, F on σ-algebra ja P : F R on todennäköisyys. [27], [34]

14 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 5 Todennäköisyyden perusominaisuuksia Lause 1 Olkoon F σ -algebra. Tällöin (i) (ii) (iii) F A, B F A B F, A B F, A \ B F A i F (i = 1, 2,... ) A i F. i=1 Lause 2 Olkoon (Ω, F, P ) todennäköisyysavaruus. Tällöin (i) P ( ) = 0 (ii) (iii) (iv) (v) (vi) P (A c ) = 1 P (A) kaikilla A F A, B F, A B = P (A B) = P (A) + P (B) 0 P (A) 1 kaikilla A F A, B F, A B P (A) P (B) A, B F P (A \ B) = P (A) P (A B). Toisistaan riippumattomat tapahtumat Tapahtumat A ja B ovat toisistaan riippumattomat kun P (A B) = P (A) P (B). Satunnaismuuttujat Määritelmä 3 Olkoon (Ω, F, P ) todenäköisyysavaruus. Kuvaus X : Ω R on reaalinen satunnaismuuttuja, jos {X x} = {ω Ω X(ω) x} kaikilla x R. X on diskreetti satunnaismuuttuja todennäköisyysavaruudella, jos X:n arvojoukko X(Ω) on numeroituva joukko {x 1, x 2,... } ja {X = x k } F kaikilla k. Tiheysfunktio Diskreetin satunnaismuuttujan X tiheysfunktio f(x) on kuvaus f : R R f(x) = P (X = x), x R.

15 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 6 Tiheysfunktio toteuttaa aina seuraavat ominaisuudet: (i) f(x) 0, x R (ii) f(x) > 0 x kuuluu X:n numeroituvaan arvojoukkoon {x 1, x 2,... } (iii) f(x k ) = 1. k [34] Satunnaismuuttujalla X on jatkuva jakauma tiheysfunktiona, kun P (a X b) = b a f(x)dx. [34] Funktio f : R R on tiheysfunktio jos ja vain jos (i) f 0 (ii) [34] Kertymäfunktio f(x)dx = 1. Diskreetin satunnaismuuttujan X kertymäfunktio F (x) = P (X x) = x i x f(x i ), x R. Jos satunnaismuuttujalla X on jatkuva jakauma tiheysfunktiona, kertymäfunktio F (x) = x f(t)dt Toisin sanoen tiheysfunktio f(x) = F (x). Lause 3 Jos F (x) on kertymäfunktio, niin F (x) on kasvava ja oikealta jatkuva sekä F ( ) = 0 ja F ( ) = 1. [27], [34]

16 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 7 Odotusarvo Diskreetin satunnaismuuttujan X odotusarvo E(X) määritellään seuraavasti: E(X) = k x k P (X = x k ) = k x k f(x k ) Toisin sanoen odotusarvo on satunnaismuuttujan arvojen painotettu keskiarvo, jossa painokertoimina ovat satunnaismuuttujan arvojen todennäköisyydet. Jos satunnaismuuttujalla X on jatkuva jakauma tiheysfunktiona, sen odotusarvo on luku E(X) = xf(x)dx. Satunnaismuuttujan X odotusarvosta käytetään merkintää E(X) = µ. Yleisesti, jos satunnaismuuttujilla X ja Y on odotusarvo E(X + Y ) = E(X) + E(Y ), E(a) = a, E(aXb) = ae(x)b, missä a ja b ovat reaalilukuja. [27], [34] Varianssi Diskreetin satunnaismuuttujan varianssi V (X) voidaan määritellä formaalisti joko odotusarvon avulla tai keskihajonnan painotettuna keskiarvona. Siis V (X) = E((X µ) 2 ) = (x k E(X)) 2 f(x k ). 1 k< Vastaavasti satunnaismuuttujalle X, jonka tiheysfunktiona on jatkuva jakauma [27], [34] V (X) = E((X µ) 2 ) = Kovarianssi (x E(X)) 2 f(x)dx. Kahden satunnaismuuttujan välistä yhteyttä voidaan kuvata kovarianssilla [27], [34] Cov(X, Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y )

17 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 8 Ehdollinen todennäköisyys Määritelmä 4 Olkoot A ja B todennäköisyysavaruuden (Ω, F, P ) tapahtumia ja P (B) > 0. Tällöin tapahtuman A todennäköisyys ehdolla B on P (A B) = P (A B). P (B) Ehdollisella todennäköisyydellä P (A B) tarkoitetaan siis tapahtuman A todennäköisyyttä, kun tapahtuma B on jo tapahtunut. Kokonaistodennäköisyys Olkoot tapahtumat B 1 B 2 B n = Ω ja tapahtuma A Ω mielivaltainen. Tällöin n P (A) = P (A B i )P (B i ) [27] i=1 Yhdistetty tiheysfunktio Kahden diskreetin satunnaismuuttujan X Ω ja Y Ω yhdistetty tiheysfunktio määritellään sellaisen todennäköisyyden avulla, jossa molemmat tapahtumat {X = x} ja {Y = y} ovat yhtä aikaa voimassa. Siis f(x, y) = P (X = x, Y = y). Satunnaismuuttujilla X ja Y on jatkuva jakauma tiheysfunktiona, jos P ((X, Y ) B) = f(x, y)dydx, kaikilla B R 2. [5], [27], [34] Reunatiheysfunktio B Diskreetille satunnaismuuttujalle reunatiheysfunktiot f X (x) ja f Y (y) saadaan yhdistetystä tiheysfunktiosta f(x, y) seuraavasti f X (x) = y f Y (y) = x f(x, y) f(x, y)

18 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 9 Jatkuvan satunnaismuuttujan tapauksessa [27] f X (x) = f Y (y) = f(x, y)dy f(x, y)dx. Ehdollinen tiheysfunktio Muuttujan Y ehdollinen tiheysfunktio ehdolla {X = x} f(y x) = P (Y = y X = x) = P (Y = y, X = x) P (X = x) = f(x, y) f X (x), missäf X(x) > 0. [27], [34] Ehdollinen odotusarvo Satunnaismuuttujan Y ehdollinen odotusarvo ehdolla {X = x} määritellään seuraavasti: E(Y X = x) = y yf(y x). Kun satunnaismuuttujat noudattavat jatkuvaa jakaumaa ehdollinen odotusarvo [27] E(Y X = x) = Bernoullin satunnaismuuttuja yf(y x). Bernoullin satunnaismuuttujaksi kutsutaan satunnaismuuttujaa X, joka voi saada joko arvon 0 tai 1. Tällöin todennäköisyydet P (X = 0) = 1 p ja P (X = 1) = p kun 0 p 1. [27] Normaalijakauma Kun satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja σ 2, käytetään merkintää X N(µ, σ 2 ).

19 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 10 Lause 4 Satunnaismuuttuja X N(µ, σ 2 ), jos ja vain jos X:n tiheysfunktiona on jatkuva jakauma f(x) = 1 2πσ e 1 2 ( x µ σ )2, missä < x <, < µ < ja σ > 0. Kun satunnaismuuttuja X on normaalisti jakautunut, sen odotusarvo ja varianssi ovat [5], [34] E(X) = µ ja V (X) = σ 2. Binomijakauma Merkitään toisistaan riippumattomien havaintojen lukumäärää kirjaimella n. Merkitään x:llä mittauksen kohteena olevien tapahtumien lukumäärää ja kirjaimella p mittauksen kohteena olevan tapahtuman todennäköisyyttä. Tällöin ( ) n P (X = x) = p x (1 p) n x, x = 0, 1,..., n x Satunnaismuuttuja X noudattaa binomijakaumaa, mikäli sen diskreetti tiheysfunktio ( ) n f(x) = p x (1 p) n x. x Binomijakautuneen satunnaismuuttujan X odotusarvo µ = np ja varianssi σ 2 = np(1 p). [5], [27] χ 2 -jakauma Ennen χ 2 -jakauman määrittämistä määritellään gammajakauma. Satunnaismuuttuja X noudattaa gammajakaumaa parametreillä α > 0 ja β > 0 mikäli tiheysfunktio { β α f(x) = Γ(α) xα 1 e x/β, jos x > 0 0, jos x 0. Gammajakaumassa oleva gammafunktio Γ(x) = 0 t x 1 e t dt.

20 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 11 Parameterillä α = ν/2 ja β = 2 määriteltyä jakaumaa kutsutaan χ 2 -jakaumaksi. Satunnaismuuttujan X sanotaan noudattavan χ 2 -jakaumaa vapausasteilla ν, jos sen tiheysfunktio f(x) = { 2 ν/2 Γ(ν/2) xν/2 1 e x/2, jos x > 0 0, jos x 0. χ 2 -jakaumaa vapausasteilla ν noudattavan satunnaismuuttujan odotusarvo µ = ν ja varianssi σ 2 = 2ν. [5] 2.2 Tilastomatematiikan peruskäsitteitä Tässä kappaleessa käsittelemme tutkimuksen taustalla vaikuttavia tilastomatematiikan peruskäsitteitä. Jako todennäköisyyslaskennan ja tilastomatematiikan välillä on myös hivenen keinotekoinen, eikä peruskäsitteitä voi aina ajatella pelkästään tilastomatematiikkaan tai todennäköisyyslaskentaan kuuluviksi. Tässä esityksessä tilastomatematiikan peruskäsitteistä on käytetty matriisinotaatiota ja oletetaan, että lukijalla on perustietämys matriisilaskennasta. Perusjoukko Perusjoukko P muodostuu tutkimuksen kohteena olevista asioista, joille halutaan suorittaa mittaus. Tässä tutkimuksessa mittauksen kohteena ovat matematiikan alkutestissä heikosti menestyneet opiskelijat ja he muodostavat siten tutkimuksen perusjoukon. Perusjoukkoa kutsutaan yksinkertaisesti myös tutkimuksen kohdejoukoksi. [1] Otosjoukko Tutkimuksen perusjoukko saattaa olla hyvinkin suuri ja sen takia mittaus suoritetaan usein vain osalle perusjoukkoa. Sitä perusjoukon osaa, josta tutkimuksen aineisto on kerätty, kutsutaan otosjoukoksi S = {s 1... s n }, missä joukon alkio s n on aineiston n:s havainto. Otosjoukko on perusjoukon osajoukko eli S P. [1] Niitä asioita, joita olemme tutkimuksessa mitanneet, kutsutaan muuttujiksi. Tässä tutkimuksessa kukin lomakkeen kysymys muodostaa oman muuttujan. Tutkimusaineisto koostuu siis tietystä määrästä havaintoja sekä muuttujia ja ne voidaan kirjoittaa matriisiin X 1, jossa alkio x ij viittaa i:nnen havainnon j:nteen muuttujaan. Alla esitetyssä matriisissa on siis p kappaletta muuttujia ja n kappaletta

21 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 12 havaintoja. X 1 = x 11 x x 1p x 21 x x 2p... x n1 x n2... x np Yhdeltä matriisin vaakariviltä voidaan nyt lukea tiettyyn havaintoon liittyvät muuttujien arvot. Matriisin pystyriveiltä puolestaan nähdään tietyn muuttujan arvot kaikkien havaintojen osalta. [1], [13] Otoskeskiarvo Kullekin muuttujalle j = 1, 2... p voidaan laskea otoskeskiarvo. Otoskeskiarvo on j:nteen muuttujaan liittyvien havaintojen x 1j... x nj aritmeettinen keskiarvo [13] x j = 1 n n x ij j = 1, 2,..., p. i=1 Otosvarianssi Otosvarianssi s 2 j = 1 n n (x ij x j ) 2 i=1 kuvaa j:nnen muuttujan mittauksen hajanaisuutta.esimerkiksi pieni otosvarianssin arvo kertoo, että suurin osa havainnoista on keskittynyt lähelle otoskeskiarvon arvoa. Kun havaintoja on vähän, otosvarianssissa on perusteltua käyttää jakajana luvun n sijasta lukua n 1. [1], [13] Otoksen hajonta Otoksen keskihajonta saadaan ottamalla neliöjuuri otosvarianssista. s j = 1 n (x ij x j ) n 2 [13] i=1

22 LUKU 2. MATEMATIIKKAA TUTKIMUKSEN TAUSTALLA 13 Otoskovarianssi Otoskovarianssilla s jk = 1 n n (x ij x j )(x ik x k ) j = 1, 2,..., p, k = 1, 2,..., p. i=1 mitataan j:nnen ja k:nnen muuttujan välistä yhteyttä. Voidaan huomata, että otoskovarianssi tapauksessa j = k on itse asiassa otosvarianssi. Lisäksi s jk = s kj. [13] Otoksen korrelaatiokerroin Otoskorrelaatiokerroin j:nnen ja k:nnen muuttujan välille saadaan laskemalla s n jk i=1 r jk = = (x ij x j )(x ik x k ) n sjj skk i=1 (x ij x j ) 2 n i=1 (x ik x k ) 2 kun j = 1, 2,..., p ja k = 1, 2,..., p. Lisäksi r jk = r kj kaikilla j ja k. [13]

23 Luku 3 Binäärinen logistinen regressioanalyysi Logistisen regressioanalyysin perusajatuksena on löytää malli, joka kuvaa parhaiten selitettävän muuttujan Y ja selittävien muuttujien X i, i = 1, 2,..., p välistä suhdetta. Tutkittavan aineiston perusteella pyritään laskemaan selitettävälle muuttujalle ennuste Ŷ, joka vastaa mahdollisimman hyvin tehtyjä havaintoja. Logistisessa regressioanalyysissä malliin estimoidaan vakiotermi β 0 sekä muuttujien X 1,..., X p painokertoimet β 1,..., β p siten, että selitettävän muuttujan ennuste Ŷ = eβ 0+β 1 X 1 + +β px p 1 + e β 0+β 1 X 1 + +β px p vastaa mahdollisimman uskottavasti havaittuja selitettävän muuttujan Y arvoja. [30] Binäärisessä logistisessa regressiossa selitettävä muuttuja Y on kaksiluokkainen eli dikotominen. Tämän takia selitettävä muuttuja koodataan yleensä binäärisesti arvoilla 0 ja 1. Nolla vastaa tilannetta, jossa tutkittava ilmiö ei ole läsnä ja vastaavasti yksi merkitsee tilannetta, jossa tutkittava ilmiö on läsnä. [12] Binäärinen logistinen regressioanalyysi on suosittu varsinkin lääketieteellisissä tutkimuksissa, joissa pyritään selvittämään jonkin sairauden riskitekijöitä tai ennustamaan tunnettujen riskitekijöiden perusteella sairastuuko henkilö kyseiseen sairauteen vai ei [30]. Logistisessa regressioanalyysissä selitettävä muuttuja voi saada arvoja myös useammasta kuin kahdesta luokasta. Tällöin kyseessä on multinomiaali logistinen regressioanalyysi (multinomial regression analysis), joka on binäärisen logistisen regression laajennus. Tässä luvussa keskitymme kuitenkin pelkästään binääriseen logistiseen regressioanalyysiin ja siksi ilmaisut binäärinen logistinen regressioanalyysi ja logistinen regressioanalyysi voidaan lukea toistensa synonyymeina. Luvun tarkastelussa on hyödynnetty pääasiallisesti lähteitä [12] ja [24]. 14

24 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI Kun selitettävä muuttuja on binäärinen Tarkastellaan ensin perinteisen lineaarisen regressiomallin avulla malliin liittyviä ominaisuuksia, kun selitettävä muuttuja on binäärinen. Otetaan yksinkertainen lineaarinen regressiomalli Y i = β 0 + β 1 x i + ε i, missä virhetermi ε i N(0, σ 2 ) ja i = 1,..., n. Lineaarisen regressiomallin selitettävän muuttujan odotusarvo E(Y i ) = E(β 0 + β 1 x i + ε i ) = E(β 0 + β 1 x i ) + E(ε i ) = β 0 + β 1 x i, koska lineaarisessa regressiomallissa virhetermin odotusarvo E(ε i ) = 0. [13], [14] Toisaalta, kun muuttuja Y i on Bernoullin satunnaismuuttuja, niin todennäköisyydet P (Y i = 1) = π i ja P (Y i = 0) = 1 π i. Näin ollen Y i on diskreetti satunnaismuuttuja, jonka odotusarvo Siis [24] E(Y i ) = 1 π i + 0 (1 π i ) = π i. E(Y i ) = P (Y i = 1) = π i. (3.1) Ongelmia Kun selitettävä muuttuja on binäärinen, perinteisen regressiomallin oletukset eivät välttämättä ole enää voimassa. Seuraavaksi tarkastelemme näitä ongelmia edellä esitetyn yksinkertaisen lineaarisen regressiomallin avulla. Virhetermi ei noudata normaalijakaumaa Kun selitettävä muuttuja on binäärinen, lineaarisen regressiomallin Y i = β 0 + β 1 x i + ε i virhetermi voi saada niin ikään vain kaksi arvoa: Kun Y i = 0, kun Y i = 1, niin ε i = β 0 β 1 x i = π i niin ε i = 1 β 0 β 1 x i = 1 π i Voidaan havaita, että virhetermi ei selvästikään noudata normaalijakaumaa alkuperäisen oletuksen mukaisesti. [12], [24]

25 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 16 Virhetermin varianssi ei ole vakio Toinen binääriseen selitettävään muuttujaan liittyvä ongelma on se, etteivät kuhunkin havaintoon liittyvien virhetermien ε i varianssit ole välttämättä keskenään samansuuruisia. Virhetermin ε i varianssi σ 2 (ε i ) = E[(ε i E(ε i )) 2 ] = E[(Y i π i 0) 2 ] = E(Y 2 i ) 2π i E(Y i ) + π 2 i = π i 2π 2 i + π 2 i = π i (1 π i ) = E(Y i )[1 E(Y i )] on sama kuin selitettävän muuttujan Y i varianssi, sillä σ 2 (Y i ) = E[(Y i E(Y i )) 2 ] = (0 π i ) 2 (1 π i ) + (1 π i ) 2 π i = π i (1 π i ) = E(Y i )[1 E(Y i )]. Siis σ 2 (ε i ) = E(Y i )[1 E(Y i )] = (β 0 +β 1 x i )[1 (β 0 +β 1 x i )]. Koska virhetermin varianssi on riippuvainen x i :stä, varianssin arvo vaihtelee muuttujan X saamien arvojen mukaisesti. [24] Selitettävän muuttujan odotusarvoa rajoittavat tekijät Yhtälön 3.1 mukaisesti selitettävän muuttujan odotusarvo vastaa todennäköisyyttä P (Y i = 1) eli E(Y i ) = π i. Siksi 0 E(Y i ) 1. Koska odotusarvo on lukujen 0 ja 1 välissä, myös odotusarvoa mallintavalta funktiolta vaaditaan samat rajoitukset. Siksi mm. lineaarisella funktiolla ei pystytä mallintamaan dikotomisen selitettävän muuttujan odotusarvoa. [24] 3.2 Logistinen funktio Sekä teoreettisten että käytännön havaintojen perusteella on voitu todeta, että dikotomisen muuttujan odotusarvoa mallintavan funktion tulisi olla käyräviivainen [24]. Selitettävän muuttujan odotusarvon E(Y i ) rajoituksiin vastaa täydellisesti logistinen funktio f(z) = ez 1 + e = 1, missä z (, ). z 1 + e z

26 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 17 Logistisen funktion f(z) arvot ovat välillä (0,1). Lisäksi f( ) = lim z z 1 1 = 0 ja 1 + e z f( ) = lim = e z Funktion f(z) kuvaaja (kuvassa 3.1) on S-kirjaimen muotoinen: keskeltä funktio on lähes lineaarinen ja alkupäässä funktio lähestyy asymptoottisesti arvoa 0, kun z ja loppupäässä arvoa 1, kun z. Logistisesta funktiosta saadaan Kuva 3.1: Logistinen funktio. logistinen malli, kun merkinnällä z viitataan perinteiseen lineaariseen regressiomalliin. Yksinkertaisimmillaan z = β 0 + β 1 x, jolloin yleisesti selitettävän muuttujan Y odotusarvoa kuvaavasta logistisesta funktiosta f(z) saadaan seuraavanlainen yhteys 1 E(Y ) = 1 + e = 1 z 1 + e. (β 0+β 1 x) Logistisen regression yhteydessä odotusarvosta E(Y ) käytetään merkintää π(x), jolloin yksinkertainen logistinen regressiomalli π(x) = e (β 0+β 1 x). (3.2)

27 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 18 Viitattaessa selitettävän muuttujan i:nteen havaintoon logistinen regressiomalli kirjoitetaan muotoon E(Y i ) = π(x i ) = e (β 0+β 1 x i ). (3.3) Logistisen funktion käyttöä dikotomisen muuttujan analyysissä perustellaan mm. sillä, että funktio on matemaattisesti helppokäyttöinen ja joustava. Lisäksi logistisen funktion käyttäminen helpottaa mielekkäiden tulkintojen tekemistä. [12] Koska selitettävä muuttuja voi olla riippuvainen useista selittävistä muuttujista, tarvitsemme muuttujien välisten suhteiden kuvaamiseen usean muuttujan logistisen funktion. Sitä varten muodostamme logistisen regressiomallin tuntemattomista kertoimista vektorin β = β 0 β 1. β p ja mallissa olevista muuttujista vektorin x = [1 X 1 X p ]. Kirjataan vielä kustakin mittauksesta saadut muuttujien X 1,..., X p arvot havaintomatriisiksi X, jossa ensimmäinen sarake on yksikkövektori 1 1 x 11 x x 1p x 1 1 x 21 x x 2p X =.... = x 2. = [1, x 1, x 2,..., x p ]. 1 x n1 x n2... x np Matriisin X pystyvektoriin k viitataan merkinnällä x 1k x 2k x k =, jossa k = 1, 2,..., p.. x nk Vektorista x k on luettavissa kaikki havainnot, jotka liittyvät k:nteen muuttujaan. Vastaavasti l:nteen havaintoon liittyvät muttujien arvot on luettavissa matriisin X vaakavektorista x n x l = [ 1 x l1 x l2... x lp ], jossa l = 1, 2,..., n.

28 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 19 Tällöin z = x β = β 0 + β 1 X 1 + β 2 X β p X p ja z i = x iβ = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip i = 1,..., n. Nyt odotusarvoa E(Y ) kuvaava usean muuttujan logistinen regressiomalli on muotoa E(Y ) = e = 1 z 1 + e, (3.4) (β 0+β 1 X 1 +β 2 X 2 + +β px p) josta käytetään jatkossa merkintää π(x ). Vastaavasti odotusarvoa E(Y i ) kuvaava logistinen regressiomalli π(x i) = e z i = Logistisen funktion ominaisuuksia e (β 0+β 1 x i1 +β 2 x i2 + +β px ip ). (3.5) Kuten kuvasta 3.1 voidaan huomata, logistinen funktio on aidosti kasvava. Lisäksi se on linearisoitavissa logit-muunnoksen avulla. Määritelmä 5 Logit-muunnos Logit-muunnos g(x ) määritellään yleisen logistisen regressiomallin π(x ) avulla seuraavasti ( ) π(x ) g(x ) = ln 1 π(x ) Voidaan havaita, että g(x ) on lineaarinen logistisen regressiomallin muuttujien X 1,..., X p suhteen, sillä ( ) π(x ) g(x ) = ln = ln(π(x )) ln(1 π(x )) 1 π(x ) ( ) ( ) 1 1 = ln ln e z 1 + e z ( ) = ln(1) ln(1 + e z e z ) ln 1 + e z = ln(1 + e z ) ln(e z ) + ln(1 + e z ) = z = β 0 + β 1 X 1 + β 2 X β p X p. (3.6)

29 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI Logistisen regressiomallin muodostaminen Olemme huomanneet, että logistinen regressiomalli muodostuu tietystä määrästä selittäviä muuttujia X i, i = 1,..., p, vakiosta β 0 sekä selittäville muuttujille laskettavista kertoimista β i, i = 1,..., p. Usein tutkittavasta aineistosta ei ole hyödyllistä eikä edes tarpeellista valita kaikkia muuttujia regressiomalliin. Tässä osiossa tarkastelemme, millä perusteella malliin tulevat muuttujat voidaan valita, jotta regressiomalli olisi mahdollisimman hyvä. Sitä ennen katsomme, miten logistisen regressiomallin tuntemattomat kertoimet β i estimoidaan ja miten kertoimien luotettavuutta voidaan arvioida Kertoimien estimointi Otetaan otos, jossa on n kappaletta toisistaan riippumattomia havaintoja. Tällöin i:s havainto muodostaa vektorin x i = [1, x i1, x i2,..., x ip ] ja sitä vastaava selitettävän muuttujan arvo on y i, kun i = 1, 2,..., n. Koska selitettävä muuttuja Y i on dikotominen, sen arvo y i määräytyy seuraavasti { 1, jos i. havainto kuuluu luokkaan 1 (esim. henkilö on sairastunut) y i = 0, jos i. havainto kuuluu luokkaan 2 (esim. henkilö on terve) Logistisessa regressioanalyysissä tuntemattomien kertoimien β estimointiin käytetään suurimman uskottavuuden menetelmää (maximum likelihood method). Menetelmän avulla mallin tuntemattomille kertoimille pyritään saamaan sellaiset arvot, että selitettävän muuttujan Y ennuste Ŷ vastaisi tehtyjä havaintoja mahdollisimman suurella todennäköisyydellä. Muodostetaan ensin suurimman uskottavuuden funktio, joka ilmaisee havaitun aineiston todennäköisyyksiä tuntemattomien kertoimien funktiona. Kuten edellä on esitetty, Bernoullin satunnaismuuttujalle todennäköisyydet P (Y i = 1) = π(x i) ja P (Y i = 0) = 1 π(x i). Näin ollen havaintoon (x i, y i ) liittyvä todennäköisyys saadaan funktiosta f(y i ) = π(x i) y i [1 π(x i)] 1 y i. (3.7) Koska havainnot oletettiin toisistaan riippumattomiksi saadaan uskottavuusfunktio havaintojen todennäköisyyksien tulona l(β) = n π(x i) y i [1 π(x i)] 1 y i. (3.8) i=1 Matemaattisesti on helpompaa käsitellä uskottavuusfunktion logaritmia, joten

30 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 21 määrittelemme vielä logaritmisen uskottavuusfunktion [ n ] L(β) = ln[l(β)] = ln π(x i) y i [1 π(x i)] 1 y i = = n i=1 n i=1 i=1 [ ] ln π(x i) y i [1 π(x i)] 1 y i [ ] y i ln[π(x i)] + (1 y i )ln[1 π(x i)]. (3.9) [12], [24] Halutut arvot tuntemattomille parametreille ovat niitä, jotka maksimoivat logaritmisen uskottavuusfunktion. Tarvittavat logaritmisen uskottavuusfunktion ääriarvokohdat saadaan derivaatan nollakohdista ja siksi laskemme funktion derivaatat β 0 :n ja β j :n suhteen. L(β) β 0 = = = = = n [ i=1 n [ i=1 n [ i=1 n i=1 n i=1 y i y i y i ln[π(x β i)] + (1 y i ) ] ln[1 π(x 0 β i)] 0 [ ] 1 ln + (1 y β e z i ) [ ]] 1 ln 1 i β e z i [ ]] e z i 1 + e + (1 y i) 1 + e z i z i 1 + e z i ] e z i ], missä z i = β 0 + β 1 x i1 + + β p x ip [ y i [ y i π(x i) L(β) β j = = = = n [ y i ln[π(x β i)] + (1 y i ) ] ln[1 π(x j β i)] j n [ [ ] 1 y i ln + (1 y β j 1 + e z i ) [ ]] 1 ln 1 i β j 1 + e z i n [ [ ]] e z i y i x ij 1 + e + (1 y i)x z ij 1 + e z i i 1 + e z i n ] 1 x ij [y i 1 + e z i i=1 i=1 i=1 i=1

31 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 22 = n i=1 ] x ij [y i π(x i), missä z i = β 0 + β 1 x i1 + + β j x ij + + β p x ip. Näin saamme yhtälöt n [ ] y i π(x i) = 0 ja (3.10) i=1 n i=1 ] x ij [y i π(x i) = 0. (3.11) [12] Tästä eteenpäin käytetään merkintää ˆβ vastaamaan yllä olevista yhtälöistä ratkaistavia tuntemattomien kertoimien arvoja. Vastaavasti merkintä ˆπ(x i) tarkoittaa logistisen regressiomallin arvoja, kun arvojen laskemiseen on käytetty vektoreita ˆβ ja x i. Koska edellä esitetyt yhtälöt ovat epälineaarisia, niiden ratkaiseminen on varsin haastavaa. Ratkaisuprosessi perustuu usein iteratiiviseen painotetun pienimmän neliösumman menetelmään, joka on suhteellisen suoraviivainen. Proseduuri etenee pääpiirteissään seuraavasti: Ensin määritetään estimoitavien kertoimien ˆβ 0 alkuarvot. Usein alkuarvot saadaan perinteisellä pienimmän neliösumman menetelmällä käyttäen ensimmäisen kertaluvun lineaarista mallia. (Selitettävä muuttuja on Y ja selittävinä muuttujina X 1, X 2,..., X p.) Saatuja alkuarvoja käyttämällä voidaan laskea ẑ i0 = x i ˆβ 0, jolloin ˆπ 0 (x i) = e ẑ i0. Seuraavaksi lasketaan selitettävälle muuttujalle uusi arvo ŷ i0 = ẑ i0 + y i ˆπ 0 (x i) ˆπ 0 (x i )[1 ˆπ 0(x i )] sekä muuttujaa vastaava paino w i0 = ˆπ 0 (x i)[1 ˆπ 0 (x i)]. Tämän jälkeen lasketaan uudet regressiokertoimet ˆβ 1 käyttäen ensimmäisen kertaluvun lineaarista mallia arvoilla ŷ i0 ja w i0.

32 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 23 Edellisiä vaiheita toistetaan niin kauan, että kertoimien uudet numeeriset arvot poikkeavat edellisistä arvoista erittäin vähän tai ei ollenkaan. Yleensä kertoimien arvot suppenevat muutaman iteraatiokierroksen jälkeen. [24] Kertoimien estimoinnissa voi ilmetä ongelmia mm. silloin kun selittävät muuttujat korreloivat voimakkaasti keskenään tai niitä on liikaa. Siksi ensiksi suositellaan selittävien muuttujien lukumäärään vähentämistä, jos kertoimien numeerinen etsintä epäonnistuu suppenemisongelmien takia. [24] Kertoimien hajonta Edellä laskettujen kertoimien ˆβ hajontaa voidaan arvioida niille laskettavien varianssien ja kovarianssien avulla. Kertoimen β j varianssin ja kovarianssien laskeminen perustuu niin ikään suurimman uskottavuuden -teoriaan. Varianssien ja kovarianssien estimaatit saadaan logaritmisen uskottavuusfunktion toisen kertaluvun osittaisderivaattojen avulla. ja 2 L(β) β 2 j = L(β) ( n ]) x ij [y i π(x β i) j i=1 n [ ( )] L(β) L(β) 1 = x ij y i x ij β i=1 j β j 1 + e β jx ij z j n [ ] x ij e z = x ij (1 + e z ) 2 i=1 n [ ( )] = x ij e z 1 + e z i=1 n [ ( )] = x 2 ijπ(x i) 1 π(x i), missä z j = z β j x ij i=1 ( n 2 L(β) = L(β) β j β l β l i=1 n [ L(β) = β i=1 l n = i=1 ]) x ij [y i π(x i) ( )] L(β) 1 x ij y i x ij β l 1 + e β lx il z l [ ] x il e z x ij (1 + e z ) 2

33 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 24 = = n i=1 n i=1 [ x ij x il 1 [ x ij x il π(x i) ( )] e z 1 + e z ( )] 1 π(x i), missä z l = z β l x il kun j, l = 0, 1, 2,..., p. Vaihdetaan edellä laskettujen osittaisderivaattojen etumerkit, ja muodostetaan niiden avulla informaatiomatriisi I(β). Itse asiassa, kun X on aiemmin määritelty havaintomatriisi ja V = ˆπ(x 1)(1 ˆπ(x 1)) ˆπ(x 2)(1 ˆπ(x 2)) ˆπ(x n)(1 ˆπ(x n)) niin estimoiduista kertoimien arvoista muodostettu informaatiomatriisi I( ˆβ) = X T VX. Nyt estimoitujen kertoimien varianssit ja kovarianssit sisältävä matriisi Var( ˆβ) = I 1 ( ˆβ) (3.12) ja kertoimen ˆβ j hajonnan estimaatti s( ˆβ j ) = [Var( ˆβ j )] 1/2, (3.13) missä j = 0, 1, 2,..., p ja Var( ˆβ j ) on matriisin Var(ˆβ) diagonaali alkio. [12] Riskisuhteen ja laskettujen kertoimien välinen yhteys Tarkastellaan seuraavaksi käsitteitä riski (odds) ja riskisuhde (odds ratio) yksinkertaisen logistisen regressiomallin avulla. Olkoon ˆβ 0 ja ˆβ 1 malliin estimoidut kertoimet ja vektori x = [1 x]. Käytetään merkintää x j1 = [1 x j ] kun satunnaismuuttuja X saa arvon x j. Tällöin logit -funktion arvo g(x j1) = ˆβ 0 + ˆβ 1 x j. Vastaavasti kun satunnaismuuttujan arvo kasvaa yhdellä eli X = x j + 1 g(x j2) = ˆβ 0 + ˆβ 1 (x j + 1), missä x j2 = [1 x j + 1]. Yksinkertaisella laskutoimituksella huomaamme, että [24] g(x j2) g(x j1) = ˆβ 0 + ˆβ 1 x j + ˆβ 1 ˆβ 0 ˆβ 1 x j = ˆβ 1.

34 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 25 Määritelmä 6 Riski Riskillä (odds) tarkoitetaan tapahtuman Y todennäköisyyden suhdetta todennäköisyyteen, että tapahtumaa ei tapahdu. Siis O(Y ) = P (Y ) 1 P (Y ) [12],[14]. Yhtälöstä 3.1 voidaan huomata, että dikotomiselle muuttujalle todennäköisyys P (Y ) = E(Y ). Näin ollen O(Y ) = E(Y ) 1 E(Y ) = π(x ) 1 π(x ). Määritelmän 5 mukaan ( ) π(x ) g(x ) = ln = ln[o(y )]. 1 π(x ) Edellä laskettu erotus voidaan laskea riskiä hyväksikäyttäen [ ] g(x j2) g(x O(Y2 ) j1) = ln[o(y 2 )] ln[o(y 1 )] = ln O(Y 1 ) [ ] [ ] ˆπ(xj2 ) ˆπ(xj1 ) = ln ln 1 ˆπ(x j2 ) 1 ˆπ(x j1 ) = ˆβ 0 + ˆβ 1 x j + ˆβ 1 ˆβ 0 ˆβ 1 x j = ˆβ 1 Määritelmä 7 Riskisuhde (odds ratio). Riskisuhde kertoo nimensä mukaisesti kahden riskin O(Y 2 ) ja O(Y 1 ) välisen suhteen. OR = O(Y 2) O(Y 1 ). Voimme huomata, että riskisuhde OR voidaan ilmoittaa myös logistiseen regressiomalliin estimoidun kertoimen avulla. Koska [ ] O(Y2 ) ln = O(Y 1 ) ˆβ 1 niin OR = e ˆβ 1. [24] Itse asiassa riskisuhde ilmoittaa tietyssä ulostuloluokassa olemisen todennäköisyyden muutoksen kun ennustavan muuttujan arvo muuttuu yhdellä yksiköllä [30].

35 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI Muuttujien valitseminen regressiomalliin Jotta malli olisi tarkoitukseemme mahdollisimman hyvä, meidän täytyy ensin miettiä, millä perusteella valitsemme malliin selittävät muuttujat. Tämän lisäksi meillä tulisi olla erilaisia menetelmiä arvioida saamaamme mallia. [12] Yleisesti malli pyritään muodostamaan siten, että selittäviä muuttujia olisi mahdollisimman vähän mutta muuttujat selittäisivät kuitenkin mahdollisimman suuren osan aineistosta. Tässä osiossa tarkastelemme malliin tulevien muuttujien valintaa prosessina, jonka jälkeen keskitymme tarkemmin muuttujien merkitsevyyden testaamiseen ja mallin hyvyyden arviointiin. Yleisesti logistisen regressiomallin muodostaminen noudattelee lineaarisen regressiomallin muodostamisen periaatteita. Muuttujienvalintaprosessi alkaa kunkin selittävän muuttujan itsenäisellä analyysillä. Hosmer ja Lemeshow [12] suosittelevat ensimmäisenä toimenpiteenä selittävien muuttujien ristiintaulukointia selitettävän muuttujan kanssa. Erityistä huomiota tulisi kiinnittää sellaisiin muuttujiin, joiden ristiintaulukoinnissa ilmenee tyhjiä soluja. Tällaiset muuttujat tuottavat logistisessa regressioanalyysissa ei-toivottuja numeerisia tuloksia. Aineistosta riippuen muuttuja voidaan mm. koodata uudelleen tyhjien solujen eliminoimiseksi. Jatkuvat muuttujat voidaan sovittaa myös yhden muuttujan logistiseen regressiomalliin tai niille voidaan tehdä kahden otoksen t-testi. Näillä menetelmillä päästään käsiksi siihen, kuinka merkitsevästi tilastotieteen valossa kulloinkin analysoitava muuttuja eroaa selitettävästä muuttujasta. [12] Kun kukin muuttuja on ristiintaulukoitu selitettävän muuttujan kanssa (tai analysoitu jollakin muulla tavalla), valitaan jatkokäsittelyyn sellaiset muuttujat, jotka ovat riippumattomia selitettävästä muuttujasta riskitasolla 0,25 eli toisin sanoen χ 2 -testin p-arvo< 0, 25. Jos tilastollisen merkitsevyyden raja on liian tiukka, saattaa mallin kannalta oleellisia muuttujia jäädä pois jatkokäsittelystä. Jatkokäsittelyn kannalta ei ole mielekästä käyttää myöskään suurempaa merkitsevyyden rajaa, ellei ole syytä olettaa, että jokin pois jäänyt muuttuja nousee merkitykselliseksi esim. muiden muuttujien yhteisvaikutuksen takia. Toisaalta joidenkin alan ihmisten mielestä mallin muodostamisessa tulisi olla mukana kaikki muuttujat, joilla oletetaan olevan merkitystä mallia muodostettaessa yhden muuttujan analyysin tuloksista piittaamatta. [12] Kaikesta päätellen muuttujien valitseminen jatkokäsittelyyn jää viime kädessä tutkijan harkinnan varaan, sillä yhtä oikeaa ja kaikissa tilanteissa pätevää menettelyä ei näyttäisi keskusteluista huolimatta olevan olemassa. Kun muuttujat on valittu jatkokierroksille, on aika aloittaa varsinainen usean muuttujan mallin muodostaminen. Yleisimpiä menetelmiä logistisen regressiomallin muodostamiseen ovat askeltavat menetelmät mutta myös lineaarisessa regressiossa käytettyä parhaan osajoukon menetelmää (best subsets selection) voidaan soveltaa logistiseen regressioanalyysiin. Askeltavissa menetelmissä pe-

36 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI 27 rusajatuksena on valita malliin parhaat muuttujat asteittain joko lisäämällä malliin yksi muuttuja kerrallaan tai poistamalla mallista yksi muuttuja kerrallaan. Muuttujien lisäämisen/poistamisen kriteerit ovat puhtaasti tilastollisia. Parhaan osajoukon menetelmässä puolestaan testataan yhdestä useamman muuttujan muodostamia osajoukkoja ja katsotaan, mikä näistä osajoukoista muodostaa parhaan mallin tiettyjen, ennalta asetettujen kriteereiden valossa. Mekaanisia muuttujienvalintaproseduureja vastaan on esitetty myös runsaasti kritiikkiä mm. siksi, että muodostuneet mallit eivät vastaa todellisuutta. Joidenkin mielestä mekaaniset muuttujienvalintaproseduurit tuovat malliin epäoleellisia muuttujia. Hosmerin ja Lemeshown mukaan merkittävin ongelma on kuitenkin se, että malli esitetään lopullisena, vaikka sitä ei ole kyetty tarkastamaan ja arvioimaan huolellisesti. Lopullisen mallin arvioiminen on aina tutkijan, ei tietokoneen, vastuulla. [12] Askeltavia muuttujienvalintamenetelmiä käsitellään tarkemmin osiossa Käytettiinpä lopullisen mallin muodostuksessa mitä menetelmää tahansa, malliin tulevia muuttujia tulee arvioida joillakin kriteereillä. Mallin muodostamisen päämääränä on löytää selittävien muuttujien joukosta ne muuttujat, jotka kuvaavat selitettävää muuttujaa tilastollisessa mielessä mahdollisimman merkitsevästi. Mallia sovitettaessa jokainen malliin tuleva muuttuja arvioidaan erikseen. Muuttujien arviointiprosessi noudattelee kaavaa poista, sovita uudelleen ja tarkista niin kauan, kunnes malliin on jäänyt kaikista oleellisimmat, selitettävää muuttujaa parhaiten kuvaavat muuttujat. Muuttujien valintakriteerinä voidaan käyttää Waldin tunnuslukua, jolloin kullekin muuttujalle estimoitua kerrointa verrataan sellaisen mallin kertoimeen, jossa käsiteltävä muuttuja on yksin. Muuttujat, jotka eivät tuo malliin mitään uutta, poistetaan. Syntynyttä uutta mallia verrataan vanhaan malliin uskottavuusosamäärätestin avulla. Myös uuteen malliin estimoitujen muuttujien kertoimia tulisi verrata koko malliin estimoituihin kertoimiin. Muuttujien valinnassa kannattaa kiinnittää huomio ennen kaikkea niihin muuttujiin, joiden kertoimien estimoidut arvot vaihtelevat suuresti eri malleissa. Arvojen vaihtelu voi nimittäin tarkoittaa sitä, että mallista poistettujen muuttujien joukossa on muuttujia, joita tarvittaisiin mallissa olevien muuttujien vaikutuksen oikaisemiseksi. Kun kaikki merkittävät muuttujat ovat mallissa mukana, testataan vielä koko mallin sopivuutta. [12] Matemaattisempi esitys malliin tulevien muuttujien merkitsevyyden testaamisesta on osiossa ja koko mallin sopivuuden arviointia käsitellään tarkemmin osiossa

37 LUKU 3. BINÄÄRINEN LOGISTINEN REGRESSIOANALYYSI Mitkä muuttujat ovat merkitseviä logistisessa regressiomallissa? Kun lähdemme selvittämään muuttujien merkitsevyyttä, haluamme tietää, kertooko malli enemmän selitettävästä muuttujasta, jos tietty yksittäinen muuttuja on tai ei ole mallissa mukana. Ajatuksena on verrata selitettävän muuttujan havaittuja arvoja ennustettuun arvoon, kun kyseinen yksittäinen muuttuja on tai ei ole mallissa mukana. Seuraavaksi käsitellyillä testeillä testataan nollahypoteesin H 0 : β = 0 paikkansapitävyyttä. Uskottavuusosamäärätesti Tarkastellaan ensimmäisenä uskottavuusosamäärätestiä, jossa varsinainen vertailu perustuu uskottavuusfunktioon (3.8). Muodostetaan ensin kaksi erilaista regressiomallia: täydellinen malli ja sovitettava malli. Täydellisessä mallissa n havaintoa istuu täydellisesti n:n muuttujan malliin. Käytetään merkintää l( ˆβ f ) tarkoittamaan uskottavuusfunktion arvoa, kun arvon laskemisessa on käytetty täydellisen mallin kertoimia ˆβ f. Vastaavasti sovitettavan mallin kertoimista laskettua uskottavuusfunktion arvoa merkitään l( ˆβ r ). Näistä saadaan laskettua uskottavuusosamäärä (likelihood ratio) LR = l( ˆβ r ) l( ˆβ f ). (3.14) [12], [24] Uskottavuusosamäärän avulla muodostetaan suure D, josta käytetään nimitystä poikkeavuus (deviance). [ ] l( ˆβr ) D = 2ln l( ˆβ f ) = 2[L( ˆβ r ) L( ˆβ f )] [ n = 2 (y i ln[ˆπ(x i)] + (1 y i )ln[1 ˆπ(x i)]) = 2 i=1 n ] (y i ln[y i ] + (1 y i )ln[1 y i ]) i=1 n [ ( ) ( )] ˆπ(x y i ln i) 1 ˆπ(x + (1 y i )ln i) y i 1 y i i=1 (3.15)

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11

Lisätiedot

Hypoteesin testaus Alkeet

Hypoteesin testaus Alkeet Hypoteesin testaus Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Johdanto Kokeellinen tutkimus: Varmennetaan teoreettista olettamusta fysikaalisen systeemin käyttäytymisestä

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een 031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 31.03.2012 klo. 9.00-12.00 saleissa L1,L3 Jukka Kemppainen Mathematics

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 21. syyskuuta 2007 Antti Rasila () TodB 21. syyskuuta 2007 1 / 19 1 Satunnaismuuttujien riippumattomuus 2 Jakauman tunnusluvut Odotusarvo Odotusarvon ominaisuuksia

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Tilastomatematiikka Kevät 2008

Tilastomatematiikka Kevät 2008 Tilastomatematiikka Kevät 2008 Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastomatematiikka p.1/19 4.3 Varianssi Satunnaismuuttuja on neliöintegroituva, jos odotusarvo

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4. HY / Matematiikan ja tilastotieteen laitos Todennäköisyyslaskenta II, syksy 206 Kurssikoe 28.0.206 Ratkaisuehdotuksia. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8. HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 8 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Tehtävät -5 perustuvat monisteen kappaleisiin..7 ja tehtävä 6 kappaleeseen.8..

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: 8.1 Satunnaismuuttuja Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: Esim. Nopanheitossa (d6) satunnaismuuttuja X kertoo silmäluvun arvon. a) listaa kaikki satunnaismuuttujan arvot b)

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 4

031021P Tilastomatematiikka (5 op) viikko 4 031021P Tilastomatematiikka (5 op) viikko 4 Jukka Kemppainen Mathematics Division Tilastollinen aineisto Tilastolliset menetelmät ovat eräs keino tutkia numeerista havaintoaineistoa todennäköisyyslaskentaa

Lisätiedot

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

0 3 y4 dy = 3 y. 15x 2 ydx = 15. f Y (y) = 5y 4 1{0 y 1}.

0 3 y4 dy = 3 y. 15x 2 ydx = 15. f Y (y) = 5y 4 1{0 y 1}. HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 18 Harjoitus Ratkaisuehdotuksia Tehtäväsar I 1. Satunnaismuuttujilla X Y on tkuva yhteiskauma yhteistiheysfunktiolla f

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Matemaattinen tilastotiede Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Alkusanat Tämä moniste perustuu vuosina 2002-2004 pitämiini matemaattisen tilastotieteen luentoihin

Lisätiedot

FUNKTIONAALIANALYYSIN PERUSKURSSI 1. 0. Johdanto

FUNKTIONAALIANALYYSIN PERUSKURSSI 1. 0. Johdanto FUNKTIONAALIANALYYSIN PERUSKURSSI 1. Johdanto Funktionaalianalyysissa tutkitaan muun muassa ääretönulotteisten vektoriavaruuksien, ja erityisesti täydellisten normiavaruuksien eli Banach avaruuksien ominaisuuksia.

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN...

Lisätiedot

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61 3.3. Satunnaismuuttujien ominaisuuksia 61 Odotusarvo Määritelmä 3.5 (Odotusarvo) Olkoon X diskreetti satunnaismuuttuja, jonka arvojoukko on S ja todennäköisyysfunktio f X (x). Silloin X:n odotusarvo on

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä J. Virtamo 38.3143 Jonoteoria / Todennäköisyyslaskenta 1 TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä Otosavaruus S S on satunnaiskokeen E kaikkien mahdollisten alkeistapahtumien e joukko. Esim. 1. Noppaa

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

Määritelmä 3.1 (Ehdollinen todennäköisyys) Olkoot A ja B otosavaruuden Ω tapahtumia. Jos P(A) > 0, niin tapahtuman B ehdollinen todennäköisyys

Määritelmä 3.1 (Ehdollinen todennäköisyys) Olkoot A ja B otosavaruuden Ω tapahtumia. Jos P(A) > 0, niin tapahtuman B ehdollinen todennäköisyys Luku 3 Satunnaismuuttujat, ehdollistaminen ja riippumattomuus Tässä luvussa käsitellään satunnaismuuttujien ominaisuuksia ja täydennetään todennäköisyyslaskennan tietoja. Erityisesti satunnaismuuttujien

Lisätiedot

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi Antti Rasila Aalto-yliopisto Syksy 2015 Antti Rasila (Aalto-yliopisto) MS-A0202 Syksy 2015 1

Lisätiedot

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastollisia peruskäsitteitä ja Monte Carlo Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

Todennäköisyyslaskenta sivuaineopiskelijoille

Todennäköisyyslaskenta sivuaineopiskelijoille Todennäköisyyslaskenta sivuaineopiskelijoille Tentit: 4.11.2013 ja 2.12.2013. Loput kaksi tenttiä (vuonna 2014) ilmoitetaan myöhemmin. Tentissä on 4 tehtävää á 8 pistettä, aikaa 4 tuntia. Arvostelu 0 5.

Lisätiedot

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat: Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva

Lisätiedot

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2 HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 208 Harjoitus 4 Ratkaisuehdotuksia Tehtäväsarja I. Satunnaismuuttuja U Exp(2) ja V = U/(3 + U). Laske f V käyttämällä muuttujanvaihtotekniikkaa.

Lisätiedot

110. 111. 112. 113. 114. 4. Matriisit ja vektorit. 4.1. Matriisin käsite. 4.2. Matriisialgebra. Olkoon A = , B = Laske A + B, 5 14 9, 1 3 3

110. 111. 112. 113. 114. 4. Matriisit ja vektorit. 4.1. Matriisin käsite. 4.2. Matriisialgebra. Olkoon A = , B = Laske A + B, 5 14 9, 1 3 3 4 Matriisit ja vektorit 4 Matriisin käsite 42 Matriisialgebra 0 2 2 0, B = 2 2 4 6 2 Laske A + B, 2 A + B, AB ja BA A + B = 2 4 6 5, 2 A + B = 5 9 6 5 4 9, 4 7 6 AB = 0 0 0 6 0 0 0, B 22 2 2 0 0 0 6 5

Lisätiedot