Laskari 1 P I T U U S

Samankaltaiset tiedostot
Til.yks. x y z

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Til.yks. x y z

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

pisteet Frekvenssi frekvenssi Yhteensä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

tilastotieteen kertaus

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Harjoittele tulkintoja

Tilastollisten aineistojen kuvaaminen

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Sovellettu todennäköisyyslaskenta B

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

7. laskuharjoituskierros, vko 10, ratkaisut

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Tilastollinen aineisto Luottamusväli

Huippu Kertaus Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Talousmatematiikan perusteet, L2 Kertaus Aiheet

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Johdatus regressioanalyysiin. Heliövaara 1

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Talousmatematiikan perusteet, L2 Kertaus Aiheet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Regressioanalyysi. Kuusinen/Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

Esimerkki 1: auringonkukan kasvun kuvailu

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Ohjeita kvantitatiiviseen tutkimukseen

Kvantitatiiviset menetelmät

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Todennäköisyyden ominaisuuksia

2. Aineiston kuvailua

Harjoitus 2: Matlab - Statistical Toolbox

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Estimointi. Vilkkumaa / Kuusinen 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

MTTTP1, luento KERTAUSTA

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Mat Tilastollisen analyysin perusteet, kevät 2007

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Tilastollisen analyysin perusteet, kevät 2007

4. Todennäköisyyslaskennan kertausta

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Sovellettu todennäköisyyslaskenta B

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Transkriptio:

Laskari 1 3. Oletetaan tässä, että muuttujien arvot ovat itse arvioituja. a) Henkilön tietojen arviointi voi olla huomattavan vaikeaa, jollei ole nähnyt häntä pitkään aikaan, joten joku tieto voi jäädä "saamatta". b) On vajaapeittävyyttä, jos esimerkiksi joillain tuntemillasi henkilöillä ei ole puhelinta tai he eivät käytä facebookia tai jotkut tuttusi eivät ole puhelimessasi tai facebook-kavereinasi. c) Tutkimusta (lyhyellä aikavälillä) toistettaessa arviot pysynevät suunnilleen samoina, joten reliabiliteetti lienee varsin hyvä. d) Muuttujat ovat suhteellisen yksinkertaisia, joten siinä mielessä validiteetti lienee kunnossa (eli mitataan siis sitä mitä pitääkin), mutta oma arviointikyky ei välttämättä ole kaikkien muuttujien kohdalla kovin hyvä (eli mittaustarkkuus ei välttämättä ole riittävän hyvä). e) Osa-aineistoihin liittyvää harhaa saattaa esiintyä esimerkiksi seuraavasti: Itseä selkeästi pidemmät henkilöt saattavat saada ylimääräistä pituutta ja vastaavasti itseä selkeästi lyhemmät henkilöt saattavat saada "alimääräistä" pituutta. Painon arvioinnissa saattaa esiintyä "kohteliaisuustekijä" tuttujen suhteen. 4. a) puolue: laatuero, (diskreetti,) diskreetti, kvali b) siv: laatuero, (diskreetti,) diskreetti, kvali c) ikä: suhde, (jatkuva,) jatkuva, kvanti d) vuosi: välimatka, (jatkuva,) diskreetti, kvanti e) väri: laatuero, (jatkuva,) diskreetti, kvali f) matka: suhde, (jatkuva,) jatkuva, kvanti g) kvero: suhde, (diskreetti,) diskreetti, kvanti h) likert: järjestys, (jatkuva,) diskreetti, kvali i) kenkä: välimatka, (jatkuva,) diskreetti, kvanti j) sp: laatuero, (diskreetti,) diskreetti, kvali 5. LUOKKA VARSINAISET KESKUS f F 150-159 149.5-159.5 154.5 4 4 160-169 159.5-169.5 164.5 6 30 170-179 169.5-179.5 174.5 5 55 180-189 179.5-189.5 184.5 1 67 190-199 189.5-199.5 194.5 3 70 P it u u s j a k a u m a ( lu o k k a v ä li 1 0 c m ) 3 0 5 0 1 5 1 0 5 0 1 4 0 1 5 0 1 6 0 1 7 0 1 8 0 1 9 0 0 0 1 0 P I T U U S Bonus: a) Lämpötila kelvineinä b) Lämpötila celsiuksina tai fahrenheiteina c) liian kylmä/sopiva/liian kuuma d) hyvä löyly/huono löyly, jossa huono löyly on sekä liian kuuma että liian kylmä löyly 1

Laskari 1. moodi, minimi, alakvartiili, mediaani, yläkvartiili, maksimi, summa(x i ), summa(x i ), keskiarvo, keskihajonta, varianssi Sukupuolelle, siviilisäädylle ja hiuksille saa laskea (tai oikeammin määrittää) vain moodin. Muuttujalle koulutus (jos se oletetaan järjestysasteikolliseksi) saa laskea vain moodin ja järjestystunnusluvut. Muille saa laskea kaiken.. HUOM: Laatueroasteikollisen muuttujan luokittelu järjestysasteikolliseksi on epätilastotiedettä! DATA HIUS Luokka 'ei osaa sanoa' jätetään täysin huomiotta järjestystunnuslukuja Väri lkm laskettaessa (n=14). Pylväsdiagrammiin sen voi kuitenkin halutessaan piirtää vaalea 49 joko viimeiseksi tai ensimmäiseksi pylvääksi. tumma 77 Moodi, eli havainto, jota on eniten, on tumma. musta 16 Alakvartiili 14/4+1/=36 -> havainto 36, joka on vaalea. eos 5 Mediaani 14/+1/=71.5 -> havainto 7, joka on tumma. Summa 147 Yläkvartiili 3*14/4+1/=107 -> havainto 107, joka on tumma. Hiusten värien jakauma 80 60 40 0 0 Vaalea Tumma Musta EOS 3. Viisilukuiset yhteenvedot: Miehet: (166, 174.5, 180, 183, 193), Naiset: (153, 163, 167, 170, 185) P it u u s j a k a u m a t s u k u p u o li t t a i n S P m i e s n a i n e n 1 5 0 1 6 0 1 7 0 1 8 0 1 9 0 0 0 P i t u u s Miehiä on 68. Havaintonumerot: Q1: 68/4+1/=17.5, Md: 68/+1/=34.5, Q3: 3*68/4+1/=51.5 Naisia on 79. Havaintonumerot: Q1: 79/4+1/=0.5, Md: 79/+1/=40, Q3: 3*79/4+1/=59.75

4. Erityishuomio kannattaa kiinnittää viimeisen luokan korkeuteen, joka saadaan jakamalla luokan frekvenssi luokan suhteellisella leveydellä: 11/3=3.667. Kuvan perusteella jakauma on vino oikealle. Epätasavälinen ikäjakauma 60 55 50 45 40 35 30 5 0 15 10 5 0 0 10 0 30 40 50 60 70 80 90 100 IKÄ Luokitellun aineiston keskiarvo:(3*14.5+46*4.5+3*34.5+1*44.5+*54.5+11*74.5)/135=38.7 5. Keskikorko: 6 v.-> (1.05*1.04*1.03*1.0*1.01*1.00) 1/6 = 1.04857699497-1=0.04857699497 ->.49% 5 v.-> (1.05*1.04*1.03*1.0*1.01) 1/5 = 1.0990901637-1=0.0990901637 ->.99% Tuotto: 1.04857699497 6 = 1.1587775000*100000= 11587.775000-100000= 1587.78 1.0990901637 5 = 1.158777519998*100000= 11587.77519998-100000= 1587.78 Bonus: Paikka: Luokkakeskus: Tarkennettu: Moodi korkein frekvenssi 4.5 19.5+(46-3)/((46-3)+(46-3))*10=7.05 Minimi varsinainen alaraja 9.5 9.5 Alakvartiili 135/4+1/=33.75 4.5 19.5+(135/4-3)/46*10=6.18 Mediaani 135/+1/=68 34.5 9.5+(135/-49)/3*10=35.8 Yläkvartiili 3*135/4+1/=101.75 44.5 39.5+(3*135/4-81)/1*10=49.14 Maksimi varsinainen yläraja 89.5 89.5 Ikäjakauma sekä tarkennetuin että luokkakeskusten mukaisin luvuin Tarkka Luokkakeskus 0 0 40 60 80 100 Ikä MoMeKa: 7.05<35.8<38.7, eli selkeästi vino oikealle myös tämän säännön perusteella. 3

Laskari 3 Pituus Paino Pituus Paino Pituus*Paino 160 65 5600 45 10400 183 110 33489 1100 0130 170 60 8900 3600 1000 18 83 3314 6889 15106 190 90 36100 8100 17100 165 59 75 3481 9735 170 58 8900 3364 9860 180 70 3400 4900 1600 1400 595 45738 46659 105131 1. a) Pituus: 1400/8=175 s=sqrt((45738-(1400 )/8)/7)=10.67841614895 Paino: 595/8=74.375 s=sqrt((46659-(595 )/8)/7)=18.539051447456 b) Pituus: s.e.=10.678/sqrt(8)=3.630155039336 Paino: s.e.=18.5391/sqrt(8)=6.5545616635478 c) Pituus: V=10.678/175=0.0586731485714 Paino: V=18.5391/74.375=0.49651008403. a) Miehet: 5309/68=78.07359411765 s m =sqrt((43073-(5309 )/68)/67)=11.316763653807 Naiset: 4461/67=66.580895539 s n =sqrt((309509-(4461 )/67)/66)=13.7545057691 b) Miehet: 5309+150=5459 43073+150 =445573 n=68+1=69 5459/69=79.1159408986 s m =sqrt((445573-(5459 )/69)/68)=14.18318899869 79.1-78.07=1.05 (kilogrammaa) 14.183-11.317=.866 (kilogrammaa) c) Naiset: 4461+150=4611 309509+150 =33009 n=67+1=68 4611/68=67.808835941 s n =sqrt((33009-(4611 )/68)/67)=16.991004953843 67.81-66.58=1.3 (kilogrammaa) 16.991-13.755=3.36 (kilogrammaa) d) Miehet: Naiset: s.e.= 11.317/sqrt(68)=1.37387834681 s.e.= 14.183/sqrt(69)=1.707435543155 s.e.= 13.755/sqrt(67)=1.68044070711 s.e.= 16.991/sqrt(68)=.06046140496 Miehet: V= 11.317/78.07=0.1449596515947 V= 14.183/79.1=0.17959358817 Naiset: V= 13.755/66.58=0.0659357164314 V= 16.991/67.81=0.505677686683 e) Miesten keskiarvo on korkeampi ja keskihajonta pienempi. Poikkeava havainto kasvattaa naisten tunnuslukuja enemmän kuin miesten, koska on poikkeavampi havainto naisten joukossa. 4

Paino Pituus R (paino) R (pituus) d i d i R (pituus) P Pituus 58 170 1 3.5 -.5 6.5 3.5 4.5 170 59 165 0 0 5 165 60 170 3 3.5-0.5 0.5 3.5 4 170 65 160 4 1 3 9 1 4 160 70 180 5 5 0 0 5 3 180 83 18 6 6 0 0 6 18 90 190 7 8-1 1 8 0 190 110 183 8 7 1 1 7 183 Summa: 0 17.5 Summa:.5 3. Järjestystunnuslukujen sijaintipaikat: 8/4+0.5=.5 8/+0.5=4.5 8*3/4+0.5=6.5 paino Q 1 =(59+60)/=59.5 Q =(65+70)/=67.5 Q 3 =(83+90)/=86.5 pituus Q 1 =(165+170)/=167.5Q =(170+180)/=175 Q 3 =(18+183)/=18.5 Painon md=67.5 kilogrammaa Pituuden md=175 senttimetriä. Painon kvartiilipoikkeama Q=(86.5-59.5)/=13.5 Pituuden kvartiilipoikkeama Q=(18.5-167.5)/=7.5 Spearmanin ρ= 1-(6*17.5/(8 3-8))= 0.79166666666667 (tarvittava taulukko paperin ylälaidassa) R (paino) R (pituus) R (paino) R (pituus) R (paino) *R (pituus) 1 3,5 1 1,5 3,5 4 4 4 3 3,5 9 1,5 10,5 4 1 16 1 4 5 5 5 5 5 6 6 36 36 36 7 8 49 64 56 8 7 64 49 56 36 36 04 03,5 195 Tarkka arvo, kun on tasapelejä, eli järjestyslukujen Pearsonin korrelaatiokerroin: ρ=(8*195-36*36)/sqrt((8*04-36 )*(8*03.5-36 ))= 0.790433338675 4. Kedallin τ a =(**.5)/(8-8)-1=0.607148571486 (tarvittava taulukko paperin ylälaidassa) Tarkka arvo, kun on tasapelejä, eli jakaja vaihtuu kombinaatioiden lukumäärän huomioimiseksi: τ a =(*.5)/(sqrt((C(8,)-1)*(C(8,)-0)))-1=0.63663417676994 C(8,)=(8*7*6*5*4*3**1)/((*1)*(6*5*4*3**1)) on binomikerroin, jota käsitellään todennäköisyyslaskennan/kombinatoriikan yhteydessä kurssin toisella puoliskolla. 5

5. havaitut arvot: TEM EM Neu SM TSM SUM EOS (+6)jätetään pois! MIES 9 1 3 6 61 NAINEN 11 17 6 14 6 74 SUM 40 38 8 17 3 135 odotetut arvot: 61*40/135=18.074 61*38/135=17.170 61*8/135=3.615 61*17/135=7.681 61*3/135=14.459 74*40/135=1.96 74*38/135=0.830 74*8/135=4.385 74*17/135=9.319 74*3/135=17.541 χ =(9-18.074) /18.074+(1-17.170) /17.170+(-3.615) /3.615+(3-7.681) /7.681+(6-14.459) /14.459 +(11-1.96) /1.96+(17-0.830) /0.830+(6-4.385) /4.385+(14-9.319) /9.319+(6-17.541) /17.541=9.156 tai χ =9 /18.074+1 /17.170+ /3.615+3 /7.681+6 /14.459+11 /1.96+17 /0.830+6 /4.385+14 /9.319+6 /17.541-135=9.156 kontingenssikerroin C= sqrt(9.157/(9.157+135))=0.41 Cramerin V=sqrt((9.157/135)/(-1))=0.4647340936535 Teoriassa Cramerin V on parempi, koska luokkia on vähän (alle 5*5), mutta molemmat ovat heikkoja. Bonus) Järjestyskorrelaatiokertoimet antavat tiedon riippuvuuden suunnasta, eli siitä kasvaako vai pieneneekö samanmielisyys, kun sukupuoli vaihtuu. On huomattava, että etumerkillä ei ole kuin riippuvuussuunnan ilmaiseva merkitys. Sukupuolikoodausta vaihdettaessa etumerkkikin vaihtuu! P=9*(17+6+14+6)+1*(6+14+6)+*(14+6)+3*(6)=951 Q=11*(1++3+6)+17*(+3+6)+6*(3+6)+14*(6)=677 X t =9*11+1*17+*6+3*14+6*6=886 Y t =9*(1++3+6)+1*(+3+6)+*(3+6)+3*(6)+11*(17+6+14+6)+17*(6+14+6)+6*(14+6)+14*(6)=374 n x =40*(40-1)/+38*(38-1)/+8*(8-1)/+17*(17-1)/+3*(3-1)/=143 n y =61*(61-1)/+74*(74-1)/=4531 τ a = (951-677)*/(135-135)=0.514096185738 (Käytetään vain, kun ei tarvitse huomioida tasapelejä.) τ a = (951-677)/sqrt(((135-135)/-143)*((135-135)/-4531))= 0.40740110771485 τ b = (951-677)/(sqrt(951+677+886)*sqrt(951+677+374))=0.40740110771485 τ c = (951-677)**/(135 *(-1))=0.4990946500576 γ= (951-677)/(951+677)=0.66791607767 (Ei huomioi tasapelejä mitenkään!) ρ=(135*700987.5-9180*9180)/sqrt((135*81618.5-9180 )*(135*776587.5-9180 ))= 0.44880840611 aineisto TEM EM NEU SM TSM sum M 9 1 3 6 61 N 11 17 6 14 6 74 sum 40 38 8 17 3 135 järjestysluvut TEM EM NEU SM TSM SP M 0.5 59.5 8.5 95 119.5 31 N 0.5 59.5 8.5 95 119.5 98.5 summat TEM EM NEU SM TSM SP M 594.5 149.5 165 85 717 1891 N 5.5 1011.5 495 1330 3107 789 summa: 9180 9180 summat TEM EM NEU SM TSM SP M 1187.5 74345.5 1361.5 7075 85681.5 5861 N 46.75 60184.5 40837.5 16350 37186.5 717966.5 summa: 81618.5 776587.5 tulot TEM EM NEU SM TSM M 1849.5 38734.5 5115 8835 7 N 11.75 9963.75 48757.5 131005 306039.5 summa: 700987.5 6

Laskari 4 1. Ikä Pituus (x) Paino (y) Pituus Paino Pituus*Paino 15 185 70 345 4900 1950 19 183 88 33489 7744 16104 19 170 65 8900 45 11050 1 160 56 5600 3136 8960 1 165 56 75 3136 940 1 169 7 8561 5184 1168 1 175 70 3065 4900 150 1 178 91 31684 881 16198 1 18 75 3314 565 13650 1 189 75 3571 565 14175 1756 718 309154 5756 16745 x=1756/10=175.6 s x =sqrt((309154-1756 /10)/9)=9.4304471438705 y =718/10=71.8 s y =sqrt((5756-718 /10)/9)=11.5643190936 r xy =(10*16745-1756*718)/sqrt((10*309154-1756 )*(10*5756-718 ))= 0.6767156708117. a) 1756 718 309154 5756 16745 00 40 40000 1600 8000 1956 758 349154 54356 134745 x =1956/11=177.81818181818 s x =sqrt((349154-1956 /11)/10)=11.589076069 y =758/11=68.909090909091 s y =sqrt((54356-758 /11)/10)=14.5700613054 r xy = (11*134745-1956*758)/sqrt((11*349154-1956 )*(11*54356-758 ))= -0.0440183060766 b) 1756 718 309154 5756 16745 150 40 500 1600 6000 1906 758 331654 54356 13745 x =1906/11=173.777773 s x =sqrt((331654-1906 /11)/10)=11.816013787153 y =758/11=68.909090909091 s y =sqrt((54356-758 /11)/10)=14.5700613054 r xy =(11*13745-1906*758)/sqrt((11*331654-1906 )*(11*54356-758 ))= 0.81567053433031 7

Paino/pituus 100 Paino 95 90 85 80 75 70 65 60 55 50 45 40 35 30 140 145 150 155 160 165 170 175 180 185 190 195 00 05 10 Pituus 3. Selitysaste on hyvin herkkä poikkeaville havainnoille: 1) r =0.4579398984455 a) r =0.000595449337 b) r =0.6653184057469 4. a) 1. Md=(175+178)/=176.5 a) Md=178 b) Md=175 b) 1 x =175.6 a) x =177.8 b) x =173.3 Mediaanit ovat hieman vakaampia, vaikkakin ero on tässä tapauksessa varsin pieni. c) 1 ρ= 1-(6*54.5/(10 3-10))= 0.66969696969697 (tarkka: 0.66669474) a) ρ= 1-(6*164.5/(11 3-11))= 0.5777773 (tarkka: 0.4714541) b) ρ= 1-(6*54.5/(11 3-11))= 0.75777773 (tarkka: 0.75058977) d) 1 τ a = 4*33.5/(10-10)-1= 0.48888888888889 (tarkka: 0.54114641586459) a) τ a = 4*33.5/(11-11)-1= 0.181818181818 (tarkka: 0.58896661133) b) τ a = 4*43.5/(11-11)-1= 0.58181818181818 (tarkka: 0.66807766147) e) Järjestyskorrelaatiokertoimet muuttuvat, kun lisätään poikkeava havainto, mutta ovat huomattavasti vakaampia kuin Pearsonin korrelaatiokerroin. 1 r = 0.6767156708117 a) r = -0.0440183060766 b) r = 0.81567053433031 5. A) B) C) -1 1 D) E) F) l) 1.0 k) 0.9644 c) -0.9619 a) -1.0 g/h) 0 i) 0.6099 G) H) I) J) K) L) f) -0.0054 d) -0.6833 j) 0.8870 b) -0.9938 g/h) 0 e) -0.630 Bonus: r xy = s xy /(s x* s y ) <=> s xy =r xy* s x * s y 1) s xy = 0.6767156708117*9.4304471438705*11.5643190936=73.799999999999 a) s xy =-0.0440183060766*11.589076069*14.5700613054=-4.11818181818 b) s xy = 0.81567053433031*11.816013787153*14.5700613054=140.477778 8

Laskari 5 1. x= 1756/10=175.6 s x = sqrt((309154-1756 /10)/9)=9.430 y= 718/10=71.8 s y = sqrt((5756-718 /10)/9)=11.564 r xy = (10*16745-1756*718)/sqrt((10*309154-1756 )*(10*5756-718 ))=0.676 b= 0.6767*11.564/9.430=0.898 a= 71.8-0.898*175.6=-73.91 paino=-73.91+0.898*pituus (musta suora) ennuste: -73.91+0.898*185=79.603 residuaali: 70-79.603=-9.603 x= 1956/11=177.8 s x = sqrt((349154-1956 /11)/10)=11.583 y= 758/11=68.91 s y = sqrt((54356-758 /11)/10)=14.570 r= (11*134745-1956*758)/sqrt((11*349154-1956 )*(11*54356-758 ))=-0.044 b= -0.044*14.570/11.583=-0.0307 a= 68.91+0.0307*177.8=74.37 paino=74.37-0.0307*pituus (vihreä suora) ennuste: 74.37-0.0307*185=68.690 residuaali: 70-68.69=1.31 x = 1906/11=173.7 s x = sqrt((331654-1906 /11)/10)=11.816 y = 758/11=68.91 s y = sqrt((54356-758 /11)/10)=14.570 r= (11*13745-1906*758)/sqrt((11*331654-1906 )*(11*54356-758 ))=0.81567 b= 0.8157*14.570/11.816=1.0058 a= 68.91-1.0058*173.7=-105.36 paino=-105.36+1.0058*pituus (punainen suora) ennuste: -105.36+1.0058*185=80.713 residuaali: 70-80.71=-10.71 Diagram of H5T3 100 Paino 90 80 70 60 50 40 30 145 150 155 160 165 170 175 180 185 190 195 00 05 Pituus Suoran piirtämiseksi tulee valita kaksi pistettä (selittävän muuttujan minimi ja maksimi ovat hyviä). 9

. a) b= 0.555*14.19857/8.573303=0.915016059 a= 7.9-0.9150*17.06=-85.1449 paino=-85.14+0.9150*pituus ennuste: -85.14+0.9150*180=79.56 ennuste: -85.14+0.9150*140=4.96 b) b= 0.555*8.573303/14.19857=0.333607533 a= 17.06-0.3336*7.9=147.944056 pituus=147.94+0.3336*paino ennuste: 147.94+0.3336*60=167.956 ennuste: 147.94+0.3336*00=14.66 c) Selitysaste: r =0.555 =0.305565 Pituudella selitetään painoa 10 Paino Painolla selitetään pituutta 00 Pituus 100 180 80 60 160 40 150 160 170 180 190 00 140 40 60 80 100 10 Pituus Paino 3. Selitysaste r =0.0171 a) Kenkä=39.53+0.068*Ikä b) Ikä=10.56+0.637*Kenkä c) Tämä tehtävä on raskaasti ylikurssia! Ratkaistaan yhtälöpari: Kenkä=39.53+0.068*Ikä Ikä=10.56+0.637*Kenkä Kenkä=39.53+0.068*10.56+0.068*0.637*Kenkä Kenkä=(39.53+0.068*10.56)/(1-0.068*0.637) Kenkä=40.504484355117 Ikä=10.56+0.637*40.504484355117 Ikä=36.36135653409 Leikkauspiste on muuttujien keskiarvopiste ja samalla aineiston tasapainopiste: (36.4, 40.5) Ikä/Kenkä 48 Kenkä 45 4 39 36 33 30 7 10 0 30 40 50 60 70 80 90 Ikä 4. a) P(X<157)=P(Z<(157-17)/9)=P(Z<-1.6667)=1-P(Z<1.6667)=1-Φ(1.6667)=1-0.955=0.0475 b) P(X>181)=P(Z>(181-17)/9)=P(Z>1)=1-P(Z<1)=1-Φ(1)=1-0.8413=0.1587 c) P(167<X<177)=P(X<177)-P(X<167)=P(Z<(177-17)/9)-P(Z<(167-17)/9) =P(Z<0.5556)-P(Z<-0.5556)=Φ(0.5556)-(1-Φ(0.5556))=*Φ(0.5556)-1= *0.713-1=0.446 d) P(X=17)=0 e) P(X<x p )=0.75 <=> P(Z<(x p -17)/9))=0.75 <=> Φ((x p -17)/9)=0.75 <=> 0.675=(x p -17)/9 <=> x p =0.675*9+17=178.075 f) P(X<x p )=0.5 <=> P(Z<(x p -17)/9))=0.5 <=> Φ((x p -17)/9)=0.5 <=> -0.675=(x p -17)/9 <=> x p =-0.675*9+17=165.95 Bonus: Mallin yhtälö: Kenkä=-0.0049*Ikä+0.5*Pituus+0.069*Paino-.69 Selitysaste: r =0.8609 =0.7441 Ikä ei ole merkitsevä selittäjä, sillä sen t-testisuureen arvo -0.465 on n ja n välillä. 10

5. a α b β c C χ d i d i i e e ij ε f i F i f ij Φ G γ γ 1 γ vakio [constant] mallin vakio (alfa) suoran kulmakerroin mallin kerroin (beta) [regression coefficent] luokkavälin pituus kontingenssikerroin khi-toiseen -tunnusluku (chi) järjestyslukujen erotus järjestyslukujen erotuksen neliö frekvenssien erotus (Delta) neperin luku odotettu frekvenssi [expected frequence] virhetermi (epsilon) [error] frekvenssi summafrekvenssi / kumulatiivinen fr. solufrekvenssi [cell frequence] normaalijakauman taulukkoarvo (Phi) geometrinen keskiarvo Goodmanin ja Kruskallin gamma (järjestyskorrelaatiokerroin) (Fisherin) vinousmitta [skewness] huipukkuus [kurtosis] H harmoninen keskiarvo H entropia [entropy] H s suhteellinen entropia ij alaindeksejä k poimintaväli k luokkien lukumäärä k sarakkeiden lukumäärä l rivien lukumäärä L i luokan varsinainen alaraja µ odotusarvo (myy) [expected value] n otoskoko [sample size] N perusjoukon koko [population size] p i suhteellinenfr./prosenttifrekvenssi P Pearsonin vinous P oikeiden järjestystenlukumäärä P i summaprosenttifrekvenssi P todennäköisyys [probability] Π tulo (Pii) π pii Q väärien järjestysten lukumäärä Q Q 1 Q Q 3 kvartiilipoikkeama [quartile deviation] alakvartiili [lower quartile] keskikvartiili/mediaani yläkvartiili [upper quartile] r r R R R ρ s s s xy S σ σ Pearsonin (tulomomentti)korrelaatiokerroin selitysaste [coefficent of determination] vaihteluvälin pituus [range] yhteiskorrelaatiokerroin [multiple correlation coefficent] selitysaste Spearmanin rho (järjestyskorrelaatiokerroin) otoskeskihajonta otosvarianssi [sample variance] kovarianssi oikeiden ja väärien järjestysten erotus keskihajonta (sigma) [standard deviation] varianssi [variance] Σ summa (Sigma) τ a,b,c Kendallin tau (järjestyskorrelaatiokerroin) V variaatiokerroin V Cramerin V w vaihteluvälin pituus W vaihteluväli W Kendallin konkordanssi x muuttuja/selittävä muuttuja [variable] X satunnaismuuttuja [random variable] y selitettävä muuttuja [dependent variable] z standardoitu muuttuja _ x keskiarvo [average / mean] Corr korrelaatiokerroin [correlation coefficent] Cov kovarianssi [covariance] IQR kvartiiliväli [interquartile range] MAD absoluuttinen keskipoikkeama Max suurin havainto [maximum] Md mediaani [median] Me mediaani Min pienin havainto [minimum] Mo moodi/tyyppiarvo [mode] R (x) järjestystunnusluku [order statistic] s.e. keskiarvon keskivirhe [standard error] Var varianssi [variance] x i i'nnes havainto [i'th observation] x (i) i'nneksi pienin havainto OO ositettu otanta [stratified sampling] RO ryväsotanta [cluster sampling] SO systemaatinen otanta [systematic s.] YSO yksinkertainen satunnaisotanta [simple random sampling] 11

Harjoitus 6 1. a) opinto - kvali, laatuero, diskreetti b) likert - kvali, järjestys, diskreetti c) cooper - kvanti, suhde, jatkuva d) rikos/väestö - kvanti, suhde, jatkuva e) rikokset - kvanti, suhde, diskreetti f) tulot - kvanti, suhde, diskreetti g) reaktio - kvanti, suhde, jatkuva h) pisteet - kvanti, suhde, diskreetti i) ammatti - kvali, laatuero, diskreetti j) radio - kvanti, välimatka, diskreetti (löytyy muitakin perusteltuja vaihtoehtoja) k) oppilaat - kvanti, suhde, diskreetti a) moodi, entropia b) mediaani, kvartiiliväli c) keskiarvo, keskihajonta d) keskiarvo, keskihajonta e) keskiarvo, keskihajonta f) mediaani, kvartiilipoikkeama tai ka,s g) keskiarvo, keskihajonta h) keskiarvo, keskihajonta i) moodi, entropia j) moodi, vaihteluvälinpituus k) keskiarvo, keskihajonta. Pituus Paino Pituus Paino Pituus*Paino 166 59 166 =7556 59 =3481 166*59= 9794 17 65 17 =9584 65 =45 17*65=11180 165 58 165 =75 58 =3364 165*58= 9570 186 8 186 =34596 8 =674 186*8=155 186 80 186 =34596 80 =6400 186*80=14880 161 56 161 =591 56 =3136 161*56= 9016 169 68 169 =8561 68 =464 169*68=1149 180 7 180 =3400 7 =5184 180*7=1960 1385 540 40439 37138 94144 X =1385/8=173.15 s x =((40439-1385 /8)/7) 0.5 =9.717 Y =540/8=67.5 s y =((37138-540 /8)/7) 0.5 =9.914 r xy =(8*94144-1385*540)/((8*40439-1385 )*(8*37138-540 )) 0.5 =0.9736 3. b=0.9736*9.9139/9.7165=0.9934 a=67.5-0.9934*173.15=-104.48 Yhtälö: Paino=0.9934*Pituus-104.48 0.9934*175-104.48=69.365 PNS-suora 90 PAINO 80 70 Pistettä (161, 56) koskeva ennuste: 0.9934*161-104.48=55.46 ja residuaali: 56-55.46=0.54 Selitysaste: 0.9736 =0.9479 60 50 160 165 170 175 180 185 190 PITUUS 1

4. f i x i f i x i x i f i x i 1 144.5 144.5 0880.5 0880.5 10 154.5 1545 3870.5 3870.5 51 164.5 8389.5 7060.5 138007.75 41 174.5 7154.5 30450.5 148460.5 0 184.5 3690 34040.5 680805 1 194.5 194.5 37830.5 7830.5 14 1118.0 3606751.0 X =1118/14=170.306 s=((3606751-1118 /14)/13) 0.5 =9.115 X =(1118+114.5)/(14+1)=169.86 s=(((3606751+114.5 )-(1118+114.5) /15)/14) 0.5 =10.360 Pituus 60 f 50 40 30 0 10 0 90 110 130 150 170 190 10 Pituus 5. Järjestystunnuslukujen sijainnit sekä järjestystunnusluvut, kun käytetään luokkakeskuksia: minimi: alimman luokan varsinainen alaraja => 109.5 alakvartiili: 15/4+0.5=31.75 => 164.5 mediaani: 15/+0.5=63 => 164.5 yläkvartiili: 3*15/4+0.5=94.5 => 174.5 maksimi: ylimmän luokan varsinainen yläraja => 199.5 Viisilukuinen yhteenveto on siis: (109.5,164.5,164.5,174.5,199.5) Tarkemmat arvot ovat: (109.5,163.3,169.4,177.0,199.5) Alakvartiili: 159.5+(15/4-1)/51*10=163.745098039 Mediaani: 159.5+(15/-1)/51*10=169.40196078431 Yläkvartiili: 169.5+(3*15/4-63)/41*10=177 13

Jana-laatikko -diagrammi luokitellusta pituudesta 1 100 110 10 130 140 150 160 170 180 190 00 PITUUS Jana-laatikko -diagrammi tarkemmilla arvoilla 1 100 10 140 160 180 00 PITUUS Bonus: pituus Paino R (pituus) R (paino) d i d i R (pituus) P 161 56 1 1 0 0 1 7 165 58 0 0 6 166 59 3 3 0 0 3 5 17 65 5 4 1 1 5 3 169 68 4 5-1 1 4 3 180 7 6 6 0 0 6 186 80 7,5 7 0,5 0,5 7,5 0,5 186 8 7,5 8-0,5 0,5 7,5 summa,5 summa 6,5 Spearmanin ρ=1-6*.5/(8 3-8)=0.97038095381 Tarkka arvo, eli Pearsonin korrelaatiokerroin järjestysluvuille: ρ=0.970077 Kendallin τ a =4*6.5/(8-8)-1=0.898571485714 Tarkka arvo: τ a =(6.5-1.5)/sqrt((C(8,)-1)*(C(8,)-0))=0.909410931663 14