VAASAN YLIOPISTO Tilastotietee johdatokurssi Luetoruko Christia Gustafsso
1 SISÄLLYSLUETTELO 1. JOHDANTO... 1.1. Mitä tilastotiede o?... 1.. Tilastotietee historiaa... 3. HAVAINTOAINEISTON HANKINNASTA JA MITTAAMISESTA... 5.1. Havaitoaieisto, havaitomatriisi ja mittaamie... 5.. Havaitoaieisto hakiasta ja otatameetelmistä... 9 3. YKSIULOTTEINEN EMPIIRINEN JAKAUMA... 1 3.1. Frekvessijakauma peruskäsitteitä ja luokitus... 1 3.. Graafie esitys... 16 3.3. Yksiulotteise jakauma tuusluvut... 1 3.3.1. Keskiluvut... 1 3.3.. Hajotaluvut... 7 3.3.3. Yksiulotteise jakauma muita tuuslukuja... 3 4. KAKSIULOTTEINEN EMPIIRINEN JAKAUMA... 34 4.1. Ristiitaulukko ja kotigessikerroi... 34 4.. Korrelaatiodiagrammi ja korrelaatio... 39 4.3. Järjestyskorrelaatio... 43 4.4. Regressio... 45 5. TODENNÄKÖISYYSLASKENTAA... 50 5.1. Kombiatoriikkaa... 50 5.. Todeäköisyyde määrittely... 5 5.3. Ehdollie todeäköisyys ja riippumattomuus... 54 6. TEOREETTISISTA JAKAUMISTA... 57 6.1. Satuaismuuttujista... 57 6.. Diskreeteistä teoreettisista jakaumista... 57 6.3. Jatkuvista teoreettisista jakaumista... 59 7. TILASTOLLISESTA PÄÄTTELYSTÄ... 65 7.1. Estimoiista... 65 7.. Hypoteesie testauksesta... 69 7..1. Testaukse pääpiirteet... 69 7... Keskiarvotestejä... 7 7..3. Prosettilukutestejä... 77 7..4. Riippuvuustutkimuksee liittyviä testejä... 79 7..5. -yhteesopivuustesti... 8
1. JOHDANTO 1.1. Mitä tilastotiede o? Tilasto o empiiristä ilmiötä kuvaava usei taulukkoa esitetty umeerie aieisto. Tilastoiti tuottaa tällaisia eri ilmiöitä kuvaavia aieistoja. Erilaisia empiirisiä ilmiöitä kuvaavissa aieistoissa esiityy samatyyppisiä ogelmia, joide tutkimisessa tilastotieteestä o apua ja muodostetut tilastot ovat tilastollise tutkimukse materiaalia. Tilastotiede o oppiaie, joka aiheea voidaa pitää sattuma ja vaihtelu hallitaa, iformaatio suodattamista datasta sekä mallitamista moille eri tieteealoilla. Tilastotiede o empiirisluotoiste tietoje hakia suuittelua keräämistä deskriptiivie eli järjestämistä esittämistä kuvaileva tilastotiede sekä aalysoitia tilastollie päättely eli tulkitaa iferessi *) koskeva tiede. *) Tilastollie päättely o luoteeltaa iduktiivista, jolloi osajoukkoa koskevat tulokset yleistetää koskemaa koko perusjoukkoa. Tilastotiede o s. meetelmätiede, joka tehtävää o kehittää meetelmiä muide tieteide (esim. talous-, luoo- ja yhteiskutatieteide) empiirisiä ilmiöitä kuvaavie tietoje aalysoitia varte. Empiirie ilmiö voi olla sellaie, joho vaikuttavat vai systemaattiset tekijät (determiistie ilmiö) tai sellaie, joho systemaattiste tekijöide lisäksi vaikuttaa myös sattuma (satuaisilmiö). Sattuma käsitteellä tarkoitetaa satuaisilmiö sitä käyttäytymise osuutta, jota ei voida etukätee tarkkaa eakoida. Usei kuiteki sattuma käyttäytymie oudattaa omia lakejaa. Tilastotiedettä käytetää erityisesti satuaisilmiöide tutkimisee. Tilastotietee lisäksi meetelmätieteitä ovat myös matematiikka ja tietotekiikka. Tilastotiede soveltaa meetelmiä kehittäessää matematiika teoriaa, erityisesti todeäköisyyslaskea teoriaa, siksi tilastotiedettä usei pidetääki sovelletu matematiika eräää osa-alueea (matemaattie eli teoreettie tilastotiede). Tilastotietee ja tietotekiika yhteistä aluetta saotaa tilastolliseksi tietojekäsittelyksi. Usei tilastolliste meetelmie kehittämisvaiheessa iihi liittyy
3 vaatimus sovellettavuudesta ja käsitys sovellustilateesta. Oki käyyt usei ii, että raja tilastotietee ja soveltavie tieteide välillä o hämärtyyt, jolloi soveltavie tieteide piirissä o raja-aluetta alettu imittää omalla imellä (esim. epidemiologia, biometria, evirometriikka, psykometriikka, demometria ja ekoometria). Tilastotiedettä voidaa kuiteki soveltaa lähes mihi tahasa tieteesee, koska tilastotietee teoria o yleistä. Esim. 1 Deskriptiivisee eli kuvailevaa tilastotieteesee törmätää päivittäi osakkeide hiamuutoksissa työttömyysluvuissa puolueide kaatusluvuissa lämpötiloissa yms. Esim. Tilastollista päättelyä käytetää mm. tulevaisuude eustamisessa vakuutusyhtiö arvioidessa vakuutukse hitaa laadutarkkailussa Tilastollisessa aalyysissä tutkittavat ogelmat pelkistyvät usei seuraavalaisiksi kysymyksiksi: Millaie tilae o keskimääri? Kuika suuri o prosetuaalie osuus? Kuika suurta o omiaisuude vaihtelu? Oko eroa? Oko samalaisuutta? Oko muutosta? Oko riippuvuutta? Millaista riippuvuus o? Mite tulevaisuudessa? 1.. Tilastotietee historiaa Laajassa mielessä tilastotiedettä harrastettii systemaattiste tietoje keräykse muodossa jo muiaisessa Kiiassa ja Egyptissä (väestökirjapito). Moderi tilastotietee juuret voidaa ajoittaa 1600-luvulle, jolloi eurooppalaiste yhteiskutie kehittyessä tarvittii
4 luotettavaa tietoa taloude ilmiöistä (= poliittie taloustiede, joka erästä osa-aluetta saottii yliopistostatistiikaksi) sekä valtio ja väestö tilasta (= poliittie aritmetiikka). Saa tilasto saksa- ja eglaikieliset vastieet Statistik ja statistics viittaavatki saa alkuperäisee merkityksee: valtio kuvaus. Vuoa 166 julkaistii Eglaissa tilastollise tutkimukse urauurtaja Joh Grauti teos Natural ad Political Observatios o the Bills of Mortality. Merkittävästi tilastotietee sytyy ja kehityksee ovat vaikuttaeet myös uhkapeliogelmat. Uhkapeliharrastuste lisäätymise myötä alettii 1600-luvulla tutkia todeäköisyyslasketaa erityisesti Raskassa. Vielä 1700-luvulla ja se jälkeeki havaitoaieistoja käsiteltii varsi alkeellisi meetelmi (yksikertaisia meetelmiä, lähiä kuvailevaa tilastotiedettä). Aalysoiva tilastotietee rialla kulki siitä erilliseä halliollie tilastoiti. Nämä yhdistyivät jossai määri 1800-luvulla, ku matematiika voimakas kehittymie loi tilastotieteelle selkeä teoreettise pohja. 1800-luvulla alettii luoo-, yhteiskuta- ja käyttäytymistieteissä kiiostua tilastotietee meetelmistä. Tältä ajalta ovat peräisi esim. Gregor Medeli periöllisyyskokeet. Myös matemaattie tilastotiede alkoi kehittyä voimakkaasti 1800-luvu loppupuolella, esimerkiksi korrelaatioteoria ja regressiolai perusteet esitettii v. 1888. 1900-luvu alkupuolella sytyivät moet tilastotietee perusmeetelmistä. Viime vuosikymmeiä tilastotietee teoria ja sovellusalueet ovat laajetueet valtavasti. Tähä o erityisesti vaikuttaut tietojekäsittelymahdollisuuksie kehittymie. Suomekielie saa tilasto otettii käyttöö 1840-luvulla. Ruotsi-Suomi oli esimmäie valtio, jossa alettii sääöllisesti laatia väestötilastoja, esimmäiset tiedot koskivat vuotta 1749. Tuolloi Ruotsi-Suome väkiluku oli 13 619 hekeä. Esimmäie suomekielie tilastokirja Suome Suuriruhtiaa Nykyie Tilasto julkaistii vuoa 1848. Vuoa 1865 perustettii Tilastollie toimisto (yk. Tilastokeskus). Vuoa 1905 Karl Willgre julkaisi esimmäise suomalaise tilastotietee oppikirja. Esimmäie tilastotietee professuuri saatii Helsigi yliopistoo vuoa 1945.
5. HAVAINTOAINEISTON HANKINNASTA JA MITTAAMISESTA Havaitoaieisto o tilastollise aalyysi perusta, jote o tärkeää, että se o huolella koottu ja esikäsitelty..1. Havaitoaieisto, havaitomatriisi ja mittaamie Tilastollie tutkimus kohdistuu aia joideki tutkimusobjektie muodostamaa joukkoo, joka o tutkimukse perusjoukko eli populaatio eli kohdejoukko. Populaatio rajaamie o tutkimukse esimmäisiä vaiheita. Populaatio alkioita eli tutkimusobjekteja kutsutaa tilastoyksiköiksi eli havaitoyksiköiksi, joista käytetää merkitää a 1, a, a 3, Jos tutkittavaa o kokreettie aieisto, tilastoyksiköt imetää omalla imellää. Esim.3 Tutkittavaa o 0 kpl Suome kutia, joista tiedetää veroprosetti. Tilastoyksikköä o kuta, mutta mikä o populaatio? em. kutie joukko, jos tutkitaa vai äitä kutia (kokoaistutkimus) kaikki Suome kuat (otatatutkimus) tiety suuraluee kuat (otatatutkimus) Huom. Tutkittavista tilastoyksiköistä tehtävät johtopäätökset ulottuvat vai määrättyy populaatioo (vrt. superpopulaatio). Tämä takia populaatio rajaamie o tärkeää. Tilastoyksikköö liittyvistä omiaisuuksista muodostetaa tilastollisia muuttujia, joita merkitää usei, y, z, tai 1,, 3, (Poikkeus: Jos tarkastellaa vai yhtä muuttujaa, merkitä 1 tarkoittaa esimmäise tilastoyksikö -muuttuja arvoa, toise tilastoyksikö -muuttuja arvoa, 3 kolmee tilastoyksikö -muuttuja arvoa je.) Jotta tilastollisia meetelmiä voidaa soveltaa, o tutkittava ilmiö omiaisuudet voitava esittää umeerisesti. Tämä tehdää mittaamalla tilastoyksiköiltä muuttujie arvot eli havaitoarvot. Mittaamisella tarkoitetaa meettelyä (operaatiota, säätöä), jolla tutkittavaa tilastoyksikköö liitetää se tiettyä omiaisuutta kuvaava luku eli mittaluku. Ku tilastoyksikö tarkastelualaie omiaisuus mitataa ja saadaa mittaustulos, saotaa tätä tulosta ko. muuttuja arvoksi. Käytetyt mittaluvut ovat tilastollise tutkimukse lähtökohta, joho tutkimukse oistumie perustuu. O huolehdittava siitä, että muuttujalla o korkea validiteetti (asiamukaisuus) eli muuttuja mittaa sitä omiaisuutta, jota se olisi tarkoitus mitata. Esimerkiksi kysymys Kuika mota kertaa syöt viikossa porkkaaraastetta? ei mittaa
6 sitä, pidätkö porkkaaraasteesta vai et. Myös muuttuja reliabiliteeti (pysyvyyde, eisattumavaraisuude) täytyy olla korkea, eli toisistaa riippumattomie samalle tilastoyksikölle tehtyje mittauste tulokset pitäisi olla samat. Erityisesti käyttäytymis- ja yhteiskutatieteissä ovat muuttuja validiteetti ja reliabiliteetti tärkeitä käsitteitä. Tilastolliset muuttujat voivat olla suoraa mitattuja tai teoreettisia muuttujia. Teoreettiste muuttujie (esim. älykkyyde) mittaamisessa käytetää apua idikaattoreita. Älykkyyde idikaattoreita voisivat olla esim. meestymie erilaisissa testeissä, joide tulokset yhdistetää esim. yhdeksi muuttujaksi laskemalla eri testie pistemäärät yhtee. Tilastollie muuttuja o jatkuva (jatkuva-arvoie), jos se voi periaatteessa saada mikä tahasa reaalilukuarvo joltai (järkevältä) väliltä. Vaikka muuttuja olisiki periaatteessa jatkuva, o käytäössä mittaustarkkuus aia äärellie. Jatkuvuude käsite perustuuki ajatuksee, että mittaustarkkuutta voidaa parataa rajatta. Esimerkiksi hekilö ikä o jatkuva muuttuja, vaikka se arvot esitetääki usei kokoaislukuia ( vuotta, 4 vuotta je.). Muuttuja o diskreetti eli epäjatkuva, jos se arvoia voivat olla vai jotki erilliset lukuarvot jollaki välillä. Esimerkiksi sisaruste lukumäärä o epäjatkuva muuttuja, koska se arvoia voivat olla luvut 0 tai 1 tai je. Ku tutkittavilta tilastoyksiköiltä mitataa halutut tutkittavat omiaisuudet, saadaa havaitoaieisto. Havaitoaieisto esitetää usei havaitomatriisia, joka siis koostuu tilastoyksiköide omiaisuuksia kuvaavista muuttujie arvoista. Aieisto o site kvatitatiivie eli s. kova aieisto. 1 j k a1 a ai a 11 1 1i 1 1 i j1 j ji j k1 k ki k Tilastoyksiköitä tässä havaitomatriisissa o kpl (eli vaakarivie lukumäärä). Yhde tilastoyksikö (a i ) eri muuttujie arvot esitetää yhdellä vaakarivillä. Tätä vaakariviä saotaa ko. tilastoyksikö havaitovektoriksi eli profiiliksi. Muuttujia havaitomatriisissa o k kpl (eli sarakkeide lukumäärä). Yhdellä sarakkeella esitetää site kaikista tilastoyksiköistä sama muuttuja ( j ) arvo. Sarake muodostaa site ko. muuttuja jakaumavektori.
7 Tilastolliset mitta-asteikot Havaitomatriisissa olevat havaitoarvot äyttävät tavallisilta reaaliluvuilta. Näillä arvoilla o kuiteki myös toie sisältö. Ne kuvaavat jotaki omiaisuutta, ja käytetty esitystapa o vai välie ilmiö tutkimisessa. Tavallisia reaalilukuja voidaa laskea yhtee, jakaa keskeää, iistä voidaa ottaa logaritmeja je. Myös havaitoaieistolle tehtävät tilastolliset operaatiot perustuvat tällaisii laskutoimituksii, mutta äitä operaatioita tehtäessä o aia pidettävä mielessä, että saatu tulos o voitava tulkita empiirisesti mielekkäällä tavalla. Tulkia mielekkyys riippuu muuttuja tilastollisesta mitta-asteikosta. Muuttuja mitta-asteiko tutemie o tärkeää, koska erilaisille muuttujille sopivat vai tietyt tilastolliset tuusluvut ja aalysoitimeetelmät. Mitä korkeampi o mittaustaso, sitä eemmä o käytössä aalyysimeetelmiä. Seuraavassa esitellää mitta-asteikkojako, jossa muuttujat jaetaa eljää ryhmää, jotka esitetää alhaisimmasta korkeimpaa. 1 Nomiaali- eli luokittelu- eli laatueroasteikko Jos tilastoyksiköt aioastaa jaetaa muuttuja perusteella luokkii, mitataa muuttujaa omiaaliasteikolla. Tällöi esimerkiksi kahdesta tilastoyksiköstä voidaa saoa aioastaa, että e ovat joko samalaisia tai erilaisia muuttuja suhtee. Nomiaaliasteikolla muuttuja luokkie imet voidaa korvata umerokoodeilla, jotka voidaa valita vapaasti. Luokkie tai umerokoodie järjestykse vaihtamie ei vaikuta mitekää saatavii tuloksii. Muuttuja-arvoje välisillä aritmeettisilla laskutoimituksilla ei ole mielekästä tulkitaa. Aioastaa lukumäärii perustuvat laskeat ovat järkeviä. Esim. 4 sukupuoli: mies = 1 aie = ammatti: pappi = 1 lääkäri = opettaja = 3 Esim. 5 Liisa o pappi ja Leea o opettaja. Liisalla ja Leealla o eri ammatit. Liisalla ja Leealla o sama sukupuoli. Ordiaali- eli järjestysasteikko Ordiaaliasteikolla voidaa omiaaliasteikollise luokittelu lisäksi joki järjestysrelaatio, joka voidaa ilmaista saoilla "parempi", "vaikeampi", "kauiimpi", Luokittelu lisäksi luokat voidaa asettaa järjestyksee muuttuja mukaa. Muuttuja arvoje välillä vallitsee joki järjestysrelaatio. Mitää lukua ei vertailuu voida kuitekaa ottaa mukaa. Peruslaskutoimitukset eivät ole sallittuja ordiaaliasteikolla.
8 Ordiaaliasteikollise muuttuja arvoje koodaus o muute vapaata, kuha olemassa oleva järjestys tulee yksikäsitteisesti määrätyksi. Esim. 6 arvosaa: tyydyttävä = 1 hyvä = kiitettävä = 3 suhtautumie tiettyy väitteesee (s. Likert-asteikko): täysi eri mieltä = 1 jokseeki eri mieltä = ei eri mieltä eikä samaa mieltä = 3 jokseeki samaa mieltä = 4 täysi samaa mieltä = 5 sijoitus maastojuoksu piirimestaruuskilpailuissa Esim. 7 Matti sai tetistä arvosaa hyvä ja Liisa sai arvosaa kiitettävä. (Matti ja Liisa saivat eri arvosaa.) Liisa arvosaa o parempi kui Matilla. 3 Itervalli- eli välimatka-asteikko Itervalliasteikolla voidaa luokittelu ja järjestyksee asettamise lisäksi vertailla muuttuja lisäyste suuruutta keskeää lukuje avulla. Kahde tilastoyksikö a i ja a j välistä eroa muuttuja osalta vastaa muuttuja-arvoje i ja j erotus. Muuttuja-arvoje yhtee- ja väheyslasku o sallittu. Muuos f() = a + b, ku b > 0, säilyttää itervalliasteiko raketee. Asteiko ollapiste o sopimuksevaraie (keiotekoie). Jotkut itervalliasteikolla mitatut muuttujat voivat saada egatiivisiaki arvoja. Esim. 8 lämpötila Celsius- tai Fahreheit-mittarilla mitattua ( Celsius, y Fahreheit; lieaarie muuos y = 3 + 1.8) kaleteri mukaa mitattava aika leveys- ja pituusasteet Esim. 9 Vaasa lämpötila o 6 C ja Helsigi + C. (Vaasassa ja Helsigissä o eri lämpötila. Helsigissä o lämpimämpää kui Vaasassa.) Helsigissä 8 C lämpimämpää kui Vaasassa. 4 Suhdeasteikko Jos itervalliasteiko vaatimukset ovat voimassa ja lisäksi o olemassa absoluuttie ollapiste, jossa tarkasteltava omiaisuus "häviää" eli muuttuja määrä o todella olla, o muuttuja mitta-asteikko suhdeasteikko. Yhtee- ja väheyslasku lisäksi voidaa muuttuja-arvoja kertoa ja jakaa keskeää. Muuos f() = a, ku a > 0, o sallittu.
9 Suhdeasteikolla voidaa esimerkiksi vertailla, kuika moikertaie tiety tilastoyksikö muuttuja-arvo o toise tilastoyksikö muuttuja-arvoo verrattua. Esim. 10 pituus cm paio kg Esim. 11 Matti paiaa 90 kg ja Liisa 45 kg. (Matti ja Liisa ovat eri paioisia. Matti o paiavampi kui Liisa. Matti paiaa 45 kg eemmä kui Liisa.) Mati paio o kaksikertaie Liisa paioo verrattua. Muuttuja mitta-asteikko ilmoitetaa se toteuttama korkeimma asteiko perusteella Mitta-asteikot jaotellaa vielä kahtee luokkaa: omiaali- tai ordiaaliasteiko muuttujia saotaa kvalitatiivisiksi eli laadullisiksi muuttujiksi. Itervalli- tai suhdeasteiko muuttujia saotaa kvatitatiivisiksi eli määrällisiksi muuttujiksi. Asteikkotyypi määrittämie ei ole välttämättä helppoa eo. tuusmerkkie avulla. Joissaki tilateissa muuttuja tilastollisesta mitta-asteikosta esiityy erilaisia äkemyksiä. Tyypillisesti tällaie muuttuja mittaa mielipidettä (esim. käytetty Likertasteikkoa). Tarkasti ottae ko. muuttuja voi olla esim. järjestysasteiko muuttuja, mutta joskus se ajatellaa oleva välimatka-asteiko muuttuja. Viimeksi maiittu tulkitatapa johtuu siitä, että aieisto käsittelijä mieltää muuttuja-arvoje erotukse umeerise erotukse mukaiseksi... Havaitoaieisto hakiasta ja otatameetelmistä Usei tutkimuksessa o vaivalloisi ja aikaa ja rahaa vaativi vaihe havaitoaieisto hakkimie ja muokkaamie käyttökelpoiseksi tilastollista aalyysiä varte. Kaikkie tilastoyksiköide joukko muodostaa siis tutkimukse populaatio eli perusjouko. Perusjouko osajoukkoa kutsutaa satuaisotokseksi, jos jokaisella perusjouko alkiolla o tuettu positiivie todeäköisyys tulla valituksi otoksee. Jos ko. ehto ei ole voimassa, o kyseessä äyte. Mikäli tiedot kerätää jokaisesta perusjouko alkiosta, o kyseessä kokoaistutkimus. Jos tiedot kerätää otokse avulla, o kyseessä otatatutkimus. Poikkileikkaustutkimuksessa tiedot kerätää useasta eri tilastoyksiköstä tietyllä ajahetkellä. Pitkittäisleikkaustutkimuksessa tilastoaieisto kerätää mittaamalla samaa tai muutamaa tilastoyksikköä eri ajakohtia (aikasarja, erilaiset seuratatutkimukset).
10 Havaitoaieisto saadaa valmiista tilastolähteistä ja/tai keräämällä tiedot itse. Valtio osalta tilastoii hoitaa Tilastokeskus, joka toimiasta ja julkaisuista saa tarkempia tietoja esim. www-sivulta http://www.stat.fi/. Myös muut laitokset, kuat, yritykset ja järjestöt tekevät tilastollisia selvityksiä toimialasa asioista. Osa selvityksistä julkaistaa, osa o tarkoitettu vai sisäisee käyttöö. Lisäksi äillä elimillä o rekistereitä ja muita tietoaieistoja, joista usei o saatavissa tietoja mm. tutkimusta varte. Useimmilla mailla o omat tilastokeskuksesa, joide www-sivuihi löytyy likkejä Tilastokeskukse www-sivuilta. Mikäli havaitoaieistoa ei ole valmiia, joudutaa se kokoamaa tilastoyksikköihi kohdistuvia mittauksia. Otatatutkimus o usei halvempi ja opeampi kui kokoaistutkimus. Koska tilastoyksiköitä o otoksessa vähemmä kui koko populaatiossa, voidaa mittaukset suorittaa huolellisemmi. Jos populaatio o ääretö tai jos tilastoyksikkö joudutaa tuhoamaa mittaustilateessa, ei kokoaistutkimusta voida tehdä. Otatatutkimukse suuittelusta 1. Tavoitteide määrittely täsmetämie tietoje käyttötarkoitus tuloste täsmällisyysvaatimus. Ogelma muutamie tilastolliseksi perusjouko täsmetämie tilastoyksiköt / otatayksiköt muuttujat kohdepopulaatio/kehikkopopulaatio mittausmeetelmät kyselykaavakkeet 3. Otokse poimimie otatameetelmä valita otoskoo määrittämie 4. Aieisto keräämie kysely tai muulaie mittaamie 5. Aieisto käsittely tietoje muokkaus ja aalysoiti 6. Raportoiti tuloste esittämie selväkielisesti Otatameetelmistä Otatameetelmä valitaa liittyy otokse koosta päättämie, joho vaikuttaa haluttu tuloste tarkkuus, tutkimukselle varattu aika ja tietoje keruutapa. Otokse optimikoo määrittämiseksi o kehitetty erilaisia lasketakaavoja, jotka yt sivuutetaa. Karkeasti ottae tutkimustuloste luotettavuus paraee tiettyy rajaa asti otoskoo kasvaessa,
11 mutta samalla kustaukset lisäätyvät voimakkaasti. Mielipidetutkimuksissa, jossa kartoitetaa esimerkiksi koko maassa puolueide kaatusta, käytetää usei 1000 3000 hekilö otoskokoa. Jos tutkitaa vaikkapa joki yritykse imagoa tietyllä alueella, voi otoskoko olla. 00 300 hekilöä. Yksikertaie satuaisotata (YSO) o otatameetelmie perusmeetelmä. Se o käyttökelpoie, jos perusjoukosta ei ole käytettävissä eakkoiformaatiota. Se etua o myös tuloste lasketahelppous, sillä tilastolliset ohjelmistot olettavat yleesä, että otos o koottu YSO:lla. YSO:ssa jokaisella samakokoisella otoksella o sama todeäköisyys tulla valituksi, ja myös jokaisella tilastoyksiköllä o sama todeäköisyys tulla valituksi. YSO:lla ei välttämättä saada edustavaa otosta, jos perusjoukko o jakaatuut keskeää heterogeeisii ryhmii, joissa alkiomäärät ovat hyvi erilaiset. YSO toteutetaa usei käyttämällä satuaislukuja. Perusjouko alkiot umeroidaa, se jälkee geeroidaa satuaislukuja, ja äitä lukuja vastaavat tilastoyksiköt valitaa otoksee. Systemaattie otata (SO) sopii käytettäväksi silloi, ku perusjoukkoa ei tarkkaa pystytä määrittämää (esim. liikkee asiakastutkimus) tai jos perusjouko alkiot o listattu (esim. valmis rekisteri). SO:ssa poimitaa tilastoyksiköt tasavälei läpi koko populaatio. Ku perusjoukosta valitaa joka k. tilastoyksikkö, o poimitaväli k. Poimita aloitetaa valitsemalla k: esimmäise tilastoyksikö joukosta esimmäie otoksee tuleva alkio, ja tämä jälkee poimitaa systemaattisesti joka k. tilastoyksikkö. Jos perusjoukossa o N tilastoyksikköä ja otokse koko o yksikköä, ii poimitaväli k = N/. Systemaattise otaa etu yksikertaisee satuaisotataa o se, että se o helpompi ja opeampi suorittaa. Systemaattie otata aiheuttaa kuiteki virhettä, jos otatayksiköide arvot kasvavat tai pieeevät systemaattisesti (esim. tilastoyksiköt ovat tutkittava muuttuja suhtee suuruusjärjestyksessä) tai jos poimitaväli pituus o sama kui joki systemaattise jakso pituus. Ryväsotaassa (RO) perusjoukko jaetaa kiiteisii ryhmii eli ryppäisii joki omiaisuude mukaa. Ryppää voi muodostaa esim. kuta, oppilaitos, je. Ryppäistä poimitaa esimerkiksi YSO:lla tutkimuksee tulevat ryppäät. Lopullise otokse muodostavat joko ryppäide kaikki tilastoyksiköt tai iistä voidaa edellee poimia osa esimerkiksi yksikertaisella satuaisotaalla. Ositetussa otaassa (OO) pyritää hyödytämää käytettävissä olevaa taustatietoa tutkittava omiaisuude käyttäytymisestä perusjoukossa. Jos populaatio o jakautuut keskeää heterogeeisii ryhmii site, että ryhmät ovat sisäisesti homogeeisia ja eroteltavissa toisistaa, kaattaa käyttää ositettua otataa. Kutaki ryhmää saotaa ositteeksi ja jokaisesta ositteesta poimitaa eriksee satuaisotos käyttäe esim. YSO:ta tai SO:ta. Eri ositteista otoksee valittavie alkioide lukumäärä määritetää eriksee. Ositetussa otaassa otokse kokoaismäärä jakamista eri ositteide keske kutsutaa kiitiöiiksi. Kiitiöiti voidaa suorittaa usealla eri tavalla. Esimerkiksi tasaie kiitiöiti tarkoittaa sitä, että jokaisesta ositteesta otetaa yhtä mota alkiota otoksee ja suhteellie kiitiöiti sitä, että jokaisesta ositteesta poimitaa otoksee osittee suhteellista osuutta vastaava määrä alkioita.
1 3. YKSIULOTTEINEN EMPIIRINEN JAKAUMA 3.1. Frekvessijakauma peruskäsitteitä ja luokitus Jos tutkittavie tilastoyksiköide lukumäärä o suuri, ei havaitomatriisi aia riitä muuttujie jakaumie yleispiirteide selvittämiseksi. Muuttuja yleiset piirteet hukkuvat yksityiskohtie joukkoo. Aieistoa o järjestettävä ja tiivistettävä. Havaitomatriisi sisältämää tietoa voidaa tiivistää esimerkiksi muodostamalla muuttuja (luokiteltu, suora, yksiulotteie) frekvessijakauma. Frekvessijakauma muodostamiseksi muuttuja saamat arvot jaetaa erillisii luokkii, merk. E 1, E,, E k, missä k o luokkie lukumäärä. Luokkaa E i kuuluvie : arvoje lukumäärää saotaa luoka E i frekvessiksi, merk. f i. Ku muuttuja luokat ja luokkia vastaavat frekvessit tuetaa, ii silloi tuetaa : frekvessijakauma. Usei absoluuttiste frekvessie sijasta esitetää frekvessit, jotka o suhteutettu havaitoje kokoaismäärää. Näitä suhteutettuja frekvessejä voidaa käyttää esimerkiksi kahde eri havaitoaieisto frekvessijakaumie vertailuu. Lukua p i = f i saotaa luoka E i suhteelliseksi frekvessiksi ja lukua 100p i saotaa prosetuaaliseksi frekvessiksi. Jos muuttuja o epäjatkuva, o luokkie määrittely yleesä selvää. Luokkia käytetää muuttuja arvoja joko sellaiseaa tai iitä vastaavia koodilukuja. Jos muuttuja luokilla o joki vakiituut esittämisjärjestys tai muuttuja o järjestysasteikolla mitattu, o luokat esitettävä vastaavassa järjestyksessä. Esim. 1 Vuode 009 alussa Suome kutie lääijakauma oli seuraava: (Aieisto peruslähde o Tilastokeskukse tietokaat) Lääi f i p i 100p i Etelä-Suome 7 0.07 0.7 Läsi-Suome 14 0.408 40.8 Itä-Suome 54 0.155 15.5 Oulu 43 0.14 1.4 Lapi 1 0.060 6.0 Ahveamaa 16 0.046 4.6 Yhteesä 348 1.000 100.0
13 Jos luokkia tulee hyvi paljo ja suuri osa frekvesseistä o pieiä, kaattaa luokkia yhdistellä. Tällöi luokat o yhdisteltävä ii, että samaa luokkaa tulevat arvot kuuluvat mahdollisimma loogisesti yhtee. Jos muuttuja o jatkuva-arvoie, o se luokittelu hakalampaa, koska tällaise muuttuja arvot voivat olla mitä tahasa reaalilukuja joltai väliltä, ja kaikki mitatut arvot voivat olla erisuuruisia. Jos muuttujasta halutaa muodostaa tiivis frekvessijakauma, o luokkie oltava välejä, jotka kattavat muuttuja arvot. Jatkuva muuttuja luokittelussa tietoa häviää, koska yt ei eää ilmoiteta muuttuja havaittuja arvoja vaa luokka, joho havaitoarvo kuuluu. Luokitellu aieisto esitystapa o kuiteki usei selvempi kui luokittelemattoma, koska jatkuva-arvoise muuttuja jakauma esittämie tilastokuvioa perustuu usei luokitteluu. Jatkuva muuttuja luokittelua voidaa hahmottaa seuraavasti: Oletetaa, että luokiteltavia havaitoja o kpl ja e o pyöristetty jolleki mittaustarkkuudelle, merk. d. (Jos mittaustulokset ovat kokoaislukuja, o d = 1, jos mittauksissa o käytetty yhtä desimaalia, ii d = 0.1). 1 Etsitää piei arvo, merk. (1), ja suuri arvo, merk. (). Muuttuja arvoje vaihteluväli muodostaa väli ( (1), () ). Vaihteluväli pituus w = () (1). Päätetää, käytetääkö tasavälistä vai epätasavälistä luokitusta. Luokitus o tasavälie, jos kaikki luokat ovat yhtä leveitä. Jos vai voidaa, kaattaa käyttää tasavälistä luokitusta varsiki silloi, jos luokittelua käytetää esimerkiksi frekvessihistogrammi perustaa. 3 Valitaa luokkie lukumäärä k, (k 3 tai) k. (Jos = 15, ii k 5-7.) Yleesä luokkia o 4-10 kpl. 4 Tasavälisessä luokituksessa määritetää arvio luokkaväli pituudelle c site, että c > k w. Luokkie rajoje o oltava selkeitä, ja siksi c valitaa usei hiuka suuremmaksi kui edellie suhde. Epätasavälisessä luokituksessa eri luokissa luokkaväli pituude saa valita mielivaltaisesti. 5 Muodostetaa luokat site, että e peittävät koko vaihteluväli. Esimmäise luoka pyöristety alaraja pitäisi olla pieempi tai yhtä suuri kui (1). Muut luokat määritellää pyöristettyje luokkarajoje avulla, jotka esitetää samalla mittaustarkkuudella kui muuttujaki o mitattu. 6 Tutkitaa jokaise tilastoyksikö muuttuja arvo, ja määrätää luokkie frekvessit. Yksittäie muuttuja-arvo voi kuulua vai yhtee luokkaa. Esim. 13 Erää ettimyytiyritykse syksy 009 farkkumallistosta tehdyssä otoksessa farkkuje myytihiat euroia ovat suuruusjärjestyksessä: 43, 49, 53, 60, 64, 69, 70, 73, 73, 79, 80, 80, 85, 89, 90, 90, 90, 99, 99, 99, 100, 100, 109, 109, 110, 110, 115, 119, 10, 19, 135.
14 Farkkuje eli tilastoyksiköide määrä eo. aieistossa o 31. Myytihita o esitetty kokoaisiksi euroiksi pyöristettyä, jote mittaustarkkuus d = 1. Myytihita-muuttuja mitta-asteikko o suhdeasteikko. Muuttuja piei arvo o 43 ja suuri arvo o 135. Vaihteluväli pituus o site w = 135 43 = 9. Luokitellaa aieisto viitee tasavälisee luokkaa (, koska 5 31), siis k = 5. 9 Määritetää luokkaväli pituus: c > = 18.4 ja valitaa luokkaväli 5 pituudeksi c = 0. Esimmäise luoka pyöristetyksi alarajaksi o valittu luku 40, koska se pieitä arvoa pieempi tasaluku. Toise luoka pyöristetty alaraja o luokkaväli pituude etäisyydellä esimmäise luoka alarajasta. Esimmäise luoka pyöristetty yläraja o mittaustarkkuude verra pieempi kui toise luoka pyöristetty alaraja. Absoluuttiste frekvessie lisäksi jakaumassa o esitetty prosetuaaliset frekvessit. Farkkuje myytihita ( ) f i 100 p i 40-59 3 9.7 60-79 7.6 80-99 10 3. 100-119 8 5.8 10-139 3 9.7 Yhteesä 31 100.0 Mittaustarkkuus d äkyy frekvessijakaumataulukossa site, että se o tiety luoka pyöristety alaraja ja sitä edeltävä luoka pyöristety yläraja erotus. Taulukossa äkyvät pyöristetyt luokkarajat ovat luokkie symboleja. Tasavälisessä luokituksessa edeltävä luoka ja seuraava luoka pyöristettyje alarajoje (ja myös ylärajoje) välie etäisyys vastaa luokkaväli pituutta. Luoka todellie alaraja o ko. luoka pyöristety alaraja ja sitä edeltävä luoka pyöristety yläraja välie pyöristysraja. Ko. todellie alaraja o samalla edeltävä luoka todellie yläraja. Luoka E i todellisesta alarajasta käytetää merkitää L i ja todellisesta ylärajasta merkitää U i. Todellisia luokkarajoja käytetää mm. graafisissa esityksissä sekä tuuslukuje laskemisessa. Luoka E i luokkaväli pituus c i o luoka todellise ylä- ja alaraja erotus eli c i = U i L i. Tasavälisessä luokituksessa luokkaväli pituus o kaikilla luokilla sama ja tällöi siitä voidaa käyttää merkitää c.
15 L U Luoka E i luokkakeskus m i o luoka keskipiste eli m i i i. Koska luokittelussa usei katoaa tietoa tilastoyksiköide tarkoista muuttuja-arvoista, tulkitaa luokkakeskus usei ko. luoka havaitoje keskiarvoa. Luokkakeskuksia käytetää mm. tilastokuvioissa. Jos muuttuja o epäjatkuva, itervalli- tai suhdeasteikolla mitattu ja jos muuttujalla o paljo erilaisia arvoja, voidaa muuttujaa kohdella kui se olisi jatkuva. Jos muuttuja o mitattu vähitää järjestysasteikolla, voidaa muuttujalle määrittää summafrekvessi eli kumulatiivie frekvessi F i, joka ilmaisee, kuika mota tilastoyksikköä (havaitoa) kuuluu luokkaa E i tai sitä edeltävii luokkii yhteesä eli eli F i i f j j1 F1 f1 F f1 f F1 f F3 f1 f f3 F Fk f1 f fk f3 Fk 1 fk Edellee saadaa suhteellie summafrekvessi P i F i ja prosetuaalie summa- frekvessi 100P i. Esim. 14 Seuraavassa taulukossa o esitetty farkkuje hia frekvessijakauma lisäksi summafrekvessit, prosetuaaliset summafrekvessit, todelliset luokkarajat ja luokkakeskukset. Farkkuje myytihita f i F i 100 P i L i U i m i 40-59 3 3 9.7 39.5 59.5 49.5 60-79 7 10 3.3 59.5 79.5 69.5 80-99 10 0 64.5 79.5 99.5 89.5 100-119 8 8 90.3 99.5 119.5 109.5 10-139 3 31 100.0 119.5 139.5 19.5 Yhteesä 31
16 3.. Graafie esitys Frekvessijakauma voi esittää myös graafisesti. Usei käytetty kuviotyyppi o pylväskuvio. Pylväskuviot muodostuvat joko vaaka- tai pystypylväistä. Pylväide pitaalat (ja tasalevyiste pylväide pituudet) kuvaavat määriä, jote pylvää pituutta osoittava asteiko o hyvä lähteä luvusta 0. Vaakapylväskuvioita tulisi käyttää silloi, ku kuvataa laadullise muuttuja jakaumaa. Muuttuja luokat esitetää pystyakselilla ja vaaka-akselilla kuvataa frekvessit (absoluuttiset, suhteelliset tai prosetuaaliset). Jos muuttuja o omiaaliasteikolla mitattu, esitetää aieisto ii, että yli pylväs o pisi ja muut pylväät piirretää pituusjärjestyksessä. Pylväide välii jätetää pieet raot. Jos muuttuja o järjestysasteikollie, esitetää pylväät luokkia vastaavassa järjestyksessä. Sektoridiagrammia (ympyräkuvio, piirakkakuvio) käytetää laadullise muuttuja jakauma esittämisessä erityisesti silloi, ku halutaa havaiollistaa joki kokoaisuude jakautumista osii. Jokaise luoka kokoa edustaa sektori pita-ala, joka o suoraa verraollie luoka kokoo. Sektorikuvio sijasta kaattaa käyttää vaakapylväsesitystä erityisesti silloi, jos halutaa esittää, että kahde (tai useamma) melko samakokoise ryhmä välillä o kuiteki eroavuutta havaitomäärässä. Esim. 15 Suome kutie lääijakauma vaakapylväskuvioa
17 Esim. 16 Suome kutie lääijakauma sektorikuvioa Määrällise epäjatkuva muuttuja jakaumaa voidaa kuvata jaakuviolla, joka o pystypylväskuvio. Jaadiagrammi piirretää ii, että koordiaatistoo piirretää muuttuja arvoje kohdalle kyseiste arvoje frekvessie korkuiset jaat tai pylväät. Esim. 17 Vialliste tuotteide lukumääräjakauma tuote-erissä esitettyä taulukkoa ja jaakuvioa vialliste lkm f i 1 4 3 4 3 5 6 1 Frekvessihistogrammi o pystypylväskuvio, jota käytetää jatkuville muuttujille. Ku luokitus o tasavälie, histogrammi muodostuu pylväistä, joide leveys o luokkaväli pituus c, korkeus luoka E i frekvessi f i ja katoje kärkipisteiä vaaka-akselilla ovat todelliset luokkarajat. Yleesä kuiteki todelliste luokkarajoje sijasta merkitää vaaka-
18 akselille äkyvii "siistit" luvut, jotka ovat lähellä todellisia luokkarajoja (tai luokkakeskuksia). Histogrammissa o pylvää pita-ala tärkeämpi kui korkeus, jote kuvio olisi piirrettävä ii, että luoka frekvessi o suoraa verraollie pylvää pita-alaa. Tämä vaatimus toteutuu helposti tasavälise luokitukse yhteydessä. Esim. 18 Farkkuje myytihitajakauma frekvessihistogrammia Jatkuva määrällise muuttuja frekvessijakauma voidaa esittää myös frekvessimoikulmio avulla. Jokaise luokkakeskukse kohdalle piirretää piste frekvessi (tai suhteellise tai prosetuaalise frekvessi) korkeudelle ja peräkkäiset pisteet yhdistetää toisiisa jaoilla. Frekvessimoikulmio päätepisteet ovat -akselilla s. ollaluokkie (= luokitukse alkuu ja loppuu lisättävie ylimääräiste luokkie) luokkakeskuksissa. Jos ollaluokkia ei voi määrittää, ei frekvessimoikulmiota voi piirtää. Esim. 19 Farkkuje myytihia jakauma frekvessimoikulmioa
19 Myös summafrekvessijakauma voidaa esittää kuvioa. Jatkuva määrällise muuttuja summafrekvessijakaumaa kuvataa summakäyrällä. Jokaise luoka todellise yläraja kohdalle piirretää piste summafrekvessi (tai suhteellise tai prosetuaalise summafrekvessi) korkeudelle ja peräkkäiset pisteet yhdistetää toisiisa jaoilla. Summakäyrä lähtee vaaka-akselilta ja ousee :ää asti. Jos summakäyrä muodostetaa prosetuaalisesta summafrekvessijakaumasta, voidaa käyrä avulla selvittää mm. - kuika mota % havaitoarvoista o pieempiä kui luku a - mikä o se muuttuja arvo, jota pieempiä havaitoarvoja o p %. Esim. 0 Farkkuje myytihia prosetuaalie summakäyrä Diskreeti määrällise muuttuja summafrekvessijakaumaa vastaava summakäyrä o porrasfuktio. Vaaka-akselille merkitää muuttuja arvot ja piirretää käyrä, joka saa arvo kohdalla se frekvessi suuruise hyppäykse ja pysyy arvoje välillä edellise arvo kohdalla saamallaa tasolla. Viivakuviota käytetää ee kaikkea aikasarjoje graafisee esittämisee. Tällöi muuttuja kuvaa yleesä yhde tilastoyksikö yhtä omiaisuutta eri ajakohtia. Viivadiagrammissa vaaka-akselilla kuvataa aika ja pystyakselilla kuvataa muuttuja arvot. Sekä vaaka- että pystyakseli voi katkaista. Esim. 1 Hallito- ja toimistotyössä olevie palkasaajie työtapaturmie lukumäärä vuosia 1998 007 (Lähde: Tilastokeskukse PX-Web-tietokaat) vuosi 1998 1999 000 001 00 003 007 005 006 007 tapaturmie 1797 185 1740 1841 1763 1866 1648 1751 1685 1676 lkm
0 Jos muuttuja o mitattu vähitää järjestysasteikolla, voidaa se havaitoarvoje jakautumie esittää laatikko-viikset- eli bo-plot-kuvioa. Tässä kuviossa ei esitetä luokitteluu perustuvaa jakaumaa, vaa kuviosta ilmeee muuttuja tuuslukuje arvoja. Kuviossa piirretää laatikko, joka pohja o alakvartiili korkeudella ja kasi o yläkvartiili korkeudella. Muuttuja mediaai merkitää laatikkoo poikkiviivalla. Laatiko pohjasta ja kaesta piirretää viikset kummalleki puolella laatikkoa. Viiksie piirtämisessä o useita käytätöjä, viiksie päätepisteiä voivat olla esim. piei arvo ja suuri arvo. Viiksie päätepisteiä voivat olla myös 10 %: ja 90 %: fraktiilit, jolloi kuvaa voidaa vielä eriksee merkitä e havaiot, jotka ovat kauempaa jakauma keskikohdasta kui em. fraktiilit. Esim. Farkkuje myytihia laatikko-viikset-kuvio. Kuviossa viiksie päätepisteiä ovat suuri ja piei arvo.
1 Määrällise muuttuja jakaumaa voidaa esittää ruko-lehti -kuviolla. Muuttuja-arvoista jätetää esittämättä tietty määrä oikeapuoleisia umeroita. Jäljelle jäävistä muodostetaa esitykse ruko, joka arvot esitetää perättäisiä kokoaislukuia piei luku ylimmällä rivillä ja suuri alimmalla rivillä. Rukoarvoje perää kirjoitetaa lehdet yleesä site, että havaioista pois jätety umero-osuude esimmäiset umerot tulevat oikealle riville suuruusjärjestyksessä. Esim. 3 Seuraavassa o farkkuje myytihitaesimerki ruko-lehti-kuvio, jossa rugo leveys o 10 : 4: 39 5: 3 6: 049 7: 0339 8: 0059 9: 000999 10: 0099 11: 0059 1: 09 13: 5 3.3. Yksiulotteise jakauma tuusluvut Frekvessijakaumie laatimisella yritetää saada muuttuja keskeiset omiaisuudet helpommi hahmotettaviksi. Usei muuttuja havaitoarvoje sisältämä iformaatio halutaa tiivistää vieläki voimakkaammi. Tällöi lasketaa havaioista tilastollisia tuuslukuja. Sijaitia kuvaavia tilastollisia tuuslukuja saotaa keskiluvuiksi. Hajotaluvuilla puolestaa kuvataa havaitoarvoje vaihtelua eli "hajaatumista" jakauma keskikohda ympärille. O olemassa myös muita jakauma muotoa kuvaavia tilastollisia tuuslukuja. 3.3.1. Keskiluvut Muuttuja arvoje keskimääräistä suuruutta ja jakauma sijaitia muuttuja-akselilla kuvataa keskilukuje avulla. Moodi (Mo) eli tyyppiarvo o se muuttuja arvo tai luokka, joka frekvessi o suuri. Moodi sopii kaikille mitta-asteikoille, mutta se ei ole aia yksikäsitteie. Vähitää
itervalliasteikollise muuttuja luokitellussa aieistossa moodi voidaa tulkita moodiluoka luokkakeskukseksi. Esim. 4 Lääi-muuttuja moodi o Läsi-Suome lääi, koska kutia o eite Läsi- Suome lääissä. Esim. 5 Farkkuje myytihia moodiluokka o kolmas luokka: 80 99. Moodi voidaa yt tulkita oleva moodiluoka luokkakeskus eli 89.5 eli. 90. (Alkuperäisistä havaioista tarkasteltua moodi ei ole yksikäsitteie: moodiarvoja o kaksi: sekä 90 että 99.) Esim. 6 Erää tilastotietee kurssi opiskelijoista valitussa 19 hekilö otoksessa olivat opiskelijoide iät suuruusjärjestyksessä: 19, 0, 0, 0, 0, 1, 1, 1, 1, 1,,, 3, 3, 5, 6, 9, 4 ja 46. Iä moodiarvo o 1 vuotta. Mediaai (Md) eli keskusarvo o se havaitoarvo, jota pieempiä ja suurempia havaitoarvoja o yhtä paljo. Mediaaia ei voi laskea omiaaliasteikollisesta muuttujasta. Jos havaiot o asetettu ousevaa suuruusjärjestyksee ja kyseessä o luokittelemato aieisto, ii mediaai määrätää seuraavasti: 1 1 parito: Md o keskimmäie havaitoarvo (k), missä k = parillie: etsitää kumpiki keskimmäisistä arvoista. Jos muuttuja o ordiaaliasteikolla mitattu, o mediaai kumpiki äistä arvoista. Jos muuttuja o määrällie, o mediaai keskimmäiste havaitoje keskiarvo eli ( k) (k 1), missä k =. Esim. 7 Edellise esimerki ikä-muuttuja mediaai sijaitsee suuruusjärjestyksessä 19 1 sijalla k = = 10. Sijalla 10 oleva havaitoarvo o 1 vuotta, joka o siis mediaai. Luokitellulle aieistolle mediaai määräämiseksi o kaksi tapaa. Jos muuttuja o ordiaaliasteikollie tai diskreetti kvatitatiivie, ii mediaai määrätää kute edellä. Jatkuva tasavälisesti luokitellu kvatitatiivise muuttuja mediaai lasketaa kaavalla c Md LM FM 1, fm missä
L M = mediaailuoka todellie alaraja f M = mediaailuoka frekvessi F M-1 = mediaailuoka edeltävä luoka summafrekvessi c = luokkaväli pituus = havaitoje lkm. 3 Mediaailuokka o esimmäie sellaie luokka, jossa F i. Mediaai voidaa määrätä myös summakäyrä avulla. Esim. 8 Farkkuje myytihia mediaailuokka o kolmas luokka: 80 99. Mediaai 0 31 Md 79.5 10 90.5 91 10 (Alkuperäisistä havaioista tarkasteltua mediaai o suuruujärjestykse sijalla 16, jote tarkka mediaai o 90.) Mediaai o fraktiilie erikoistapaus. Fraktiilit ovat jakauma "sijaitia" kuvaavia lukuja, vaikka e eivät yleisesti kuvaakaa keskikohtaa. Muuttuja p: proseti fraktiili (p) o sellaie havaitoarvo, jota pieempiä muuttuja arvoista o p %. Tärkeimpiä fraktiileja ovat alakvartiili yläkvartiili Q 1 = (5) Q 3 = (75) mediaai Md = (50) desiilit (10), (0),, (90) Fraktiilit voidaa määritellä muille paitsi omiaaliasteiko muuttujille. Kvartiilie ja fraktiilie määräämisessä käytetää apua mm. summakäyrää. Fraktiili (p) määrittämie voidaa toteuttaa myös seuraavasti. Lasketaa esi fraktiili (p) sijaluku ousevassa suuruusjärjestyksessä: (+1). p/100 = k.d, missä k o kokoaisosa ja d o desimaaliosa ja lopuksi ko. fraktiili saadaa kaavasta (p) = (k) + 0.d. ( (k+1) - (k) ). Esim. 9 Opiskelijoide ikähavaitoja o 19 kpl. Alakvartiili sijaluku o ((19+1). 5/100=) 5.0, jote k = 5 ja d = 0 ja site Q 1 = (5) = 0 + 0.0. (1 0) = 0 vuotta. Yläkvartiili sijaluku o ((19+1). 75/100=) 15.0, jote k = 15 ja d = 0 ja site Q 3 = (75) = 5 + 0.0. (6 5) = 5 vuotta.
4 Esim. 30 Farkkuje myytihia prosetuaalisesta summakäyrästä arvioitua hia alakvartiili Q 1 73 ja yläkvartiili Q 3 108. (Alkuperäisistä havaioista tarkastelua Q 1 = 73 ja Q 3 = 109.) Aritmeettie keskiarvo voidaa laskea itervalli- tai suhdeasteikollisesta muuttujasta. Luokittelemattomalle aieistolle keskiarvo saadaa kaavasta 1 i i1 Esim. 31 Ikä-muuttuja keskiarvo 1 1 19 0 0 0 0 1 1 46 46 4 vuotta 19 19 Luokitellulle aieistolle aritmeettie keskiarvo saadaa kaavalla 1 k f i m i, i1 missä f i m i k = luoka E i frekvessi = luoka E i luokkakeskus = luokkie lkm = havaitoje lkm Huom. Edellä olevaa kaavaa voidaa käyttää, vaikka muuttuja olisi epäjatkuva. Tällöi luokkakeskukset m i korvataa muuttuja arvoilla ja luokkie frekvessit f i korvataa yksittäiste arvoje frekvesseillä. Esim. 3 Farkkuje myytihia aritmeettie keskiarvo luokitellu aieisto perusteella: 1 3 49.5 7 69.5 10 89.5 8 109.5 319.5 31 1 794.5 90.145... 90 31 (Alkuperäisistä havaioista laskettua tarkka aritmeettie keskiarvo o 90.) Olkoo tilastoyksikköä jaettu k:ho ryhmää, joissa o 1,,, k tilastoyksikköä, ja joissa muuttuja keskiarvot ovat 1,,, k. Koko aieisto keskiarvo o
5 1 k i i. i1 Esim. 33 Eräällä työpaikalla o aisia 400 ja miehiä 500. Keskitutiasiot ovat vastaavasti 6.58 ja 34.59. Mikä o työtekijöide keskitutiasio? 400 6.58 500 34.59 31.03 400 500 Keskiarvo o eite käytetty keskiluku, joka o kuiteki herkkä poikkeaville havaioille. Varsiki pieissä havaitoaieistoissa yksiki muista selvästi poikkeava arvo vetää keskiarvoa puoleesa. Joskus äärimmäise isot ja pieet muuttuja-arvot halutaa jättää tarkastelu ulkopuolelle. Tällöi voidaa laskea esimerkiksi 5 %: leikattu keskiarvo, jolloi 5 % pieimmistä ja suurimmista arvoista jätetää pois ja lopuista havaioista lasketaa tavallie keskiarvo. Geometrista keskiarvoa käytetää suhdeasteikolla mitatu muuttuja keskiarvoa silloi, ku halutaa kuvata keskimääräistä suhteellista muutosta. Geometrie keskiarvo voidaa laskea muuttujasta, joka kaikki havaitut arvot ovat positiivisia. Geometrie keskiarvo saadaa laskettua kaavasta G 1. Esim. 34 Tuottee hita 1.5-kertaistui esimmäise vuode aikaa, toisea vuotea se 5- kertaistui ja viimeiseä vuotea 4-kertaistui. Hia suhteelliste muutoste geometrie keskiarvo o G 3 1.5 5 4 3.1 Harmoista keskiarvoa käytetää myös suhdeasteikolla. Harmoie keskiarvo saadaa laskettua kaavasta H. 1 i1i Esim. 35 Matka esimmäie kolmaes ajettii vauhtia 50 km/h, toie kolmaeksella 5 km/h ja viimeisellä 100 km/h. Mikä o keskimääräie vauhti koko matkalla? (Ts. millä vauhdilla ämä välit olisi ajettava, jotta koko
6 matkaa meisi sama aika kui todella mei, ja jokaisella kolmaeksella vauhti o sama?) Lasketaa harmoie keskiarvo H 1 50 3 1 5 1 100 3 4.9 0.0 0.04 0.01 Keskilukuje vertailua Aritmeettie keskiarvo o tärkei keskiluku, koska se o helppo laskea. Aritmeettie keskiarvo o herkkä poikkeaville havaioille, se ei ole siis robusti keskiluku. Aritmeettie keskiarvo ei ole välttämättä tyypillisi tai yleisi havaitoarvo. Jos samoista muuttuja arvoista lasketaa kaikki edellä esitetyt keskiarvot (mikä ei yleesä ole mielekästä), ovat tulokset aia järjestyksessä H G. Mediaai o helppo ymmärtää. Se o vakaa keskiluku, joka ei ole herkkä poikkeaville havaioille. Jos muuttuja jakauma o vio, kuvaa mediaai usei aritmeettista keskiarvoa paremmi havaitoje jakaumaa. Mediaaia ei kuitekaa käytetä paljoakaa pitkälle meevissä tilastollisissa operaatioissa. Mediaai ei ole herkkä poikkeaville havaioille, se o robusti keskiluku. Moodi soveltuu kaikille mitta-asteikoille, mutta se o karkea keskiluku. Se ei ole aia yksikäsitteie. Jos muuttuja jakauma o moihuippuie, kuvaa moodi usei mediaaia ja aritmeettista keskiarvoa parempi havaitoje jakaumaa. Moodi o myös robusti keskiluku. symmetrie yksihuippuie jakauma Md Mo
7 oikealle loiveeva jakauma Mo Md vasemmalle loiveeva jakauma Md Mo 3.3.. Hajotaluvut Muuttuja arvoje keskimääräistä suuruutta kuvaavat luvut eivät riitä kuvaamaa kaikkia piirteitä muuttuja-arvoje käyttäytymisestä. O myös pystyttävä kuvaamaa sitä, kuika suurta o muuttuja arvoje vaihtelu. Etropia eli satuaisuusaste mittaa sitä, kuika selvästi tai voimakkaasti havaitut muuttuja arvot keskittyvät yhtee tai vai muutamaa luokkaa. Etropia voidaa laskea kaavasta missä k k H pi log pi 3.3193 pi log10 pi, i1 i1 p i k = luoka E i suhteellie frekvessi = luokkie lkm. Etropia soveltuu kaikille mitta-asteikoille. Se o suurimmillaa silloi, ku eri luokkie frekvessit ovat yhtä suuret eli silloi, ku vaihtelu o suurita. Etropia arvosta o vaikeaa ähdä suoraa, kuika suuresta vaihtelusta o kyse, koska siihe vaikuttaa luokkie lukumäärä. Laskettua arvoa voidaa verrata etropia maksimiarvoo Hma 3.3193log10 k.
8 Esim. 36 Kutie lääijakauma etropia Lääi p i log 10 p i p i log 10 p i Etelä-Suome 0.07-0.68403-0.14159 Läsi-Suome 0.408-0.38934-0.15885 Itä-Suome 0.155-0.80967-0.1550 Oulu 0.14-0.90658-0.114 Lapi 0.060-1.185-0.07331 Ahveamaa 0.046-1.3374-0.06151 Yhteesä 1.000-0.67318 H = -3.3193. (- 0.67318).36 H ma = 3.3193. log 10 6.585 Vaihteluväli o pieimmä ja suurimma havaitoarvo määräämä väli ( (1), () ). Vaihteluväliä ei voi käyttää omiaaliasteikolla. Luokitellussa aieistossa vaihteluväli muodostavat esimmäise luoka pyöristetty alaraja ja viimeise luoka pyöristetty yläraja. Vaihteluväli pituus w soveltuu itervalli- ja suhdeasteiko muuttujille. Se o suurimma ja pieimmä havaitoarvo erotus eli w = () (1). Luokitellussa aieistossa se o viimeise luoka yläraja ja esimmäise luoka alaraja erotus. Vaihteluväli pituus o helppo laskea, mutta se ei ole yksistää käytettyä hyvä hajotaluku, koska se ottaa huomioo vai muuttuja äärimmäiset arvot. Esim. 37 Lääi vaihteluväliä ei voida määrittää. Esim. 38 Farkkuje myytihia vaihteluväli o (43, 135) ja vaihteluväli pituus o w = 135-43 = 9. (Luokitellusta aieistosta: farkkuje hia vaihteluväli o (40, 139) ja vaihteluväli pituus 99.) Esim. 39 Opiskelijoide iä vaihteluväli o (19, 46) ja vaihteluväli pituus o 7 vuotta. Muuttuja vaihtelua voidaa kuvata kvartiilivälillä (Q 1, Q 3 ), joka ilmaisee havaitoarvoje keskipaikkeilta sellaise väli, jossa o 50 % keskimmäisistä arvoista. Kvartiiliväli pituus saadaa erotuksea Q 3 - Q 1. Kvartiilipoikkeamalla tarkoitetaa lukua Q Q Q 3 1.
9 Kvartiilipoikkeama o vaihteluväli pituutta vakaampi hajotaluku ja kertoo, kuika pitkällä muuttuja-arvovälillä aieisto keskellä olevat 5 % havaioista sijaitsevat. Kvartiiliväli voidaa määrätä ordiaaliasteikolliselle muuttujalle, mutta kvartiiliväli pituus ja kvartiilipoikkeama vasta itervalliasteikolla. Muuttuja-arvoje hajaatumista voidaa pelkä kvartiiliväli tarkastelu sijasta tarkastella paremmi vertailemalla kvartiiliväliä ja vaihteluväliä toisiisa. Esim. 40 Farkkuje myytihia prosetuaallise summakäyrä perusteella arvioitua Q 1 73 ja Q 3 108, jote kvartiiliväli pituus o oi 35 ja kvartiilipoikkeama Q = 17.5. Esim.41 Opiskelijoide iä kvartiiliväli o (0, 5). Kvartiiliväli pituus o 5 vuotta ja kvartiilipoikkeama.5 vuotta. Käytetyimpiä hajotalukuja ovat variassi s ja keskihajota s, vaikka iide tulkita ei ole ii yksikertaista kui em. hajotaluvuilla. Variassi ja keskihajota voidaa laskea itervalli- tai suhdeasteikollisesta muuttujasta. Keskihajota o variassi positiivie eliöjuuri eli s = s. Variassi kertoo, kuika tiiviisti havaitoarvot ovat keskittyeet keskiarvo ympärille. Jos kaikki mittaustulokset ovat samoja, o s = 0, muulloi s > 0. Keskihajoassa ja variassissa muuttujie arvoje vaihtelu ilmaistaa raketeellisesti samalla tavalla. Keskihajota o kuvailussa havaiollisempi, koska sillä o sama laatu kui muuttuja arvoilla, ja se kertoo, kuika kaukaa keskimääri havaiot ovat keskiarvosta. Variassi o taas parempi teoreettisissa tarkasteluissa. Luokittelemattoma aieisto variassi voidaa laskea kaavalla s 1 i 1 i1 1 i 1 i1 i i1. Esim. 4 Opiskelijoide iä variassi ja keskihajoa lasketa: i 19 0 0 0 0 1 46 46 i 19 0 0 0 0 1 46 114
30 s 1 46 114 54.450... v 19 1 19 s = 7.379 v 7 v Luokitellu aieisto variassi o k k 1 1 s fi mi fimi 1 i1 1 i1 k fimi i1 missä f i m i k = luoka E i frekvessi = luoka E i luokkakeskus = luokkie lkm = havaitoje lkm Esim. 43 Farkkuje myytihia variassi ja keskihajota s 1 3 49.5 31 1 1 30 794.5 67497.75 31 7 69.5 10 89.5 519.57 8 109.5 3 19.5 794.5 31 s =.79 3 (Alkuperäisista havaioista tarkastelua: s = 549.67 ja s = 3.4.) Variassi ja myös keskihajoa arvot riippuvat muuttuja mittayksiköstä. Jos muuttujalle tehdää lieaarie muuos y = a + b, ii s y = b s ja sy = b s. Esim. 44 Pituus o mitattu tuumia ja : variassi o 5. Jos pituus mitataa cm:ä eli :lle tehdää muuos y =.54, ii y: variassi s y =.54.5 = 3.36. Keskiarvoa ja keskihajotaa voidaa hyödytää esimerkiksi muuttuja havaitoarvoje stadardoiissa:
31 zi i. s Stadardoitu arvo z i kertoo, kuika moe keskihajoa etäisyydellä havaitoarvo i o keskiarvosta. Stadardoiduille arvoille z i pätee aia, että iide keskiarvo z = 0 ja keskihajota s z = 1. Stadardoitu muuttuja z o pelkkä luku; se o siis riippumato alkuperäise muuttuja mittayksiköstä. Stadardoituja havaitoarvoja voidaa käyttää mm. ku eri havaitoaieistoje tilastoyksiköitä verrataa toisiisa. Esim. 45 Opiskelija osallistui tilastotietee tettii ja sai pistemääräksi 36. Hä osallistui myös talousmatematiika tettii ja sai pistemääräksi 30. Tilastotietee teti pistemäärä keskiarvo oli 9 ja keskihajota 6, talousmatematiika tetissä vastaavat luvut olivat ja 8. Opiskelija tettitulokset stadardoitua ovat 36 9 30 z tt 1. ja z tm 1. 0 6 8 Opiskelija meestyi tilastotieteessä suhteellisesti paremmi. s Variaatiokerroi V o mittayksiköstä riippumato hajotaluku, jota voidaa käyttää suhdeasteikolla. Variaatiokerroi ilmaisee muuttuja suhteellise vaihtelu. Usei variaatiokerroi ilmaistaa prosettilukua, jolloi luku 100V kertoo, kuika mota % keskihajota o keskiarvosta. Variaatiokerroita käytetää vertailtaessa mittayksiköiltää erilaisia aieistoja. Esim. 46 Opiskelijoide iä variaatiokerroi V = 30 % iä keskiarvosta. 7.379... 4.315... 0.30. Iä hajota o site Esim. 47 Farkkuje myytihia variaatiokerroi V = o site 5 % hia keskiarvosta.79... 90.145... 0.5. Hia hajota Huom. Käytäössä o havaittu:
3 3.3.3. Yksiulotteise jakauma muita tuuslukuja Jakauma sijaitia ja vaihtelua kuvaavie tuuslukuje lisäksi voidaa mitata jakauma symmetriasta poikkeamista eli vioutta sekä keskittymise terävyyttä tai tylsyyttä eli huipukkuutta. Ko. tuuslukuja määritetää yleesä itervalli- ja suhdeasteiko muuttujille. Jos muuttuja arvot ovat keskittyeet voimakkaasti alimpii luokkii, ja jakaumalla o pitkä hätä oikealle päi, saotaa muuttuja jakaumaa positiivisesti vioksti eli oikealle vioksi tai oikealle loiveevaksi. Jos taas muuttuja arvot ovat keskittyeet ylimpii luokkii, o muuttuja jakauma vasemmalle loiveeva tai vio eli egatiivisesti vio. Symmetrisessä jakaumassa keskiarvo ja mediaai ovat yhtä suuret, ja jakauma muoto oikealle ja vasemmalle keskipisteestä saadaa peilikuvaa. Frekvessijakauma vioude mitta o suure g1 1 3 i i1. 3 s Jos jakauma o täsmällee symmetrie o g 1 = 0 (esim. ormaalijakauma); jos jakauma o vasemmalle loiveeva, o g 1 < 0; jos jakauma o oikealle loiveeva, o g 1 > 0. Peukalosäätöä pidetää usei seuraavaa: symmetriseä jakaumaa pidetää jakaumaa, jolle 0.5 < g 1 < 0.5. Jakaumaa voi tutkia myös huipukkuude avulla. Huipukkuude mittaa o suure
33 1 4 i g i 1 3. 4 s Jos muuttuja arvot ovat keskittyeet parii luokkaa, ja muissa luokissa o vai vähä havaitoja, o jakauma huipukas eli leptokurtie. Huipukkaalla jakaumalla g > 0. Laakeassa eli platykurtisessa jakaumassa g < 0. Jos g = 0, o jakauma muoto jotai tältä väliltä eli mesokurtie. Mm. ormaalijakauma huipukkuus g = 0. Peukalosäätöä pidetää usei seuraavaa: mesokurtisea jakaumaa pidetää sellaista jakaumaa, jolla 0.5 < g < 0.5.
34 4. KAKSIULOTTEINEN EMPIIRINEN JAKAUMA Kahde tilastollise muuttuja arvoilla voi olla taipumus liittyä toisiisa ii, että muuttuja tiety arvo yhteydessä esiityy suhteellisesti ottae muita useammi tietty muuttuja y arvo. Usea muuttuja samaaikaise tarkastelu lähtökohtaa oki usei juuri muuttujie välise mahdollise yhteyde olemassaolo, voimakkuude ja luotee selvittämie. Täydellie (matemaattie, fuktioaalie) riippuvuus o kyseessä silloi, ku vuorovaikutussuhde voidaa ilmaista yksikäsitteisesti jollaki kaavalla. Esim. 48 Neliö pita-ala A riippuu eliö sivu pituudesta kaava A = mukaa. Tilastollise eli epätäydellise riippuvuude kuvaamisee käytetää mm. erilaisia tilastollisia riippuvuustuuslukuja. 4.1. Ristiitaulukko ja kotigessikerroi Oletetaa, että muuttuja arvot o jaettu luokkii, joita o J kappaletta ja muuttuja y arvot o jaettu luokkii, joita o I kappaletta. Muuttujat ja y voivat olla mittaasteikoiltaa mitä tahasa. Merkitää muuttuja eri luokkia symboleilla E 1, E,, E J ja muuttuja y eri luokkia symboleilla G 1, G,, G I. Muuttujie ja y välie ristiitaulukko (frekvessitaulukko, kotigessitaulukko, : ja y: yhteisjakauma) o silloi E 1 E E J yhteesä y G 1 f 11 f 1 f 1J f 1 G f 1 f f J f.. f ij. G I f I1 f I f IJ f I yhteesä f 1 f f J f = missä y f ij o yleesä syy, o yleesä seuraus, o sellaiste tilastoyksiköide lukumäärä joide -muuttuja arvo kuuluu luokkaa E j ja joide y-muuttuja arvo kuuluu luokkaa G i ; saotaa, että f ij o solu (G i, E j ) havaittu frekvessi
f i o i:e vaakarivi frekvessie summa eli rivisumma; f i f i1 f i f ij f j o j:e sarakkee frekvessie summa eli sarakesumma; f j f 1j f j f Ij f o tilastoyksiköide kokoaismäärä eli kokoaissumma; f f 1 f f J f 1 f f I 35 Luvut f 1, f,, f I muodostavat muuttuja y reuajakauma, joka o itse asiassa muuttuja y yksiulotteie jakauma. Vastaavasti luvut f 1, f,, f J muodostavat muuttuja reuajakauma. Kahde muuttuja suhteellie yhteisjakauma saadaa jakamalla jokaie solufrekvessi havaitoje kokoaismäärällä. Prosetuaalie yhteisjakauma saadaa kertomalla suhteelliset solufrekvessit luvulla sata. Esim. 49 Eräällä tilastotietee kurssilla opiskelijoilta kysyttii, ovatko he asiotyössä ja kuika he kokevat opitojesa edistyvä muihi sama ala sama vuosikurssi opiskelijoihi verrattua. Saatii ristiitaulukko Oko asiotyössä? Opitoje edistymie kyllä ei Yht. keskimääräistä hitaammi 16 11 7 keskimääräisesti 5 75 100 keskimääräistä opeammi 3 14 17 Yhteesä 44 100 144 Ristiitaulukosta laskettu prosetuaalie yhteisjakauma o Opitoje edistymie Oko asiotyössä? kyllä ei Yht. keskimääräistä hitaammi 11 % 8 % 19 % keskimääräisesti 17 % 5 % 69 % keskimääräistä opeammi % 10 % 1 % Yhteesä 30 % 70 % 100 %
36 Kahde muuttuja yhteisjakaumasta voidaa määrätä lisäksi ehdollisia jakaumia. Jokaie sarake muodostaa y-muuttuja ehdollise jakauma tietyllä muuttuja arvolla, ja jokaie vaakarivi muodostaa -muuttuja ehdollise jakauma tietyllä muuttuja y arvolla. Jakamalla ehdollise jakauma frekvessit iide summalla saadaa suhteellie ehdollie frekvessijakauma. Kertomalla e edellee sadalla, saadaa prosetuaalie ehdollie frekvessijakauma. Erityisesti prosetuaaliset ehdolliset jakaumat ovat käyttökelpoisia, ku selvitetää muuttujie välise riippuvuude luoetta. Esim. 50 Seuraavassa o esitetty y-muuttuja (= opitoje edistymie) prosetuaaliset ehdolliset jakaumat -muuttuja (=oko asiotyössä) eri luokissa: Oko asiotyössä? Opitoje edistymie kyllä ei Yht. keskimääräistä hitaammi 36 % 11 % 19 % keskimääräisesti 57 % 75 % 69 % keskimääräistä opeammi 7 % 14 % 1 % Yhteesä 100 % 100 % 100 % Nyt muuttuja y jakaumat ovat erilaiset -muuttuja eri luokissa. Jos ristiitaulukosta määrätyt prosetuaaliset ehdolliset jakaumat ovat samalaiset eri sarakkeilla (tai riveillä), saotaa muuttujie oleva tilastollisesti riippumattomia. Jos muuttujat eivät ole riippumattomia, saotaa iide oleva tilastollisesti riippuvia. Tilastollise riippuvuude voimakkuutta voidaa mitata ristiitaulukosta seuraavasti: lasketaa riippumattomuustilaetta vastaavat odotetut eli teoreettiset frekvessit e ij, jotka saadaa määrättyä havaitu ristiitauluko rivi- ja sarakesummie avulla kaavalla e ij f i f j.
Nämä voidaa asettaa samalaisee taulukkomuotoo kui havaitut frekvessit: 37 E 1 E E J yhteesä y G 1 e 11 e 1 e 1J f 1 G e 1 e e J f... G I e I1 e I e IJ f I yhteesä f 1 f f J f = Havaittuje frekvessie ja odotettuje frekvessie välie ero kuvaa muuttujie ja y riippuvuude määrää. Tämä riippuvuude suuruude eräää mittaa voidaa käyttää - arvoa (lue: khii eliö) I J i1j1 f ij e e ij. ij -arvo saa arvo olla, jos havaitut frekvessit ovat täsmällee riippumattomuustilaetta vastaavia. Se arvo o sitä suurempi, mitä eemmä havaitut frekvessit poikkeavat riippumattomuude tilateesta. -arvo ei sellaiseaa sovellu riippuvuude mitaksi, koska mm. ristiitauluko koko vaikuttaa se suuruutee. : maksimiarvo ma = (k 1), missä k o pieempi luvuista I ja J, ja o havaitoje määrä. Usei riippuvuuslukua käytetää kotigessikerroita C, joka saadaa ormeeraamalla -arvo seuraavasti: C. Jos ja y ovat riippumattomia, o C: arvo olla. Muuttujie välise riippuvuude lisäätyessä kasvaa C: arvo. Kotigessikertoime maksimiarvo o C ma k 1, k missä k o pieempi luvuista I ja J.
38 Koska sekä -arvo että kotigessikertoime arvo riippuvat ristiitauluko koosta, ei erikokoiste ristiitaulukoide riippuvuustuuslukuja pitäisi verrata toisiisa. Vertailtavuutta voidaa parataa, kuha havaitut riippuvuusluvut jaetaa vastaavilla maksimiarvoilla. Esim. 51 Seuraavassa o esitetty odotetut frekvessit ja tuuslukuja Oko asiotyössä? Opitoje edistymie keskimääräistä hitaammi keskimääräisesti keskimääräistä opeammi kyllä ei Yht. =8 =19 7 =31 =69 100 = 5 =1 17 Yhteesä 44 100 144 16 8 1119 5 31 75 69 3 5 14 1 8 19 31 69 5 1 14. C 14. 14. 144 0.30 ma ( 1) 144 144 1 Cma 0.71 Kotigessikertoime perusteella voidaa saoa muuttujie välillä oleva riippuvuutta. Riippuvuutta voi luoehtia ehdolliste jakaumie avulla: asiotyössä käyvistä opiskelijoista 36 % koki opitojesa edistyvä keskimääräistä hitaammi, ku taas muide opiskelijoide joukossa vastaava prosettiosuus oli vai 11 %. Huom. Ristiitaulukkoa, jossa o kaksi vaakariviä ja kaksi saraketta, saotaa eliketäksi. Neliketästä voidaa -arvo laskea kaavasta f f 11 1 f f f f 1 1 f f 1
39 Esim. 5 Muuttuja saa arvot M ja N se mukaa kumpi puolisoista yleesä hoitaa puhumise, ja muuttuja y saa arvot M ja N se mukaa kumpi puolisoista useammi päättää yhteisistä asioista. Satuaisesti poimituista 34 avioparista saatii seuraava ristiitaulukko: y M N Yhteesä M 13 6 19 N 5 10 15 Yhteesä 18 16 34 34 1310 5 6 181619 15 4.1 ja ma ( 1) 34 = 34 C 4.1 4.1 34 0.33 1 ja C ma 0. 71 Voidaa siis päätellä, että puhumise ja yhteisistä asioista päättämise välillä äyttää tilastollista riippuvuutta oleva site, että se joka puhuu usei myös päättää. 4.. Korrelaatiodiagrammi ja korrelaatio Tarkastellaa kahta muuttujaa ja y, jotka ovat vähitää itervalliasteikolla mitattuja. Muuttujie ja y välisellä korrelaatiodiagrammilla eli pisteparvella eli sirotakuviolla tarkoitetaa sellaista graafista esitystä, missä havaitoparia ( i, y i ) o merkitty koordiaatistoo. Pisteparve muodo avulla voidaa selvittää, oko muuttujie ja y välillä lieaarista eli suoraviivaista riippuvuutta. Mitä suoraomaisempaa muotoo pisteparve pisteet ovat ryhmittyeet, sitä voimakkaampaa o : ja y: välie lieaarie riippuvuus. Positiivisella lieaarisella riippuvuudella tarkoitetaa sitä, että : arvoje kasvaessa myös y: arvot kasvavat tasaisesti; vastaavasti egatiivisella lieaarisella riippuvuudella tarkoitetaa sitä, että : arvoje kasvaessa y: arvot pieeevät tasaisesti.
40 Esim. 53 y y positiivie lieaarie riippuvuus egatiivie lieaarie riippuvuus y käyräviivaie eli epälieaarie riippuvuus Esim. 54 Tutkitaa erää virvoitusjuoma viimeisimmä maioskampaja ja ko. juoma myyi välistä riippuvuutta. Kahdeksalta hekilöltä kysyttii, kuika mota ko. juoma maiosta he olivat äheet viime aikoia (= muuttuja ), ja kuika mota ko. merkkistä virvoitusjuomapulloa he olivat ostaeet (= muuttuja y). Saatii havaitoaieisto Hekilö: 1 3 4 5 6 7 8 : 5 10 4 0 7 3 6 y: 10 1 5 4 1 3 4 8 Muuttujie ja y välie pisteparvi o
41 Lieaarise riippuvuude voimakkuude mittaamiseksi jaetaa muuttujie ja y välie pisteparvi eljää osaa muuttujie keskiarvoje perusteella: y I II y IV III Lieaarista riippuvuutta mittaava tilastollie tuusluku perustuu tuloo i y i y. Jos havaito ( i, y i ) o lohkossa II tai IV, o tulo i y i y arvo positiivie, ku taas havaio ollessa lohkossa I tai III ko. tulo saa egatiivise arvo. Nyt edellisessä kuviossa havaitoja o paljo lohkoissa II ja IV, jote eo. tulo termeistä suuri osa o positiivisia ja site i y i y saa positiivise arvo. Eo. i1 summa mittaa : ja y: välise lieaarise riippuvuude voimakkuutta. Ku tämä lauseke jaetaa termillä ( - 1), saadaa : ja y: kovariassiksi kutsuttu riippuvuustuusluku s y i1 i 1 y i y 1 1 i1 i y i i i1 y i i1. Kovariassi ei kuitekaa ole sopivi : ja y: lieaarise riippuvuude mitta, koska se arvoo vaikuttavat mm. muuttujie mittayksiköt, ja sitä o usei hakala tulkita. Se sijaa Pearsoi eli tulomometti- eli lieaarise korrelaatiokertoime ry s y r, s s y missä s y s s y = muuttujie ja y välie kovariassi = muuttuja keskihajota = muuttuja y keskihajota, arvoo muuttujie mittayksiköt eivät vaikuta.
4 Korrelaatiokerroi voidaa myös laskea seuraava kaava avulla: y y y y r 1 i i 1 i i 1 i i 1 i i 1 i i 1 i i 1 i i i y Korrelaatiokertoime arvo o aia välillä [-1, +1]. Positiivie korrelaatiokertoime arvo kuvaa positiivista lieaarista riippuvuutta ja egatiivie arvo vastaavasti egatiivista lieaarista riippuvuutta. Mitä suurempi korrelaatiokertoime itseisarvo o, sitä voimakkaammasta lieaarisesta riippuvuudesta o kyse. Arvo -1 kuvaa täydellistä egatiivista ja arvo +1 täydellistä positiivista lieaarista riippuvuutta. Jos muuttujat ovat lieaarisesti riippumattomia, o korrelaatiokertoime arvo olla. Jos korrelaatiokertoime arvo o olla, voi muuttujie välillä kuiteki esiityä epälieaarista riippuvuutta. Korrelaatiokerroita voidaa yrittää ymmärtää regressiosuora avulla ja tähä palataaki myöhemmi. Korrelaatiokerroita laskettaessa ja käytettäessä o suotavaa tarkastella myös pisteparvea, koska silloi välttyy helpommi tulkiallisilta virheiltä. Esimerkiksi epälieaarise riippuvuude ja poikkeushavaiot voi havaita melko helposti pisteparvesta. Esim. 55 Lasketaa virvoitusjuomaesimerki korrelaatiokertoime arvo. Hekilö i y i i y i i y i 1 5 10 5 100 50 10 1 100 144 10 3 4 5 16 5 0 4 0 4 0 16 0 5 1 4 1 6 7 3 49 9 1 7 3 4 9 16 1 8 6 8 36 64 48 Yhteesä 37 47 39 375 73
43 r 37 47 73 8 37 39 375 8 47 8 0.68 Korrelaatiokertoime perusteella muuttujie välillä äyttää oleva positiivista lieaarista riippuvuutta. Ku korrelaatiokertoimia tulkitaa, kaattaa pohtia seuraavia asioita: 1 Yksiki havaito saattaa muuttaa korrelaatiokertoime arvoa paljo, jos tämä havaio - ja/tai y-arvot poikkeavat huomattavasti iide tavaomaisista arvoista. Jos tällaiselle poikkeushavaiolle löytyy järkevä selitys (esim. mittausvirhe, tilastoyksikkö peräisi eri populaatiosta kui muut tms.), voidaa se poistaa havaitoaieistosta. Ryhmie yhdistämise jälkee laskettu korrelaatio saattaa poiketa huomattavasti yksittäisissä ryhmissä lasketuista korrelaatioista. 3 Vaihteluväli pieetämie aiheuttaa yleesä myös korrelaatiokertoime itseisarvo pieeemise. 4 Korrelaatiokertoime suurikaa arvo ei takaa, että muuttujie välillä o joki todellie riippuvuussuhde. Taustalla voi olla joki kolmas tekijä z, joka vaikuttaa sekä muuttujaa että y. Tällaise tekijä vaikutus yritetää usei poistaa laskemalla osittaiskorrelaatioita. 4.3. Järjestyskorrelaatio Edellä esitety Pearsoi tulomomettikorrelaatiokertoime käyttöä rajoittaa kaksi seikkaa: sitä voidaa käyttää vai vähitää itervalliasteikolliste muuttujie tapauksessa ja toisaalta se mittaa vai lieaarista riippuvuutta. Jos molemma tarkasteltavat muuttujat ovat vähitää järjestysasteikollisia, voidaa riippuvuude tutkimisee käyttää erilaisia järjestyskorrelaatiokertoimia, esim. Spearmai järjestyskorrelaatiokerroita r S. Havaio järjestysluku eli sijaluku R( i ) ilmaisee, moesko havaito i o suuruusjärjestyksessä. Jos kahdella tai useammalla tilastoyksiköllä o sama muuttuja arvo, saotaa, että tilastoyksiköide välillä o sidos. Näille havaioille aetaa järjestysluvuksi iide järjestyslukuje keskiarvo, mitkä ämä havaiot olisivat hiema erisuuruisia saaeet. Tutkittaessa yt kahta vähitää järjestysasteikollista muuttujaa ja y saadaa kutaki tilastoyksikköä kohti järjestyslukupari {R( i ), R(y i )}. Muuttujie välistä riippuvuutta mittaa järjestyslukuje erotuksee d i = R( i) - R(y i )
44 perustuva Spearmai järjestyskorrelaatiokerroi r S 1 6 d i i1 3, joka o itse asiassa järjestyslukupareille {R( i ), R(y i )} määrätty Pearsoi tulomomettikorrelaatiokerroi. Esim. 56 y r S 1 y r S 1 Spearmai järjestyskorrelaatio o arvoltaa aia välillä [-1, +1], ja arvo o itseisarvoltaa sitä suurempi, mitä voimakkaammasta mootoisesta riippuvuudesta o kyse. Järjestyskorrelaatio mittaa kahde eri muuttuja arvoje järjestyste samalaisuutta. Jos muuttujie arvoje järjestys o täysi sama, kertoime arvo o +1, täysi päivastaie järjestys ataa kertoimelle arvo 1. Äärimmäiset arvot esiityvät silloi, ku muuttujie välillä vallitsee täydellie mootoie riippuvuus. Ku muuttujie arvoje järjestys o toisiisa ähde satuaie, kertoime arvo o olla. Esim. 57 Lasketaa Spearmai järjestyskorrelaatio arvo seuraavasta aieistosta, missä kuvaa ee koulutusjaksoa suoritetu testi arvosaa ja y kuvaa koulutusjakso jälkee suoritetu testi arvosaa. i R( i ) y i R(y i ) d i d i 10 1 3.5-1.5.5 11 7 5-3 9 1 3 18 1 4 13 4 9 7-3 9 15 5 3.5.5 6.5 16 6 5 4 4 17 7 8 6 1 1 18 8 31 8 0 0 35.5
45 r S 6 35.5 1 0.577 3 8 8 Tulosta voisi tulkita ii, että testie pistemäärillä äyttäisi oleva positiivie riippuvuussuhde site, että jos meestyi hyvi ee koulutusjakso alkua pidetyssä testissä, meestyi hyvi myös koulutusjakso jälkee pidetyssä testissä. Huom. Jos aieistossa o paljo sidoksia, kaattaa Spearmai järjestyskorrelaatiokertoime sijasta käyttää Kedalli -b -kerroita, joka tulkita o samakaltaie kui Spearmai korrelaatiolla. 4.4. Regressio Tilastolliste tarkasteluje yhteä tavoitteea o pyrkiä kuvamaa ilmiöitä ja löytämää iide välillä oleva mahdollie syy-seuraussuhde site, että jos tietyt ehdot ovat voimassa, ii iistä o tuloksea tiettyjä seuraamuksia. Tilastollise (epätäydellise) syy-seuraussuhtee kuvaamisee voidaa käyttää mm. regressioaalyysiä, joka päämäärää oki löytää muuttujie välillä mahdollisesti vallitseva yhteys ja kuvata sitä matemaattise malli avulla. Jos muuttujia o kaksi, saotaa toista muuttujaa selittäväksi ja toista selitettäväksi. Selitettävää muuttujaa merkitää y:llä ja selittävää :llä. Tulomomettikorrelaatiokerroita tarkasteltaessa todettii, että se mittaa lieaarista riippuvuutta. Jos muuttujaa voidaa pitää syyä ja y:tä seurauksea, ja o havaittu, että muuttujie välillä vallitsee jokilaie lieaarie riippuvuus, voidaa muuttujie ja y välistä riippuvuutta kuvata suoralla. Tämä s. regressiosuora ŷ b0 b1 voidaa määrittää pieimmä eliösumma meetelmällä. PNS-meetelmä perusidea o se, että pistejoukkoo sovitetaa sellaie suora, joka kuvaa sitä mahdollisimma luotevasti. Tällöi suora ylä- ja alapuolelle jää suuillee yhtä mota pistettä. Jokaista havaitoparia ( i, y i ) kohde lasketaa se pystyakseli suutaie etäisyys (jääös, residuaali) e i mallia olevasta suorasta. Merkitää i : arvolla laskettua suora pistettä ( i, ŷ i ):llä. Nimesä mukaisesti PNS-meetelmässä haetaa ratkaisua lausekkeelle Mi yi ŷi Mi ei. i1 i1
46 y e i Miimoii tuloksea saadaa regressiosuora ŷ 0 1 b b parametreille laskukaavat b 1 s s y b0 1 y b. Vakioita b 0 ja b 1 saotaa regressiokertoimiksi. Vakio b 0 ilmoittaa pistee, jossa suora leikkaa y-akseli. Vakiolla b 0 o selkeä tulkita vai silloi, ku muuttuja voi saada arvo olla. Vakio b 1 o regressiosuora kulmakerroi. Vakio b 1 ilmaisee, kuika paljo ja mihi suutaa y: arvo keskimääri muuttuu, ku kasvaa yhde yksikö verra. Edellä olevia kaavoja voi käyttää, olipa : ja y: arvot mitkä tahasa. Ee laskemista o järkevää tarkastaa kuvio avulla, oko pisteparvea mielekästä kuvata suoralla. Esim. 58 Elokuu 009 viimeisellä viikolla Vaasa keskustassa myyissä olevista vahoista kerrostalokaksioista ja -kolmioista otetussa otoksessa olivat asutoje koot (m ) ja pyytihia (1000 ) seuraavat: Asuto: 1 3 4 5 6 7 8 9 10 Koko: 79 79 75 51 5 6 64 51 68 45 Hita: 160 139 19 11 19 134 140 116 135 104 Muuttujie välie pisteparvi o
47 Pisteet ovat ryhmittyeet melko suoraomaisesti, jote muodostetaa regressiomalli, jossa asuo hia vaihtelua selitetää asuo koo avulla. Asuto i y i i y i i y i 1 79 160 641 5600 1640 79 139 641 1931 10981 3 75 19 565 16641 9675 4 51 11 601 14641 6171 5 5 19 704 16641 6708 6 6 134 3844 17956 8308 7 64 140 4096 19600 8960 8 51 116 601 13456 5916 9 68 135 464 185 9180 10 45 104 05 10816 4680 Yhteesä 66 1307 4060 17897 8319 66 1 66 6.6 s 4060 157.155... 10 10 1 10 1307 1 1307 y 130.7 sy 17897 30.33... 10 10 1 10 1 661307 s y 8319 155.644... 10 1 10
48 155.644... b 1 0.990... 157.155... b 0 130.7 0.990... 6.6 68.701.... Suora yhtälö o siis ŷ= 68.7 + 0.990. Saatua mallia voidaa tulkita mm. site, että yksi lisäeliö kerrostalohuoeisto koossa maksaa keskimääri 0.99 tuhatta. Piirretää lopuksi regressiosuora pistejoukkoo. Yksi syy tilastollise malli käyttämiselle o se, että malli avulla voidaa laatia eusteita. Ku mallii sijoitetaa : paikalle tarkasteltava arvo, saadaa mallista lasketuksi tarkasteltavaa : arvoa vastaava y: estimaatti eli euste y: arvolle. Tätä malli avulla laskettua eustetta merkitää y ˆ :lla. Eustee laatimie o kuiteki mahdollista vai silloi, ku eusteesee käytetty : arvo o suhteellise lähellä muita : havaittuja arvoja. Esim. 59 Jos asuo koko o 60 m, ii euste asuo hialle saadaa sijoittamalla: ŷ= 68.7 + 0.990. 60 = 18.1 eli huoeisto, joka koko o 60 m, keskimääräie hita o 18 tuhatta. Malli hyvyys vaikuttaa osaltaa siihe, kuika luotettavia malli avulla laskettuja eusteita voidaa pitää. Yksi tapa arvioida eustee luotettavuutta o laskea selityskerroi eli selitysaste R, joka mittaa malli kykyä kuvata selitettävä muuttuja y vaihtelua. Suuri selityskertoime arvo ei kuitekaa yksi takaa tarkkoja eusteita.
49 Yhde selittäjä lieaarise regressiomalli tilateessa selityskerroi saadaa korrelaatiokertoime avulla R = r. Usei selityskerroi ilmaistaa prosettilukua 100R %, jolloi se ilmaisee kuika mota prosettia selitettävä muuttuja y vaihtelusta voidaa selittää pelkästää selittävä muuttuja avulla. Esim. 60 Kerrostalohuoeistoje koo ja hia välie korrelaatio o r 155.644... 157.155... 30.33... 0.818 ja malli selitysaste o site R 0.818 0.670, jote asuo koko selittää. 67 % asuo hia vaihtelusta
50 5. TODENNÄKÖISYYSLASKENTAA Yksikertaiste ilmiöide todeäköisyyksiä o mahdollista arvioida tiettyjä säätöjä oudattae. Satuaisilmiöllä tarkoitetaa sellaista ilmiötä, joka tulosta ei varmasti tiedetä ee kui se o havaioitu. Erilaiste tuloste esiitymistodeäköisyyksiä voidaa kuiteki usei tarkastella jo ee ilmiö havaioitia. 5.1. Kombiatoriikkaa Todeäköisyyksie yhteydessä joudutaa usei laskemaa erilaiste tapahtumie lukumääriä. Erilaiste mahdollisuuksie lukumäärie laskemista koskevaa matematiika aluetta saotaa kombiatoriikaksi. Jouko alkioide permutaatioiksi kutsutaa mitä tahasa kyseiste alkioide järjestettyä jooa. Esim. 61 Jouko A = {a, b, c} kaikki kolme alkio permutaatiot ovat: (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a) Permutaatioita tarkasteltaessa oleellista o alkioide järjestys. Permutaatiot ovat samat vai jos iissä o samat alkiot samassa järjestyksessä. Kombiaatio o sellaie alkioide joukko, jossa alkioide järjestyksellä ei ole merkitystä. Kombiaatiot ovat samoja, jos iissä o samat alkiot. Esim. 6 (a, b, c) ja (b, a, c) ovat samoja kombiaatioita. Usei kombiatoriikassa o kyse siitä, kuika moella tavalla jouko alkiot voidaa järjestää, tai kuika moella tavalla aetusta joukosta voidaa poimia tiety kokoie tiety tyyppisiä alkioita sisältävä osajoukko. Näihi ogelmii löytyy yleesä vastaus kerto- ja yhteelaskuperiaattee avulla. Seuraavassa esitettyjä kaavoja tarvitaa määrättäessä todeäköisyyksiä s. symmetrisessä tapauksessa. Kertolasku- eli tuloperiaate Tarkastellaa koetta, joka voidaa toteuttaa :ssä eri vaiheessa. Oletetaa, että 1. vaiheessa o k 1 tulosvaihtoehtoa. vaiheessa o k tulosvaihtoehtoa. vaiheessa o k tulosvaihtoehtoa
51 edellise vaihee tuloksista riippumatta. Tällöi koko kokeessa o k 1 k k tulosmahdollisuutta. Huom. Jos k 1 = k = = k = k, ii tulosmahdollisuuksia o k kpl. Esim. 63 A:sta B:he o 3 reittiä ja B:stä C:he o 4 reittiä. Site A:sta C:he o 3 4 = 1 eri reittiä. Yhteelaskuperiaate Oletetaa, että kokeessa o toisesa poissulkevaa tulosvaihtoehtojoukkoa site, että 1. joukossa o k 1 tulosvaihtoehtoa. joukossa o k tulosvaihtoehtoa. joukossa o k tulosvaihtoehtoa. Nyt koko kokeessa o k 1 + k + + k tulosmahdollisuutta. Esim. 64 A:sta pääsee B:he 3 jualla ja 4 autolla. Ts. A:sta pääsee B:he 3 + 4 = 7 tavalla. Esim. 65 Periteie 13 kohtee vakioveikkausrivi voidaa muodostaa 3 13 = 1 594 33 tavalla. Esim. 66 Kuika mota sellaista 13 kohtee veikkausriviä o, jossa o 1 oikei? Väärä kohde voi olla mikä tahasa 13 kohteesta ja se voi olla kahdella tavalla vääri. Site erilaisia 1 oikei veikkausrivejä o 6 kpl. 13 kpl Olkoo positiivie kokoaisluku. Luvu kertoma! = ( - 1) ( - ) 3 1. Lisäksi 0! = 1. Esim. 67 6! = 6 5 4 3 1 = 70 Huom. Tuloperiaattee perusteella : erilaise alkio permutaatioita o! kappaletta. Huom. Tuloperiaatetta voidaa soveltaa myös tilateesee, jossa : erilaise alkio joukosta muodostetaa k: alkio (0 k ) järjestettyjä jooja, joita saotaa variaatioiksi tai k-permutaatioiksi. Tällaiste jooje lukumäärä o! ( - 1) ( - ) ( - (k - 1)) =. k!
5 Esim. 68 Kuika mota erilaista kirjaime jooa voidaa muodostaa saasta LAHTI? 5! 5 4 3 1 5 4 0 (5 )! 3 1 Huom. Joukossa o erilaista alkiota. Se alkioista muodostettuje k: alkio kombiaatioide (0 k ) lukumäärä o! k k! k! (" yli k:"). Lukuja saotaa biomikertoimiksi. k Esim. 69 Erilaisia lottorivejä o 39 7 7!3! 39! 39 38 37 36 35 34 33 7 6 5 4 3 1 15 380 937 kpl 5.. Todeäköisyyde määrittely Merkitöjä tai E perusjoukko eli kaikkie tulosmahdollisuuksie eli alkeistapauste joukko; varma tapahtuma Ø tyhjä joukko; mahdoto tapahtuma A, B, C, perusjouko osajoukkoja; tapahtumat a, b, c, alkioita eli alkeistapaukset; yksittäiset tulosmahdollisuudet A B yhdiste; tapahtuu A tai B tai molemmat A B leikkaus; sekä A että B tapahtuvat A C A: komplemetti; A ei tapahdu A B = Ø A ja B ovat erillisiä; A ja B eivät voi tapahtua yhtä aikaa Klassie eli teoreettie todeäköisyys (a priori, ealta aettu) Tarkastellaa jotaki satuaiskoetta tai -ilmiötä (esim. raha heitto, palloje ostamie uurasta je.), joka tulosmahdollisuuksia eli alkeistapauksia o äärellie määrä. Oletetaa vielä, että kaikki tulosmahdollisuudet ovat symmetrisiä eli kuki alkeistapaus esiityy yhtä usei. Jos tapahtumaa A johtaa äistä alkeistapauksista k kappaletta, määritellää tapahtuma A todeäköisyydeksi P A k A : lle suotuiste alkeistapauste lkm. kaikkie alkeistapauste lkm
53 Esim. 70 Nopa heitto: Perusjoukko: = {1,, 3, 4, 5, 6}, Olkoot tapahtumat: A = {} ja B ={1, 3, 5} P(A) = 1 ja P(B) = 6 Klassise todeäköisyyskäsittee soveltamisala o suppea: se käyttöä rajoittaa ee muuta alkeistapauste symmetrisyyde vaatimus. Klassista todeäköisyyskäsitettä voidaa soveltaa lähiä peliteoriaa. Käytäö ogelmie ratkaisemisee tarvitaaki yleisempää todeäköisyyde käsitettä. Empiirie eli tilastollie todeäköisyys (a posteriori, kokemuksee perustuva) Frekvessiteoria: Oletetaa, että joki satuaisilmiö tai -koe voi tapahtua mielivaltaise mota kertaa samalaisissa olosuhteissa. Lisäksi oletetaa, että ilmiöstä tai kokeesta voidaa havaita erilaisia tapahtumia. Jos koe toistuu kertaa, ja havaitaa, että tapahtumaa A johtaa äistä f A kappaletta, saadaa A: suhteelliseksi osuudeksi eli suhteelliseksi frekvessiksi f p A A. 3 6 1 Pitkässä koesarjassa (= ku o iso ) p A ataa hyvä likiarvo tapahtuma A todeäköisyydelle, siis p A P(A). Tilastollise todeäköisyyde käsite o teoreettie. Käytäössä suhteellise frekvessi vaihtelu tasoittuu kokee tai ilmiö toistuessa riittävä mota kertaa. Tällä tavoi saadaa riittävä tarkka likiarvo tilastolliselle todeäköisyydelle. Esim. 71 Sadassa asta pudotuksessa saatii 51 kertaa tulos " piikki ylöspäi", jote P("piikki ylöspäi") 51 = 0.51 100 1.9.8.7.6.5.4.3..1 0 p A heitot
54 Todeäköisyyde omiaisuuksia Todeäköisyyde teoreettie määrittely tapahtuu aksiomaattisesti, ts. todeäköisyydelle asetetaa perusvaatimukset eli aksioomat. Aksioomajärjestelmä (1-3 ) esitti Kolmogorov v. 1933. 1 0 P(A) 1 Jos A B = Ø, ii P(A B) = P(A) + P(B) (s. erilliste tapahtumie yhteelaskusäätö) 3 P() = 1 4 P(A B) = P(A) + P(B) - P(AB) (yhteelaskusäätö) 5 P(A C ) = 1 - P(A) 6 P(Ø) = 0 7 Jos A B, ii P(A) P(B) Esim. 7 Todeäköisyys saada veikkauksessa aiaki 1 oikei o P(1 tai 13 oikei) = P(1 oikei) + P(13 oikei) = 6 + 1 = 0.000016935 313 313 5.3. Ehdollie todeäköisyys ja riippumattomuus Todeäköisyyslaskeassa tapahtumie vaikutus toisiisa äkyy site, että tieto joki tapahtuma esiitymisestä muuttaa siitä riippuvie tapahtumie esiitymistodeäköisyyttä. Kahde tapahtuma A ja B vaikutus toisiisa ilmeee mm. ehdollise todeäköisyyde kautta. Esim. 73 Tarkastellaa kahde raha heittoa, jolloi ={(kr,kr), (kr,kl), (kl,kr), (kl,kl)} Olkoot tapahtumat A = {molemmat samat} = {(kr,kr), (kl,kl)}; P(A) = 1 B = {aiaki yksi kr} = {(kr,kr), (kr,kl), (kl,kr)}; P(B) = 3 4 Todeäköisyys sille, että A tapahtuu, jos B o jo tapahtuut, o 1, koska 3 (kl,kl) ei voi tapahtua ja (kr,kr) voi, ja (kr,kr) o yksi B: kolmesta alkeistapauksesta.
Ehdollisella todeäköisyydellä P(A B) tarkoitetaa todeäköisyyttä 55 PA B PA B P(B), P(B) 0 ("A: todeäköisyys ehdolla B") Ehdollise todeäköisyyde määrittelevä kaava voidaa kirjoittaa myös yleise kertolaskusääö muodossa: tai P(A B) = P(B) P(A B) P(A B) = P(A) P(B A). Esim. 74 Mikä o todeäköisyys saada korttipakasta esi ässä ja sitte puaie kuigas? Merk. A = {1. kortti ässä} ja B = {. kortti puaie kuigas}. P(A B) = P(A) P(B A) = 4 5 51 663 Tapahtumat A ja B ovat tilastollisesti riippumattomia, jos P(A B) = P(A) tai P(B A) = P(B). Tällöi kertolaskusäätö voidaa kirjoittaa muodossa: P(A B) = P(A) P(B) Esim. 75 Heitetää kahta oppaa peräkkäi, ja esimmäise heito tulos ei vakuta toise heito tuloksee. Kahde opa heitossa o 36 tulosvaihtoehtoa. Havaiollistetaa silmälukuje summaa oppakoordiaatiostossa :. oppa 6 7 8 9 10 11 1 5 6 7 8 9 10 11 4 5 6 7 8 9 10 3 4 5 6 7 8 9 3 4 5 6 7 8 1 3 4 5 6 7 1 3 4 5 6 1. oppa
56 Tarkastellaa tapahtumaa kahde opa silmälukuje summa o 5. Ko. tapahtuma todeäköisyys voidaa laskea esimerkiksi käyttäe em. laskusäätöjä: P(summa o 5) = P((1. oppa = 1 ja. oppa = 4) tai (1. oppa = ja. oppa = 3) tai (1. oppa = 3 ja. oppa = ) tai (1. oppa = 4 ja. oppa = 1)) = P(1. oppa = 1). P(. oppa = 4) = 1. 6 4 = 36 1 6 + P(1. oppa = ). P(. oppa = 3) + 1 6. + P(1. oppa = 3). P(. oppa = ) 1 6 + + P(1. oppa = 4). P(. oppa = 1) 1. 1 + 1. 1 6 6 6 6 Esim. 76 Isätä ja reki ampuvat yhteislaukauksella aapuri lehmä hirveä. Sytyy väittely ampujasta. Olkoot I = {isätä osuu} R = {reki osuu} Y = {lehmässä yksi osuma} P(I) = 0.8 P(R) = 0.6 P(Y) = P[ (I R C ) (I C R)] = P(I R C ) + P(I C R) = P(I) P(R C ) + P(I C ) P(R) = 0.8 0.4 + 0. 0.6 = 0.44 P(I Y) = P(I R C ) = P(I) P(R C )= 0.8 0.4 = 0.3 Nyt P(I Y) = 0.3 = 0.77 ja P(R Y) = 1 - P(I Y) = 0.73 0.44
57 6. TEOREETTISISTA JAKAUMISTA 6.1. Satuaismuuttujista Satuaismuuttujat, merk., y, ovat empiiriste muuttujie matemaattisia vastieita. Käytäössä satuaismuuttujalla tarkoitetaa jotaki satuaiskokee tuloksee liittyvää umeerista suuretta, joka arvo vaihtelee koetta toistettaessa. Satuaismuuttuja o satuaie siiä mielessä, että etukätee ei voida varmasti tietää, mikä ilmiö tuloksista realisoituu. Esim. 77 Nopaheitossa saatava silmäluku o satuaismuuttuja. Vuosittaiste liikeeoettomuuksie lkm o satuaismuuttuja. Matemaattisesti määriteltyä satuaismuuttuja o kuvaus (fuktio) alkeistapauste joukolta reaalilukujoukolle. Itse fuktio ei ole satuaie, vaa se o täysi määrätty. Satuaismuuttuja arvo voidaa määrätä vasta, ku satuaiskokee tulos o selvillä. Satuaismuuttuja o epäjatkuva eli diskreetti, jos se voi saada vai tiettyjä arvoja. Vastaavasti jatkuva satuaismuuttuja voi saada mikä arvo tahasa tietyltä reaalilukuväliltä. 6.. Diskreeteistä teoreettisista jakaumista Diskreeti satuaismuuttuja jakauma eli s. diskreeti todeäköisyysjakauma muodostavat satuaismuuttuja arvot i, joita o k kpl, sekä arvoje todeäköisyydet p i, joille o voimassa, että p 1 + p + + p k = 1. Esim. 78 Kahde opa heitossa silmälukuje summa o diskreetti satuaismuuttuja. Eri tuloksii johtavie alkeistapauste lukumäärie perusteella voidaa laskea eri tuloksia vastaavat todeäköisyydet ja esittää todeäköisyysjakauma taulukkoa ja kuvioaki. Summa 3 4 5 6 7 8 9 10 11 1 Todeäköisyys 1 3 4 5 6 5 4 3 1 36 36 36 36 36 36 36 36 36 36 36
58 Edellä suuri todeäköisyys osuus summalle 7. Se saadaa tulokseksi keskimääri joka kuudeella heitolla, ku muut arvot esiityvät sitä harvemmi. O siis perusteltua käyttää lukua 7 silmälukuje summa eusteea, ku heitetää kahta oppaa. Toie käytetty euste o satuaismuuttuja odotusarvo, joka o satuaismuuttuja saamie arvoje keskimääräie taso pitkässä koesarjassa, jossa toistot ovat toisistaa riippumattomia. Distreeti satuaismuuttuja odotusarvo E() (, joka siis vastaa aritmeettista keskiarvoa) määritellää seuraavasti: k E() = p i i = p 1 1 + p + + p k k. i1 Esim. 79 Silmälukuje summa odotusarvo o E(silmälukuje summa) = 36 1. + 36. 3 + 36 3. 4 +. + 36 1. 1 = 7 Huom. Odotusarvo ei ole aia satuaismuuttuja mahdollie arvo, vaa se ilmaisee arvo, joka läheisyydessä keskimääri ollaa. Odotusarvo sopivuutee eusteea vaikuttaa tarkasteltava satuaismuuttuja arvoje hajaatumie, jota voidaa mitata variassilla Var(), joka määritellää diskreetille satuaismuuttujalle seuraavasti: Var() = k p i i1 i E = p 1 ( 1 E()) + p ( E()) + + p k ( k E())
59 Jos satuaismuuttuja variassi o piei, o satuaisuutta vähä, ja satuaismuuttuja jakauma o muodoltaa kapea. Jos taase variassi o suuri, o satuaisuutta paljo, ja jakauma o muodoltaa leveä. Esim. 80 Kahde opa heito silmälukuje summa variassi o Var(summa) = 36 1. ( 7) + 36. (3 7) + 36 3. (4 7) +. + 36 1. (1 7) 5.8 Huom. Satuaismuuttuja keskihajota D() = Var (). 6.3. Jatkuvista teoreettisista jakaumista Jos satuaismuuttuja o jatkuva, ei se yksittäisiä arvoja voi luetella. Jatkuvalle satuaismuuttujalle o omiaista se, että kaikki pistetodeäköisyydet ovat ollia, ts. P( = a) = 0. Jakauma muotoa voidaa kuiteki kuvata s. tiheysfuktio, merk. f(), avulla. Tiheysfuktiota voidaa pitää frekvessimoikulmio "raja-arvoa". Tiheysfuktio o aia arvoltaa ei-egatiivie, ja tiheysfuktio kuvaaja ja vaakaakseli välii jäävä aluee kokoaispita-ala o suuruudeltaa 1. Jatkuva satuaismuuttuja tiheysfuktio ilmaisee jakauma muodo (kuvaaja), ei todeäköisyyksiä! Myös jatkuvalle satuaismuuttujalle voidaa määrittää odotusarvo ja variassi määräty itegraali avulla. Erityisesti jatkuvie satuaismuuttujie todeäköisyystarkasteluissa hyödyetää kertymäfuktiota F(), joka määritellää seuraavasti: F() = P( ). F() ilmaisee siis todeäköisyyde, että satuaismuuttuja saa eitää arvo. Kertymäfuktio voidaa määrittää ii diskreeteille kui jatkuvilleki satuaismuuttujille. Diskreeti satuaismuuttuja kertymäfuktio määritellää yhteelasku avulla. Jatkuva satuaismuuttuja kertymäfuktio määritetää määräty itegraali avulla. Kertymäfuktio omiaisuuksia 1 F(- ) = 0, F( ) = 1, F() F(y), jos < y. P( a < b) = P( b) - P( a) = F(b) - F(a) 3 Jos o jatkuva, ii P( = a) = 0 ja tällöi F(a) = P( a) = P( < a) 4 P( > a) = 1 - P( a) = 1 - F(a)
60 Huom. Jatkuva satuaismuuttuja kertymäfuktiota voidaa myös tulkita pita-alaa: F(a) f() a Tilastotietee kaalta tärkei jatkuva jakauma o ormaalijakauma. Jos satuaismuuttuja oudattaa ormaalijakaumaa, joka odotusarvoa E() = ja variassia Var() =, käytetää merkitää ~ N(, ). Tällöi satuaismuuttuja tiheysfuktio o muotoa f 1 1. e Normaalijakauma tiheysfuktio kuvaaja o symmetrie odotusarvo suhtee. Tiheysfuktio f() kuvaaja o s. Gaussi kellokäyrä, joka lähestyy -akselia : molemmilla puolilla. Tiheysfuktio o yksihuippuie, jote symmetrisyydestä seuraa, että = Mo = Md. Kuvaaja sijaiti määräytyy odotusarvo mukaa ja muoto variassi mukaa: 1 < 1 1 Jatkuvissa jakaumissa tapahtumie todeäköisyydet voidaa määrittää graafisesti pitaaloia. Kokoaiset keskihajoat jakavat ormaalijakauma seuraavasti:
61 68.7 % 95.44 % 99.74 % Normaalijakauma keskeie asema tilastotieteessä perustuu siihe, että useat empiiriset jakaumat ovat likimai ormaalisia. Keskeise raja-arvolausee mukaa mielivaltaiste riippumattomie satuaismuuttujie summa jakauma o likimai ormaalie, jos yhteelaskettavie lukumäärä o suuri, ja eräät hyvi yleisluotoiset ehdot ovat voimassa. Käytäö kaalta o merkittävää, että usei jo pieillä : arvoilla ( 30) päästää ormaalijakaumalla hyvää approksimaatioo. Stadardoitu ormaalijakauma Normaalijakauma tärkei erikoistapaus o s. stadardoitu ormaalijakauma. Nyt = 0 ja = 1, jolloi merk. z ~ N(0, 1). Satuaismuuttuja z kertymäfuktio arvoja o taulukoitu, koska tiheysfuktiolla ei ole itegraalifuktiota alkeisfuktioide joukossa. Esim. 81 P(z 1.34) = (1.34) = 0.9099 0.9099 0.0901 0 1.34 Useimmissa taulukoissa o kertymäfuktio arvoja esitetty vai z: positiivisilla arvoilla, jote egatiivisilla arvoilla ojaudutaa ormaalijakauma symmetrisyytee (z > 0): P(z - z) = (- z) = 1 (z).
6 z 1 z 1 Pz z Pzz 0 -z z Esim. 8 Jos z ~ N(0, 1), ii P(z - 1) = (-1) = 1 (1) = 1 0.8413 = 0.1587 N(0, 1) -jakauma käyttökelpoisuus perustuu seuraavaa tuloksee: Jos ~ N( ), ii muuoksella z, jota kutsutaa stadardoiiksi, saadaa E(z) = 0 ja Var(z) = 1. Tällöi z ~ N(0, 1). Site P( ) = P( - - ) = P Esim. 83 Olkoot ~ N(3, 4) = N(3, ) = P(z z) = (z). a) P( 0) = P 3 0 3 = P(z -1.5) = (-1.5) = 1 (1.5) = 1 0.933 = 0.0668 b) P( > 1) = 1 P( 1) = 1 P(z -1) = 1 (-1) = 1 [1 (1)] = (1) = 0.8413 c) P( a) = 0.8, a =? a 3 a 3 0.8 = P( a) = P z = Taulukosta : (0.84) = 0.7995 0.8. Site a 3 0.84 a 4.68 Huom. Stadardoidussa ormaalijakaumassa merkiällä että sitä suurempia satuaismuuttuja z arvoista o 100 %. z tarkoitetaa sellaista kohtaa,
63 Normaalijakaumasta johdettuja jakaumia -jakauma Olkoot z 1,, z N(0, 1)-jakautueita riippumattomia satuaismuuttujia. Silloi satuaismuuttuja z i i1 oudattaa -jakaumaa, joka muoto riippuu vapausasteluvusta, merk. ~ (). Odotusarvoa o E( ) = ja variassia Var( ) =. Jakauma hätätodeäköisyyksiä o taulukoitu. -jakaumaa voidaa käyttää riippumattomuus- ja yhteesopivuustesteissä. Esim. 84 Jos ~ (16), ii P( 6.30) = 0.05 0.05 0 6.30 Huom. -jakaumassa merkiällä tarkoitetaa sellaista kohtaa, että sitä suurempia satuaismuuttuja arvoista o 100 %. Studeti t -jakauma Olkoot, z 1,, z N(0, 1)-jakautueita riippumattomia satuaismuuttujia. Silloi satuaismuuttuja t t 1 z i i1
64 o Studeti t-jakautuut vapausasteella, merk. t ~ t(). Odotusarvoa o E(t) = 0 ja variassia Var(t) =. Myös t-jakauma hätätodeäköisyyksiä o taulukoitu. Ku, t-jakauma lähestyy N(0, 1)-jakaumaa. Jakauma käyttö tulee jatkossa esii luottamusvälie, keskiarvotestie sekä korrelaatiokertoime testaukse yhteydessä. Esim. 85 Jos t ~ t(10), ii P(t.8) = 0.0 0.05 0.8 Huom. t-jakaumassa merkiällä satuaismuuttuja t arvoista o 100 %. tarkoitetaa sellaista kohtaa, että sitä suurempia Fisheri F- jakauma Olkoot m ja riippumattomia -jakautueita satuaismuuttujia vapausasteia m ja. Silloi satuaismuuttuja F m m oudattaa Fisheri F-jakaumaa vapausastei m ja, merk. F ~ F(m, ). F-jakaumaa voidaa käyttää mm. variassitesteissä. Esim. 86 Jos F ~ F(10, 0), ii P(F 1.94) = 0.10 0.10 0 1.94
65 7. TILASTOLLISESTA PÄÄTTELYSTÄ Tähä asti olemme käsitelleet meetelmiä, joide avulla havaitoaiesto sisältämää iformaatiota kuvataa käyttäe erilaisia kuvioita sekä tilastollisia tuuslukuja. Kuvaileva tilastotiede ei ole aia riittävää empiirisessä tutkimuksessa, vaa usei yritetää esimerkiksi selvittää, oko havaitoaieistosta (=otoksesta) laskettu tuuluku arvoltaa lähellä todellista arvoa, joka saataisii, jos tutkittaisii koko populaatio. Havaitoaieisto perusteella yritetää tehdä päätelmiä populaatio tilateesta, eli otoksesta lasketu tuusluvu avulla estimoidaa (=arvioidaa) populaatio parametri (= tuusluvu) suuruutta. Päätökseteossa käytetää apua todeäköisyyslasketaa, joka avulla pystytää arvioimaa mm. millä todeäköisyydellä otoksesta lasketu tuusluvu arvo saadaa, ja kuika suuria poikkeamie voidaa olettaa oleva. Tilastollie päättely yhdistää siis empiria ja todeäköisyyslaskea. 7.1. Estimoiista Otoksesta lasketu tuusluvu avulla tapahtuvaa perusjouko tuusluvu eli parametri (esim. ) arvioitia saotaa estimoiiksi. Piste-estimoiilla määrätää yksi aioa luku, jolla parametria arvioidaa. Väliestimoiilla määrätää luottamusväli, joka suurella varmuudella (yleesä 95%, 99%) sisältää todellise parametri arvo. Populaatio estimoitavaa tuuslukua merkitää yleesä lla (theetta) ja t:llä sellaista otokse havaitoje lauseketta, jolla aaarvioidaa. t: laskukaavaa saotaa : estimaattoriksi ja tiettyä otoksesta laskettua arvoa : estimaatiksi. Esim.87 Populaatio keskiarvo estimaattoriksi sopii otoksesta laskettu aritmeettie keskiarvo eli s. otoskeskiarvo. Otoksesta laskettu arvo esim. = 5 o : estimaatti. Jos samasta populaatiosta valitaa useita otoksia havaitoaieistoje muodostamiseksi, o varsi uskottavaa, että esimerkiksi sama muuttuja keskiarvoluvut vaihtelevat otoksittai. Uskottavalta tutuu myös se, että iso otokse avulla voidaa paremmi kuvata populaatiota, ja silloi otoskeskiarvo o lähellä populaatio keskiarvoa. Eo. yleisesti muotoiltuihi ideoihi o olemassa selvät sääöt, joide käsittelyy tarvitaa otatajakauma (otosjakauma) käsitettä. Käytäössä otatajakaumaa ei tueta, mutta teoriassa se voidaa tarkoi määrittää. Esimerkiksi keskiarvo otatajakauma keskikohta o sama kui populaatio keskiarvo. Eri otoksista laskettuje keskiarvoje vaihtelu o pieempää kui otoste muuttuja-arvoje vaihtelu, jote keskiarvo otatajakauma o muodoltaa korkeampi ja kapeampi kui otokse havaitoje jakauma.
66 Esim. 88 Keskeisi raja-arvolausee perusteella otoskeskiarvo jakauma o (aiaki likimai) ormaalijakauma. Otoksesta määritety tiety tyyppiste alkioide prosettiosuude jakauma o likimai ormaalijakauma. Väliestimoiti (luottamusvälit) Väliestimoiilla määrätää reaalilukuväli, joka suurella varmuudella (yleeesä 95 %, 99 %) sisältää todellise populaatioparametri arvo. Satuaisväliä (t, T ) saotaa parametri luottamusväliksi luottamustasolla 1 (0 < < 1), jos P(t T ) = 1. Site todeäköisyydellä 1 väli [ t, T ] peittää perusjouko parametri todellise arvo. Väli alaraja t o joki havaitoje fuktio, ja samoi väli yläraja T o joki toie havaitoje fuktio. Yleesä luottamusväli yritetää pitää mahdollisimma kapeaa ja silloi luottamusväli useimmite muodostetaa ii, että valitaa "hyvä" : estimaattori ja muodostetaa väli, jossa kyseie estimaattori o keskipisteeä. Jotta luottaumusväli voidaa muodostaa, o estimaattori otatajakauma tuettava. 1 Populaatio keskiarvo eli odotusarvo luottamusväli (a) Oletetaa esi, että populaatio variassi o tuettu (esim. aikaisempi tutkimus, pitkä seurata-aika), ja että havaiot 1,, ovat otos ormaalijakaumasta N( ). Ku havaioista lasketaa (otos)keskiarvo, tiedetää se kuvaava hyvi populaatio keskiarvoa. Keskiarvoje arvot vaihtelevat eri otoksissa. Tätä vaihtelua kuvaa keskiarvo keskihajota eli keskiarvo keskivirhe. jote otoskeskiarvo ~ N(, ) ja edellee stadardoimalla saadaa z = ~ N(0, 1). Stadardoidussa ormaalijakaumassa merkiällä tarkoitetaa sellaista kohtaa, että sitä suurempia satuaismuuttuja z arvoista o 100 %. Luku katsotaa kertymäfuktiotaulukosta : perusteella. Normaalijakauma symmetriaa perustue saadaa z z
67 z z P( - z ) = 1 - P(- z z ) = 1 - P( - z + z ) = 1 -, Jote populaatio keskiarvo 100(1 - ) %: luottamusväli o yt z, z. Esim. 89 Muuttuja variassi tiedetää oleva populaatiossa 9. Oletetaa muuttuja jakauma oleva ormaalijakauma. Otoskoo ollessa 36 saatii otoskeskiarvoksi = 10. Muodostetaa 95 %: luottamusväli populaatio keskiarvolle. Nyt siis = 0.05 ja edellee = z 0.05 = 1.96. z Site : 95 %: luottamusväli o (10-1.96 9, 10 + ) = (9, 11) 36 1.96 9 36 Jos saotaa, että populaatio keskiarvo o ko. välillä, ollaa 95 %: todeäköisyydella oikeassa, ja otetaa 5 %: riski väärälle johtopäätökselle. (b) Jos populaatio variassi o tutemato, joudutaa se estimoimaa otoksesta. Se estimaattoria o otosvariassi s 1. 1 i 1 i i1 1 i1 i i1 Nyt otokse perusteella voidaa arvioida keskiarvo keskivirhettä s s.
68 Odotusarvo eli populaatio keskiarvo 100(1 - ) %: luottamusväliksi saadaa, ku korvataa otosvariassilla s ja z korvataa taulukkoarvolla ( 1) : t t 1 s, t 1 s. Esim. 90 Kauppias väitti asiakkaalle, että kaupattavie kaamuie keskipaio o 50 g. Asiakas poimi 30 mua otokse ja sai = 45 g ja s = 6 g. Tutuuko kauppiaa väite uskottavalta? Muodostetaa :lle 95 %: luottamusväli, jolloi ( 1) = t 0.05 (9) =.045 t ja luottamusväli o (45 -.045 6, 45 +.045 6 ) = (4.8, 47.) 30 30 Nyt 50 (4.8, 47.), jote kauppiaa väite ei tuu uskottavalta. Prosettiosuude luottamusväli Populaatio tiety tyyppiste alkioide prosettiosuutta :tä voidaa estimoida otoksesta lasketu prosettiosuude P avulla. Prosettiosuus vaihtelee otoksittai, ja prosettiluvu keskihajotaa kuvaa prosettiluvu keskivirhe P 100 P s P. Prosettiluvu 100(1 - ) %: luottamusväli o P z P 100 P P 100 P, P z. Esim. 91 Tuote-erästä valittii 64 tuottee otos, jossa viallisia oli 6. Viallisuusproseti 95 %: luottamusväli, ku P = 100 6 = 40.65 ja = 1.96, 64 z o (40.65-1.96 40.65 59.375, 40.65 + 1.96 40.65 59.375 ) = (9, 53). 64 64
69 7.. Hypoteesie testauksesta 7..1. Testaukse pääpiirteet Havaitoaieisto perusteella pyritää päättelemää, pitääkö perusjouko parametreista tms. tehty olettamus eli hypoteesi paikkasa. Tilastollie hypoteesi o väite, joka tehdää populaatio jakaumasta ja se koskee jotaki populaatio parametria. Tällaista väitettä kutsutaa myös ollahypoteesiksi H 0. Usei ollahypoteesi o oletusarvo, joka edustaa aikaisempaa tietämystä. Testi avulla H 0 joko hylätää tai hyväksytää. H 0 : vaihtoehtoa saotaa vastahypoteesiksi tai vaihtoehtoiseksi hypoteesiksi H 1, joka edustaa usei uutta teoriaa, josta varsiaisesti ollaa kiiostueita. Esim. 9 Maalipurkkeja täyttävä koee o tarkoitus täyttää 1000 g: purkkeja. Pitkä seuraa perusteella o havaittu, että paio vaihtelee ii, että paio keskihajotaa o 10 g. Koee toimiassa tutuu oleva joitai häiriöitä, jote koee toimia tutkimiseksi asetetaa hypoteesit H 0 : = 1000 g H 1 : 1000 g. Edellä vastahypoteesi H 1 o kaksisuutaie. Yksisuutaie hypoteesi olisi kyseessä ollut silloi, jos olisi asetettu H 1 : > 1000 g tai H 1 : < 1000 g Koska valita H 0 : ja H 1 : välillä tapahtuu otokse atama iformaatio avulla, o muodostettava testisuure, joka avulla päätös tehdää. Tavallisesti testisuure perustuu testattava parametri estimaattorii. Tällaiselle testisuureelle määritetää jakaumamuoto, jota testisuure oudattaa ollahypoteesi ollessa totta. Jotta testisuuree otatajakauma voidaa määrätä, edellytetää tiettyje jakaumaa koskevie oletuste oleva voimassa. Oletuksea voi olla esimerkiksi se, että tarkasteltavie määrälliste muuttujie jakaumat ovat ormaalijakaumia. Seuraavaksi määrätää e testisuuree arvot, joide katsotaa oleva liia poikkeavia, jotta äyttäisi uskottavalta, että ko. otos olisi peräisi H 0 : mukaisesta populaatiosta. Tätä arvojoukkoa kutsutaa kriittiseksi alueeksi C (ollahypoteesi hylkäysalue). Kriittie alue määräytyy vastahypoteesi muodo, testi jakauma ja testi merkitsevyys- eli riskitaso perusteella. Merkitsevyystaso ilmaisee todeäköisyyde, jolla tosi H 0 hylätää. Nollahypoteesia testattaessa päätetää siis etukätee, kuika suuri riski otetaa sille, että ollahypoteesi hylätää, vaikka se o tosi. Yleesä käytettyjä merkitsevyystasoja ovat
70 0.05 tilastollisesti melkei merkitsevä (*) 0.01 tilastollisesti merkitsevä (**) 0.001 tilastollisesti erittäi merkitsevä (***). Nollahypoteesi hylkäämie merkitsevyystasolla tarkoittaa, että tehdää väärä johtopäätös todeäköisyydellä. Tämä jälkee lasketaaki sitte testisuuree arvo, verrataa sitä kriittisee alueesee ja tehdää johtopäätökset. Hypoteesie testaukse jälkeekää ei voida olla täysi varmoja siitä, että populaatiota koskeva otokse perusteella tehty johtopäätös o oikea. Päätöksetekoo liittyy site mahdollisuus virhee tekemisee: P Ä Ä T Ö S H 0 H 1 TODELLISUUS H 0 tosi H 0 epätosi OK I laji virhe eli hylkäämisvirhe II laji virhe eli hyväksymisvirhe OK = I laji virhee todeäköisyys = II laji virhee todeäköisyys, joka määräytyy otoskoo ja : perusteella Testaukse kulku o siis seuraava: 1 Asetetaa ollahypoteesi H 0 Asetetaa vastahypoteesi H 1 3 Määrätää tuusluku tai testisuure ja se jakauma H 0 : vallitessa 4 Määrätää merkitsevyystaso ja sitä vastaava kriittie alue 5 Poimitaa otos ja lasketaa testisuuree arvo ja verrataa sitä kriittisee alueesee 6 Tulkitaa tulokset ja tehdää johtopäätökset. Testie jaottelusta Sopiva testi valitaa voi pohtia vastaamalla seuraavii kysymyksii: 1 Mistä tuusluvusta o kyse? keskiarvotestit variassitestit korrelaatiotestit prosettiosuustestit
71 Mikä o vertailtavie ryhmie lukumäärä? yhde otokse testit kahde otokse testit kolme tai useamma otokse testit 3 Jos otoksia o eemmä kui yksi, ovatko otokset riippumattomia vai riippuvia? esimerkiksi, jos aisista ja miehistä poimitaa erilliset otokset, ovat otokset riippumattomia riippuvia otoksia sytyy mm. ee-jälkee-tilateissa ja vastiparitutkimuksissa 4 Oko kyseessä parametrie vai epäparametrie testi? parametrisissa testeissä o paljo muuttujie jakaumii liittyviä oletuksia epäparametrisissa testeissä ei jakaumaoletuksia juurikaa ole Jos tilastollisessa testuksessa käytetää apua jotaki tilastollista ohjelmistoa, sujuu testaus yleesä yksikertaisemmi. Usei ei testisuuree otatajakaumaa ja kriittistä aluetta tarvitse pohtia laikaa, koska useissa tilasto-ohjelmissa testauste yhteydessä tulostuu s. p-arvo (Prob, probability, sigificace, sig). Se ilmaisee todeäköisyyde sille, että saadaa havaittu tai sitä vielä harviaisempi testisuuree arvo. Käsilasketatilateessa p-arvo pystyy määrittämää helposti, jos testisuuree jakauma o stadardoitu ormaalijakauma. Muide jakaumie tilateessa p-arvoa voi approksimoida jakaumatauluko avulla. P-arvoa saotaa havaituksi merkitsevyystasoksi tai pieimmäksi merkitsevyystasoksi, jolla ollahypoteesi voidaa hylätä. Tilastollise testi tulos tiivistyy siis yhdeksi luvuksi eli p-arvoksi, jolloi otos ataa todistusta ollahypoteesia vastaa riskillä p. Tätä p-arvoa voidaa suoraa verrata valittuu merkitsevyystasoo : jos p, jää testi ollahypoteesi H 0 voimaa jos p <, hylätää ollahypoteesi H 0 riskitasolla. Usei p-arvoa tulkitaa seuraavasti: jos p > 0.05, saotaa, että saatu tulos ei ole tilastollisesti merkitsevä. Tällöi ollahypoteesi hyväksytää. jos 0.01 < p 0.05, saotaa tulokse oleva tilastollisesti melkei merkitsevä. Nyt ollahypoteesi hylätää 5 %: merkitsevyystasolla, muttei eää 1 %: merkitsevyystasolla jos 0.001 < p 0.01, saotaa tulokse oleva tilastollisesti merkitsevä. Nyt ollahypoteesi hylätää 1 %: merkitsevyystasolla, muttei eää 0.1 %: merkitsevyystasolla jos p 0.001, saotaa, että saatu tulos o tilastollisesti erittäi merkitsevä. Tällöi ollahypoteesi hylätää 0.1 %: merkitsevyystasolla
7 7... Keskiarvotestejä 1 Yksi otos Yhde otokse tilateessa tutkitaa, ataako otoskeskiarvo tukea ollahypoteesissa esitetylle oletukselle, joka o tehty populaatio keskiarvosta. Oletuksea testille o se, että havaitoje 1,, jakauma o ormaalijakauma N( ). Nollahypoteesi esitetää yt muodossa H 0 : 0. (a) Ku populaatio variassi o tuettu, o testisuureea 0 z = ~ N(0, 1), ku H 0 o tosi. Kriittie alue C muodostetaa seuraavasti: H 1 : > 0 C = {z z > z } H 1 : < 0 C = {z z < - z } z H 1 : 0 C = {z z > } (b) Ku populaatio variassi otosvariassi avulla o tutemato, o sille laskettava esi estimaatti s 1 1 Testisuureea o yt 0 t = ~ t ( - 1), s i1 i. ku H 0 o tosi. Kriittie alue C saadaa t-jakauma avulla: H 1 : > 0 C = {t t > t (-1)} H 1 : < 0 C = {t t < - t (-1)} H 1 : 0 C = {t t > t (-1)}
73 Esim. 91 Maalipurkkeja täyttävä koee purkeista otettii 5 purki otos. Otokse purkkie paio keskiarvoksi saatii 1006 g. Kriittie alue, ku = 0.05: C ={z z > } = {z z > 1.960} z 1006 1000 10 5 3.0 z H 0 hylätää riskitasolla 0.05 eli 1000 g. Kriittise aluee sijasta voidaa yt myös laskea p-arvo: p = P( z 3.0) = P( z 3.0) = [ 1 P(z 3.0) ] = 0.006. Kaksi riippumatota otosta Kahde riippumattoma otokse tilateessa vertaillaa kahta otoskeskiarvoa ja selvitetää, atavatko otokset tukea ollahypoteesissa esitetylle oletukselle, että eri populaatioide keskiarvot ovat yhtä suuret. Testi oletuksea o se, että havaitoje 11, 1,, 11 ja 1,,, jakaumat ovat ormaalijakaumia, ja että otokset ovat riippumattomia. Nollahypoteesi esitetää yt muodossa H 0 : 1 = (a) Jos populaatioide variassit 1 ja ovat tuettuja, o testisuureea z = 1 ~ N(0, 1), 1 1 ku H 0 o tosi. Kriittie alue saadaa muodostettua stadardoidu ormaalijakauma perusteella: H 1 : 1 > C = {z z > z } H 1 : 1 < C = {z z < - z } H 1 : 1 C = {z z > z} (b) Jos populaatioide variassit 1 ja ovat tutemattomia, mutta e voidaa olettaa yhtä suuriksi eli 1 = =, lasketaa kummastaki otoksesta variassie 1 ja estimaattorit
74 sekä populaatioide yhteise variassi Testisuurea o yt 1 s 1 1 ja 1 1 1i 1 s 1 i1 1 i i1 s 1 1 s 1 1s 1. t = 1 ~ t ( 1 + - ), s 1 1 1 estimaattori ku H 0 o tosi. Kriittie alue muodostuu t-jakauma perusteella: H 1 : 1 > C = {t t > t ( 1 + - )} H 1 : 1 < C = {t t < - t ( 1 + - )} t H 1 : 1 C = {t t > ( 1 + - )} (c) Jos populaatioide variassit 1 ja ovat tutemattomia, mutta e voidaa olettaa erisuuriksi eli 1, lasketaa kummastaki otoksesta variassie ja estimaattorit s 1 1 ja s. Testisuure o t = 1 s 1 1 s ~ t (df) likimai, ku H 0 o tosi. Testi vapausasteet df saadaa s1 1 1 df c 1 1 1 c, missä 1 c s1 1 s Kriittie alue muodostuu t-jakauma perusteella: H 1 : 1 > C = {t t > t (df)} H 1 : 1 < C = {t t < - t (df)} H 1 : 1 C = {t t > t (df)}
75 Variassie 1 ja yhtä suuruude testaus Tämä testi avulla tehdää päätös siitä, kumpaa t-testiä ( (b) vai (c)) käytetää keskiarvoje testaamiseksi, ku populaatioide variassit 1 ja ovat tutemattomia. Testi hypoteesit ovat H 0 : 1 = H 1 : 1 Testisuure s F = 1 ~ F( 1-1, - 1), (variassisuhde muodostetaa site, että F > 1), s ku H 0 o tosi. Tällöi kriittie alue muodostuu seuraavasti: C = {F F > F ( 1-1, - 1)} Esim. 9 Tutkitaa, oko luova opetukse atamisella kehittävä vaikutus. kotrolliryhmä koeryhmä 1 = 97 = 1 1 = 9.5 = 11.83 s 1 =.7 s =.56 Tutkitaa esi, oko populaatiovariasseilla eroa. Hypoteesit ovat H 0 : 1 = H 1 : 1. Valitaa = 0.05. Kriittie alue o C = { F F > F ( 96, 0).35} F =.7.56 = 1.13 H 0 jää voimaa eli populaatioide variassit voidaa olettaa yhtä suuriksi. Jatketaa sitte keskiarvotestillä, jolloi hypoteesit ovat H 0 : 1 = H 1 : 1 <
76 Määritetää populaatioide yhteise variassi estimaatti: s (97 1).7 (1 1).56 97 1 7.5 Valit. = 0.01; 1 + - = 116 10 C = {t t < - t (10) = -.358} t 9.5 11.83 7.5 1 97 1 3.9 C 1 H 0 hylätää eli luovalla opetuksella äyttää oleva kehittävä vaikutus. (Nyt p = P( t < -3.9), t-jakauma tauluko perusteella arvioitua p < 0.0005) 3 Kaksi toisistaa riippuvaa otosta Riippuvie otoste tilateessa erotellaa kaksi eri päätyyppiä: vastiparitilae (koe- ja vertailuryhmä) ja ee-jälkee -tilae (tilastoyksikkö o "itsesä pari") Nytki vertaillaa kahta otosta, mutta yt jokaiselle tilastoyksikköparille lasketaa - havaitoje erotukset d i, joide oletetaa oudattava ormaalijakaumaa N( d, d ). Näi saatuihi erotuksii d i voidaaki soveltaa yhde otokse keskiarvotesteistä t-testiä. Nollahypoteesia o H 0 : 1 = (eli d = 0). Esim. 93 Tutkitaa lääkkeide A ja B vaikutusta 6 hekilö reagoitiopeutee. Mittaukset o suoritettu eri päiviä: Hekilö A B d i d i 1 1 3-4 7 1 6 36 3 4 4 4 3 3 0 0 5 5 1 4 16 6 4 4 6 6 di 1; di 64; d 1 ; 6 sd 6 1 1 164 6 8 i1 i1
77 H 0 : 1 = H 1 : 1 Valitaa = 0.05 C = {t t > t 0.05 (5) =.571} t 8 6 1.73 C H 0 hyväksytää eli A: ja B: vaikutus äyttää oleva sama (Nyt p = P( t > 1.73), t-jakauma perusteella arvioitua 0.10 < p < 0.0) 7..3. Prosettilukutestejä 1 Yksi otos Yhde otokse tilateessa tutkitaa, ataako otoksesta laskettu tyyppiä A olevie alkioide prosettiosuus P tukea ollahypoteesissa esitetylle oletukselle populaatio A- tyyppiste alkioide prosettiosuudesta. Nollahypoteesi esitetää muodossa H 0 : = 0 Testisuure o P z = 0 ~ N (0, 1), 0 100 0 ku H 0 o tosi. Kriittie alue saadaa: H 1 : > 0 C = {z z > z } H 1 : < 0 C = {z z < - z } H 1 : 0 C = {z z > z} Esim. 94 Puoluee kaatus edellisissä vaaleissa oli 18.4 %. Oko kaatus kasvaut? H 0 : = 18.4 H 1 : > 18.4 = 1493; otoksessa kaatusprosetti P =.7 Valitaa = 0.01 z =.33 C = {z z >.33}
78 z =.7 18.4 18.4100 18.4 1493 4.3 C Kaksi otosta H 0 hylätää eli puoluee kaatukse voidaa katsoa kasvaee. Kahde otokse tilateessa vertaillaa A-tyyppiste alkioide prosettiosuutta P 1 ja P ja selvitetää, atavatko otokset tukea ollahypoteesissa esitetylle oletukselle, että eri populaatioide prosettiosuudet 1 ja ovat yhtä suuret. Nollahypoteesia o H 0 : 1 =. Testisuure o P z = 1 P ~ N (0, 1), 1 P100 P 1 1 ku H 0 o tosi. Testisuureessa esiityvä P kuvaa A-tyyppiste alkioide prosettiosuutta, ku otokset yhdistetää eli P = 1 P 1 P 1. Kriittie alue saadaa: H 1 : 1 > C = {z z > z } H 1 : 1 < C = {z z < - z } z H 1 : 1 C = {z z > } Esim. 95 Kahdestasadasta satuaisesti valitusta aisopiskelijasta tupakoi 80 ja sadasta satuaisesti valitusta miesopiskelijasta tupakoi 47. Oko tupakoivie prosettiosuudella eroa? H 0 : N = M H 1 : N M Valit. = 0.05 z 0.05 = 1.96 C = {z z > 1.96}
79 P N = 40 P M = 47 N = 00 M = 100 P = 00 40 10047 00 100 = 4.3 z = 40 47 4.3 57.7 1 00 100 1 = 1.16 C H 0 jää voimaa eli eroa ei ole. (Nyt p = P( z > 1.16) = [ 1 P(z 1.16) = 0.46] ) 7..4. Riippuvuustutkimuksee liittyviä testejä 1 - riippumattomuustesti Kurssi alkupuolella tarkasteltii ristiitaulukoii yhteydessä tilaetta, missä havaitu ristiitauluko solufrekvessejä verrattii sellaisee ristiitaulukkoo, jossa muuttujie välillä ei esiityyt tilastollista riippuvuutta. Tällaie ristiitaulukko koostui s. teoreettisista eli odotetuista frekvesseistä. Havaittuje frekvessie ja teoreettiste frekvessie avulla muodostettii s. -arvo, joho muuttujie ja y välise riippuvuude voimakkuude mittaamie perustui. Tätä samaista -arvoa voidaa pitää myös testisuureea, jos odotetut frekvessit toteuttavat seuraavat ehdot: 1 eitää 0 % e ij :stä saa olla < 5 jokaie e ij o > 1. Hypoteesipari o riippumattomuustestissä: Testisuure o H 0 : ja y ovat riippumattomia H 1 : ja y eivät ole riippumattomia. I J i1 j1 f ij e ij e ij [(I-1)(J-1)], ku H 0 o tosi. Vapausasteide kaavassa ovat I = rivie lukumäärä J = sarakkeide lukumäärä.
80 Kriittie alue saadaa: C = { > [(I-1)(J-1)]}. Esim. 96 Ristiitaulukoii yhteydessä tarkasteltii opiskelijoide asiotyössä käymise ja opitoje edistymise välistä riippuvuutta. Ristiitaulukossa oli I = 3 ja J =. H 0 : Asiotyössä käymise ja opitoje edistymise välillä ei ole riippuvuutta H 1 : Asiotyössä käymise ja opitoje edistymise välillä o riippuvuutta Valitaa = 0.05; vapausasteet = (I 1)(J 1) = C = { > 0.05 () = 5.99} Odotetut frekvessit e ij täyttävät iille asetetut ehdot, jolloi laskettua -arvoa voidaa pitää testisuuree arvoa eli = 14. C, jote H 0 hylätää eli muuttujie välillä o riippuvuutta. (Nyt p = P( > 14.), taulukosta arvioitua p < 0.001) Huom. Neliketä tapauksessa testisuureea voidaa käyttää kaavaa f 11f f 1 f 1 (1) f 1 f f 1 f Korrelaatiokertoime testaus Pearsoi tulomomettikorrelaatiokerroita r käytetää populaatio parametri estimaattoria tarkasteltaessa kahde muuttuja välistä lieaarista riippuvuutta. Jotta lieaarise riippuvuude testaamie korrelaatio avulla oistuisi, o muuttujie ja y yhteisjakauma oltava kaksiulotteie ormaalijakauma. Nollahypoteesia testissä o H 0 : = 0 eli muuttujat ovat lieaarisesti riippumattomia. Testisuure o r t ~ t ( - ), 1 r ku H 0 o tosi. Kriittie alue saadaa t-jakauma avulla: H 1 : > 0 C = {t t > t (-)} H 1 : < 0 C ={t t < - t (-)}
81 H 1 : 0 C ={t t > (-)} Esim. 97 Kurssi alkupuolella tutkittii korrelaatio avulla erää virvoitusjuoma maioa ja ostamise välistä yhteyttä. Tutkittuja tilastoyksiköitä oli 8 ja havaittu korrelaatiokertoime arvo oli 0.68. Selvitetää yt, oko maioalla positiivista vaikutusta ostamisee, jolloi H 0 : H 1 : t Valitaa = 0.05 C = {t t > t (6) = 1.943} t 0.68 8.7 C, 10.68 site H 0 hylätää eli maioa ja ostamise välillä o positiivista lieaarista riippuvuutta. Huom. Edellä esitetty t-testisuure sopii myös Spearmai järjestyskorrelaatio testaamisee, mikäli havaitoje lukumäärä o riittävä iso. Nyt ormaalijakaumaoletustekaa ei eää täydy olla voimassa. Nollahypoteesi tässä testissä o H 0 : S = 0 eli muuttujie välillä ei ole mootoista riippuvuutta. 3 Regressiokertoime testaus Ku regressiosuoraa sovitetaa pisteparvee, o usei kiiostavaa tietää, oko muuttujalla todella vaikutusta muuttuja y vaihteluu. Tällöi keskeisessä asemassa o regressiosuora kulmakertoime eli regressiokertoime testaus, koska regressiokerroi ilmoittaa, mite : muutos vaikuttaa keskimääri muuttujaa y. Populaatio regressiokertoime 1 estimaattori o otoksesta laskettu b 1. Oletuksea regressioaalyysii liittyvissä testeissä o taaski muuttujie ormaalijakautueisuus. Regressiokertoime testauksessa ollahypoteesiksi voidaa asettaa esimerkiksi H 0 : 1 = ( ja y lieaarisesti riippumattomia), jolloi testisuurea o t 1 ~ t( - ), s b b 1
ku H 0 o tosi. Kaavassa esiityvä sb 1 8 joka arvo saadaa laskettua esimerkiksi seuraavasti tarkoittaa regressiokertoime b 1 keskivirhettä, s b 1 sy 1 r. s 7..5. -yhteesopivuustesti Tarkastellaa satuaisotosta muuttujasta, jolla o k luokkaa. Merkitää luokkie frekvessejä f 1, f, f k. Nyt yritetää selvittää, ovatko havaitut frekvessit f i sopusoiussa asetettuje teoreettiste eli odotettuje frekvessie e i (= p i ) kassa. Tarkoitus o selvittää, oudattaako satuaismuuttuja tiettyä todeäköisyysjakaumaa. Nyt hypoteeseia ovat H 0 : oudattaa aettua todeäköisyysjakaumaa H 1 : ei oudata H 0 : mukaista todeäköisyysjakaumaa Testisuurea o k i1 f i e e i i ~ (k - s - 1), ku H 0 o tosi, ja k o luokkie lukumäärä, ja s o estimoitavie parametrie lukumäärä. Odotettuje frekvessie tulee täyttää samat ehdot kui -riippumattomuustestissä. Testi kriittie alue saadaa seuraavasti: C = { > (k - s - 1)} Esim. 98 Testataa, oko pelissä käytettä oppa kuollie. Hypoteesit ovat yt H 0 : jokaise silmäluvu todeäköisyys o sama eli 1 6 H 1 : aiaki joki silmäluku esiityy useammi tai harvemmi kui muut Noppaa heitettii 10 kertaa, jolloi kuollise opa tilateessa jokaise silmäluvu olisi pitäyt esiityä e i = p i = 10 1 = 0 kertaa. Havaitut 6 frekvessit olivat kuiteki seuraavat:
83 silmäluku 1 3 4 5 6 Yhteesä lukumäärä 1 16 0 17 33 10 Valit. = 0.05; r = 6, s = 0 C = { > 11.07} 1 0 16 0 0 0 17 0 0 33 0 0 13.1C 0 0 0 0 0 H 0 hylätää eli oppa ei äytä oleva kuollie.