VAASAN YLIOPISTO Tilastotietee johdatokurssi Luetoruko Christia Gustafsso
1 SISÄLLYSLUETTELO 1. JOHDANTO... 1.1. Mitä tilastotiede o?... 1.. Tilastotietee historiaa... 3. HAVAINTOAINEISTON HANKINNASTA JA MITTAAMISESTA... 5.1. Havaitoaieisto, havaitomatriisi ja mittaamie... 5.. Havaitoaieisto hakiasta ja otatameetelmistä... 9 3. YKSIULOTTEINEN EMPIIRINEN JAKAUMA... 1 3.1. Frekvessijakauma peruskäsitteitä ja luokitus... 1 3.. Graafie esitys... 16 3.3. Yksiulotteise jakauma tuusluvut... 1 3.3.1. Keskiluvut... 1 3.3.. Hajotaluvut... 7 3.3.3. Yksiulotteise jakauma muita tuuslukuja... 3 4. KAKSIULOTTEINEN EMPIIRINEN JAKAUMA... 34 4.1. Ristiitaulukko ja kotigessikerroi... 34 4.. Korrelaatiodiagrammi ja korrelaatio... 39 4.3. Järjestyskorrelaatio... 43 4.4. Regressio... 45 5. TODENNÄKÖISYYSLASKENTAA... 50 5.1. Kombiatoriikkaa... 50 5.. Todeäköisyyde määrittely... 5 5.3. Ehdollie todeäköisyys ja riippumattomuus... 54 6. TEOREETTISISTA JAKAUMISTA... 57 6.1. Satuaismuuttujista... 57 6.. Diskreeteistä teoreettisista jakaumista... 57 6.3. Jatkuvista teoreettisista jakaumista... 59 7. TILASTOLLISESTA PÄÄTTELYSTÄ... 65 7.1. Estimoiista... 65 7.. Hypoteesie testauksesta... 69 7..1. Testaukse pääpiirteet... 69 7... Keskiarvotestejä... 7 7..3. Prosettilukutestejä... 77 7..4. Riippuvuustutkimuksee liittyviä testejä... 79 7..5. -yhteesopivuustesti... 8
1. JOHDANTO 1.1. Mitä tilastotiede o? Tilasto o empiiristä ilmiötä kuvaava usei taulukkoa esitetty umeerie aieisto. Tilastoiti tuottaa tällaisia eri ilmiöitä kuvaavia aieistoja. Erilaisia empiirisiä ilmiöitä kuvaavissa aieistoissa esiityy samatyyppisiä ogelmia, joide tutkimisessa tilastotieteestä o apua ja muodostetut tilastot ovat tilastollise tutkimukse materiaalia. Tilastotiede o oppiaie, joka aiheea voidaa pitää sattuma ja vaihtelu hallitaa, iformaatio suodattamista datasta sekä mallitamista moille eri tieteealoilla. Tilastotiede o empiirisluotoiste tietoje hakia suuittelua keräämistä deskriptiivie eli järjestämistä esittämistä kuvaileva tilastotiede sekä aalysoitia tilastollie päättely eli tulkitaa iferessi *) koskeva tiede. *) Tilastollie päättely o luoteeltaa iduktiivista, jolloi osajoukkoa koskevat tulokset yleistetää koskemaa koko perusjoukkoa. Tilastotiede o s. meetelmätiede, joka tehtävää o kehittää meetelmiä muide tieteide (esim. talous-, luoo- ja yhteiskutatieteide) empiirisiä ilmiöitä kuvaavie tietoje aalysoitia varte. Empiirie ilmiö voi olla sellaie, joho vaikuttavat vai systemaattiset tekijät (determiistie ilmiö) tai sellaie, joho systemaattiste tekijöide lisäksi vaikuttaa myös sattuma (satuaisilmiö). Sattuma käsitteellä tarkoitetaa satuaisilmiö sitä käyttäytymise osuutta, jota ei voida etukätee tarkkaa eakoida. Usei kuiteki sattuma käyttäytymie oudattaa omia lakejaa. Tilastotiedettä käytetää erityisesti satuaisilmiöide tutkimisee. Tilastotietee lisäksi meetelmätieteitä ovat myös matematiikka ja tietotekiikka. Tilastotiede soveltaa meetelmiä kehittäessää matematiika teoriaa, erityisesti todeäköisyyslaskea teoriaa, siksi tilastotiedettä usei pidetääki sovelletu matematiika eräää osa-alueea (matemaattie eli teoreettie tilastotiede). Tilastotietee ja tietotekiika yhteistä aluetta saotaa tilastolliseksi tietojekäsittelyksi. Usei tilastolliste meetelmie kehittämisvaiheessa iihi liittyy
3 vaatimus sovellettavuudesta ja käsitys sovellustilateesta. Oki käyyt usei ii, että raja tilastotietee ja soveltavie tieteide välillä o hämärtyyt, jolloi soveltavie tieteide piirissä o raja-aluetta alettu imittää omalla imellä (esim. epidemiologia, biometria, evirometriikka, psykometriikka, demometria ja ekoometria). Tilastotiedettä voidaa kuiteki soveltaa lähes mihi tahasa tieteesee, koska tilastotietee teoria o yleistä. Esim. 1 Deskriptiivisee eli kuvailevaa tilastotieteesee törmätää päivittäi osakkeide hiamuutoksissa työttömyysluvuissa puolueide kaatusluvuissa lämpötiloissa yms. Esim. Tilastollista päättelyä käytetää mm. tulevaisuude eustamisessa vakuutusyhtiö arvioidessa vakuutukse hitaa laadutarkkailussa Tilastollisessa aalyysissä tutkittavat ogelmat pelkistyvät usei seuraavalaisiksi kysymyksiksi: Millaie tilae o keskimääri? Kuika suuri o prosetuaalie osuus? Kuika suurta o omiaisuude vaihtelu? Oko eroa? Oko samalaisuutta? Oko muutosta? Oko riippuvuutta? Millaista riippuvuus o? Mite tulevaisuudessa? 1.. Tilastotietee historiaa Laajassa mielessä tilastotiedettä harrastettii systemaattiste tietoje keräykse muodossa jo muiaisessa Kiiassa ja Egyptissä (väestökirjapito). Moderi tilastotietee juuret voidaa ajoittaa 1600-luvulle, jolloi eurooppalaiste yhteiskutie kehittyessä tarvittii
4 luotettavaa tietoa taloude ilmiöistä (= poliittie taloustiede, joka erästä osa-aluetta saottii yliopistostatistiikaksi) sekä valtio ja väestö tilasta (= poliittie aritmetiikka). Saa tilasto saksa- ja eglaikieliset vastieet Statistik ja statistics viittaavatki saa alkuperäisee merkityksee: valtio kuvaus. Vuoa 166 julkaistii Eglaissa tilastollise tutkimukse urauurtaja Joh Grauti teos Natural ad Political Observatios o the Bills of Mortality. Merkittävästi tilastotietee sytyy ja kehityksee ovat vaikuttaeet myös uhkapeliogelmat. Uhkapeliharrastuste lisäätymise myötä alettii 1600-luvulla tutkia todeäköisyyslasketaa erityisesti Raskassa. Vielä 1700-luvulla ja se jälkeeki havaitoaieistoja käsiteltii varsi alkeellisi meetelmi (yksikertaisia meetelmiä, lähiä kuvailevaa tilastotiedettä). Aalysoiva tilastotietee rialla kulki siitä erilliseä halliollie tilastoiti. Nämä yhdistyivät jossai määri 1800-luvulla, ku matematiika voimakas kehittymie loi tilastotieteelle selkeä teoreettise pohja. 1800-luvulla alettii luoo-, yhteiskuta- ja käyttäytymistieteissä kiiostua tilastotietee meetelmistä. Tältä ajalta ovat peräisi esim. Gregor Medeli periöllisyyskokeet. Myös matemaattie tilastotiede alkoi kehittyä voimakkaasti 1800-luvu loppupuolella, esimerkiksi korrelaatioteoria ja regressiolai perusteet esitettii v. 1888. 1900-luvu alkupuolella sytyivät moet tilastotietee perusmeetelmistä. Viime vuosikymmeiä tilastotietee teoria ja sovellusalueet ovat laajetueet valtavasti. Tähä o erityisesti vaikuttaut tietojekäsittelymahdollisuuksie kehittymie. Suomekielie saa tilasto otettii käyttöö 1840-luvulla. Ruotsi-Suomi oli esimmäie valtio, jossa alettii sääöllisesti laatia väestötilastoja, esimmäiset tiedot koskivat vuotta 1749. Tuolloi Ruotsi-Suome väkiluku oli 13 619 hekeä. Esimmäie suomekielie tilastokirja Suome Suuriruhtiaa Nykyie Tilasto julkaistii vuoa 1848. Vuoa 1865 perustettii Tilastollie toimisto (yk. Tilastokeskus). Vuoa 1905 Karl Willgre julkaisi esimmäise suomalaise tilastotietee oppikirja. Esimmäie tilastotietee professuuri saatii Helsigi yliopistoo vuoa 1945.
5. HAVAINTOAINEISTON HANKINNASTA JA MITTAAMISESTA Havaitoaieisto o tilastollise aalyysi perusta, jote o tärkeää, että se o huolella koottu ja esikäsitelty..1. Havaitoaieisto, havaitomatriisi ja mittaamie Tilastollie tutkimus kohdistuu aia joideki tutkimusobjektie muodostamaa joukkoo, joka o tutkimukse perusjoukko eli populaatio eli kohdejoukko. Populaatio rajaamie o tutkimukse esimmäisiä vaiheita. Populaatio alkioita eli tutkimusobjekteja kutsutaa tilastoyksiköiksi eli havaitoyksiköiksi, joista käytetää merkitää a 1, a, a 3, Jos tutkittavaa o kokreettie aieisto, tilastoyksiköt imetää omalla imellää. Esim.3 Tutkittavaa o 0 kpl Suome kutia, joista tiedetää veroprosetti. Tilastoyksikköä o kuta, mutta mikä o populaatio? em. kutie joukko, jos tutkitaa vai äitä kutia (kokoaistutkimus) kaikki Suome kuat (otatatutkimus) tiety suuraluee kuat (otatatutkimus) Huom. Tutkittavista tilastoyksiköistä tehtävät johtopäätökset ulottuvat vai määrättyy populaatioo (vrt. superpopulaatio). Tämä takia populaatio rajaamie o tärkeää. Tilastoyksikköö liittyvistä omiaisuuksista muodostetaa tilastollisia muuttujia, joita merkitää usei, y, z, tai 1,, 3, (Poikkeus: Jos tarkastellaa vai yhtä muuttujaa, merkitä 1 tarkoittaa esimmäise tilastoyksikö -muuttuja arvoa, toise tilastoyksikö -muuttuja arvoa, 3 kolmee tilastoyksikö -muuttuja arvoa je.) Jotta tilastollisia meetelmiä voidaa soveltaa, o tutkittava ilmiö omiaisuudet voitava esittää umeerisesti. Tämä tehdää mittaamalla tilastoyksiköiltä muuttujie arvot eli havaitoarvot. Mittaamisella tarkoitetaa meettelyä (operaatiota, säätöä), jolla tutkittavaa tilastoyksikköö liitetää se tiettyä omiaisuutta kuvaava luku eli mittaluku. Ku tilastoyksikö tarkastelualaie omiaisuus mitataa ja saadaa mittaustulos, saotaa tätä tulosta ko. muuttuja arvoksi. Käytetyt mittaluvut ovat tilastollise tutkimukse lähtökohta, joho tutkimukse oistumie perustuu. O huolehdittava siitä, että muuttujalla o korkea validiteetti (asiamukaisuus) eli muuttuja mittaa sitä omiaisuutta, jota se olisi tarkoitus mitata. Esimerkiksi kysymys Kuika mota kertaa syöt viikossa porkkaaraastetta? ei mittaa
6 sitä, pidätkö porkkaaraasteesta vai et. Myös muuttuja reliabiliteeti (pysyvyyde, eisattumavaraisuude) täytyy olla korkea, eli toisistaa riippumattomie samalle tilastoyksikölle tehtyje mittauste tulokset pitäisi olla samat. Erityisesti käyttäytymis- ja yhteiskutatieteissä ovat muuttuja validiteetti ja reliabiliteetti tärkeitä käsitteitä. Tilastolliset muuttujat voivat olla suoraa mitattuja tai teoreettisia muuttujia. Teoreettiste muuttujie (esim. älykkyyde) mittaamisessa käytetää apua idikaattoreita. Älykkyyde idikaattoreita voisivat olla esim. meestymie erilaisissa testeissä, joide tulokset yhdistetää esim. yhdeksi muuttujaksi laskemalla eri testie pistemäärät yhtee. Tilastollie muuttuja o jatkuva (jatkuva-arvoie), jos se voi periaatteessa saada mikä tahasa reaalilukuarvo joltai (järkevältä) väliltä. Vaikka muuttuja olisiki periaatteessa jatkuva, o käytäössä mittaustarkkuus aia äärellie. Jatkuvuude käsite perustuuki ajatuksee, että mittaustarkkuutta voidaa parataa rajatta. Esimerkiksi hekilö ikä o jatkuva muuttuja, vaikka se arvot esitetääki usei kokoaislukuia ( vuotta, 4 vuotta je.). Muuttuja o diskreetti eli epäjatkuva, jos se arvoia voivat olla vai jotki erilliset lukuarvot jollaki välillä. Esimerkiksi sisaruste lukumäärä o epäjatkuva muuttuja, koska se arvoia voivat olla luvut 0 tai 1 tai je. Ku tutkittavilta tilastoyksiköiltä mitataa halutut tutkittavat omiaisuudet, saadaa havaitoaieisto. Havaitoaieisto esitetää usei havaitomatriisia, joka siis koostuu tilastoyksiköide omiaisuuksia kuvaavista muuttujie arvoista. Aieisto o site kvatitatiivie eli s. kova aieisto. 1 j k a1 a ai a 11 1 1i 1 1 i j1 j ji j k1 k ki k Tilastoyksiköitä tässä havaitomatriisissa o kpl (eli vaakarivie lukumäärä). Yhde tilastoyksikö (a i ) eri muuttujie arvot esitetää yhdellä vaakarivillä. Tätä vaakariviä saotaa ko. tilastoyksikö havaitovektoriksi eli profiiliksi. Muuttujia havaitomatriisissa o k kpl (eli sarakkeide lukumäärä). Yhdellä sarakkeella esitetää site kaikista tilastoyksiköistä sama muuttuja ( j ) arvo. Sarake muodostaa site ko. muuttuja jakaumavektori.
7 Tilastolliset mitta-asteikot Havaitomatriisissa olevat havaitoarvot äyttävät tavallisilta reaaliluvuilta. Näillä arvoilla o kuiteki myös toie sisältö. Ne kuvaavat jotaki omiaisuutta, ja käytetty esitystapa o vai välie ilmiö tutkimisessa. Tavallisia reaalilukuja voidaa laskea yhtee, jakaa keskeää, iistä voidaa ottaa logaritmeja je. Myös havaitoaieistolle tehtävät tilastolliset operaatiot perustuvat tällaisii laskutoimituksii, mutta äitä operaatioita tehtäessä o aia pidettävä mielessä, että saatu tulos o voitava tulkita empiirisesti mielekkäällä tavalla. Tulkia mielekkyys riippuu muuttuja tilastollisesta mitta-asteikosta. Muuttuja mitta-asteiko tutemie o tärkeää, koska erilaisille muuttujille sopivat vai tietyt tilastolliset tuusluvut ja aalysoitimeetelmät. Mitä korkeampi o mittaustaso, sitä eemmä o käytössä aalyysimeetelmiä. Seuraavassa esitellää mitta-asteikkojako, jossa muuttujat jaetaa eljää ryhmää, jotka esitetää alhaisimmasta korkeimpaa. 1 Nomiaali- eli luokittelu- eli laatueroasteikko Jos tilastoyksiköt aioastaa jaetaa muuttuja perusteella luokkii, mitataa muuttujaa omiaaliasteikolla. Tällöi esimerkiksi kahdesta tilastoyksiköstä voidaa saoa aioastaa, että e ovat joko samalaisia tai erilaisia muuttuja suhtee. Nomiaaliasteikolla muuttuja luokkie imet voidaa korvata umerokoodeilla, jotka voidaa valita vapaasti. Luokkie tai umerokoodie järjestykse vaihtamie ei vaikuta mitekää saatavii tuloksii. Muuttuja-arvoje välisillä aritmeettisilla laskutoimituksilla ei ole mielekästä tulkitaa. Aioastaa lukumäärii perustuvat laskeat ovat järkeviä. Esim. 4 sukupuoli: mies = 1 aie = ammatti: pappi = 1 lääkäri = opettaja = 3 Esim. 5 Liisa o pappi ja Leea o opettaja. Liisalla ja Leealla o eri ammatit. Liisalla ja Leealla o sama sukupuoli. Ordiaali- eli järjestysasteikko Ordiaaliasteikolla voidaa omiaaliasteikollise luokittelu lisäksi joki järjestysrelaatio, joka voidaa ilmaista saoilla "parempi", "vaikeampi", "kauiimpi", Luokittelu lisäksi luokat voidaa asettaa järjestyksee muuttuja mukaa. Muuttuja arvoje välillä vallitsee joki järjestysrelaatio. Mitää lukua ei vertailuu voida kuitekaa ottaa mukaa. Peruslaskutoimitukset eivät ole sallittuja ordiaaliasteikolla.
8 Ordiaaliasteikollise muuttuja arvoje koodaus o muute vapaata, kuha olemassa oleva järjestys tulee yksikäsitteisesti määrätyksi. Esim. 6 arvosaa: tyydyttävä = 1 hyvä = kiitettävä = 3 suhtautumie tiettyy väitteesee (s. Likert-asteikko): täysi eri mieltä = 1 jokseeki eri mieltä = ei eri mieltä eikä samaa mieltä = 3 jokseeki samaa mieltä = 4 täysi samaa mieltä = 5 sijoitus maastojuoksu piirimestaruuskilpailuissa Esim. 7 Matti sai tetistä arvosaa hyvä ja Liisa sai arvosaa kiitettävä. (Matti ja Liisa saivat eri arvosaa.) Liisa arvosaa o parempi kui Matilla. 3 Itervalli- eli välimatka-asteikko Itervalliasteikolla voidaa luokittelu ja järjestyksee asettamise lisäksi vertailla muuttuja lisäyste suuruutta keskeää lukuje avulla. Kahde tilastoyksikö a i ja a j välistä eroa muuttuja osalta vastaa muuttuja-arvoje i ja j erotus. Muuttuja-arvoje yhtee- ja väheyslasku o sallittu. Muuos f() = a + b, ku b > 0, säilyttää itervalliasteiko raketee. Asteiko ollapiste o sopimuksevaraie (keiotekoie). Jotkut itervalliasteikolla mitatut muuttujat voivat saada egatiivisiaki arvoja. Esim. 8 lämpötila Celsius- tai Fahreheit-mittarilla mitattua ( Celsius, y Fahreheit; lieaarie muuos y = 3 + 1.8) kaleteri mukaa mitattava aika leveys- ja pituusasteet Esim. 9 Vaasa lämpötila o 6 C ja Helsigi + C. (Vaasassa ja Helsigissä o eri lämpötila. Helsigissä o lämpimämpää kui Vaasassa.) Helsigissä 8 C lämpimämpää kui Vaasassa. 4 Suhdeasteikko Jos itervalliasteiko vaatimukset ovat voimassa ja lisäksi o olemassa absoluuttie ollapiste, jossa tarkasteltava omiaisuus "häviää" eli muuttuja määrä o todella olla, o muuttuja mitta-asteikko suhdeasteikko. Yhtee- ja väheyslasku lisäksi voidaa muuttuja-arvoja kertoa ja jakaa keskeää. Muuos f() = a, ku a > 0, o sallittu.
9 Suhdeasteikolla voidaa esimerkiksi vertailla, kuika moikertaie tiety tilastoyksikö muuttuja-arvo o toise tilastoyksikö muuttuja-arvoo verrattua. Esim. 10 pituus cm paio kg Esim. 11 Matti paiaa 90 kg ja Liisa 45 kg. (Matti ja Liisa ovat eri paioisia. Matti o paiavampi kui Liisa. Matti paiaa 45 kg eemmä kui Liisa.) Mati paio o kaksikertaie Liisa paioo verrattua. Muuttuja mitta-asteikko ilmoitetaa se toteuttama korkeimma asteiko perusteella Mitta-asteikot jaotellaa vielä kahtee luokkaa: omiaali- tai ordiaaliasteiko muuttujia saotaa kvalitatiivisiksi eli laadullisiksi muuttujiksi. Itervalli- tai suhdeasteiko muuttujia saotaa kvatitatiivisiksi eli määrällisiksi muuttujiksi. Asteikkotyypi määrittämie ei ole välttämättä helppoa eo. tuusmerkkie avulla. Joissaki tilateissa muuttuja tilastollisesta mitta-asteikosta esiityy erilaisia äkemyksiä. Tyypillisesti tällaie muuttuja mittaa mielipidettä (esim. käytetty Likertasteikkoa). Tarkasti ottae ko. muuttuja voi olla esim. järjestysasteiko muuttuja, mutta joskus se ajatellaa oleva välimatka-asteiko muuttuja. Viimeksi maiittu tulkitatapa johtuu siitä, että aieisto käsittelijä mieltää muuttuja-arvoje erotukse umeerise erotukse mukaiseksi... Havaitoaieisto hakiasta ja otatameetelmistä Usei tutkimuksessa o vaivalloisi ja aikaa ja rahaa vaativi vaihe havaitoaieisto hakkimie ja muokkaamie käyttökelpoiseksi tilastollista aalyysiä varte. Kaikkie tilastoyksiköide joukko muodostaa siis tutkimukse populaatio eli perusjouko. Perusjouko osajoukkoa kutsutaa satuaisotokseksi, jos jokaisella perusjouko alkiolla o tuettu positiivie todeäköisyys tulla valituksi otoksee. Jos ko. ehto ei ole voimassa, o kyseessä äyte. Mikäli tiedot kerätää jokaisesta perusjouko alkiosta, o kyseessä kokoaistutkimus. Jos tiedot kerätää otokse avulla, o kyseessä otatatutkimus. Poikkileikkaustutkimuksessa tiedot kerätää useasta eri tilastoyksiköstä tietyllä ajahetkellä. Pitkittäisleikkaustutkimuksessa tilastoaieisto kerätää mittaamalla samaa tai muutamaa tilastoyksikköä eri ajakohtia (aikasarja, erilaiset seuratatutkimukset).
10 Havaitoaieisto saadaa valmiista tilastolähteistä ja/tai keräämällä tiedot itse. Valtio osalta tilastoii hoitaa Tilastokeskus, joka toimiasta ja julkaisuista saa tarkempia tietoja esim. www-sivulta http://www.stat.fi/. Myös muut laitokset, kuat, yritykset ja järjestöt tekevät tilastollisia selvityksiä toimialasa asioista. Osa selvityksistä julkaistaa, osa o tarkoitettu vai sisäisee käyttöö. Lisäksi äillä elimillä o rekistereitä ja muita tietoaieistoja, joista usei o saatavissa tietoja mm. tutkimusta varte. Useimmilla mailla o omat tilastokeskuksesa, joide www-sivuihi löytyy likkejä Tilastokeskukse www-sivuilta. Mikäli havaitoaieistoa ei ole valmiia, joudutaa se kokoamaa tilastoyksikköihi kohdistuvia mittauksia. Otatatutkimus o usei halvempi ja opeampi kui kokoaistutkimus. Koska tilastoyksiköitä o otoksessa vähemmä kui koko populaatiossa, voidaa mittaukset suorittaa huolellisemmi. Jos populaatio o ääretö tai jos tilastoyksikkö joudutaa tuhoamaa mittaustilateessa, ei kokoaistutkimusta voida tehdä. Otatatutkimukse suuittelusta 1. Tavoitteide määrittely täsmetämie tietoje käyttötarkoitus tuloste täsmällisyysvaatimus. Ogelma muutamie tilastolliseksi perusjouko täsmetämie tilastoyksiköt / otatayksiköt muuttujat kohdepopulaatio/kehikkopopulaatio mittausmeetelmät kyselykaavakkeet 3. Otokse poimimie otatameetelmä valita otoskoo määrittämie 4. Aieisto keräämie kysely tai muulaie mittaamie 5. Aieisto käsittely tietoje muokkaus ja aalysoiti 6. Raportoiti tuloste esittämie selväkielisesti Otatameetelmistä Otatameetelmä valitaa liittyy otokse koosta päättämie, joho vaikuttaa haluttu tuloste tarkkuus, tutkimukselle varattu aika ja tietoje keruutapa. Otokse optimikoo määrittämiseksi o kehitetty erilaisia lasketakaavoja, jotka yt sivuutetaa. Karkeasti ottae tutkimustuloste luotettavuus paraee tiettyy rajaa asti otoskoo kasvaessa,
11 mutta samalla kustaukset lisäätyvät voimakkaasti. Mielipidetutkimuksissa, jossa kartoitetaa esimerkiksi koko maassa puolueide kaatusta, käytetää usei 1000 3000 hekilö otoskokoa. Jos tutkitaa vaikkapa joki yritykse imagoa tietyllä alueella, voi otoskoko olla. 00 300 hekilöä. Yksikertaie satuaisotata (YSO) o otatameetelmie perusmeetelmä. Se o käyttökelpoie, jos perusjoukosta ei ole käytettävissä eakkoiformaatiota. Se etua o myös tuloste lasketahelppous, sillä tilastolliset ohjelmistot olettavat yleesä, että otos o koottu YSO:lla. YSO:ssa jokaisella samakokoisella otoksella o sama todeäköisyys tulla valituksi, ja myös jokaisella tilastoyksiköllä o sama todeäköisyys tulla valituksi. YSO:lla ei välttämättä saada edustavaa otosta, jos perusjoukko o jakaatuut keskeää heterogeeisii ryhmii, joissa alkiomäärät ovat hyvi erilaiset. YSO toteutetaa usei käyttämällä satuaislukuja. Perusjouko alkiot umeroidaa, se jälkee geeroidaa satuaislukuja, ja äitä lukuja vastaavat tilastoyksiköt valitaa otoksee. Systemaattie otata (SO) sopii käytettäväksi silloi, ku perusjoukkoa ei tarkkaa pystytä määrittämää (esim. liikkee asiakastutkimus) tai jos perusjouko alkiot o listattu (esim. valmis rekisteri). SO:ssa poimitaa tilastoyksiköt tasavälei läpi koko populaatio. Ku perusjoukosta valitaa joka k. tilastoyksikkö, o poimitaväli k. Poimita aloitetaa valitsemalla k: esimmäise tilastoyksikö joukosta esimmäie otoksee tuleva alkio, ja tämä jälkee poimitaa systemaattisesti joka k. tilastoyksikkö. Jos perusjoukossa o N tilastoyksikköä ja otokse koko o yksikköä, ii poimitaväli k = N/. Systemaattise otaa etu yksikertaisee satuaisotataa o se, että se o helpompi ja opeampi suorittaa. Systemaattie otata aiheuttaa kuiteki virhettä, jos otatayksiköide arvot kasvavat tai pieeevät systemaattisesti (esim. tilastoyksiköt ovat tutkittava muuttuja suhtee suuruusjärjestyksessä) tai jos poimitaväli pituus o sama kui joki systemaattise jakso pituus. Ryväsotaassa (RO) perusjoukko jaetaa kiiteisii ryhmii eli ryppäisii joki omiaisuude mukaa. Ryppää voi muodostaa esim. kuta, oppilaitos, je. Ryppäistä poimitaa esimerkiksi YSO:lla tutkimuksee tulevat ryppäät. Lopullise otokse muodostavat joko ryppäide kaikki tilastoyksiköt tai iistä voidaa edellee poimia osa esimerkiksi yksikertaisella satuaisotaalla. Ositetussa otaassa (OO) pyritää hyödytämää käytettävissä olevaa taustatietoa tutkittava omiaisuude käyttäytymisestä perusjoukossa. Jos populaatio o jakautuut keskeää heterogeeisii ryhmii site, että ryhmät ovat sisäisesti homogeeisia ja eroteltavissa toisistaa, kaattaa käyttää ositettua otataa. Kutaki ryhmää saotaa ositteeksi ja jokaisesta ositteesta poimitaa eriksee satuaisotos käyttäe esim. YSO:ta tai SO:ta. Eri ositteista otoksee valittavie alkioide lukumäärä määritetää eriksee. Ositetussa otaassa otokse kokoaismäärä jakamista eri ositteide keske kutsutaa kiitiöiiksi. Kiitiöiti voidaa suorittaa usealla eri tavalla. Esimerkiksi tasaie kiitiöiti tarkoittaa sitä, että jokaisesta ositteesta otetaa yhtä mota alkiota otoksee ja suhteellie kiitiöiti sitä, että jokaisesta ositteesta poimitaa otoksee osittee suhteellista osuutta vastaava määrä alkioita.
1 3. YKSIULOTTEINEN EMPIIRINEN JAKAUMA 3.1. Frekvessijakauma peruskäsitteitä ja luokitus Jos tutkittavie tilastoyksiköide lukumäärä o suuri, ei havaitomatriisi aia riitä muuttujie jakaumie yleispiirteide selvittämiseksi. Muuttuja yleiset piirteet hukkuvat yksityiskohtie joukkoo. Aieistoa o järjestettävä ja tiivistettävä. Havaitomatriisi sisältämää tietoa voidaa tiivistää esimerkiksi muodostamalla muuttuja (luokiteltu, suora, yksiulotteie) frekvessijakauma. Frekvessijakauma muodostamiseksi muuttuja saamat arvot jaetaa erillisii luokkii, merk. E 1, E,, E k, missä k o luokkie lukumäärä. Luokkaa E i kuuluvie : arvoje lukumäärää saotaa luoka E i frekvessiksi, merk. f i. Ku muuttuja luokat ja luokkia vastaavat frekvessit tuetaa, ii silloi tuetaa : frekvessijakauma. Usei absoluuttiste frekvessie sijasta esitetää frekvessit, jotka o suhteutettu havaitoje kokoaismäärää. Näitä suhteutettuja frekvessejä voidaa käyttää esimerkiksi kahde eri havaitoaieisto frekvessijakaumie vertailuu. Lukua p i = f i saotaa luoka E i suhteelliseksi frekvessiksi ja lukua 100p i saotaa prosetuaaliseksi frekvessiksi. Jos muuttuja o epäjatkuva, o luokkie määrittely yleesä selvää. Luokkia käytetää muuttuja arvoja joko sellaiseaa tai iitä vastaavia koodilukuja. Jos muuttuja luokilla o joki vakiituut esittämisjärjestys tai muuttuja o järjestysasteikolla mitattu, o luokat esitettävä vastaavassa järjestyksessä. Esim. 1 Vuode 009 alussa Suome kutie lääijakauma oli seuraava: (Aieisto peruslähde o Tilastokeskukse tietokaat) Lääi f i p i 100p i Etelä-Suome 7 0.07 0.7 Läsi-Suome 14 0.408 40.8 Itä-Suome 54 0.155 15.5 Oulu 43 0.14 1.4 Lapi 1 0.060 6.0 Ahveamaa 16 0.046 4.6 Yhteesä 348 1.000 100.0
13 Jos luokkia tulee hyvi paljo ja suuri osa frekvesseistä o pieiä, kaattaa luokkia yhdistellä. Tällöi luokat o yhdisteltävä ii, että samaa luokkaa tulevat arvot kuuluvat mahdollisimma loogisesti yhtee. Jos muuttuja o jatkuva-arvoie, o se luokittelu hakalampaa, koska tällaise muuttuja arvot voivat olla mitä tahasa reaalilukuja joltai väliltä, ja kaikki mitatut arvot voivat olla erisuuruisia. Jos muuttujasta halutaa muodostaa tiivis frekvessijakauma, o luokkie oltava välejä, jotka kattavat muuttuja arvot. Jatkuva muuttuja luokittelussa tietoa häviää, koska yt ei eää ilmoiteta muuttuja havaittuja arvoja vaa luokka, joho havaitoarvo kuuluu. Luokitellu aieisto esitystapa o kuiteki usei selvempi kui luokittelemattoma, koska jatkuva-arvoise muuttuja jakauma esittämie tilastokuvioa perustuu usei luokitteluu. Jatkuva muuttuja luokittelua voidaa hahmottaa seuraavasti: Oletetaa, että luokiteltavia havaitoja o kpl ja e o pyöristetty jolleki mittaustarkkuudelle, merk. d. (Jos mittaustulokset ovat kokoaislukuja, o d = 1, jos mittauksissa o käytetty yhtä desimaalia, ii d = 0.1). 1 Etsitää piei arvo, merk. (1), ja suuri arvo, merk. (). Muuttuja arvoje vaihteluväli muodostaa väli ( (1), () ). Vaihteluväli pituus w = () (1). Päätetää, käytetääkö tasavälistä vai epätasavälistä luokitusta. Luokitus o tasavälie, jos kaikki luokat ovat yhtä leveitä. Jos vai voidaa, kaattaa käyttää tasavälistä luokitusta varsiki silloi, jos luokittelua käytetää esimerkiksi frekvessihistogrammi perustaa. 3 Valitaa luokkie lukumäärä k, (k 3 tai) k. (Jos = 15, ii k 5-7.) Yleesä luokkia o 4-10 kpl. 4 Tasavälisessä luokituksessa määritetää arvio luokkaväli pituudelle c site, että c > k w. Luokkie rajoje o oltava selkeitä, ja siksi c valitaa usei hiuka suuremmaksi kui edellie suhde. Epätasavälisessä luokituksessa eri luokissa luokkaväli pituude saa valita mielivaltaisesti. 5 Muodostetaa luokat site, että e peittävät koko vaihteluväli. Esimmäise luoka pyöristety alaraja pitäisi olla pieempi tai yhtä suuri kui (1). Muut luokat määritellää pyöristettyje luokkarajoje avulla, jotka esitetää samalla mittaustarkkuudella kui muuttujaki o mitattu. 6 Tutkitaa jokaise tilastoyksikö muuttuja arvo, ja määrätää luokkie frekvessit. Yksittäie muuttuja-arvo voi kuulua vai yhtee luokkaa. Esim. 13 Erää ettimyytiyritykse syksy 009 farkkumallistosta tehdyssä otoksessa farkkuje myytihiat euroia ovat suuruusjärjestyksessä: 43, 49, 53, 60, 64, 69, 70, 73, 73, 79, 80, 80, 85, 89, 90, 90, 90, 99, 99, 99, 100, 100, 109, 109, 110, 110, 115, 119, 10, 19, 135.
14 Farkkuje eli tilastoyksiköide määrä eo. aieistossa o 31. Myytihita o esitetty kokoaisiksi euroiksi pyöristettyä, jote mittaustarkkuus d = 1. Myytihita-muuttuja mitta-asteikko o suhdeasteikko. Muuttuja piei arvo o 43 ja suuri arvo o 135. Vaihteluväli pituus o site w = 135 43 = 9. Luokitellaa aieisto viitee tasavälisee luokkaa (, koska 5 31), siis k = 5. 9 Määritetää luokkaväli pituus: c > = 18.4 ja valitaa luokkaväli 5 pituudeksi c = 0. Esimmäise luoka pyöristetyksi alarajaksi o valittu luku 40, koska se pieitä arvoa pieempi tasaluku. Toise luoka pyöristetty alaraja o luokkaväli pituude etäisyydellä esimmäise luoka alarajasta. Esimmäise luoka pyöristetty yläraja o mittaustarkkuude verra pieempi kui toise luoka pyöristetty alaraja. Absoluuttiste frekvessie lisäksi jakaumassa o esitetty prosetuaaliset frekvessit. Farkkuje myytihita ( ) f i 100 p i 40-59 3 9.7 60-79 7.6 80-99 10 3. 100-119 8 5.8 10-139 3 9.7 Yhteesä 31 100.0 Mittaustarkkuus d äkyy frekvessijakaumataulukossa site, että se o tiety luoka pyöristety alaraja ja sitä edeltävä luoka pyöristety yläraja erotus. Taulukossa äkyvät pyöristetyt luokkarajat ovat luokkie symboleja. Tasavälisessä luokituksessa edeltävä luoka ja seuraava luoka pyöristettyje alarajoje (ja myös ylärajoje) välie etäisyys vastaa luokkaväli pituutta. Luoka todellie alaraja o ko. luoka pyöristety alaraja ja sitä edeltävä luoka pyöristety yläraja välie pyöristysraja. Ko. todellie alaraja o samalla edeltävä luoka todellie yläraja. Luoka E i todellisesta alarajasta käytetää merkitää L i ja todellisesta ylärajasta merkitää U i. Todellisia luokkarajoja käytetää mm. graafisissa esityksissä sekä tuuslukuje laskemisessa. Luoka E i luokkaväli pituus c i o luoka todellise ylä- ja alaraja erotus eli c i = U i L i. Tasavälisessä luokituksessa luokkaväli pituus o kaikilla luokilla sama ja tällöi siitä voidaa käyttää merkitää c.
15 L U Luoka E i luokkakeskus m i o luoka keskipiste eli m i i i. Koska luokittelussa usei katoaa tietoa tilastoyksiköide tarkoista muuttuja-arvoista, tulkitaa luokkakeskus usei ko. luoka havaitoje keskiarvoa. Luokkakeskuksia käytetää mm. tilastokuvioissa. Jos muuttuja o epäjatkuva, itervalli- tai suhdeasteikolla mitattu ja jos muuttujalla o paljo erilaisia arvoja, voidaa muuttujaa kohdella kui se olisi jatkuva. Jos muuttuja o mitattu vähitää järjestysasteikolla, voidaa muuttujalle määrittää summafrekvessi eli kumulatiivie frekvessi F i, joka ilmaisee, kuika mota tilastoyksikköä (havaitoa) kuuluu luokkaa E i tai sitä edeltävii luokkii yhteesä eli eli F i i f j j1 F1 f1 F f1 f F1 f F3 f1 f f3 F Fk f1 f fk f3 Fk 1 fk Edellee saadaa suhteellie summafrekvessi P i F i ja prosetuaalie summa- frekvessi 100P i. Esim. 14 Seuraavassa taulukossa o esitetty farkkuje hia frekvessijakauma lisäksi summafrekvessit, prosetuaaliset summafrekvessit, todelliset luokkarajat ja luokkakeskukset. Farkkuje myytihita f i F i 100 P i L i U i m i 40-59 3 3 9.7 39.5 59.5 49.5 60-79 7 10 3.3 59.5 79.5 69.5 80-99 10 0 64.5 79.5 99.5 89.5 100-119 8 8 90.3 99.5 119.5 109.5 10-139 3 31 100.0 119.5 139.5 19.5 Yhteesä 31
16 3.. Graafie esitys Frekvessijakauma voi esittää myös graafisesti. Usei käytetty kuviotyyppi o pylväskuvio. Pylväskuviot muodostuvat joko vaaka- tai pystypylväistä. Pylväide pitaalat (ja tasalevyiste pylväide pituudet) kuvaavat määriä, jote pylvää pituutta osoittava asteiko o hyvä lähteä luvusta 0. Vaakapylväskuvioita tulisi käyttää silloi, ku kuvataa laadullise muuttuja jakaumaa. Muuttuja luokat esitetää pystyakselilla ja vaaka-akselilla kuvataa frekvessit (absoluuttiset, suhteelliset tai prosetuaaliset). Jos muuttuja o omiaaliasteikolla mitattu, esitetää aieisto ii, että yli pylväs o pisi ja muut pylväät piirretää pituusjärjestyksessä. Pylväide välii jätetää pieet raot. Jos muuttuja o järjestysasteikollie, esitetää pylväät luokkia vastaavassa järjestyksessä. Sektoridiagrammia (ympyräkuvio, piirakkakuvio) käytetää laadullise muuttuja jakauma esittämisessä erityisesti silloi, ku halutaa havaiollistaa joki kokoaisuude jakautumista osii. Jokaise luoka kokoa edustaa sektori pita-ala, joka o suoraa verraollie luoka kokoo. Sektorikuvio sijasta kaattaa käyttää vaakapylväsesitystä erityisesti silloi, jos halutaa esittää, että kahde (tai useamma) melko samakokoise ryhmä välillä o kuiteki eroavuutta havaitomäärässä. Esim. 15 Suome kutie lääijakauma vaakapylväskuvioa
17 Esim. 16 Suome kutie lääijakauma sektorikuvioa Määrällise epäjatkuva muuttuja jakaumaa voidaa kuvata jaakuviolla, joka o pystypylväskuvio. Jaadiagrammi piirretää ii, että koordiaatistoo piirretää muuttuja arvoje kohdalle kyseiste arvoje frekvessie korkuiset jaat tai pylväät. Esim. 17 Vialliste tuotteide lukumääräjakauma tuote-erissä esitettyä taulukkoa ja jaakuvioa vialliste lkm f i 1 4 3 4 3 5 6 1 Frekvessihistogrammi o pystypylväskuvio, jota käytetää jatkuville muuttujille. Ku luokitus o tasavälie, histogrammi muodostuu pylväistä, joide leveys o luokkaväli pituus c, korkeus luoka E i frekvessi f i ja katoje kärkipisteiä vaaka-akselilla ovat todelliset luokkarajat. Yleesä kuiteki todelliste luokkarajoje sijasta merkitää vaaka-
18 akselille äkyvii "siistit" luvut, jotka ovat lähellä todellisia luokkarajoja (tai luokkakeskuksia). Histogrammissa o pylvää pita-ala tärkeämpi kui korkeus, jote kuvio olisi piirrettävä ii, että luoka frekvessi o suoraa verraollie pylvää pita-alaa. Tämä vaatimus toteutuu helposti tasavälise luokitukse yhteydessä. Esim. 18 Farkkuje myytihitajakauma frekvessihistogrammia Jatkuva määrällise muuttuja frekvessijakauma voidaa esittää myös frekvessimoikulmio avulla. Jokaise luokkakeskukse kohdalle piirretää piste frekvessi (tai suhteellise tai prosetuaalise frekvessi) korkeudelle ja peräkkäiset pisteet yhdistetää toisiisa jaoilla. Frekvessimoikulmio päätepisteet ovat -akselilla s. ollaluokkie (= luokitukse alkuu ja loppuu lisättävie ylimääräiste luokkie) luokkakeskuksissa. Jos ollaluokkia ei voi määrittää, ei frekvessimoikulmiota voi piirtää. Esim. 19 Farkkuje myytihia jakauma frekvessimoikulmioa
19 Myös summafrekvessijakauma voidaa esittää kuvioa. Jatkuva määrällise muuttuja summafrekvessijakaumaa kuvataa summakäyrällä. Jokaise luoka todellise yläraja kohdalle piirretää piste summafrekvessi (tai suhteellise tai prosetuaalise summafrekvessi) korkeudelle ja peräkkäiset pisteet yhdistetää toisiisa jaoilla. Summakäyrä lähtee vaaka-akselilta ja ousee :ää asti. Jos summakäyrä muodostetaa prosetuaalisesta summafrekvessijakaumasta, voidaa käyrä avulla selvittää mm. - kuika mota % havaitoarvoista o pieempiä kui luku a - mikä o se muuttuja arvo, jota pieempiä havaitoarvoja o p %. Esim. 0 Farkkuje myytihia prosetuaalie summakäyrä Diskreeti määrällise muuttuja summafrekvessijakaumaa vastaava summakäyrä o porrasfuktio. Vaaka-akselille merkitää muuttuja arvot ja piirretää käyrä, joka saa arvo kohdalla se frekvessi suuruise hyppäykse ja pysyy arvoje välillä edellise arvo kohdalla saamallaa tasolla. Viivakuviota käytetää ee kaikkea aikasarjoje graafisee esittämisee. Tällöi muuttuja kuvaa yleesä yhde tilastoyksikö yhtä omiaisuutta eri ajakohtia. Viivadiagrammissa vaaka-akselilla kuvataa aika ja pystyakselilla kuvataa muuttuja arvot. Sekä vaaka- että pystyakseli voi katkaista. Esim. 1 Hallito- ja toimistotyössä olevie palkasaajie työtapaturmie lukumäärä vuosia 1998 007 (Lähde: Tilastokeskukse PX-Web-tietokaat) vuosi 1998 1999 000 001 00 003 007 005 006 007 tapaturmie 1797 185 1740 1841 1763 1866 1648 1751 1685 1676 lkm
0 Jos muuttuja o mitattu vähitää järjestysasteikolla, voidaa se havaitoarvoje jakautumie esittää laatikko-viikset- eli bo-plot-kuvioa. Tässä kuviossa ei esitetä luokitteluu perustuvaa jakaumaa, vaa kuviosta ilmeee muuttuja tuuslukuje arvoja. Kuviossa piirretää laatikko, joka pohja o alakvartiili korkeudella ja kasi o yläkvartiili korkeudella. Muuttuja mediaai merkitää laatikkoo poikkiviivalla. Laatiko pohjasta ja kaesta piirretää viikset kummalleki puolella laatikkoa. Viiksie piirtämisessä o useita käytätöjä, viiksie päätepisteiä voivat olla esim. piei arvo ja suuri arvo. Viiksie päätepisteiä voivat olla myös 10 %: ja 90 %: fraktiilit, jolloi kuvaa voidaa vielä eriksee merkitä e havaiot, jotka ovat kauempaa jakauma keskikohdasta kui em. fraktiilit. Esim. Farkkuje myytihia laatikko-viikset-kuvio. Kuviossa viiksie päätepisteiä ovat suuri ja piei arvo.
1 Määrällise muuttuja jakaumaa voidaa esittää ruko-lehti -kuviolla. Muuttuja-arvoista jätetää esittämättä tietty määrä oikeapuoleisia umeroita. Jäljelle jäävistä muodostetaa esitykse ruko, joka arvot esitetää perättäisiä kokoaislukuia piei luku ylimmällä rivillä ja suuri alimmalla rivillä. Rukoarvoje perää kirjoitetaa lehdet yleesä site, että havaioista pois jätety umero-osuude esimmäiset umerot tulevat oikealle riville suuruusjärjestyksessä. Esim. 3 Seuraavassa o farkkuje myytihitaesimerki ruko-lehti-kuvio, jossa rugo leveys o 10 : 4: 39 5: 3 6: 049 7: 0339 8: 0059 9: 000999 10: 0099 11: 0059 1: 09 13: 5 3.3. Yksiulotteise jakauma tuusluvut Frekvessijakaumie laatimisella yritetää saada muuttuja keskeiset omiaisuudet helpommi hahmotettaviksi. Usei muuttuja havaitoarvoje sisältämä iformaatio halutaa tiivistää vieläki voimakkaammi. Tällöi lasketaa havaioista tilastollisia tuuslukuja. Sijaitia kuvaavia tilastollisia tuuslukuja saotaa keskiluvuiksi. Hajotaluvuilla puolestaa kuvataa havaitoarvoje vaihtelua eli "hajaatumista" jakauma keskikohda ympärille. O olemassa myös muita jakauma muotoa kuvaavia tilastollisia tuuslukuja. 3.3.1. Keskiluvut Muuttuja arvoje keskimääräistä suuruutta ja jakauma sijaitia muuttuja-akselilla kuvataa keskilukuje avulla. Moodi (Mo) eli tyyppiarvo o se muuttuja arvo tai luokka, joka frekvessi o suuri. Moodi sopii kaikille mitta-asteikoille, mutta se ei ole aia yksikäsitteie. Vähitää
itervalliasteikollise muuttuja luokitellussa aieistossa moodi voidaa tulkita moodiluoka luokkakeskukseksi. Esim. 4 Lääi-muuttuja moodi o Läsi-Suome lääi, koska kutia o eite Läsi- Suome lääissä. Esim. 5 Farkkuje myytihia moodiluokka o kolmas luokka: 80 99. Moodi voidaa yt tulkita oleva moodiluoka luokkakeskus eli 89.5 eli. 90. (Alkuperäisistä havaioista tarkasteltua moodi ei ole yksikäsitteie: moodiarvoja o kaksi: sekä 90 että 99.) Esim. 6 Erää tilastotietee kurssi opiskelijoista valitussa 19 hekilö otoksessa olivat opiskelijoide iät suuruusjärjestyksessä: 19, 0, 0, 0, 0, 1, 1, 1, 1, 1,,, 3, 3, 5, 6, 9, 4 ja 46. Iä moodiarvo o 1 vuotta. Mediaai (Md) eli keskusarvo o se havaitoarvo, jota pieempiä ja suurempia havaitoarvoja o yhtä paljo. Mediaaia ei voi laskea omiaaliasteikollisesta muuttujasta. Jos havaiot o asetettu ousevaa suuruusjärjestyksee ja kyseessä o luokittelemato aieisto, ii mediaai määrätää seuraavasti: 1 1 parito: Md o keskimmäie havaitoarvo (k), missä k = parillie: etsitää kumpiki keskimmäisistä arvoista. Jos muuttuja o ordiaaliasteikolla mitattu, o mediaai kumpiki äistä arvoista. Jos muuttuja o määrällie, o mediaai keskimmäiste havaitoje keskiarvo eli ( k) (k 1), missä k =. Esim. 7 Edellise esimerki ikä-muuttuja mediaai sijaitsee suuruusjärjestyksessä 19 1 sijalla k = = 10. Sijalla 10 oleva havaitoarvo o 1 vuotta, joka o siis mediaai. Luokitellulle aieistolle mediaai määräämiseksi o kaksi tapaa. Jos muuttuja o ordiaaliasteikollie tai diskreetti kvatitatiivie, ii mediaai määrätää kute edellä. Jatkuva tasavälisesti luokitellu kvatitatiivise muuttuja mediaai lasketaa kaavalla c Md LM FM 1, fm missä
L M = mediaailuoka todellie alaraja f M = mediaailuoka frekvessi F M-1 = mediaailuoka edeltävä luoka summafrekvessi c = luokkaväli pituus = havaitoje lkm. 3 Mediaailuokka o esimmäie sellaie luokka, jossa F i. Mediaai voidaa määrätä myös summakäyrä avulla. Esim. 8 Farkkuje myytihia mediaailuokka o kolmas luokka: 80 99. Mediaai 0 31 Md 79.5 10 90.5 91 10 (Alkuperäisistä havaioista tarkasteltua mediaai o suuruujärjestykse sijalla 16, jote tarkka mediaai o 90.) Mediaai o fraktiilie erikoistapaus. Fraktiilit ovat jakauma "sijaitia" kuvaavia lukuja, vaikka e eivät yleisesti kuvaakaa keskikohtaa. Muuttuja p: proseti fraktiili (p) o sellaie havaitoarvo, jota pieempiä muuttuja arvoista o p %. Tärkeimpiä fraktiileja ovat alakvartiili yläkvartiili Q 1 = (5) Q 3 = (75) mediaai Md = (50) desiilit (10), (0),, (90) Fraktiilit voidaa määritellä muille paitsi omiaaliasteiko muuttujille. Kvartiilie ja fraktiilie määräämisessä käytetää apua mm. summakäyrää. Fraktiili (p) määrittämie voidaa toteuttaa myös seuraavasti. Lasketaa esi fraktiili (p) sijaluku ousevassa suuruusjärjestyksessä: (+1). p/100 = k.d, missä k o kokoaisosa ja d o desimaaliosa ja lopuksi ko. fraktiili saadaa kaavasta (p) = (k) + 0.d. ( (k+1) - (k) ). Esim. 9 Opiskelijoide ikähavaitoja o 19 kpl. Alakvartiili sijaluku o ((19+1). 5/100=) 5.0, jote k = 5 ja d = 0 ja site Q 1 = (5) = 0 + 0.0. (1 0) = 0 vuotta. Yläkvartiili sijaluku o ((19+1). 75/100=) 15.0, jote k = 15 ja d = 0 ja site Q 3 = (75) = 5 + 0.0. (6 5) = 5 vuotta.
4 Esim. 30 Farkkuje myytihia prosetuaalisesta summakäyrästä arvioitua hia alakvartiili Q 1 73 ja yläkvartiili Q 3 108. (Alkuperäisistä havaioista tarkastelua Q 1 = 73 ja Q 3 = 109.) Aritmeettie keskiarvo voidaa laskea itervalli- tai suhdeasteikollisesta muuttujasta. Luokittelemattomalle aieistolle keskiarvo saadaa kaavasta 1 i i1 Esim. 31 Ikä-muuttuja keskiarvo 1 1 19 0 0 0 0 1 1 46 46 4 vuotta 19 19 Luokitellulle aieistolle aritmeettie keskiarvo saadaa kaavalla 1 k f i m i, i1 missä f i m i k = luoka E i frekvessi = luoka E i luokkakeskus = luokkie lkm = havaitoje lkm Huom. Edellä olevaa kaavaa voidaa käyttää, vaikka muuttuja olisi epäjatkuva. Tällöi luokkakeskukset m i korvataa muuttuja arvoilla ja luokkie frekvessit f i korvataa yksittäiste arvoje frekvesseillä. Esim. 3 Farkkuje myytihia aritmeettie keskiarvo luokitellu aieisto perusteella: 1 3 49.5 7 69.5 10 89.5 8 109.5 319.5 31 1 794.5 90.145... 90 31 (Alkuperäisistä havaioista laskettua tarkka aritmeettie keskiarvo o 90.) Olkoo tilastoyksikköä jaettu k:ho ryhmää, joissa o 1,,, k tilastoyksikköä, ja joissa muuttuja keskiarvot ovat 1,,, k. Koko aieisto keskiarvo o
5 1 k i i. i1 Esim. 33 Eräällä työpaikalla o aisia 400 ja miehiä 500. Keskitutiasiot ovat vastaavasti 6.58 ja 34.59. Mikä o työtekijöide keskitutiasio? 400 6.58 500 34.59 31.03 400 500 Keskiarvo o eite käytetty keskiluku, joka o kuiteki herkkä poikkeaville havaioille. Varsiki pieissä havaitoaieistoissa yksiki muista selvästi poikkeava arvo vetää keskiarvoa puoleesa. Joskus äärimmäise isot ja pieet muuttuja-arvot halutaa jättää tarkastelu ulkopuolelle. Tällöi voidaa laskea esimerkiksi 5 %: leikattu keskiarvo, jolloi 5 % pieimmistä ja suurimmista arvoista jätetää pois ja lopuista havaioista lasketaa tavallie keskiarvo. Geometrista keskiarvoa käytetää suhdeasteikolla mitatu muuttuja keskiarvoa silloi, ku halutaa kuvata keskimääräistä suhteellista muutosta. Geometrie keskiarvo voidaa laskea muuttujasta, joka kaikki havaitut arvot ovat positiivisia. Geometrie keskiarvo saadaa laskettua kaavasta G 1. Esim. 34 Tuottee hita 1.5-kertaistui esimmäise vuode aikaa, toisea vuotea se 5- kertaistui ja viimeiseä vuotea 4-kertaistui. Hia suhteelliste muutoste geometrie keskiarvo o G 3 1.5 5 4 3.1 Harmoista keskiarvoa käytetää myös suhdeasteikolla. Harmoie keskiarvo saadaa laskettua kaavasta H. 1 i1i Esim. 35 Matka esimmäie kolmaes ajettii vauhtia 50 km/h, toie kolmaeksella 5 km/h ja viimeisellä 100 km/h. Mikä o keskimääräie vauhti koko matkalla? (Ts. millä vauhdilla ämä välit olisi ajettava, jotta koko
6 matkaa meisi sama aika kui todella mei, ja jokaisella kolmaeksella vauhti o sama?) Lasketaa harmoie keskiarvo H 1 50 3 1 5 1 100 3 4.9 0.0 0.04 0.01 Keskilukuje vertailua Aritmeettie keskiarvo o tärkei keskiluku, koska se o helppo laskea. Aritmeettie keskiarvo o herkkä poikkeaville havaioille, se ei ole siis robusti keskiluku. Aritmeettie keskiarvo ei ole välttämättä tyypillisi tai yleisi havaitoarvo. Jos samoista muuttuja arvoista lasketaa kaikki edellä esitetyt keskiarvot (mikä ei yleesä ole mielekästä), ovat tulokset aia järjestyksessä H G. Mediaai o helppo ymmärtää. Se o vakaa keskiluku, joka ei ole herkkä poikkeaville havaioille. Jos muuttuja jakauma o vio, kuvaa mediaai usei aritmeettista keskiarvoa paremmi havaitoje jakaumaa. Mediaaia ei kuitekaa käytetä paljoakaa pitkälle meevissä tilastollisissa operaatioissa. Mediaai ei ole herkkä poikkeaville havaioille, se o robusti keskiluku. Moodi soveltuu kaikille mitta-asteikoille, mutta se o karkea keskiluku. Se ei ole aia yksikäsitteie. Jos muuttuja jakauma o moihuippuie, kuvaa moodi usei mediaaia ja aritmeettista keskiarvoa parempi havaitoje jakaumaa. Moodi o myös robusti keskiluku. symmetrie yksihuippuie jakauma Md Mo
7 oikealle loiveeva jakauma Mo Md vasemmalle loiveeva jakauma Md Mo 3.3.. Hajotaluvut Muuttuja arvoje keskimääräistä suuruutta kuvaavat luvut eivät riitä kuvaamaa kaikkia piirteitä muuttuja-arvoje käyttäytymisestä. O myös pystyttävä kuvaamaa sitä, kuika suurta o muuttuja arvoje vaihtelu. Etropia eli satuaisuusaste mittaa sitä, kuika selvästi tai voimakkaasti havaitut muuttuja arvot keskittyvät yhtee tai vai muutamaa luokkaa. Etropia voidaa laskea kaavasta missä k k H pi log pi 3.3193 pi log10 pi, i1 i1 p i k = luoka E i suhteellie frekvessi = luokkie lkm. Etropia soveltuu kaikille mitta-asteikoille. Se o suurimmillaa silloi, ku eri luokkie frekvessit ovat yhtä suuret eli silloi, ku vaihtelu o suurita. Etropia arvosta o vaikeaa ähdä suoraa, kuika suuresta vaihtelusta o kyse, koska siihe vaikuttaa luokkie lukumäärä. Laskettua arvoa voidaa verrata etropia maksimiarvoo Hma 3.3193log10 k.
8 Esim. 36 Kutie lääijakauma etropia Lääi p i log 10 p i p i log 10 p i Etelä-Suome 0.07-0.68403-0.14159 Läsi-Suome 0.408-0.38934-0.15885 Itä-Suome 0.155-0.80967-0.1550 Oulu 0.14-0.90658-0.114 Lapi 0.060-1.185-0.07331 Ahveamaa 0.046-1.3374-0.06151 Yhteesä 1.000-0.67318 H = -3.3193. (- 0.67318).36 H ma = 3.3193. log 10 6.585 Vaihteluväli o pieimmä ja suurimma havaitoarvo määräämä väli ( (1), () ). Vaihteluväliä ei voi käyttää omiaaliasteikolla. Luokitellussa aieistossa vaihteluväli muodostavat esimmäise luoka pyöristetty alaraja ja viimeise luoka pyöristetty yläraja. Vaihteluväli pituus w soveltuu itervalli- ja suhdeasteiko muuttujille. Se o suurimma ja pieimmä havaitoarvo erotus eli w = () (1). Luokitellussa aieistossa se o viimeise luoka yläraja ja esimmäise luoka alaraja erotus. Vaihteluväli pituus o helppo laskea, mutta se ei ole yksistää käytettyä hyvä hajotaluku, koska se ottaa huomioo vai muuttuja äärimmäiset arvot. Esim. 37 Lääi vaihteluväliä ei voida määrittää. Esim. 38 Farkkuje myytihia vaihteluväli o (43, 135) ja vaihteluväli pituus o w = 135-43 = 9. (Luokitellusta aieistosta: farkkuje hia vaihteluväli o (40, 139) ja vaihteluväli pituus 99.) Esim. 39 Opiskelijoide iä vaihteluväli o (19, 46) ja vaihteluväli pituus o 7 vuotta. Muuttuja vaihtelua voidaa kuvata kvartiilivälillä (Q 1, Q 3 ), joka ilmaisee havaitoarvoje keskipaikkeilta sellaise väli, jossa o 50 % keskimmäisistä arvoista. Kvartiiliväli pituus saadaa erotuksea Q 3 - Q 1. Kvartiilipoikkeamalla tarkoitetaa lukua Q Q Q 3 1.
9 Kvartiilipoikkeama o vaihteluväli pituutta vakaampi hajotaluku ja kertoo, kuika pitkällä muuttuja-arvovälillä aieisto keskellä olevat 5 % havaioista sijaitsevat. Kvartiiliväli voidaa määrätä ordiaaliasteikolliselle muuttujalle, mutta kvartiiliväli pituus ja kvartiilipoikkeama vasta itervalliasteikolla. Muuttuja-arvoje hajaatumista voidaa pelkä kvartiiliväli tarkastelu sijasta tarkastella paremmi vertailemalla kvartiiliväliä ja vaihteluväliä toisiisa. Esim. 40 Farkkuje myytihia prosetuaallise summakäyrä perusteella arvioitua Q 1 73 ja Q 3 108, jote kvartiiliväli pituus o oi 35 ja kvartiilipoikkeama Q = 17.5. Esim.41 Opiskelijoide iä kvartiiliväli o (0, 5). Kvartiiliväli pituus o 5 vuotta ja kvartiilipoikkeama.5 vuotta. Käytetyimpiä hajotalukuja ovat variassi s ja keskihajota s, vaikka iide tulkita ei ole ii yksikertaista kui em. hajotaluvuilla. Variassi ja keskihajota voidaa laskea itervalli- tai suhdeasteikollisesta muuttujasta. Keskihajota o variassi positiivie eliöjuuri eli s = s. Variassi kertoo, kuika tiiviisti havaitoarvot ovat keskittyeet keskiarvo ympärille. Jos kaikki mittaustulokset ovat samoja, o s = 0, muulloi s > 0. Keskihajoassa ja variassissa muuttujie arvoje vaihtelu ilmaistaa raketeellisesti samalla tavalla. Keskihajota o kuvailussa havaiollisempi, koska sillä o sama laatu kui muuttuja arvoilla, ja se kertoo, kuika kaukaa keskimääri havaiot ovat keskiarvosta. Variassi o taas parempi teoreettisissa tarkasteluissa. Luokittelemattoma aieisto variassi voidaa laskea kaavalla s 1 i 1 i1 1 i 1 i1 i i1. Esim. 4 Opiskelijoide iä variassi ja keskihajoa lasketa: i 19 0 0 0 0 1 46 46 i 19 0 0 0 0 1 46 114
30 s 1 46 114 54.450... v 19 1 19 s = 7.379 v 7 v Luokitellu aieisto variassi o k k 1 1 s fi mi fimi 1 i1 1 i1 k fimi i1 missä f i m i k = luoka E i frekvessi = luoka E i luokkakeskus = luokkie lkm = havaitoje lkm Esim. 43 Farkkuje myytihia variassi ja keskihajota s 1 3 49.5 31 1 1 30 794.5 67497.75 31 7 69.5 10 89.5 519.57 8 109.5 3 19.5 794.5 31 s =.79 3 (Alkuperäisista havaioista tarkastelua: s = 549.67 ja s = 3.4.) Variassi ja myös keskihajoa arvot riippuvat muuttuja mittayksiköstä. Jos muuttujalle tehdää lieaarie muuos y = a + b, ii s y = b s ja sy = b s. Esim. 44 Pituus o mitattu tuumia ja : variassi o 5. Jos pituus mitataa cm:ä eli :lle tehdää muuos y =.54, ii y: variassi s y =.54.5 = 3.36. Keskiarvoa ja keskihajotaa voidaa hyödytää esimerkiksi muuttuja havaitoarvoje stadardoiissa:
31 zi i. s Stadardoitu arvo z i kertoo, kuika moe keskihajoa etäisyydellä havaitoarvo i o keskiarvosta. Stadardoiduille arvoille z i pätee aia, että iide keskiarvo z = 0 ja keskihajota s z = 1. Stadardoitu muuttuja z o pelkkä luku; se o siis riippumato alkuperäise muuttuja mittayksiköstä. Stadardoituja havaitoarvoja voidaa käyttää mm. ku eri havaitoaieistoje tilastoyksiköitä verrataa toisiisa. Esim. 45 Opiskelija osallistui tilastotietee tettii ja sai pistemääräksi 36. Hä osallistui myös talousmatematiika tettii ja sai pistemääräksi 30. Tilastotietee teti pistemäärä keskiarvo oli 9 ja keskihajota 6, talousmatematiika tetissä vastaavat luvut olivat ja 8. Opiskelija tettitulokset stadardoitua ovat 36 9 30 z tt 1. ja z tm 1. 0 6 8 Opiskelija meestyi tilastotieteessä suhteellisesti paremmi. s Variaatiokerroi V o mittayksiköstä riippumato hajotaluku, jota voidaa käyttää suhdeasteikolla. Variaatiokerroi ilmaisee muuttuja suhteellise vaihtelu. Usei variaatiokerroi ilmaistaa prosettilukua, jolloi luku 100V kertoo, kuika mota % keskihajota o keskiarvosta. Variaatiokerroita käytetää vertailtaessa mittayksiköiltää erilaisia aieistoja. Esim. 46 Opiskelijoide iä variaatiokerroi V = 30 % iä keskiarvosta. 7.379... 4.315... 0.30. Iä hajota o site Esim. 47 Farkkuje myytihia variaatiokerroi V = o site 5 % hia keskiarvosta.79... 90.145... 0.5. Hia hajota Huom. Käytäössä o havaittu:
3 3.3.3. Yksiulotteise jakauma muita tuuslukuja Jakauma sijaitia ja vaihtelua kuvaavie tuuslukuje lisäksi voidaa mitata jakauma symmetriasta poikkeamista eli vioutta sekä keskittymise terävyyttä tai tylsyyttä eli huipukkuutta. Ko. tuuslukuja määritetää yleesä itervalli- ja suhdeasteiko muuttujille. Jos muuttuja arvot ovat keskittyeet voimakkaasti alimpii luokkii, ja jakaumalla o pitkä hätä oikealle päi, saotaa muuttuja jakaumaa positiivisesti vioksti eli oikealle vioksi tai oikealle loiveevaksi. Jos taas muuttuja arvot ovat keskittyeet ylimpii luokkii, o muuttuja jakauma vasemmalle loiveeva tai vio eli egatiivisesti vio. Symmetrisessä jakaumassa keskiarvo ja mediaai ovat yhtä suuret, ja jakauma muoto oikealle ja vasemmalle keskipisteestä saadaa peilikuvaa. Frekvessijakauma vioude mitta o suure g1 1 3 i i1. 3 s Jos jakauma o täsmällee symmetrie o g 1 = 0 (esim. ormaalijakauma); jos jakauma o vasemmalle loiveeva, o g 1 < 0; jos jakauma o oikealle loiveeva, o g 1 > 0. Peukalosäätöä pidetää usei seuraavaa: symmetriseä jakaumaa pidetää jakaumaa, jolle 0.5 < g 1 < 0.5. Jakaumaa voi tutkia myös huipukkuude avulla. Huipukkuude mittaa o suure