Tilastotieteen perusteet

Samankaltaiset tiedostot
Tilastotieteen perusteet

Tilastotieteen johdantokurssi

Tunnuslukuja 27 III TUNNUSLUKUJA

TILASTOT: johdantoa ja käsitteitä

Mat Tilastollisen analyysin perusteet, kevät 2007

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

Otantajakauman käyttö päättelyssä

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

3.2 Sijaintiluvut. MAB5: Tunnusluvut

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Tilastollisten aineistojen kuvaaminen. Tilastollisten aineistojen kuvaaminen. Tilastollisten aineistojen kuvaaminen: Mitä opimme?

Osa 2: Otokset, otosjakaumat ja estimointi

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Todennäköisyys, että yhden minuutin aikana saapuu 2 4 autoa.

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastollinen todennäköisyys

Tehtävä 1. Riku Eskelinen DEMOVASTAUKSET Demokerta 3/ vk 15 Tilastomenetelmien peruskurssi TILP150 Tulostuspv Sivu 1/6

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Sovellettu todennäköisyyslaskenta B

Til.yks. x y z

4.3 Signaalin autokorrelaatio

pq n s n Kyllä Ei N Jäsenyys 5,4% 94.6 % 1500 Adressi 21,6% 78.4 % 1495 Lahjoitus 23,7% 76.3 % 1495 Mielenosoitus 1,1% 98.9 % 1489

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

****************************************************************** ****************************************************************** 7 Esim.

8. laskuharjoituskierros, vko 11, ratkaisut

SELITETTÄVÄ MUUTTUJA SELITTÄVÄ MUUTTUJA. Välimatka- tai suhdelukuasteikko. Laatuero- tai järjestysasteikko. Laatuero- tai järjestysasteikko

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Matematiikan tukikurssi

Matematiikan tukikurssi

Mat Sovellettu todennäköisyyslasku A

3 Lukujonot matemaattisena mallina

Tilastolliset menetelmät: Tilastolliset testit

10 Kertolaskusääntö. Kahta tapahtumaa tai satunnaisilmiötä sanotaan riippumattomiksi, jos toisen tulos ei millään tavalla vaikuta toiseen.

MATP153 Approbatur 1B Harjoitus 1, ratkaisut Maanantai

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Aritmeettinen jono

Ryhmän osajoukon generoima aliryhmä ja vapaat ryhmät

Kvantitatiiviset menetelmät

RATKAISUT x 2 3 = x 2 + 2x + 1, eli 2x 2 2x 4 = 0, joka on yhtäpitävä yhtälön x 2 x 2 = 0. Toisen asteen yhtälön ratkaisukaavalla saadaan

Kertaa tarvittaessa induktiota ja rekursiota koskevia tietoja.

S Laskennallinen systeemibiologia

Tehtäviä neliöiden ei-negatiivisuudesta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sormenjälkimenetelmät

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Äärettämän sarjan (tai vain sarjan) sanotaan suppenevan eli konvergoivan, jos raja-arvo lims

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Markov-ketjun hetkittäinen käyttäytyminen

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin yliopisto Harjoitus 3, ratkaisuehdotuksia

Tilastolliset menetelmät: Johdanto

n = 100 x = %:n luottamusväli µ:lle Vastaus:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

811312A Tietorakenteet ja algoritmit , Harjoitus 1 ratkaisu

Matematiikan tukikurssi. Kertausta 1. välikokeeseen. Tehtävät

MONISTE 2 Kirjoittanut Elina Katainen

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Kvantitatiiviset menetelmät

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

EX1 EX 2 EX =

Matematiikan tukikurssi

Luento 7 Luotettavuus Koherentit järjestelmät

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

Luento 6 Luotettavuus Koherentit järjestelmät

KERTAUSHARJOITUKSIA. Tilastojen esittäminen a) vuotiaita tyttöjä Koko väestö Näiden tyttöjen osuus

Vastaus: Kertymäfunktio on F( x) = x, kun 0 x 20. Todennäköisyydet ovat molemmat 1. Frekvenssi f

811312A Tietorakenteet ja algoritmit, , Harjoitus 4, Ratkaisu

2. Mittaus ja data 2.1. Johdanto Mittaustyypit

1 Eksponenttifunktion määritelmä

Epäyhtälöoppia matematiikkaolympialaisten tehtäviin

6. Kombinaatio-oppi, todennäköisyys ja tilastot

Osa 2: Otokset, otosjakaumat ja estimointi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Eräs matematiikassa paljon hyödynnetty summa on ns. luonnollisten lukujen neliöiden summa n.

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Diskreetin Matematiikan Paja Ratkaisuja viikolle 4. ( ) Jeremias Berg. n(n + 1) 2. k =

Kandidaatintutkielman aineistonhankinta ja analyysi

2.5. Eksponenttifunktio ja eksponenttiyhtälöt

2 avulla. Derivaatta on nolla, kun. g( 3) = ( 3) 2 ( 3) 5 ( 3) + 6 ( 3) = 72 > 0. x =

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Insinöörimatematiikka IA

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

Til.yks. x y z

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

1. osa, ks. Solmu 2/ Kahden positiivisen luvun harmoninen, geometrinen, aritmeettinen ja + 1 u v 2 1

Tilastolliset luottamusvälit

Tilastolliset menetelmät: Johdanto

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Transkriptio:

VAASANYLIOPISTO Tilastotieteeperusteet Luetoruko Christia Gustafsso

SISÄLLYSLUETTELO. JOHDANTO... 3.. Mitä tilastotiede o?... 3.. Tilastotietee historiaa... 4. HAVAINTOAINEISTO JA MITTAAMINEN... 6.. Peruskäsitteitä... 6.. Mittaamisesta... 7 3. YKSIULOTTEINEN EMPIIRINEN JAKAUMA... 3.. Frekvessijakauma peruskäsitteitä ja luokitus... 3.. Graafie esitys... 5 3.3. Yksiulotteise jakauma tuusluvut... 0 3.3.. Keskiluvut... 0 3.3.. Hajotaluvut... 5 3.3.3. Yksiulotteise jakauma muita tuuslukuja... 30 4. KAKSIULOTTEINEN EMPIIRINEN JAKAUMA... 3 4.. Ristiitaulukko... 3 4.. Korrelaatiodiagrammi ja korrelaatio... 36 4.3. Järjestyskorrelaatio... 40 4.4. Regressio... 4 5. TODENNÄKÖISYYSLASKENTAA... 46 5.. Kombiatoriikkaa... 46 5.. Todeäköisyyde määrittely... 49 5.3. Ehdollie todeäköisyys ja riippumattomuus... 5 5.4. Kokoaistodeäköisyys ja Bayesi kaava... 54 6. TEOREETTISISTA JAKAUMISTA... 56 6.. Satuaismuuttujista... 56 6.. Keskeisiä diskreettejä jakaumia... 6 6.3. Keskeisiä jatkuvia jakaumia... 66 7. HAVAINTOAINEISTON HANKINNASTA... 74 7.. Johdato... 74 7.. Otatatutkimuksesta yleesä... 74 7.3. Otatameetelmistä... 75 7.4. Otatajakaumista... 77 8. TILASTOLLISESTA PÄÄTTELYSTÄ... 80 8.. Estimoiti... 80 8... Piste-estimoiti... 80 8... Väliestimoiti (luottamusvälit)... 8 8.. Hypoteesie testaus... 84 8... Testaukse pääpiirteet... 84 8... Keskiarvotestejä... 88 8..3. Prosettilukutestejä... 9 8..4. Riippuvuustutkimuksee liittyviä testejä... 94 8..5. -yhteesopivuustesti... 97

3. JOHDANTO.. Mitä tilastotiede o? Tilasto o empiiristä ilmiötä kuvaava usei taulukkoa esitetty umeerie aieisto. Tilastoiti tuottaa tällaisia eri ilmiöitä kuvaavia aieistoja. Erilaisia empiirisiä ilmiöitä kuvaavissa aieistoissa esiityy samatyyppisiä ogelmia, joide tutkimisessa tilastotieteestä o apua ja muodostetut tilastot ovat tilastollise tutkimukse materiaalia. Professori Leo Törqvisti määritelmä mukaa: "Tilastotiede o tietotuotao tekologiaa, joka avulla voidaa suorittaa kvatitatiiviste tietoje joukkotuotatoa ja havaitoihi perustuvia tieteellisiä ja käytäöllisiä päätöksiä." Tilastotiede o siis empiirisluotoiste tietoje hakia suuittelua keräämistä deskriptiivie eli järjestämistä esittämistä kuvaileva tilastotiede sekä aalysoitia tilastollie päättely eli tulkitaa iferessi *) koskeva tiede. *) Tilastollie päättely o luoteeltaa iduktiivista, jolloi osajoukkoa koskevat tulokset yleistetää koskemaa koko perusjoukkoa. Tilastotiede o s. meetelmätiede, joka tehtävää o kehittää meetelmiä muide tieteide (esim. talous-, luoo- ja yhteiskutatieteide) empiirisiä ilmiöitä kuvaavie tietoje aalysoitia varte. Empiirie ilmiö voi olla sellaie, joho vaikuttavat vai systemaattiset tekijät (determiistie ilmiö) tai sellaie, joho systemaattiste tekijöide lisäksi vaikuttaa myös sattuma (satuaisilmiö). Sattuma käsitteellä tarkoitetaa satuaisilmiö sitä käyttäytymise osuutta, jota ei voida etukätee tarkkaa eakoida. Usei kuiteki sattuma käyttäytymie oudattaa omia lakejaa. Tilastotiedettä käytetää erityisesti satuaisilmiöide tutkimisee. Tilastotietee lisäksi meetelmätieteitä ovat myös matematiikka ja tietotekiikka. Tilastotiede soveltaa meetelmiä kehittäessää matematiika teoriaa, erityisesti todeäköisyyslaskea teoriaa, siksi tilastotiedettä usei pidetääki sovelletu matematiika eräää osa-alueea (matemaattie eli teoreettie tilastotiede). Tilastotietee ja tietotekiika yhteistä aluetta saotaa tilastolliseksi tietojekäsittelyksi.

4 Usei tilastolliste meetelmie kehittämisvaiheessa iihi liittyy vaatimus sovellettavuudesta ja käsitys sovellustilateesta. Oki käyyt usei ii, että raja tilastotietee ja soveltavie tieteide välillä o hämärtyyt, jolloi soveltavie tieteide piirissä o raja-aluetta alettu imittää omalla imellä (esim. epidemiologia, biometria, psykometriikka ja ekoometria). Tilastotiedettä voidaa kuiteki soveltaa lähes mihi tahasa tieteesee, koska tilastotietee teoria o yleistä. Esim. Deskriptiivisee eli kuvailevaa tilastotieteesee törmätää päivittäi - osakkeide hiamuutoksissa - työttömyysluvuissa - puolueide kaatusluvuissa - lämpötiloissa yms. Esim. Tilastollista päättelyä käytetää mm. - tulevaisuude eustamisessa - vakuutusyhtiö arvioidessa vakuutukse hitaa - laadutarkkailussa Tilastollisessa aalyysissä tutkittavat ogelmat pelkistyvät usei seuraavalaisiksi kysymyksiksi: - Millaie tilae o keskimääri? - Kuika suuri o prosetuaalie osuus? - Kuika suurta o omiaisuude vaihtelu? - Oko eroa? - Oko samalaisuutta? - Oko muutosta? - Oko riippuvuutta? - Millaista riippuvuus o? - Mite tulevaisuudessa?.. Tilastotietee historiaa Laajassa mielessä tilastotiedettä harrastettii systemaattiste tietoje keräykse muodossa jo muiaisessa Kiiassa ja Egyptissä (väestökirjapito). Moderi tilastotietee juuret voidaa ajoittaa 600-luvulle, jolloi eurooppalaiste yhteiskutie kehittyessä tarvittii luotettavaa tietoa taloude ilmiöistä (= poliittie taloustiede, joka erästä osa-aluetta

5 saottii yliopistostatistiikaksi) sekä valtio ja väestö tilasta (= poliittie aritmetiikka). Saa tilasto saksa- ja eglaikieliset vastieet Statistik ja statistics viittaavatki saa alkuperäisee merkityksee: valtio kuvaus. Vuoa 66 julkaistii Eglaissa tilastollise tutkimukse urauurtaja Joh Grauti teos Natural ad Political Observatios o the Bills of Mortality. Merkittävästi tilastotietee sytyy ja kehityksee ovat vaikuttaeet myös uhkapeliogelmat. Uhkapeliharrastuste lisäätymise myötä alettii 600-luvulla tutkia todeäköisyyslasketaa erityisesti Raskassa. Vielä 700-luvulla ja se jälkeeki havaitoaieistoja käsiteltii varsi alkeellisi meetelmi (yksikertaisia meetelmiä, lähiä kuvailevaa tilastotiedettä). Aalysoiva tilastotietee rialla kulki siitä erilliseä halliollie tilastoiti. Nämä yhdistyivät jossai määri 800-luvulla, ku matematiika voimakas kehittymie loi tilastotieteelle selkeä teoreettise pohja. 800-luvulla alettii luoo-, yhteiskuta- ja käyttäytymistieteissä kiiostua tilastotietee meetelmistä. Tältä ajalta ovat peräisi esim. Gregor Medeli periöllisyyskokeet. Myös matemaattie tilastotiede alkoi kehittyä voimakkaasti 800- luvu loppupuolella, esimerkiksi korrelaatioteoria ja regressiolai perusteet esitettii v. 888. 900-luvu alkupuolella sytyivät moet tilastotietee perusmeetelmistä. Viime vuosikymmeiä tilastotietee teoria ja sovellusalueet ovat laajetueet valtavasti. Tähä o erityisesti vaikuttaut tietojekäsittelymahdollisuuksie kehittymie. Suomekielie saa tilasto otettii käyttöö 840-luvulla. Ruotsi-Suomi oli esimmäie valtio, jossa alettii sääöllisesti laatia väestötilastoja, esimmäiset tiedot koskivat vuotta 749. Tuolloi Ruotsi-Suome väkiluku oli 3 69 hekeä. Esimmäie suomekielie tilastokirja Suome Suuriruhtiaa Nykyie Tilasto julkaistii vuoa 848. Vuoa 865 perustettii Tilastollie toimisto (yk. Tilastokeskus). Vuoa 905 Karl Willgre julkaisi esimmäise suomalaise tilastotietee oppikirja. Esimmäie tilastotietee professuuri saatii Helsigi yliopistoo vuoa 945.

6. HAVAINTOAINEISTO JA MITTAAMINEN Havaitoaieisto o tilastollise aalyysi perusta, jote o tärkeää, että se o huolella koottu ja esikäsitelty... Peruskäsitteitä Tilastollie tutkimus kohdistuu aia joideki tutkimusobjektie muodostamaa joukkoo, joka o tutkimukse perusjoukko eli populaatio. Populaatio rajaamie o tutkimukse esimmäisiä vaiheita. Populaatio alkioita eli tutkimusobjekteja kutsutaa tilastoyksiköiksi, joista käytetää yleesä merkitää a, a, a 3, Jos tutkittavaa o kokreettie aieisto, tilastoyksiköt imetää "omalla imellää". Esim. Tutkittavaa o 0 kpl Suome kutia, joista tiedetää veroäyri hita. Tilastoyksikköä o kuta, mutta mikä o populaatio? - em. kutie joukko, jos tutkitaa vai äitä kutia (kokoaistutkimus) - kaikki Suome kuat (otatatutkimus) - tiety lääi kuat (otatatutkimus) - Huom. Tutkittavista tilastoyksiköistä tehtävät johtopäätökset ulottuvat vai määrättyy populaatioo (vrt. superpopulaatio). Tilastoyksikköö liittyviä omiaisuuksia kutsutaa tilastollisiksi muuttujiksi, joita merkitää usei, y, z, tai,, 3, Jotta tilastollisia meetelmiä voidaa soveltaa, o tutkittava ilmiö omiaisuudet voitava esittää umeerisesti. Tämä tehdää mittaamalla tilastoyksiköiltä muuttujie arvot eli havaitoarvot. Ku tutkittavilta tilastoyksiköiltä mitataa halutut tutkittavat omiaisuudet, saadaa havaitoaieisto. Havaitoaieisto esitetää usei havaitomatriisia seuraavasti j k a a ai a i i j j ji j k k ki k

7 Tilastoyksiköitä tässä havaitomatriisissa o kpl (eli vaakarivie lukumäärä). Yhde tilastoyksikö (a i ) eri omiaisuudet esitetää yhdellä vaakarivillä. Tätä vaakariviä saotaa ko. tilastoyksikö havaitovektoriksi eli profiiliksi. Muuttujia havaito-matriisissa o k kpl (eli sarakkeide lukumäärä). Yhdellä sarakkeella esitetää site kaikkie tilastoyksiköide tämä omiaisuus ( j ). Sarake muodostaa site ko. muuttuja jakaumavektori. Esim. SPSS-ohjelma havaitomatriisiesityksessä tilastoyksikö imestä voidaa tehdä muuttuja (esim. kua imi), joka saa arvoksee merkkejä (= kirjaimia). Muut tämä aieisto muuttujat saavat arvoksee lukuja. Yhdellä vaakarivillä o yhde tilastoyksikö eli kua erilaisia omiaisuuksia. Yksi sarake eli pystyrivi esittää yhde omiaisuude eli muuttuja arvoja. (Aieisto peruslähde o Tilastokeskukse Kutafakta-aieisto.).. Mittaamisesta Mittaamisella tarkoitetaa meettelyä (operaatiota, säätöä), jolla tutkittavaa tilastoyksikköö liitetää jotaki se omiaisuutta kuvaava luku eli mittaluku. Ku tilastoyksikö tarkastelualaie omiaisuus mitataa ja saadaa mittaustulos, saotaa tätä tulosta muuttuja arvoksi. Käytetyt mittaluvut ovat tilastollise tutkimukse lähtökohta, joho tutkimukse oistumie perustuu. O huolehdittava siitä, että muuttujalla o korkea validiteetti (asiamukaisuus) eli muuttuja mittaa sitä omiaisuutta, jota se olisi tarkoitus mitata. Esimerkiksi kysymys Kuika mota kertaa syöt viikossa porkkaaraastetta? ei mittaa sitä, pidätkö porkkaaraasteesta vai et. Myös muuttuja reliabiliteeti (pysyvyyde, eisattumavaraisuude) täytyy olla korkea, eli toisistaa riippumattomie samalle tilastoyksikölle tehtyje mittauste tulokset pitäisi olla samat. Tilastolliset muuttujat voivat olla suoraa mitattuja tai teoreettisia muuttujia. Teoreettiste muuttujie (esim. älykkyyde) mittaamisessa käytetää apua idikaattoreita. Älykkyyde idikaattoreita voisivat olla esim. meestymie erilaisissa testeissä, joide tulokset yhdistetää esim. yhdeksi muuttujaksi laskemalla eri testie pistemäärät yhtee.

8 Tilastollie muuttuja o jatkuva, jos se voi periaatteessa saada mikä tahasa reaalilukuarvo joltai (järkevältä) väliltä. Vaikka muuttuja olisiki periaatteessa jatkuva, o käytäössä mittaustarkkuus aia äärellie. Jatkuvuude käsite perustuuki ajatuksee, että mittaustarkkuutta voidaa parataa rajatta. Muuttuja o diskreetti eli epäjatkuva, jos se arvoia voivat olla vai jotki erilliset lukuarvot jollaki välillä. Havaitomatriisissa olevat havaitoarvot äyttävät tavallisilta reaaliluvuilta. Näillä arvoilla o kuiteki myös toie sisältö. Ne kuvaavat jotaki omiaisuutta, ja käytetty esitystapa o vai välie ilmiö tutkimisessa. Tavallisia reaalilukuja voidaa laskea yhtee, jakaa keskeää, iistä voidaa ottaa logaritmeja je. Myös havaitoaieistolle tehtävät tilastolliset operaatiot perustuvat tällaisii laskutoimituksii, mutta äitä operaatioita tehtäessä o aia pidettävä mielessä, että saatu tulos o voitava tulkita empiirisesti mielekkäällä tavalla. Tulkia mielekkyys riippuu usei muuttuja mitta-asteikosta. Muuttuja mitta-asteiko tutemie o tärkeää, koska erilaisille muuttujille sopivat vai tietyt tilastolliset tuusluvut ja aalysoitimeetelmät. Mitä korkeampi o mittaustaso, sitä eemmä o käytössä aalyysimeetelmiä. Seuraavassa esitellää mitta-asteikkojako, jossa muuttujat jaetaa eljää ryhmää, jotka esitetää alhaisimmasta korkeimpaa. Nomiaali- eli luokittelu- eli laatueroasteikko Jos tilastoyksiköt aioastaa jaetaa muuttuja perusteella luokkii, mitataa muuttujaa omiaaliasteikolla. Tällöi jokaisesta tilastoyksiköstä a i ja a j voidaa saoa aioastaa, että e ovat joko samalaisia tai erilaisia muuttuja suhtee. Jokaie tilastoyksikkö voi kuulua vai yhtee luokkaa. Nomiaaliasteikollise muuttuja arvoje koodaus voidaa valita vapaasti. Aritmeettiset laskutoimitukset eivät ole sallittuja muuttuja arvoille. Aioastaa lukumäärie laskemie o järkevää. Esim. sukupuoli: mies = aie = ammatti: pappi = lukkari = kattori = 3 Esim. Liisa o pappi ja Leea o kattori. Liisalla ja Leealla o eri ammatit. Liisalla ja Leealla o sama sukupuoli. Ordiaali- eli järjestysasteikko Ordiaaliasteikolla voidaa luokittelu lisäksi luokat asettaa järjestyksee muuttuja arvoje perusteella. Muuttuja arvoje välillä vallitsee joki järjestysrelaatio, joka voidaa ilmaista saoilla "parempi", "vaikeampi", "kauiimpi", Mitää lukua ei vertailuu voida kuitekaa ottaa mukaa. Peruslaskutoimitukset eivät ole sallittuja ordiaaliasteikolla.

9 Ordiaaliasteikollise muuttuja arvoje koodaus o muute vapaata, kuha olemassa oleva järjestys tulee yksikäsitteisesti määrätyksi. Esim. arvosaa: tyydyttävä = hyvä = kiitettävä = 3 suhtautumie tiettyy väitteesee: täysi eri mieltä = jokseeki eri mieltä = ei eri mieltä eikä samaa mieltä = 3 jokseeki samaa mieltä = 4 täysi samaa mieltä = 5 sijoitus maastojuoksu piirimestaruuskilpailuissa Esim. Matti sai tetistä arvosaa hyvä ja Liisa sai arvosaa kiitettävä. (Matti ja Liisa saivat eri arvosaa.) Liisa arvosaa o parempi kui Matilla. 3 Itervalli- eli välimatka-asteikko Itervalliasteikolla voidaa luokittelu ja järjestyksee asettamise lisäksi vertailla muuttuja lisäyste suuruutta keskeää lukuje avulla. Kahde tilastoyksikö a i ja a j välistä eroa muuttuja suhtee vastaa muuttuja-arvoje i ja j erotus. Muuttuja-arvoje yhtee- ja väheyslasku o sallittua, ja lieaarie muuos f() = a + b, missä b > 0 säilyttää itervalliasteiko raketee. Asteiko ollapiste o sopimuksevaraie (keiotekoie). Muuttuja voi saada joskus egatiivisiaki arvoja. Esim. lämpötila Celsius- tai Fahreheit-mittarilla mitattua ( Celsius, y Fahreheit; lieaarie muuos y = 3 +.8) kaleteri mukaa mitattava aika leveys- ja pituusasteet Esim. Vaasa lämpötila o -6 C ja Helsigi + C. (Vaasassa ja Helsigissä o eri lämpötila. Helsigissä o lämpimämpää kui Vaasassa.) Helsigissä 8 C lämpimämpää kui Vaasassa. 4 Suhdeasteikko Jos itervalliasteiko vaatimukset ovat voimassa ja lisäksi o olemassa absoluuttie ollapiste, jossa tarkasteltava omiaisuus "häviää" eli omiaisuude määrä o todella olla, o muuttuja mitta-asteikko suhdeasteikko. Aritmeettise laskutoimitukset ovat sallittuja, ja lieaarie muuos f() = a, missä a > 0 o sallittu. Suhdeasteikolla voidaa tilastoyksiköide muuttuja arvoje vertailussa käyttää suhdelukua.

0 Esim. pituus cm paio kg Esim. Matti paiaa 90 kg ja Liisa 45 kg. (Matti ja Liisa ovat eri paioisia. Matti o paiavampi kui Liisa. Matti paiaa 45 kg eemmä kui Liisa.) Mati paio o kaksikertaie Liisa paioo verrattua. Huom. Muuttuja mitta-asteikko ilmoitetaa se toteuttama korkeimma asteiko perusteella Huom. Usei mitta-asteikot jaotellaa vielä kahtee luokkaa: omiaali- tai ordiaaliasteiko muuttujia saotaa kvalitatiivisiksi eli laadullisiksi muuttujiksi. Itervalli- tai suhdeasteiko muuttujia saotaa kvatitatiivisiksi eli määrällisiksi muuttujiksi. Huom. Asteikkotyypi määrittämie ei ole välttämättä helppoa eo. tuusmerkkie avulla. Joissaki tilateissa muuttuja mitta-asteikosta esiityy erilaisia äkemyksiä. Tyypillisesti tällaie muuttuja mittaa mielipidettä. Tarkasti ottae ko. muuttuja o järjestysasteiko muuttuja, mutta joskus se ajatellaa oleva välimatka-asteiko muuttuja. Viimeksi maiittu tulkitatapa johtuu siitä, että aieisto käsittelijä mieltää muuttuja-arvoje erotukse umeerise erotukse mukaiseksi.

3. YKSIULOTTEINEN EMPIIRINEN JAKAUMA 3.. Frekvessijakauma peruskäsitteitä ja luokitus Jos tutkittavie tilastoyksiköide lukumäärä o suuri, ei havaitomatriisi aia riitä muuttujie yleispiirteide selvittämiseksi. Muuttuja yleiset omiaisuudet hukkuvat yksityiskohtie joukkoo. Aieistoa o järjestettävä ja tiivistettävä. Havaitomatriisi sisältämää tietoa voidaa tiivistää esimerkiksi muodostamalla muuttuja (luokiteltu, suora, yksiulotteie) frekvessijakauma. Frekvessijakauma muodostamiseksi muuttuja saamat arvot jaetaa erillisii luokkii, merk. E, E,, E k, missä k o luokkie lukumäärä. Luokkaa E i kuuluvie : arvoje lukumäärää saotaa luoka E i frekvessiksi, merk. f i. Ku muuttuja luokat ja luokkia vastaavat frekvessit tuetaa, ii silloi tuetaa : frekvessijakauma. Usei absoluuttiste frekvessie sijasta esitetää frekvessit, jotka o suhteutettu havaitoje kokoaismäärää. Näitä suhteutettuja frekvessejä voidaa käyttää esimerkiksi kahde eri havaitoaieisto frekvessijakaumie vertailuu. Lukua p i = f i saotaa luoka E i suhteelliseksi frekvessiksi ja lukua 00p i saotaa prosetuaaliseksi frekvessiksi. Jos muuttuja o epäjatkuva eli diskreetti, o luokkie määrittely yleesä selvää. Luokkia käytetää muuttuja arvoja joko sellaiseaa tai iitä vastaavia koodilukuja. Jos muuttuja luokilla o joki vakiituut esittämisjärjestys tai muuttuja o aiaki järjestysasteikolla mitattu, o luokat esitettävä vastaavassa järjestyksessä. Esim. Vuode 003 alussa Suome kutie lääijakauma oli seuraavalaie: (Aieisto peruslähde o Tilastokeskukse Kutafakta) Lääi f i p i 00p i Etelä-Suome 88 0.97 0 Läsi-Suome 04 0.457 46 Itä-Suome 66 0.48 5 Oulu 50 0. Lapi 0.049 5 Ahveamaa 6 0.036 4 Yhteesä 446.000 00

Jos luokkia tulee hyvi paljo ja suuri osa frekvesseistä o pieiä, kaattaa luokkia yhdistellä. Tällöi luokat o yhdisteltävä ii, että samaa luokkaa tulevat arvot kuuluvat mahdollisimma loogisesti yhtee. Jos muuttuja o jatkuva-arvoie, o se luokittelu hakalampaa, koska tällaise muuttuja arvot voivat olla mitä tahasa reaalilukuja joltai väliltä, ja kaikki mitatut arvot voivat olla erisuuruisia. Jos muuttujasta halutaa muodostaa tiivis frekvessijakauma, o luokkie oltava välejä, jotka kattavat muuttuja arvot. Jatkuva muuttuja luokittelussa tietoa häviää, koska yt ei eää ilmoiteta muuttuja havaittuja arvoja vaa luokka, joho havaitoarvo kuuluu. Luokitellu aieisto esitystapa o kuiteki usei selvempi kui luokittelemattoma, koska jatkuva-arvoise muuttuja jakauma esittämie esimerkiksi tilastokuvioa perustuu usei luokitteluu. Jatkuva muuttuja luokittelua voidaa hahmottaa seuraavasti: Oletetaa, että luokiteltavia havaitoja o kpl ja e o pyöristetty jolleki mittaustarkkuudelle, merk. d. (Jos mittaustulokset ovat kokoaislukuja, o d =, jos mittauksissa o käytetty yhtä desimaalia, ii d = 0.). Etsitää piei arvo, merk. (), ja suuri arvo, merk. (). Muuttuja arvoje vaihteluväli muodostaa väli ( (), () ). Vaihteluväli pituus o w = () - (). Päätetää, käytetääkö tasavälistä vai epätasavälistä luokitusta. Luokitus o tasavälie, jos kaikki luokat ovat yhtä leveitä. Jos vai voidaa, kaattaa käyttää tasavälistä luokitusta. 3 Valitaa luokkie lukumäärä k, k 3 tai k. (Jos = 5, ii k 5-7.) Yleesä luokkia o 4-0 kpl. 4 Tasavälisessä luokituksessa määritetää arvio luokkaväli pituudelle c site, että c > w. Luokkie rajoje o oltava selkeitä, ja siksi c valitaa usei hiuka k suuremmaksi kui edellie suhde. 5 Muodostetaa luokat site, että e peittävät koko vaihteluväli. Esimmäise luoka pyöristety alaraja pitäisi olla pieempi tai yhtä suuri kui (). Muut luokat määritellää pyöristettyje luokkarajoje avulla, jotka esitetää samalla mittaustarkkuudella kui muuttujaki o mitattu. 6 Tutkitaa jokaie arvo, ja määrätää luokkie frekvessit. Yksittäie havaito voi kuulua vai yhtee luokkaa. Esim. Tilastokeskukse Kutafakta-aieistossa yhteä omiaisuutea o kuassa v. 00 myytyje asutoje keskihita /m. Asutoje keskihitaa ei ole määritetty 30 kuassa, jote käytettävie havaitoje (eli kutie) kokoaismäärä o 46. Keskihita o määritetty euroia eliömetriä kohde, jote mittaustarkkuus d =. Muuttuja o suhdeasteikolla mitattu ja jatkuva. Piei arvo o 336 ja suuri 66. Vaihteluväli pituus o 830.

3 Sopiva luokkie lukumäärä tämä suuruisessa aieistossa o oi 7-9. Tarkastellaa yt valmiiksi luokiteltua aieistoa, jossa luokkie lukumääräksi o valittu k = 8 ja luokkaväli pituudeksi c = 30. Esimmäise luoka pyöristetyksi alarajaksi o valittu luku 330, koska se pieitä arvoa pieempi tasaluku. Toise luoka pyöristetty alaraja o luokkaväli pituude etäisyydellä esimmäise luoka alarajasta. Esimmäise luoka pyöristetty yläraja o mittaustarkkuude verra pieempi kui toise luoka pyöristetty alaraja. Absoluuttiste frekvessie lisäksi jakaumassa o esitetty prosetuaaliset frekvessit. Asutoje keskihita / m f i 00 p i 330-559 49.8 560-789 95 46.9 790-09 8 8.4 00-49 38 9. 50-479.6 480-709 0. 70-939 0. 940-69 3 0.7 Yhteesä 46 00.0 Mittaustarkkuus d äkyy frekvessijakaumataulukossa site, että se o i:e luoka pyöristety alaraja ja sitä edeltävä luoka pyöristety yläraja erotus. Taulukossa äkyvät pyöristetyt luokkarajat ovat luokkie symboleja. Tasavälisessä luokituksessa edeltävä luoka ja seuraava luoka pyöristettyje alarajoje (ja myös ylärajoje) välie etäisyys vastaa luokkaväli pituutta. Peräkkäiste luokkie välie todellie luokkaraja o luoka i pyöristety yläraja ja sitä seuraava luoka pyöristety alaraja välie pyöristysraja. Sitä saotaa edeltävä luoka todelliseksi ylärajaksi ja seuraava luoka todelliseksi alarajaksi. Todellisesta alarajasta käytetää merkitää L i ja todellisesta ylärajasta merkitää U i. Todellisia luokkarajoja käytetää mm. graafisissa esityksissä sekä tuuslukuje laskemisessa. Luokkaväli pituus c i o luoka todellise ylä- ja alaraja erotus eli c i =U i - L i. Tasavälisessä luokituksessa luokkaväli pituus o kaikilla luokilla sama ja tällöi siitä voidaa käyttää merkitää c.

4 L U Luoka E i luokkakeskus m i o luoka keskipiste eli m i i i. Koska luokittelussa katoaa tilastoyksiköide tarkat muuttuja-arvot, tulkitaa luokkakeskus usei ko. luoka havaitoje keskiarvoa. Luokkakeskuksia käytetää mm. tilastokuvioissa. Jos muuttuja o epäjatkuva, itervalli- tai suhdeasteikolla mitattu ja jos muuttujalla o paljo erilaisia arvoja, voidaa muuttujaa kohdella kui se olisi jatkuva. Jos muuttuja o mitattu vähitää järjestysasteikolla, voidaa muuttujalle määrittää summafrekvessi eli kumulatiivie frekvessi F i ilmaisee, kuika mota tilastoyksikköä (havaitoa) kuuluu luokkaa E i tai sitä edeltävii luokkii yhteesä eli eli F i i f j j F f F f f F f F3 f f f3 F Fk f f fk f3 Fk fk Edellee saadaa suhteellie summafrekvessi P i F i ja prosetuaalie summa- frekvessi 00P i. Esim. Seuraavassa taulukossa o esitetty keskihia frekvessijakauma lisäksi summafrekvessit, prosetuaaliset summafrekvessit, todelliset luokkarajat ja luokkakeskukset. Asutoje keskihita / m f i F i 00 P i L i U i m i 330-559 49 49.8 39.5 559.5 444.5 560-789 95 44 58.7 559.5 789.5 674.5 790-09 8 36 87.0 789.5 09.5 904.5 00-49 38 400 96. 09.5 49.5 34.5 50-479 4 98.8 49.5 479.5 364.5 480-709 4 99.0 479.5 709.5 594.5 70-939 43 99.3 709.5 939.5 84.5 940-69 3 46 00.0 939.5 69.5 054.5 Yhteesä 46

5 3.. Graafie esitys Frekvessijakauma voi esittää myös graafisesti. Usei käytetty kuviotyyppi o pylväskuvio. Pylväskuviot muodostuvat joko vaaka- tai pystypylväistä. Pylväide pitaalat (ja tasalevyiste pylväide pituudet) kuvaavat määriä, jote pylvää pituutta osoittava asteiko o lähdettävä luvusta 0. Vaakapylväskuvioita tulisi käyttää silloi, ku kuvataa laadullise muuttuja jakaumaa. Muuttuja luokat esitetää pystyakselilla ja vaaka-akselilla kuvataa frekvessit (absoluuttiset, suhteelliset tai prosetuaaliset). Jos muuttuja o omiaaliasteikolla mitattu, esitetää aieisto ii, että yli pylväs o pisi ja muut pylväät piirretää pituusjärjestyksessä. Pylväide välii jätetää pieet raot. Jos muuttuja o järjestysasteikollie, esitetää pylväät luokkia vastaavassa järjestyksessä. Sektoridiagrammia (ympyräkuvio, piirakkakuvio) käytetää laadullise muuttuja jakauma esittämisessä erityisesti silloi, ku halutaa havaiollistaa joki kokoaisuude jakautumista osii. Jokaise luoka kokoa edustaa sektori pita-ala, joka o suoraa verraollie luoka kokoo. Sektorikuvio sijasta kaattaa käyttää vaakapylväsesitystä erityisesti silloi, jos halutaa esittää, että kahde (tai useamma) melko samakokoise ryhmä välillä o kuiteki eroavuutta havaitomäärässä. Esim. Suome kutie lääijakauma vaakapylväskuvioa Läsi-Suome lääi Etelä-Suome lääi Lääi Itä-Suome lääi Oulu lääi Lapi lääi Ahveamaa 0 50 00 50 00 50 kpl

6 Esim. Suome kutie tyyppijakauma sektorikuvioa Kaupukimaie 5,% Taajamatyyppie 6,4% Maaseutumaie 68,4% Määrällise epäjatkuva muuttuja jakaumaa voidaa kuvata jaakuviolla, joka o pystypylväskuvio. Jaadiagrammi piirretää ii, että koordiaatistoo piirretää muuttuja arvoje kohdalle kyseiste arvoje frekvessie korkuiset jaat tai pylväät. Esim. Vialliste tuotteide lukumääräjakauma tuote-erissä esitettyä taulukkoa ja jaakuvioa 5 vialliste lkm f i 4 3 4 3 5 6 Tuote-erie määrä 4 3 0 3 4 5 6 Vialliste tuotteide määrä Frekvessihistogrammi o pystypylväskuvio, jota käytetää määrällisille jatkuville muuttujille. Ku luokitus o tasavälie, histogrammi muodostuu pylväistä, joide leveys o luokkaväli pituus c, korkeus luoka E i frekvessi f i ja katoje kärkipisteiä vaakaakselilla ovat todelliset luokkarajat. Yleesä kuiteki todelliste luokkarajoje sijasta merkitää vaaka-akselille äkyvii "siistit" luvut, jotka ovat lähellä todellisia luokkarajoja tai luokkakeskuksia. Histogrammissa o pylvää pita-ala tärkeämpi kui korkeus, jote kuvio olisi piirrettävä ii, että luokkie frekvessie suuruus o suoraa verraollie

7 pylväide pita-aloihi. Tämä vaatimus toteutuu helposti tasavälise luokitukse yhteydessä, ku piirretää frekvessi korkuisia pylväitä. Jos luokitus o epätasavälie, o pita-alatulkita muistettava! Esim. Asutoje keskihia jakauma frekvessihistogrammia 00 50 Kutie määrä 00 50 0 445 675 905 35 365 595 85 055 Asutoje keskihita /m² Yksiulotteie jatkuva määrällise muuttuja frekvessijakauma voidaa esittää myös frekvessimoikulmio avulla. Jokaise luokkakeskukse kohdalle piirretää piste frekvessi (tai suhteellise tai prosetuaalise frekvessi) korkeudelle ja peräkkäiset pisteet yhdistetää toisiisa jaoilla. Frekvessimoikulmio päätepisteet ovat -akselilla s. ollaluokkie (= luokitukse alkuu ja loppuu lisättävie ylimääräiste luokkie) luokkakeskuksissa. Jos ollaluokkia ei voi lisätä, ei frekvessimoikulmiota voi piirtää. Esim. Asutoje keskihia jakauma frekvessimoikulmioa 00 50 Kutie lukumäärä 00 50 0 5 445 675 905 35 365 595 85 055 85 Asutoje keskihita /m²

8 Myös summafrekvessijakauma voidaa esittää kuvioa. Jatkuva määrällise muuttuja summafrekvessijakaumaa kuvataa summakäyrällä. Jokaise luoka todellise yläraja kohdalle piirretää piste summafrekvessi (tai suhteellise tai prosetuaalise summafrekvessi) korkeudelle ja peräkkäiset pisteet yhdistetää toisiisa jaoilla. Summakäyrä lähtee vaaka-akselilta ja ousee :ää asti. Jos summakäyrä muodostetaa prosetuaalisesta summafrekvessijakaumasta, voidaa käyrä avulla selvittää mm. - kuika mota % havaitoarvoista o pieempiä kui luku a - mikä o se muuttuja arvo, jota pieempiä havaitoarvoja o p %. Esim. Asutoje keskihia prosetuaalie summakäyrä 00 Kutie prosetuaalie osuus 80 60 40 0 0 330 560 790 00 50 480 70 940 70 Asutoje keskihita /m² Diskreeti määrällise muuttuja summafrekvessijakaumaa vastaava summakäyrä o porrasfuktio. Vaaka-akselille merkitää muuttuja arvot ja piirretää käyrä, joka saa arvo kohdalla se frekvessi suuruise hyppäykse ja pysyy arvoje välillä edellise arvo kohdalla saamallaa tasolla. Viivakuviota käytetää ee kaikkea aikasarjoje graafisee esittämisee. Tällöi muuttuja kuvaa yleesä yhde tilastoyksikö yhtä omiaisuutta eri ajakohtia. Viivadiagrammissa vaaka-akselilla kuvataa aika ja pystyakselilla kuvataa muuttuja arvot. Sekä vaaka- että pystyakseli voi katkaista. Esim. Terveyspalvelu yrityste liikevaihto (milj. mk) vuosia 989-995 vuosi 989 990 99 99 993 994 995 liikevaihto 3 939 4 40 4 853 4 693 4 79 4 570 4 634

9 5000 4800 Liikevaihto milj. mk 4600 4400 400 4000 3800 989 990 99 99 993 994 995 vuosi Jos muuttuja o vähitää järjestysasteiko mittaustasoa, voidaa se havaitoarvoje jakautumie esittää laatikko-viikset - eli bo-plot -kuvioa. Tässä kuviossa ei esitetä luokitteluu perustuvaa jakaumaa, vaa kuviosta ilmeee muuttuja tuuslukuje arvoja. Kuviossa piirretää laatikko, joka pohja o alakvartiili korkeudella ja kasi o yläkvartiili korkeudella. Muuttuja mediaai merkitää laatikkoo poikkiviivalla. Laatiko pohjasta ja kaesta piirretää viikset kummalleki puolella laatikkoa. Viiksie piirtämisessä o useita käytätöjä, viiksie toisia päätepisteiä voivat olla esim. 0 %: ja 90 %: fraktiilit, jolloi kuvaa voidaa vielä eriksee merkitä e havaiot, jotka ovat kauempaa jakauma keskikohdasta kui em. fraktiilit. Määrällise muuttuja jakaumaa voidaa esittää ruko-lehti -kuviolla. Muuttuja-arvoista jätetää esittämättä tietty määrä oikeapuoleisia umeroita. Jäljelle jäävistä muodostetaa esitykse ruko, joka arvot esitetää perättäisiä kokoaislukuia piei luku ylimmällä rivillä ja suuri alimmalla rivillä. Rukoarvoje perää kirjoitetaa lehdet yleesä site, että havaioista pois jätety umero-osuude esimmäiset umerot tulevat oikealle riville suuruusjärjestyksessä. Esim. Seuraavassa o muutama Suome kua verotettavat tulot suuruusjärjestyksessä ( /asukas): 7693, 838, 8664, 8738, 876, 9090, 9573, 000, 0879, 334, 789 ja 3070. Ruko-lehti -kuvio, jossa rugo leveys o 000 : 7: 6 8: 3677 9: 05 0: 8 : 3 : 7 3: 0

0 3.3. Yksiulotteise jakauma tuusluvut Frekvessijakaumie laatimisella yritetää saada muuttuja keskeiset omiaisuudet helpommi hahmotettaviksi. Usei muuttuja havaitoarvoje sisältämä iformaatio halutaa tiivistää vieläki voimakkaammi. Tällöi lasketaa havaioista tilastollisia tuuslukuja. Sijaitia kuvaavia tilastollisia tuuslukuja saotaa keskiluvuiksi. Hajotaluvuilla puolestaa kuvataa havaitoarvoje vaihtelua eli "hajaatumista" jakauma keskikohda ympärille. O olemassa myös muita jakauma muotoa kuvaavia tilastollisia tuuslukuja. 3.3.. Keskiluvut Muuttuja arvoje keskimääräistä suuruutta ja jakauma sijaitia muuttuja-akselilla kuvataa keskilukuje avulla. Moodi (Mo) eli tyyppiarvo o se muuttuja arvo tai luokka, joka frekvessi o suuri. Moodi sopii kaikille mitta-asteikoille, mutta se ei ole aia yksikäsitteie. Vähitää itervalliasteikollise muuttuja luokitellussa aieistossa moodi voidaa tulkita moodiluoka luokkakeskukseksi. Esim. Kutafakta-aieisto Lääi-muuttuja moodi o Läsi-Suome lääi, koska kutia o eite Läsi-Suome lääissä. Asutoje keskihia moodiluokka o toie luokka: 560 789. Moodi voidaa yt tulkita oleva moodiluoka luokkakeskus eli. 675 /m. Esim. Erää tilastotietee kurssi opiskelijoista valitussa 9 hekilö otoksessa olivat opiskelijoide iät suuruusjärjestyksessä: 9, 0, 0, 0, 0,,,,,,,, 3, 3, 5, 6, 9, 4 ja 46. Iä moodiarvo o vuotta. Mediaai (Md) eli keskusarvo o se havaitoarvo, jota pieempiä ja suurempia havaitoarvoja o yhtä paljo. Mediaaia ei voi laskea omiaaliasteikollisesta muuttujasta. Jos havaiot o asetettu suuruusjärjestyksee ja kyseessä o luokittelemato aieisto, ii Md voidaa määrätä seuraavasti: parito: Md o keskimmäie havaitoarvo (k), missä k = parillie: etsitää kumpiki keskimmäisistä arvoista. Jos muuttuja o ordiaaliasteikolla mitattu, o mediaai kumpiki äistä arvoista. Jos muuttuja o

määrällie, o mediaai keskimmäiste havaitoje keskiarvo eli k k, missä k = Esim. Edellise esimerki ikä-muuttuja mediaai o vuotta. Luokitellulle aieistolle mediaai määräämiseksi o kaksi tapaa. Jos muuttuja o ordiaaliasteikollie tai diskreetti kvatitatiivie, ii mediaai määrätää kute edellä. Jatkuva luokitellu kvatitatiivise muuttuja mediaai lasketaa kaavalla Md L M c f M missä F M, L M = Md-luoka todellie alaraja f M = Md-luoka frekvessi F M- = Md-luokkaa edeltävä luoka summafrekvessi c = luokkaväli pituus = havaitoje lkm. Mediaailuokka o esimmäie sellaie luokka, jossa F i. Mediaai voidaa määrätä myös summakäyrä avulla. Esim. Asutoje keskihia mediaailuokka o toie luokka: 560 789. Mediaai 30 46 Md 559.5 49 747.03... 747 / m 95 Mediaai o fraktiilie erikoistapaus. Fraktiilit ovat jakauma "sijaitia" kuvaavia lukuja, vaikka e eivät yleisesti kuvaakaa keskikohtaa. Muuttuja p: proseti fraktiili (p) o sellaie havaitoarvo, jota pieempiä muuttuja arvoista o p %. Tärkeimpiä fraktiileja ovat alakvartiili Q = (5) yläkvartiili Q 3 = (75) mediaai Md = (50) desiilit (0), (0),, (90) Fraktiilit voidaa määritellä muille paitsi omiaaliasteiko muuttujille. Kvartiilie ja fraktiilie määräämisessä käytetää apua mm. summakäyrää. Fraktiilie määrittämie voidaa toteuttaa myös seuraavasti. Lisätää havaitomäärää luku (eli saadaa +),

kerrotaa saatu tulos luvulla p/00 (eli saadaa k = (+)p/00). Jos k o kokoaisluku, o p: proseti fraktiili suuruusjärjestyksessä k. muuttuja-arvo. Jos k ei ole kokoaisluku, o ko. fraktiili määrällise muuttuja tapauksessa iide muuttuja-arvoje keskiarvo, joide sijaluvut ovat k:ta lähimpää olevat kokoaisluvut. Jos k ei ole kokoaisluku ja muuttuja o mitattu järjestysasteikolla, o ko. fraktiili e muuttuja-arvot, joide sijaluvut ovat k:ta lähimpää olevat kokoaisluvut. Esim. Opiskelijoide ikä-havaitoja oli 9 kpl, jote 9+ = 0. Alakvartiili o suuruusjärjestykse (0. 5/00=) 5. havaito eli 0 vuotta ja yläkvartiili suuruusjärjestykse (0. 75/00 =) 5. havaito eli 5 vuotta. Aritmeettie keskiarvo voidaa laskea itervalli- tai suhdeasteikollisesta muuttujasta. Luokittelemattomalle aieistolle keskiarvo saadaa kaavasta i i Esim. Ikä-muuttuja keskiarvo 9 0 0 0 0 46 46 4 vuotta 9 9 Luokitellulle aieistolle aritmeettie keskiarvo saadaa kaavalla k f i m i, i missä f i m i k = luoka E i frekvessi = luoka E i luokkakeskus = luokkie lkm Huom. Eo. kaavaa voidaa käyttää, vaikka muuttuja olisi diskreetti. Tällöi luokkakeskukset m i korvataa muuttuja arvoilla ja luokkie frekvessit f i korvataa yksittäiste arvoje frekvesseillä. Esim. Asutoje keskihia aritmeettie keskiarvo 49 444.5 95 674.5 8 904.5 3 054.5 46 3774.0 787.84... 788 / m 46

3 Keskiarvo omiaisuuksia Olkoo tilastoyksikköä jaettu k:ho ryhmää, joissa o,,, k tilastoyksikköä, ja joissa muuttuja keskiarvot ovat,,, k. Koko aieisto keskiarvo o k i i. i Esim. Eräällä työpaikalla o aisia 400 ja miehiä 500. Keskitutiasiot ovat vastaavasti 6.58 ja 34.59. Mikä o työtekijöide keskitutiasio? 4006.58 500 34.59 400 500 3.03 Olkoot a ja b tuettuja vakioita sekä y i = a + b i. Silloi y a b. Jos havaitoarvot,,, ovat suuria yhteelaskettaviksi, voidaa jokaisesta arvosta i vähetää sellaie luku A, s. väliaikaie keskiarvo eli apukeskiarvo, joka arvioidaa oleva lähellä muuttuja keskiarvoa. Tällöi muuttuja y = - A arvot ovat itseisarvoltaa pieempiä kui : arvot. Nyt y A, jote = A y. Keskiarvo o käytetyi keskiluku, joka o kuiteki herkkä poikkeaville havaioille. Varsiki pieissä havaitoaieistoissa yksiki muista selvästi poikkeava arvo vetää keskiarvoa puoleesa. Joskus äärimmäise isot ja pieet muuttuja-arvot halutaa jättää tarkastelu ulkopuolelle. Tällöi voidaa laskea esim. 5 %: leikattu keskiarvo, jolloi sekä 5 % pieimmistä että suurimmista arvoista jätetää pois ja lopuista havaioista lasketaa tavallie keskiarvo. Geometrista keskiarvoa käytetää suhdeasteikolla mitatu muuttuja keskiarvoa silloi, ku halutaa kuvata keskimääräistä suhteellista muutosta. Geometrie keskiarvo voidaa laskea muuttujasta, joka kaikki havaitut arvot ovat positiivisia. Geometrie keskiarvo saadaa laskettua kaavasta G. Esim. Tuottee hita.5-kertaistui esimmäise vuode aikaa, toisea vuotea se 5- kertaistui ja viimeiseä vuotea 4-kertaistui. Hia suhteelliste muutoste geometrie keskiarvo o G 3.5 5 4 3.

4 Harmoista keskiarvoa käytetää myös suhdeasteikolla. Harmoie keskiarvo saadaa laskettua kaavasta H. ii Esim. Matka esimmäie kolmaes ajettii vauhtia 50 km/h, toie kolmaeksella 5 km/h ja viimeisellä 00 km/h. Mikä o keskimääräie vauhti koko matkalla? (Ts. millä vauhdilla ämä välit olisi ajettava, jotta koko matkaa meisi sama aika kui todella mei, ja jokaisella kolmaeksella vauhti o sama?) Lasketaa harmoie keskiarvo H 50 3 5 00 3 4.9 0.0 0.04 0.0 Keskilukuje vertailua Aritmeettie keskiarvo o tärkei keskiluku, koska se o helppo laskea. Aritmeettie keskiarvo o herkkä poikkeaville havaioille. Jos samoista muuttuja arvoista lasketaa kaikki edellä esitetyt keskiarvot (mikä ei yleesä ole mielekästä), ovat tulokset aia järjestyksessä H G. Mediaai o helppo ymmärtää. Se o vakaa keskiluku, joka ei ole herkkä poikkeaville havaioille. Jos muuttuja jakauma o vio, o mediaai yleesä aritmeettista keskiarvoa parempi keskikohda kuvaaja. Mediaaia ei voida kuitekaa käyttää pitkälle meevissä tilastollisissa operaatioissa. Moodi soveltuu kaikille mitta-asteikoille, mutta se o karkea keskiluku. Se ei ole aia yksikäsitteie. symmetrie yksihuippuie jakauma Md Mo

5 oikealle loiveeva jakauma Mo Md vasemmalle loiveeva jakauma Md Mo 3.3.. Hajotaluvut Muuttuja arvoje keskimääräistä suuruutta kuvaavat luvut eivät riitä kuvaamaa kaikkea havaitoarvoje omiaisuuksista. O myös pystyttävä kuvaamaa sitä, kuika suurta o muuttuja arvoje vaihtelu. Etropia eli satuaisuusaste mittaa sitä, kuika selvästi tai voimakkaasti havaitut muuttuja arvot keskittyvät yhtee tai vai muutamaa luokkaa. Etropia voidaa laskea kaavasta missä k k H p i log p i 3.393 p i log 0 p i, i i p i k = luoka E i suhteellie frekvessi = luokkie lkm. Etropia soveltuu kaikille mitta-asteikoille. Se o suurimmillaa silloi, ku eri luokkie frekvessit ovat yhtä suuret eli silloi, ku vaihtelu o suurita. Etropia arvosta o vaikeaa ähdä suoraa, kuika suuresta vaihtelusta o kyse, koska siihe vaikuttaa luokkie lukumäärä. Laskettua arvoa voidaa verrata etropia maksimiarvoo Hma 3.393 log0 k.

6 Esim. Kutie lääijakauma etropia Lääi p i log 0 p i p i log 0 p i Etelä-Suome 0.97-0.706-0.3908 Läsi-Suome 0.457-0.340-0.55380 Itä-Suome 0.48-0.830-0.840 Oulu 0. -0.95-0.065 Lapi 0.049 -.30-0.06490 Ahveamaa 0.036 -.444-0.05984 Yhteesä.000-0.639988 H = -3.393. (- 0.639988).6 H ma = 3.393. log 0 6.585 Vaihteluväli o pieimmä ja suurimma havaitoarvo määräämä väli ( (), () ). Vaihteluväliä ei voi käyttää omiaaliasteikolla. Luokitellussa aieistossa vaihteluväli muodostavat esimmäise luoka pyöristetty alaraja ja viimeise luoka pyöristetty yläraja. Vaihteluväli pituus w soveltuu itervalli- ja suhdeasteiko muuttujille. Se o suurimma ja pieimmä havaitoarvo erotus eli w = () - (). Luokitellussa aieistossa se o viimeise luoka yläraja ja esimmäise luoka alaraja erotus. Vaihteluväli pituus o helppo laskea, mutta se ei ole yksistää käytettyä hyvä hajotaluku, koska se ottaa huomioo vai muuttuja äärimmäiset arvot. Esim. Lääi vaihteluväliä ei voida määrittää, mutta asutoje keskihia vaihteluväli alkuperäisesta aieistosta o (336, 66). Asutoje keskihia vaihteluväli pituus o w = 66-336 = 830. Esim. Opiskelijoide iä vaihteluväli o (9, 46) ja vaihteluväli pituus o 7 vuotta. Muuttuja vaihtelua voidaa kuvata kvartiilivälillä (Q, Q 3 ), joka ilmaisee havaitoarvoje keskipaikkeilta sellaise väli, jossa o 50 % keskimmäisistä arvoista. Kvartiiliväli pituus saadaa erotuksea Q 3 - Q. Kvartiilipoikkeamalla tarkoitetaa lukua Q Q 3 Q. Kvartiiliväli voidaa määrätä ordiaaliasteikolliselle muuttujalle, mutta kvartiiliväli pituus ja kvartiilipoikkeama vasta itervalliasteikolla. Muuttuja-arvoje hajaatumista voidaa pelkä kvartiiliväli tarkastelu sijasta tarkastella paremmi vertailemalla kvartiiliväliä ja vaihteluväliä toisiisa.

7 Esim. Asutoje keskihia summakäyrä perusteella arvioitu Q 630 /m ja Q 3 90 /m. Kvartiiliväli pituus o oi 90 ja kvartiilipoikkeama 45. Esim. Opiskelijoide iä kvartiiliväli o site (0, 5). Kvartiiliväli pituus o 5 vuotta ja kvartiilipoikkeama.5 vuotta. Käytetyimpiä hajotalukuja ovat variassi s ja keskihajota s, vaikka iide tulkita ei ole ii yksikertaista kui em. hajotaluvuilla. Variassi ja keskihajota voidaa laskea itervalli- tai suhdeasteikollisesta muuttujasta. Keskihajota o variassi positiivie eliöjuuri eli s = s. Variassi kertoo, kuika tiiviisti havaitoarvot ovat keskittyeet keskiarvo ympärille. Jos kaikki mittaustulokset ovat samoja, o s = 0, muulloi s > 0. Keskihajoassa ja variassissa muuttujie arvoje vaihtelu ilmaistaa raketeellisesti samalla tavalla. Keskihajota o kuvailussa havaiollisempi, koska sillä o sama laatu kui muuttuja arvoilla, ja se kertoo, kuika kaukaa keskimääri havaiot ovat keskiarvosta. Variassi o taas parempi teoreettisissa tarkasteluissa. Luokittelemattoma aieisto variassi voidaa laskea kaavalla s i i i i i i. Esim. Opiskelijoide iä variassi ja keskihajoa lasketa: i 9 0 0 0 0 46 46 i 9 0 0 0 0 46 4 s 46 4 54.450... vuotta 9 9 s 7 vuotta Luokitellu aieisto variassi o

8 s k fi i mi k fimi i k fimi i missä f i m i k = luoka E i frekvessi = luoka E i luokkakeskus = luokkie lkm. Esim. Asutoje keskihia variassi ja keskihajota s 49 444.5 95 674.5 3 054.5 46 45 3774.0 8858954 46 s 44 /m 59398 / m 4 3774.0 46 Variassi ja myös keskihajoa arvot riippuvat muuttuja mittayksiköstä. Jos muuttujalle tehdää lieaarie muuos y = a + b, ii s y = b s ja sy = b s. Esim. Pituus o mitattu tuumia ja : variassi o 5. Jos pituus mitataa cm:ä eli :lle tehdää muuos y =.54, ii y: variassi s y =.54.5 = 3.36. Keskiarvoa ja keskihajotaa voidaa käyttää hyväksi muuttuja havaitoarvoje stadardoiissa: zi i s. Stadardoitu arvo z i kertoo, kuika moe keskihajoa etäisyydellä havaitoarvo i o keskiarvosta. Stadardoiduille arvoille z i pätee aia, että z = 0 ja s z =. Stadardoitu muuttuja z o pelkkä luku; se o siis riippumato alkuperäise muuttuja mittayksiköstä. Stadardoituja havaitoarvoja voidaa käyttää mm. ku eri havaitoaieistoje tilastoyksiköitä verrataa toisiisa.

9 Esim. Opiskelija osallistui tilastotietee tettii ja sai pistemääräksi 36. Hä osallistui myös talousmatematiika tettii ja sai pistemääräksi 30. Tilastotietee teti pistemäärä keskiarvo oli 9 ja keskihajota 6, talousmatematiika tetissä vastaavat luvut olivat ja 8. Kummassa tetissä opiskelija meestyi suhteellisesti paremmi? Tettitulokset stadardoitua ovat z tt 36 9 30. ja z tm. 0 6 8 Opiskelija meestyi tilastotieteessä suhteellisesti paremmi. Variaatiokerroi V s o mittayksiköstä riippumato hajotaluku. Sitä voidaa käyttää vai suhdeasteikolla. Variaatiokerroi ilmaisee muuttuja suhteellise vaihtelu. Usei variaatiokerroi ilmaistaa prosettilukua, jolloi luku 00V kertoo, kuika mota % keskihajota o keskiarvosta. Variaatiokerroita voidaa käyttää vertailtaessa mittayksiköiltää erilaisia aieistoja. Esim. Opiskelijoide iä variaatiokerroi V = 0.3. Iä hajota o site 30 % iä keskiarvosta. Esim. Asutoje keskihia variaatiokerroi V = 0.3. Hia hajota o site 3 % hia keskiarvosta Huom. Käytäössä o havaittu, että yksihuippuisissa jakaumissa o yleesä oi 70 % havaioista yhde keskihajoa etäisyydellä keskiarvosta ja lähes kaikki havaiot kolme hajotayksikö päässä keskiarvosta. s s s 68% ± s 95% ± s 99% ± 3s s s s

30 3.3.3. Yksiulotteise jakauma muita tuuslukuja Jakauma sijaitia ja vaihtelua kuvaavie tuuslukuje lisäksi voidaa mitata jakauma symmetriasta poikkeamista eli vioutta sekä keskittymise terävyyttä tai tylsyyttä eli huipukkuutta. Kyseisiä tuuslukuja käytetää määrällisille muuttujille. Jos muuttuja arvot ovat keskittyeet voimakkaasti alimpii luokkii, ja jakaumalla o pitkä hätä oikealle päi, saotaa muuttuja jakaumaa oikealle vioksi tai oikealle loiveevaksi. Jos taas muuttuja arvot ovat keskittyeet ylimpii luokkii, o muuttuja jakauma vasemmalle loiveeva tai vio. Symmetrisessä jakaumassa keskiarvo ja mediaai ovat yhtä suuret, ja jakauma muoto oikealle ja vasemmalle keskipisteestä saadaa peilikuvaa. Frekvessijakauma vioude mitta o suure g i i 3 3. s Jos jakauma o täsmällee symmetrie o g 0 (esim. ormaalijakauma); jos jakauma o vasemmalle loiveeva, o g 0; jos jakauma o oikealle loiveeva, o g 0. Usei symmetriseä jakaumaa pidetää jakaumaa, jolle 0.5 < g < 0.5. Jakaumaa voi tutkia myös huipukkuude avulla. Huipukkuude mittaa o suure g 4 i i 4 s 3. Jos muuttuja arvot ovat keskittyeet parii luokkaa, ja muissa luokissa o vai vähä havaitoja, o jakauma huipukas eli leptokurtie. Huipukkaalla jakaumalla g 0. Laakeassa eli platykurtisessa jakaumassa g 0. Jos g 0, o jakauma muoto jotai tältä väliltä eli mesokurtie. Mm. ormaalijakauma huipukkuus g 0. Mesokurtisea jakaumaa pidetää sellaista jakaumaa, jolla 0.5 < g < 0.5.

3 4. KAKSIULOTTEINEN EMPIIRINEN JAKAUMA Kahde tilastollise muuttuja arvoilla voi olla taipumus liittyä toisiisa ii, että muuttuja tiety arvo yhteydessä esiityy suhteellisesti ottae muita useammi tietty muuttuja y arvo. Usea muuttuja samaaikaise tarkastelu lähtökohtaa oki usei juuri muuttujie välise mahdollise yhteyde olemassaolo, voimakkuude ja luotee selvittämie. Täydellie (matemaattie, fuktioaalie) riippuvuus o kyseessä silloi, ku vuorovaikutussuhde voidaa ilmaista yksikäsitteisesti jollaki kaavalla. Esim. Neliö pita-ala A riippuu eliö sivu pituudesta kaava A = mukaa. Tilastollise eli epätäydellise riippuvuude kuvaamisee käytetää mm. erilaisia tilastollisia riippuvuustuuslukuja. 4.. Ristiitaulukko Oletetaa, että muuttuja arvot o jaettu luokkii, joita o J kappaletta ja muuttuja y arvot o jaettu luokkii, joita o I kappaletta. Muuttujat ja y voivat olla mittaasteikoiltaa mitä tahasa. Merkitää muuttuja eri luokkia symboleilla E, E,, E J ja muuttuja y eri luokkia symboleilla G, G,, G I. Muuttujie ja y välie ristiitaulukko (frekvessitaulukko, kotigessitaulukko, : ja y: yhteisjakauma) o silloi y E E E J yhteesä G f f f J f G f f f J f... G I f I f I f IJ f I yhteesä f f f J f = f ij missä y f ij o yleesä syy, o yleesä seuraus, o sellaiste tilastoyksiköide lukumäärä joide -muuttuja arvo kuuluu luokkaa E j ja joide y-muuttuja arvo kuuluu luokkaa G i ; saotaa, että f ij o solu ( G i, E j) havaittu frekvessi

f i o i:e vaakarivi frekvessie summa eli rivisumma; f i f i f i f ij f j o j:e sarakkee frekvessie summa eli sarakesumma; f j f j f j f Ij f o tilastoyksiköide kokoaismäärä eli kokoaissumma; f f f f J f f f I 3 Luvut f, f,, f I muodostavat muuttuja y reuajakauma, joka o itse asiassa muuttuja y yksiulotteie jakauma. Vastaavasti luvut f, f,, f J muodostavat muuttuja reuajakauma. Kahde muuttuja suhteellie yhteisjakauma saadaa jakamalla jokaie solufrekvessi havaitoje kokoaismäärällä. Prosetuaalie yhteisjakauma saadaa kertomalla suhteelliset solufrekvessit luvulla sata. Esim. Eräällä tilastotietee kurssilla opiskelijoilta kysyttii, ovatko he asiotyössä ja kuika he kokevat opitojesa edistyvä. Saatii ristiitaulukko Oko asiotyössä? Opitoje edistymie kyllä ei Yht. keskimääräistä hitaammi 6 7 keskimääräisesti 5 75 00 keskimääräistä opeammi 3 4 7 Yhteesä 44 00 44 Ristiitaulukosta laskettu prosetuaalie yhteisjakauma o Opitoje edistymie Oko asiotyössä? kyllä ei Yht. keskimääräistä hitaammi % 8 % 9 % keskimääräisesti 7 % 5 % 69 % keskimääräistä opeammi % 0 % % Yhteesä 30 % 70 % 00 %

33 Kahde muuttuja yhteisjakaumasta voidaa määrätä lisäksi ehdollisia jakaumia. Jokaie sarake muodostaa y-muuttuja ehdollise jakauma tietyllä muuttuja arvolla, ja jokaie vaakarivi muodostaa -muuttuja ehdollise jakauma tietyllä muuttuja y arvolla. Jakamalla ehdollise jakauma frekvessit iide summalla saadaa suhteellie ehdollie frekvessijakauma. Kertomalla e edellee sadalla, saadaa prosetuaalie ehdollie frekvessijakauma. Esim. Seuraavassa o esitetty y-muuttuja (= opitoje edistymie) prosetuaaliset ehdolliset jakaumat -muuttuja (=oko asiotyössä) eri luokissa: Oko asiotyössä? Opitoje edistymie kyllä ei Yht. keskimääräistä hitaammi 36 % % 9 % keskimääräisesti 57 % 75 % 69 % keskimääräistä opeammi 7 % 4 % % Yhteesä 00 % 00 % 00 % Jos ristiitaulukosta määrätyt prosetuaaliset ehdolliset jakaumat ovat samalaiset eri sarakkeilla (tai riveillä), saotaa muuttujie oleva tilastollisesti riippumattomia. Jos muuttujat eivät ole riippumattomia, saotaa iide oleva tilastollisesti riippuvia. Tilastollise riippuvuude voimakkuutta voidaa mitata ristiitaulukosta seuraavasti: lasketaa riippumattomuustilaetta vastaavat s. odotetut eli teoreettiset frekvessit e ij, jotka saadaa määrättyä havaitu ristiitauluko rivi- ja sarakesummie avulla kaavalla e ij f i f j. Nämä voidaa asettaa samalaisee taulukkomuotoo kui havaitut frekvessit: E E E J yhteesä y G e e e J f G e e e J f... G I e I e I e IJ f I yhteesä f f f J f =

34 Ristiitauluko ja odotettuje frekvessie muodostama tauluko välie ero kuvaa muuttujie ja y riippuvuude määrää. Tämä riippuvuude suuruude eräää mittaa voidaa käyttää -arvoa (lue: khii eliö) I J f ij e ij. ij e ij Näi määritelty -arvo saa arvo olla, jos havaitut frekvessit ovat täsmällee riippumattomuustilaetta vastaavia. Se arvo o sitä suurempi, mitä eemmä havaitut frekvessit poikkeavat ideaalisesta riippumattomuude tilateesta. -arvo ei sellaiseaa sovellu riippuvuude mitaksi, koska ristiitauluko koko vaikuttaa se suuruutee. : maksimiarvo ma = (k ), missä k o pieempi luvuista I ja J, ja o havaitoje määrä. Varsiaisea riippuvuuslukua käytetää s. kotigessikerroita C, joka saadaa ormeeraamalla -arvo seuraavasti: C. Jos ja y ovat riippumattomia, o C: arvo olla, koska -arvo o olla. Muuttujie välise riippuvuude lisäätyessä kasvaa C: arvo. Kotigessikertoime maksimiarvo riippuu seki ristiitauluko koosta site, että C ma k k, missä k o pieempi luvuista I ja J. Koska sekä -arvo että kotigessikertoime arvo riippuvat ristiitauluko koosta, ei erikokoiste ristiitaulukoide riippuvuustuuslukuja pitäisi verrata toisiisa. Vertailtavuutta voidaa parataa, kuha havaitut riippuvuusluvut jaetaa vastaavilla maksimiarvoilla.

Esim. Seuraavaa taulukkoo o laskettu odotetut frekvessit ja edellee tuuslukuja 35 Oko asiotyössä? Opitoje edistymie kyllä ei Yht. keskimääräistä hitaammi 8 9 7 keskimääräisesti 3 69 00 keskimääräistä opeammi 5 7 Yhteesä 44 00 44 6 8 9 5 3 75 69 3 5 4 8 9 3 69 5 4. C 4. 4. 44 0.30 C ma ma ( ) 44 44 0.7 Kotigessikertoime perusteella voidaa saoa muuttujie välillä oleva riippuvuutta. Asiotyössä käyvistä opiskelijoista 36 % koki opitojesa edistyvä keskimääräistä hitaammi, ku taas muide opiskelijoide joukossa vastaava prosettiosuus oli vai %. Huom. Ristiitaulukkoa, jossa o kaksi vaakariviä ja kaksi saraketta, saotaa eliketäksi. Neliketästä voidaa -arvo laskea kaavasta f f f f f f f f Esim. Muuttuja saa arvot M ja N se mukaa kumpi puolisoista yleesä hoitaa puhumise, ja muuttuja y saa arvot M ja N se mukaa kumpi puolisoista useammi päättää yhteisistä asioista. Satuaisesti poimituista 34 avioparista saatii seuraava ristiitaulukko:

36 y M N Yhteesä M 3 6 9 N 5 0 5 Yhteesä 8 6 34 34 3 0 5 6 8 6 9 5 4. ja ma ( ) 34 = 34 C 4. 4. 34 0.33 ja C ma 0. 7 Site voidaa päätellä, että puhumise ja yhteisistä asioista päättämise välillä äyttää tilastollista riippuvuutta oleva. 4.. Korrelaatiodiagrammi ja korrelaatio Tarkastellaa kahta muuttujaa ja y, jotka ovat vähitää itervalliasteikollisia. Muuttujie ja y välisellä korrelaatiodiagrammilla eli pisteparvella eli sirotakuviolla tarkoitetaa sellaista graafista esitystä, missä havaitoparia ( i, y i ) o merkitty koordiaatistoo. Pisteparve muodo avulla voidaa selvittää, oko muuttujie ja y välillä lieaarista eli suoraviivaista riippuvuutta. Mitä suoraomaisempaa muotoo pisteparve pisteet ovat ryhmittyeet, sitä voimakkaampaa o : ja y: välie lieaarie riippuvuus. Positiivisella lieaarisella riippuvuudella tarkoitetaa sitä, että : arvoje kasvaessa myös y: arvot kasvavat tasaisesti; vastaavasti egatiivisella lieaarisella riippuvuudella tarkoitetaa sitä, että : arvoje kasvaessa y: arvot pieeevät tasaisesti. Esim. y y y positiivie lieaarie riippuvuus egatiivie lieaarie riippuvuus käyräviivaie eli epälieaarie riippuvuus