Suurtehoskannereiden nopeudet, häiriöt ja käyttöasteet syyskuussa 2004

Koko: px
Aloita esitys sivulta:

Download "Suurtehoskannereiden nopeudet, häiriöt ja käyttöasteet syyskuussa 2004"

Transkriptio

1 Teknillinen Korkeakoulu Mat Sovelletun matematiikan erikoistyöt Jaakko Lehtinen A, TFY III Suurtehoskannereiden nopeudet, häiriöt ja käyttöasteet syyskuussa 2004 Data Management Services Julkinen versio. Kaikki työssä esitettävät nopeustulokset on kerrottu samalla, kerran arvotulla satunnaisluvulla. Skannereiden mallit ja töiden nimet on korvattu kirjain- ja numerotunnuksilla. Yksittäisiä merkintöjä on jouduttu mustaamaan. Muuten työ vastaa täysin virallista versiota. Kaikki tulokset on saatu työssä esiteltyjä menetelmiä käyttäen. 1

2 I Johdanto 3 II Tietojen kerääminen ja käsittely 4 III Matemaattiset menetelmät 5 Skannausnopeus 5 Keskeinen raja-arvolause 5 Normaalipaperi ja Shapiro-Wilkin W-testi 6 Luottamusväli ja havaintojen painottaminen 9 Epälineaarinen regressio 10 Skannausnopeuksien arviointi ekstrapoloimalla 11 IV Tulokset ja johtopäätökset 13 Epälineaarinen regressiomalli skannereille A ja I 14 Nopeusarviot skannereille A, B ja C 15 Skannerit D ja E 15 Skanneri F 16 Nopeusarviot skannereille G, H ja I 16 Skannereiden nopeudet normaalissa työkäytössä verrattuna valmistajan ilmoittamiin teoreettisiin arvoihin 17 Nykyisten töiden skannausnopeuksia 18 Häiriöt, tauot ja käyttöasteet 20 V Yhteenveto 21 VI Lähteet 23 2

3 I Johdanto Atkos on Suomen johtava sähköisen liiketoiminnan, tulostuspalvelujen ja suoramarkkinoinnin kokonaisratkaisujen tuottaja. Data Management Services -osaston (DMS) tehtävänä on hoitaa yritysten palautteenkäsittely tehokkaasti ja virheettömästi. Palautteenkäsittely voi tässä yhteydessä merkitä mitä tahansa kyselytutkimuksen tietojen tallentamisesta lehtitilauslomakkeen käsittelemiseen. Lisäksi DMS siirtää suuria paperisia arkistoja toimivampiin ja modernimpiin formaatteihin, kuten kuva-arkistoiksi DVD-levyille. DMS:ssä skannataan päivittäin jopa lomaketta yhdeksällä suurtehoskannerilla. Tässä tutkimuksessa on tarkoitus selvittää nykyisin DMS:ssä käytössä olevien suurtehoskannereiden tehokkuutta. Toisin sanoen on tarkoitus selvittää skannereiden todelliset skannausnopeudet suurissa, jatkuvissa töissä sekä yleisillä paperikooilla. Lisäksi pyritään laatimaan jonkinlainen työkalu, jolla skannaukseen kuluvaa aikaa voidaan jatkossa arvioida työn tyypin tai lomakkeen koon sekä lomakkeiden lukumäärän perusteella. Tutkimukseen otettiin mukaan kaikki Atkos Data Management Services in suurtehoskannerit. Tietoturvasyistä skannerimerkkejä ei tässä julkisessa versiossa nimetä, vaan niille annetaan tunnistekirjaimet A-I. Samoin työt on nimeämisen sijaan numeroitu asiakassuhteiden luottamuksellisuuden vuoksi. Skannereista toimintamekanismeiltaan samankaltaisia ovat A, B ja C. Lähes samanlaisia keskenään ovat skanneripari D ja E sekä kolmikko G, H ja I. Skanneri F on koekäytössä, ja sen kilpailukykyisyys muihin verrattuna kiinnostaa. Suurin huomio on tarkoitus kiinnittää nykyisiin isoihin töihin kuluvaan aikaan eli käytännössä kyseisten töiden keskimääräisiin skannausnopeuksiin. Tietoa voidaan käyttää hyväksi esimerkiksi arvioitaessa laitteistotarpeiden muuttumista lomakemäärien kasvaessa tai pienentyessä merkittävästi. Lisäksi mahdollisten uusien asiakkaiden töihin vaadittavaa vapaata skannausaikaa voidaan arvioida nykyisiin töihin kuluvan ajan perusteella. Tarkoitus on myös selvittää tällä hetkellä myynnissä olevien kahden eri hintaluokan skannereiden tehokkuuseroja. Nopeusarvioinnin lisäksi kiinnitetään huomiota yleisimpiin häiriöihin ja perushuoltoihin (tukokset, putsaukset) kuluvaan aikaan sekä niiden eroihin eri skannereilla. Lopuksi pyritään selvittämään, kuinka suuren osan ajasta skannerit tällä hetkellä ovat vapaana. Näin saadaan näkemys siitä, kuinka paljon työmäärää voidaan vielä kasvattaa nykyisellä laitteistolla. 3

4 II Tietojen kerääminen ja käsittely Tutkimusta varten kerättiin tietoja kuukauden ajan. Tarkastelukuukaudeksi valittiin syyskuu, joka on hiljaisten kesäkuukausien jälkeen ensimmäinen työntekijä- ja lomakemääriltään normaali kuukausi. Jokainen skanneria käyttävä työntekijä täytti koko kuukauden ajan päiväkirjaa, johon merkittiin mm. työn nimi, aloitus- ja lopetusajat, skannattujen lomakkeiden lukumäärä, erilaiset ongelmat ja niihin kulunut aika sekä muut tauot työnteossa. Työn lopussa on esimerkki skanneripäiväkirjasta (liite 1). Jokaiselle skannerille pidettiin omaa päiväkirjaa. Lisäksi erillisellä päiväkirjalla seurattiin skannereiden pitkäaikaisia häiriöitä ja huoltokatkoksia. Koska harvinaisista pitkistä häiriöistä ei kuukauden perusteella voi vielä tehdä mitään johtopäätöksiä, jatkuu seuranta edelleen, eikä tuloksia saada vielä tämän työn yhteyteen. Paperilta päiväkirjat siirrettiin sähköiseen muotoon Atkos DMS:n OCR- eli tekstintunnistusohjelmistoa hyödyntäen. Lomakkeet skannattiin ja tallennuksessa apuna käytettiin ohjelmiston automaattista tekstin tulkitsemista. Lopputuloksena oli data, jossa eri skannauskerrat oli eroteltu rivivaihdoilla ja kentät puolipisteillä. Lisäksi jokaisen rivin alkuun lisättiin kenttä, johon automaattisesti tallennettiin skannerin nimi. Jo tallennusvaiheessa jaettiin kenttä Skannerin toimintahäiriöihin kulunut aika (min) ja kuvaus toimintahäiriöstä neljään osaan: Putsaukseen kulunut aika (min), Tukoksiin kulunut aika (min), Kuvaus muusta häiriöstä ja Muuhun häiriöön kulunut aika (min). Tällä oli tarkoitus nopeuttaa tietojen analysointia jatkossa. Lisäksi muihin häiriöihin merkittyjä täysin skannerista riippumattomia skannauskatkoksia (esim. lomakkeiden esikäsittely) siirrettiin taukoihin. Syntynyt data tuotiin import-toiminnolla Exceliin, jossa lajittelu esim. työn nimen tai keston mukaan oli helppoa. Excelin kaavatoimintoja hyödyntäen laskettiin mm. aloitus- ja lopetusaikojen perusteella skannaukseen käytetty aika minuutteina sekä jokaiselle skannauskerralle erikseen skannausnopeus (sivua/min). Ongelmaksi muodostui joidenkin työntekijöiden tapa kirjata skannaustapahtumia päiväkirjaan. Esim. oltiin skannattu työtä 1 10:00-13:00, mutta seuraavalla rivillä oli merkintä työn 2 skannaamisesta 11:20-11:35. Tällaiset virheelliset merkinnät etsittiin automaattisesti Excelin kaavoja hyödyntäen ja skannausten kestot korjattiin manuaalisesti oikeiksi. Samalla jätettiin ne merkinnät entiselleen, joissa ensin aloittanut skannaaja oli selvästi merkinnyt olleensa tauolla, kun toinen työntekijä oli hetkeksi keskeyttänyt ensimmäisenä aloittaneen työnteon. Lisäksi aineistosta hylättiin merkintöjä, jotka olivat selvästi puutteellisia. Esimerkiksi taukojen ja skannerin häiriöihin kuluneen ajan summan ollessa suurempi kuin koko skannausaika, hylättiin merkintä virheellisenä. Samoin hylättiin puutteelliset merkinnät, kuten muistiinpanot, 4

5 joista puuttui lomakkeiden lukumäärä tai lopetusaika. Muut hylkäykset jätettiin tietojen analysointivaiheeseen. Lopuksi aineisto luokiteltiin eri tyyppeihin. Ensimmäinen lajittelu tehtiin skannerimallin perusteella. Syntyneiden luokkien sisällä lajiteltiin aineisto vielä paperikoon tai työn laadun mukaan (esim. A3, A4, A4 kylki edellä, jokin muu yleinen lomake) eri osiin. Koska tilastollisella analyysillä ei saada läheskään kaikille paperikooille järkeviä ennusteita, oli keksittävä myös muita keinoja nopeuden arviointiin. Kahdelle skannerille (A ja I) mitattiin optimaaliset maksimiskannausnopeudet simuloimalla oikeaa skannausta siten, etteivät virheet ja häiriöt, syötettävän paperin loppuminen tai muut hidasteet vaikuttaneet nopeuteen. Nopeus mitattiin kolmella eri paperikoolla (A4, A4K eli A5 ja A5K) siten, että jokaisella koolla skannattiin kaksi eripaksuista nippua paperia kahteen kertaan. Nippukoon lisäksi kirjattiin muistiin skannauksen kesto, joka mitattiin käsin sekuntikellolla. Aineistoa analysoitiin ja tunnuslukuja laskettiin Excelin lisäksi NCSS Test ohjelmistolla. III Matemaattiset menetelmät Skannausnopeus Puhuttaessa skannausnopeudesta (ppm) tässä työssä, tarkoitetaan nopeutta, joka on saatu laskemalla Skannausnopeus Skannattujen sivujen lukumäärä Lopetusaika Aloitusaika Pidetyttauot. (1) Skannerin lyhyet häiriöt skannatessa vaikuttavat hidastavasti skannausnopeuteen, koska oletettavasti vastaavia häiriöitä esiintyy jatkossakin. Työntekijän omat tauot taas eivät vaikuta skannausnopeuteen. Jotta aineistolle olisi mielekästä laskea tunnuslukuja ja esittää saatujen tietojen perusteella yleistäviä arvioita, on datan ensin täytettävä tietyt ehdot. Keskeinen raja-arvolause Käytettävien menetelmien sopivuutta perustelee parhaiten keskeinen raja-arvolause. Sen mukaan samasta jakaumasta poimittujen toisistaan riippumattomien satunnaismuuttujien (tässä skannausnopeus) keskiarvon jakauma lähestyy normaalijakaumaa, kun otosten lukumäärä kasvaa. Nyt voidaan niitä nopeuksia, jotka on saatu skannattaessa samankaltaisia töitä samanmallisilla skannereilla, pitää poimittuna yksittäisestä, samasta jakaumasta. Keskeisen raja-arvolauseen mukaan edellä kerrotun mukaisesti luokitellun aineiston jokaisen luokan pitäisi olla normaalijakautunut. 5

6 Dataa tutkimalla voidaan kuitenkin todeta, ettei väite kaikissa tapauksissa päde. Syitä siihen voi olla useita. Ensimmäinen syy voi olla riittämätön havaintojen lukumäärä. Ei ole järkevää arvioida A3- papereiden skannausnopeutta analysoimalla A3-skannausten tietoja, jos esim. skannauskertoja on vain kaksi. Tällöin on järkevämpää tehdä arviot muilla tavoilla tai jättää ne kokonaan tekemättä. Toinen vääränlaisia jakaumia aiheuttava tekijä ja järkevin perustelu poikkeaville mittaustuloksille on kuitenkin ihmisten huolimattomuus. Virheitä on saattanut syntyä seurantalomakkeita täytettäessä. Lomakkeiden lukumäärä on esim. saatettu merkitä väärin, unohdettu merkitä taukojen pituudet tai on voinut tapahtua tallennusvirhe tietoja paperilta dataksi siirrettäessä. Normaalipaperi ja Shapiro-Wilkin W-testi Inhimillisten virheiden mahdollisuuden vuoksi on järkevää olettaa, että luokiteltujen tulosten tulisi olla normaalijakautuneita siitä riippumatta, miltä aineisto aluksi näyttää. Normaalijakaumasta selvästi poikkeavat havainnot onkin syytä hylätä virheellisinä. Samoin hylätään tapahtumat, joista kirjatut tiedot ovat selkeästi puutteellisia (esim. merkitty samaksi tapahtumaksi usean erityyppisen työn skannaus). Histogram of TYÖ_15_NOPEUDET Count TYÖ_15_NOPEUDET Kuva 1. Aineisto voisi olla normaalijakautunut, mutta yksi havaintosarjan nopeuksista on liian kaukana histogrammin huipusta. 6

7 Tulokset on kirjannut ihminen, eikä tarkka mittalaite. Siksi ei välttämättä kannata käyttää tulosten hylkäyksessä tarkkoja matemaattisia menetelmiä. Kätevin tapa suhteellisen epätarkkojen tulosten hylkäämiseen lienee ns. normaalipaperi eli Q Q kuvaaja. Kuvaajassa normaalijakautuneen aineiston havainnot asettuvat jotakuinkin suoralle. Normaalijakaumasta poikkeavat havainnot erottuvat yksinäisinä pisteinä kaukana suorasta. Nämä pisteet pyritään havaitsemaan silmämääräisesti ja hylkäämään virheellisinä. Lisäksi on esim. histogrammilla tarkastettava, että aineisto ylipäänsä näyttää normaalijakautuneelta. Myöhemmin näkyviin tuloksiin on merkitty myös P-arvo aineiston normaalisuudelle. Se on saatu Shapiro-Wilkin W-testillä [1], joka on todettu monissa tilanteissa parhaaksi tavaksi tarkastella aineiston normaalisuutta ja tarvittaessa hylätä se. Aineisto on sitä lähempänä normaalia, mitä lähempänä P-arvo on lukua 1. Aineiston normaalisuus hylätään, kun P-arvo on alle Shapiro- Wilkin W-testi on pätevä, kun tutkittavan satunnaismuuttujan (tässä skannausnopeus) otoskoko on väliltä ja näinhän luonnollisesti on. On kuitenkin muistettava, ettei pelkkä toteamus P-arvo 0.05 riitä. Nollahypoteesin hylkäystä voidaan pitää toteamuksena siitä, ettei aineisto ole normaalinen, mutta toisin päin testi ei toimi. Testillä voidaan vain todeta, ettei nollahypoteesia voida hylätä. Lisäksi on siis ehdottomasti käytettävä edellä mainittuja menetelmiä aineiston normalisoimiseksi ja normaalisuuden toteamiseksi. Normal Probability Plot of TYÖ_15_NOPEUDET TYÖ_15_NOPEUDET Expected Normals Kuva 2. Saman aineiston normaalipaperissa havaitaan kaukana suorasta yksi yksinäinen piste. 7

8 Histogram of TYÖ_15_NOPEUDET Count TYÖ_15_NOPEUDET Kuva 3. Histogrammi samasta aineistosta, kun epäkäypiä pisteitä on hylätty. Aineisto vaikuttaa jo normaalijakautuneelta, vaikkei täydellistä symmetrisyyttä huipun suhteen saavutettukaan. Normal Probability Plot of TYÖ_15_NOPEUDET TYÖ_15_NOPEUDET Expected Normals Kuva 4. Myös normaalipaperilla kaikki havaintopisteet asettuvat jotakuinkin samalle suoralle. Pientä käyryyttä on havaittavissa suoran molemmin puolin, mutta hyväksytään aineisto normaaliksi. Shapiro-Wilkin W-testikään ei hylkää nollahypoteesia jakauman normaalisuudesta. 8

9 Normal Probability Plot of TYÖ_32_NOPEUDET Histogram of TYÖ_32_NOPEUDET TYÖ_32_NOPEUDET Expected Normals Count TYÖ_32_NOPEUDET Kuva 5. Aineiston normaalisuutta tarkastellessa pitää aina muistaa tutkia asiaa useasta eri näkökulmasta. Kuvan aineisto on Shapiro-Wilkin W-testin mukaan normaalijakautunut. Myös normaalipaperi tukee ainakin jossain määrin oletusta. Histogrammi paljastaa kuitenkin totuuden. Jos aineistolla on kaksi erillistä huippua, ei se voi olla normaalijakautunut. Huiput ovat todennäköisesti seurausta kahden eri skannaajan tehokkuuseroista tai liian paljon toisistaan eroavien töiden luokittelusta samanlaisiksi. Luottamusväli ja havaintojen painottaminen Kun virheelliset havainnot on hylätty, ja luokitellut tulokset ovat normaalijakautuneita, voidaan luottamusvälit laskea tutuilla menetelmillä, jotka perustuvat tietoon aineiston keskiarvosta ja keskihajonnasta. Koska kerätty data koostuu huomattavasti toisistaan poikkeavista tapahtumista, on tunnuslukuja laskettaessa aiheellista antaa tapahtumille painokertoimia. Esim. jos samaa työtä on skannattu samalla skannerilla ensin viisi minuuttia ja saatu nopeuden keskiarvoksi 30 sivua/min ja seuraavaksi viisi tuntia keskiarvolla 100 sivua/min, ei todennäköisesti ole järkevää tehdä johtopäätöstä, jonka mukaan keskinopeus olisi ½(30+100) sivua/min, vaan on syytä painottaa pidempään kestänyttä tapahtumaa. Painotettu keskiarvo saadaan kaavalla x w N i1w i x i N i1 w i. (2) Yksittäisen tapahtuman painokertoimena voidaan käyttää kyseiseen skannaukseen käytettyä aikaa (tauot vähennettyinä). Saman tapahtuman keskiskannausnopeutta (sivua / min) kuvaa x i. N on kirjattujen tapahtumien lukumäärä. 9

10 Esim. jos on skannattu sivua paperia ja muut tiedot ovat: Aloitus = 10:00 Lopetus = 13:30 Häiriöihin kulunut aika = 15 min Tauot = 20 min, saadaan arvot w k = 190 min ja x k = 100 sivua/min. Luottamusvälejä laskettaessa tarvitaan tietoa saatujen tulosten varianssista. Lasketaan myös varianssi painotettuna kaavalla s 2 w N i1w i x i x w 2 N1N i1 w i N [2]. (3) Kun painotettu varianssi ja keskiarvo ovat tiedossa, saadaan 100(1-α) %:n luottamusväliksi w w x w z 2, x w z 2 N N, (4) missä w s 2 w (5) ja z α/2 :n arvot voidaan lukea esim. MAOL-taulukoista [3]. Epälineaarinen regressio Aineiston perusteella pyrittiin laatimaan skannerin optimaaliselle nopeudelle malli, jossa selittäjänä on skannattavien lomakkeiden pituus. Luonnollisesti, kun lomakkeen pituus kasvaa, skannausnopeus pienenee. Suhde ei kuitenkaan ole lineaarinen, sillä muuten skannausnopeus muuttuisi jopa negatiiviseksi lomakkeen pituuden kasvaessa. Sovitteeksi kokeiltiin epälineaarista regressiomallia Nopeus = A + B/Pituus, joka osoittautuikin päteväksi. Selitysaste on yksi muuttujista, joilla voi kuvata laaditun mallin pätevyyttä. Selitysaste saa arvoja väliltä 0 1, ja jos regressiomalli on täydellinen, saa muuttuja arvon 1. Mallit laadittiin kahdelle eri skannerille. Molemmissa malleissa selitysaste oli yli Myös mallin residuaaleja on syytä tarkastella, ennen kuin malli voidaan hyväksyä. Residuaalit ovat mallin avulla piirretyn käyrän etäisyyksiä tunnetuista pisteistä. Molemmille selitettäville nopeuksille saatiin mallit, joissa residuaalit pysyivät kohtuullisina eivätkä selvästikään korreloineet lomakkeen pituuden kanssa. Lisäksi tarkoitus oli arvioida regressiolla, kuinka skannauksen kesto vaikuttaa skannauskerran keskinopeuteen. Kuitenkaan yhteyttä suureiden välillä ei havaittu. 10

11 Skannausnopeuksien arviointi ekstrapoloimalla Suurin osa skannauksessa kuluvasta hukka-ajasta koostuu tunnistamattomien lomakkeiden aiheuttamista katkoksista ja tukoksista. Jos putsaukset ja harvinaisemmat ongelmat jätetään huomioimatta, voidaan arvioida, että yhtä lomaketta kohti kuluu keskimäärin yhtä paljon hukkaaikaa paperin koosta riippumatta. Oletuksen voidaan arvioida pätevän ainakin, jos lomake on enintään A4:n pituinen. Tässä siis hukka-ajalla tarkoitetaan ylimääräistä taukoa, jonka aikana skanneri ei ole käytössä. Esimerkiksi, jos jollakin skannerilla tunnetaan ainoastaan A4-lomakkeiden todellinen, tilastollisella analyysillä saatu keskinopeus ja muut on arvioitava laskemalla, saataisiin ilman edellä mainittuja huomioita vx T297 R297 Rx. (6) Tässä siis v(x) on ennustettava nopeus, T(x) on toteutunut, tilastollisella analyysillä saatu tulos ja R(x) regressiomallin antama ennuste ideaalille nopeudelle, kun lomakkeen pituus on x (mm). Ajassa t siis skannataan lomakkeita n T297 R297 Rxt kpl. (7) Tämän lomakemäärän skannaamiseen pitäisi ideaalimallin mukaan kulua aikaa n Rx T297 R297 t min. (8) Todellisuudessa skannauksen kesto on t. Aikaa on siis kulunut hukkaan t 1 T297 R297 min. (9) Yhtä A4-lomaketta kohti hukka-aikaa on syntynyt t1 T297 R297 T297t (10) 1 T297 R297 T297. (11) 11

12 Skannataan (minkä tahansa pituisia) lomakkeita x kpl. Jos uskotaan oletukseen lomakekohtainen hukka-aika on lomakkeen koosta riippumatta sama, kuluu hukka-aikaa x1 T297 R297 T297 min, (12) missä x on skannattujen lomakkeiden lukumäärä. Aikaa siis kuluu yhteensä T297 R297 x1 x Rs T297 (13) x 1 T297 1 Rs 1 R297 missä s on skannattujen lomakkeiden pituus., (14) Minuutissa skannataan siten T297 Rs R297 lomaketta. (15) Yleistetään saatu kaava. Yksittäiseltä skannerilta tunnetaan yllä esitelty epälineaarinen regressiomalli R(s) skannausnopeudelle (lomakkeen pituus s muuttuja) sekä tilastollisella analyysillä saatu nopeus T(L) lomakkeille, joiden pituus on L. Voidaan arvioida, että skannausnopeus lomakkeelle, jonka pituus on s on vs TL Rs RL. (16) Sama pätee muiden skannereiden nopeuksia arvioitaessa. Esimerkiksi, jos tunnetaan skannerin A skannausnopeudet (analysoidut tai kaavalla (16) arvioidut) sekä samantyylisten skannereiden A ja B optimaaliset skannausnopeudet (joko valmistajan ilmoittamina tai itse mittaamalla ja regressiomallin laatimalla), voidaan hukka-ajan vaikutusta arvioida kuten edellä. Perusideana on yhä, että lomaketta kohti kuluu aikaa hukkaan keskimäärin yhtä paljon. v B s R BL 1 R A L 1 v As v Bsv A s 1 v AL 2 v A L 2 R A L 2 (17) Kaavassa siis R B (L 1 ) on joko valmistajan ilmoittama L 1 -pituisen lomakkeen optimaalinen skannausnopeus tai aiemmin laaditun regressiomallin antama ennuste. 12

13 Tästä voidaan ratkaista arvio skannausnopeudelle: v B s v AsR A L 1 R A L 2 v A L 2 R A L 2 v A L 2 R B L 1 R A L 1 R A L 2 R A L 2 1v A L 2. (18) Sekavalta näyttävä kaava toimii siis silloin, kun tunnetaan todelliset skannausnopeudet v A skannerille A sekä regressiomallit tai valmistajan antamat ennusteet R A ja R B skannereille A ja B. IV Tulokset ja johtopäätökset Tuloksia laskettaessa ja arvioita laadittaessa törmättiin lukuisiin erilaisiin ongelmiin. Loppujen lopuksi yksittäisellä skannerilla ei kuukaudessakaan kerry kaikissa töissä niin paljon skannauskertoja, että uskottavia arvioita voitaisiin esittää. Esimerkiksi kerran päivässä skannatusta työstä kertyy kuukaudessa vain hieman yli 20 havaintoa, mikä on lähellä ehdotonta minimimäärää, jos arvioista halutaan luotettavia. Siksi suuri määrä töitä ja/tai paperikokoja jätettiin kokonaan tilastollisesti analysoimatta ja nopeusarviot on pyritty laatimaan muilla menetelmillä. Joissakin töissä jouduttiin suhteellisen suuri määrä havaintopisteitä hylkäämään aineiston normalisoimiseksi, mikä tietenkin vaikuttaa saatuihin tuloksiin. Osaa aineistosta ei saatu normaaliksi pakottamallakaan. Näissä tapauksissa katsottiin järkevämmäksi jättää ennuste tekemättä kuin tehdä se suurella virheriskillä. Kyseiset työt on myös koottu tulostaulukkoon. Jälkikäteen on helppo todeta, että päiväkirjassa olisi pitänyt saada työntekijät erotettua toisistaan, mikä olisi ollut yksinkertaista toteuttaa täysin anonyymistikin. Tällöin olisi selviydytty esimerkiksi kuvan 5 kaltaisista kaksoishuipuista, jotka johtunevat kahden eri skannaajan tehokkuuseroista. Tällaisissa tilanteissa aineisto koostunee käytännössä kahdesta eri normaalijakaumasta. Eräässä työssä hylättiin suuri määrä tuloksia lomakkeiden virheellisen painatuksen vuoksi. Lomakkeiden tunnistamisongelmien syyskuussa aiheuttama nopeuden lasku ei olisi antanut oikeaa kuvaa työn skannausnopeudesta tulevaisuudessa. Lisäksi tietyissä töissä skannausnopeutta arvioitaessa jouduttiin hylkäämään kymmeniä havaintoja, sillä päiväkirjaan ei oltu merkitty skannaajien lukumäärää. 13

14 Epälineaarinen regressiomalli skannereille A ja I Skannereiden optimaalisille skannausnopeuksille laadittiin epälineaariset mallit, joita pyritään hyödyntämään todellisia nopeuksia arvioitaessa. Tässä optimaalinen skannausnopeus tarkoittaa maksiminopeutta, mihin päästään, kun skannaus on täysin keskeytymätöntä ja virheetöntä. A-skannerille saatiin epälineaarinen regressiomalli optimaaliselle skannausnopeudelle resoluutiolla 200 dpi, kun lomakkeen pituus on s R A s s. (19) Mallin selitysaste on R 2 A = eli erinomainen. Vastaava malli resoluutiolla 200 dpi laadittiin myös skannerille I: R I s s. (20) Mallin selitysasteeksi saatiin R 2 I = 0.994, mikä myös on erittäin hyvä. Nopeus ppm 200 Skanneri A:n optimaalinen skannausnopeus 200 dpi mm Pituus Kuvaaja 1. Skanneri A:n optimaalinen skannausnopeus 200 dpi:llä lomakkeen pituuden funktiona. Nopeus ppm 400 Skanneri I:n optimaalinen skannausnopeus 200 dpi mm Pituus Kuvaaja 2. Skanneri I:n optimaalinen skannausnopeus 200 dpi:llä lomakkeen pituuden funktiona. 14

15 Nopeusarviot skannereille A, B ja C Taulukko 1. A-, B- ja C-skannereiden arvioidut skannausnopeudet. Skannerin A arvoista A4-skannausnopeus on saatu tilastollisella analyysillä. Muut A:n nopeudet on arvioitu epälineaarista regressiota sekä kaavaa (16) käyttäen. Muut nopeudet on arvioitu kaavan (18) avulla. Varauksella on suhtauduttava A3-lomakkeiden nopeusarvioihin mahdollisten lomakkeiden syöttöongelmien takia. Skanneri A B C Paperi / Resoluutio 200 dpi 200 dpi 300 dpi 200 dpi 300 dpi A3 15 ppm 17 ppm 9 ppm 26 ppm 23 ppm A4 19 ppm 22 ppm 11 ppm 32 ppm 29 ppm A4K, A5 24 ppm 26 ppm 14 ppm 40 ppm 36 ppm A5K 28 ppm 32 ppm 16 ppm 48 ppm 42 ppm Nopeus ppm Skannereiden A, B ja C todellinen skannausnopeus 200 dpi, arvio C B A mm Pituus Kuvaaja 3. Skannereiden A, B ja C todellinen skannausnopeus resoluutiolla 200 dpi on arvioitu kaavoilla (16) ja (18). On muistettava, etteivät yllä olevat arviot välttämättä ole päteviä suurilla s:n arvoilla (esim. A3) paperin syöttövaikeuksien lisääntyessä. Myös skannattavan materiaalin laatu vaikuttaa nopeuteen. Saadut nopeudet ovatkin tässä vain suuntaa antavia arvioita. Skannerit D ja E Tällä hetkellä skannereita käytetään vain erikoislaatuisissa töissä (esim. jokainen lomake syötettävä yksitellen tai lajiteltava skannatessa), eikä niiden perusteella voida tehdä minkäänlaisia arvioita 15

16 esim. A5-lomakkeiden skannausnopeudesta. Nykyisten töiden skannausnopeuksia on koottu taulukkoon 3 sekä työkaluun, jolla voi arvioida nykyisiä skannausnopeuksia. Skanneri F Koska skanneri on tällä hetkellä vain koekäytössä, ei sille kuukauden aikana kertynyt tarpeeksi tilastollista aineistoa, jonka perusteella voitaisiin luotettavasti arvioida skannerin nopeutta tai tehokkuutta. Koska skannerin nopeus suhteessa muihin on kuitenkin tulevaisuuden hankintoja arvioidessa kiinnostavaa tietoa, jatketaan tietojen keräämistä kyseisellä skannerilla, jotta arviot saadaan myöhemmin esitettyä. Nopeusarviot skannereille G, H ja I Taulukko 2. Skannereiden G, H ja I arvioidut skannausnopeudet. A4K-skannausnopeus 200 dpi:llä on saatu tilastollisella analyysillä. Muut nopeudet on arvioitu kaavan (16) avulla. Nopeudet ovat 240 ja 300 dpi:llä samat, sillä kyseisillä resoluutioilla valmistajan ilmoittama optimaalinen skannausnopeus on sama. Varauksella on suhtauduttava A3-lomakkeiden nopeusarvioihin mahdollisten lomakkeiden syöttöongelmien takia. Paperi/Resoluutio 200 dpi 240 dpi 300 dpi 400 dpi A3 40 ppm 27 ppm 27 ppm 15 ppm A4 47 ppm 32 ppm 32 ppm 18 ppm A4K, A5 55 ppm 38 ppm 38 ppm 21 ppm A5K 65 ppm 44 ppm 44 ppm 25 ppm Nopeus ppm 200 Skannereiden G, H ja I todellinen skannausnopeus 200 dpi, arvio mm Pituus Kuvaaja 4. Skannereiden G, H ja I todellinen skannausnopeus resoluutiolla 200 dpi on arvioitu kaavoilla (16) ja (18). On kuitenkin muistettava, ettei arvio välttämättä ole pätevä suurilla s:n arvoilla (esim. A3) tai huonoilla materiaaleilla (esim. ohut tai toisiinsa tarttuva lomake). 16

17 Saatuihin tietoihin on syytä suhtautua pienellä varauksella. Esimerkiksi A3-lomakkeissa usein oleva taite aiheuttaa lomakkeiden tarrautumista toisiinsa, mikä vaikeuttaa skannausta. Lisäksi materiaalin huono laatu voi hidastaa skannaajan työtä. Jos yllä olevalla käyrällä pyritään määrittämään eräiden nykyisten töiden skannausaikoja, huomataan, että todelliset nopeudet ovat pääosin kuvaajan 4 antamaa arviota huomattavasti hitaampia. Huono materiaali on todennäköisesti pääsyy eroihin. Taulukkoon ja kuvaajaan voidaan luottaa paremmin, kun tiedetään paperin olevan jotakuinkin normaalia, taitteetonta ja toisiinsa tarttumatonta. Skannereiden nopeudet normaalissa työkäytössä verrattuna valmistajan ilmoittamiin teoreettisiin arvoihin Taulukko 3. Skannereiden todellisten keskinopeuksien vertailu valmistajan ilmoittamiin nopeuksiin. Nämä tulokset on kerrottu eri satunnaisluvulla kuin varsinaiset nopeustulokset. Skanneri Resoluutio Paperikoko Nopeus, % valmistajan ilmoittamasta A 200 dpi A % 200 dpi A4K 45.8 % B 200 dpi A % 200 dpi A4K 68.1 % 300 dpi A % 300 dpi A4K 56.2 % C 200 dpi A % 200 dpi A4K 68.0 % 300 dpi A % 300 dpi A4K 68.0 % D ja E 200 dpi A4K 39.0 % 300 dpi A4K Ei tiedossa F 200 dpi A4K Ei tiedossa G, H ja I 200 dpi A4K 70.3 % 240 dpi A4K 72.0 % 300 dpi A4K 72.0 % 400 dpi A4K 72.3 % Yllä olevasta taulukosta nähdään, ettei maksiminopeuksia oikeasti työskennellessä saavuteta, eikä yhdelläkään skannerilla päästä edes lähelle teoreettisia arvoja. Tämä on tietenkin täysin odotettavissa, kun aikaa kuluu mm. putsauksiin, häiriöihin ja tunnistamattomien lomakkeiden uudelleen skannaamiseen. Kuitenkin D- ja E-skannereilla ei päästä kuin hieman yli kolmannekseen luvatusta nopeudesta. Lähinnä huonon materiaalin skannaamiseen käytetyt skannerit eivät siten tämän tilaston perusteella sovellu suurien lomakemäärien tehokkaaseen lukemiseen. 17

18 Nykyisten töiden skannausnopeuksia Taulukko 4. Erittely töistä, joiden skannausnopeudet pyrittiin määrittämään tilastollisilla testeillä. K-kirjain paperikoon perässä tarkoittaa kylki edellä skannausta. Hyväksyttyjen havaintojen lukumäärän kasvaessa testin luotettavuus paranee. Shapiro-Wilkin W-testin P-arvo on sitä lähempänä arvoa 1, mitä lähempänä aineisto on normaalijakaumaa. Suuri P-arvo on siten yksi testin luotettavuutta kuvaavista arvoista. Jos P-arvo on alle 0.05, skannausnopeutta ei voida arvioida edellä kuvatulla tavalla. Skannausnopeus ja sen luottamusväli kuvaavat sitä väliä, jolle skannausnopeuden keskiarvo pitkällä aikavälillä todennäköisesti asettuu. Yleisimmin tilastollisessa analyysissä käytetään 95 %:n luottamusväliä, jolloin yksi 20:stä ennusteesta epäonnistuu. On kuitenkin muistettava, että esim. työntekijän, olosuhteiden tai skannausohjelmiston vaihto voi muuttaa tulevaisuuden tuloksia. Skanneri Paperi / Työn nimi Skannausnopeus (ppm) Havaintojen lkm S-W:n P-arvo Luot.väli Alaraja Yläraja 90 % A % % % A % A 99 % % A5 tai pienempi % % Tulokset A5K eivät norm.jak. Tulokset Työ 32 eivät norm.jak. 90 % Työ % % % D ja E A4K % % % Työ 10, 1 skannaaja % % % Työ 10, 2 skannaajaa % % Tulokset A4K eivät B norm.jak. 90 % Työ % %

19 Taulukko 4. (jatkoa) Skanneri Paperi / Työn nimi Skannausnopeus (ppm) Havaintojen lkm S-W:n P-arvo Luot.väli Alaraja Yläraja 90 % Työ % C 99 % % Lipukekoko % % % A % F 99 % Tulokset A4 eivät norm.jak. 90 % A4K % % % Työ % % Työ % (kannet eivät % mukana sivumäärissä) 99 % % Työ % G, H ja I 99 % % Työ % % % Työ % % % Työ % % Työ % (kannet mukana % sivumäärissä) 99 % Esimerkiksi skannerilla G työn 27 skannausnopeuden keskiarvo pitkällä aikavälillä (esim. 3 kuukautta) asettuu 95 %:n todennäköisyydellä välille sivua minuutissa. Shapiro-Wilkin P-arvo lupaa myös hyvää arviota, vaikka havaintojen lukumäärä on melko alhainen. Vaikka kohtuullinen määrä pisteitä hylättäisiinkin, ei aineistoa kaikkien töiden osalta millään saada normaalijakautuneeksi. 19

20 Mukaan on malliksi laitettu myös arvio A-skannerin A3-skannausnopeudesta. Yhdeksän havainnon perusteella arvioitu 99 %:n luottamusväli on todella leveä (yläraja > 2*alaraja), eikä siihenkään välttämättä kannata luottaa. Varauksella on suhtauduttava myös ainoaan F-skannerille saatuun tulokseen havaintojen jakauman ja lukumäärän takia. Yhtäkään havaintoa ei vähäisen aineiston takia voitu hylätä. Skannereilla G, H ja I huima ero samantyylisten töiden 20 ja 27 skannausnopeuksissa aiheutuu ainakin osittain siitä, että työssä 27 skannattujen lomakkeiden kappalemääriin on laskettu mukaan lajiteltujen nippujen välissä olevat kannet. Työssä 20 kannet eivät kasvata ohjelmiston ilmoittamien skannattujen lomakkeiden lukumäärää. Siten nopeuslukemat eivät ole keskenään vertailukelpoisia, mutta molempia arvoja voidaan hyödyntää, kunhan edellä mainitut tekijät muistetaan huomioida. Huomiota kannattaa kiinnittää myös työn 8 nopeuteen C-skannerilla ja verrata sitä vastaavantyylisten lipukkeiden nopeuksiin teoreettisesti nopeammilla G-, H- ja I-skannereilla. Syitä nopeuseroon voidaan hakea materiaalieroista tai skannaajasta. Mahdollista on myös, että skanneri C yksinkertaisesti soveltuu paremmin pienten lipukkeiden skannaamiseen. Häiriöt, tauot ja käyttöasteet Taulukko 5. Erittely skannereiden nykyisestä käyttöasteesta sekä erilaisten häiriöiden osuuksista. Taulukkoa luettaessa on muistettava huomioida, että myös työntekijän ollessa tauolla tulkitaan skanneri varatuksi. Tietoturvasyistä skannausten ja ongelmien kestot on jouduttu julkisessa versiossa mustaamaan. Skanneri A B C D E F G H I Skanneri vapaana 106:25 95:02 104:18 90:55 40:38 56:24 26:50 16:15 73:26 Skanneri varattu 25:43 83:56 59:26 238:21 242:13 36:12 213:14 234:43 214:33 Työpäivien määrä Työpäivän keskipituus 5:30 7:27 7:07 14:19 12:18 4:52 11:26 11:24 13:05 Skanneri vapaana / pv, ka 4:26 3:58 4:32 3:57 1:46 2:58 1:17 0:44 3:20 Skanneri varattu / pv, ka 1:04 3:29 2:35 10:22 10:32 1:54 10:09 10:40 9:45 Putsaukset 2:31 7:53 0:52 9:31 5:18 0:33 2:45 2:02 8:01 Osuus skannausajasta 9.79 % 9.39 % 1.46 % 3.99 % 2.19 % 1.52 % 1.29 % 0.87 % 3.74 % Tukokset 0:18 0:13 0:00 2:05 5:23 0:47 2:25 3:13 2:17 Osuus skannausajasta 1.17 % 0.26 % 0.00 % 0.87 % 2.22 % 2.16 % 1.13 % 1.37 % 1.06 % Muut viat ja häiriöt 0:56 0:30 0:52 2:39 1:38 1:51 3:40 2:56 1:45 Osuus skannausajasta 3.63 % 0.60 % 1.46 % 1.11 % 0.67 % 5.11 % 1.72 % 1.25 % 0.82 % Tauot (myös välttämättömät, skannaajasta riippumattomat 1:32 13:35 8:54 32:21 37:42 5:10 41:02 39:18 25:36 tauot, esim. viikkopalaveri) Osuus skannausajasta 5.96 % % % % % % % % % Varsinaisen skannauksen osuus ajasta, jonka skanneri on ollut % % % % % % % % % varattu Skanneri vapaana % % % % % % % 6.47 % % 20

21 Työpäivän pituus tarkoittaa taulukossa aikaa aamun ensimmäisestä illan viimeiseen skannaukseen. Työpäivien määrä on niiden päivien lukumäärä, joina skanneria on käytetty. Kovimmassa käytössä ovat skannerit D ja E sekä G, H ja I. Käytännössä siis miltei pelkkään työn 10 skannaamiseen tarvitaan täyspäiväisesti kahta tehokasta skanneria. Noin 20 % ajasta, jonka skanneri on varattu, kuluu taukoihin ja erilaisiin häiriöihin. Putsaukseen kuluu eniten aikaan vanhoilla A- ja B-skannereilla. B-skannerilla on huomioitava, että osa sillä skannattavista töistä on poikkeuksellisen likaavia. F-skannerilla tarkemmin määrittelemättömien häiriöiden osuus on muita suurempi lähinnä multi feed ongelmista johtuen. Tukokset eivät ole kovin suuri tekijä skannauksen hidastamisessa. Eniten vaivaa ne aiheuttavat D- ja E-skannereilla, mutta syynä tähänkin on skannereilla skannattavien töiden poikkeuksellisuus. Koska tukoksen poistaminen on usein nopea toimenpide, ei kaikkia tukoksia ole välttämättä päiväkirjaan merkitty. Tilastojen mukaan C-skannerilla ei epäilyttävästi ole yli 59 tunnissa tullut yhtäkään tukosta. Taukoja pidetään G-skannerilla lähes kaksi kertaa niin paljon kuin samankaltaisella I:llä, vaikka molemmat skannerit ovat päivässä yhtä pitkään varattuja. On kuitenkin muistettava, että luvuissa ovat mukana myös välttämättömät, skannaajasta riippumattomat tauot kuten lomakkeiden esikäsittely sekä odottelu, joka on kulunut skannerin ollessa lainassa toiselle työntekijälle. Skannereista useimmin vapaina ovat vanhimmat skannerit A, B ja C. V Yhteenveto Tällä hetkellä monen skannerin käyttöaste on melko korkea. Uusimmilla skannereilla työpäivän keskipituus lähenee ja osin jopa ylittää puoli vuorokautta. Siitä ajasta skanneri seisoo täysin käyttämättömänä vain noin tunnin. Skannerilla I näyttäisi vielä olevan jonkin verran vapaata aikaa. Eniten lisää skanneriaikaa saadaan irti kaikkein vanhimmista laitteista. Tietysti tehokkainta onkin käyttää nopeimpia laitteita mahdollisimman paljon. Tällä hetkellä näyttäisi siltä, että suuria uusia töitä otettaessa merkittävästi lisää skannausaikaa saadaan vain uutta laitteistoa tai ilta- ja yötöitä lisäämällä. Yksi vaihtoehto on palata käyttämään enemmän myös vanhoja skannereita A, B ja C. Näistä etenkin skanneri C näyttäisi edelleen olevan jossain määrin kilpailukykyinen skannerikolmikkoon G-I verrattuna. Halvempaan hintaluokkaan kuuluvien F-skannereiden vertailu skannereihin G, H ja I on käytettävissä olevan aineiston avulla vaikeaa. Koekäytössä olevasta F:stä tarvitaan huomattavasti lisää havaintoja, ennen kuin järkeviä päätelmiä voidaan esittää. 21

22 Sama pätee myös pitkiin toimintahäiriöihin, jotka ovat melko harvinaisia. Päiväkirjaa isoista huolloista ja pitkään kestäneistä jaksoista, jolloin skanneria ei ole voitu käyttää pidetään edelleen. Tämän raportin lisäksi on laadittu Excel-työkalu, jolla voidaan arvioida skannaukseen kuluvaa aikaa eri skannereilla ja resoluutioilla lomakkeiden koon ja lukumäärän funktiona. Vaihtoehtoisesti voidaan myös arvioida nykyisiin töihin kuluvaa aikaa lomakkeiden lukumäärän perusteella. Alla vielä yhteenvetona eri skannereiden skannausnopeuksia koottuna samaan taulukkoon. Taulukko 6. Nykyisien töiden tilastollisella analyysillä arvioituja skannausnopeuksia. Skanneri Paperikoko / Työn nimi Keskiskannausnopeus A A ppm A5 tai pienempi 21.6 ppm B Työ ppm C Työ ppm Lipukekoko 26.0 ppm D ja E A4K 16.2 ppm Työ 10, 1 skannaaja 8.2 ppm Työ 10, 2 skannaajaa 14.1 ppm Työ ppm F A ppm G, H ja I A4K 55.2 ppm Työ ppm Työ 20 (kannet eivät mukana sivumäärissä) 9.2 ppm Työ ppm Työ ppm Työ ppm Työ ppm Työ 27 (kannet mukana sivumäärissä) 20.5 ppm Taulukko 7. Skannereille kaavoilla (16) ja (18) arvioituja keskinopeuksia. Varauksella on suhtauduttava A3- nopeuksiin mahdollisten lomakkeiden syöttöongelmien vuoksi. Skannereille D, E ja F ei käytettävissä olevan aineiston avulla voida esittää perusteltuja nopeusarvioita. Skanneri A B C G, H ja I Paperi/Resoluutio 200 dpi 200 dpi 300 dpi 200 dpi 300 dpi 200 dpi 240 dpi 300 dpi 400 dpi A3 15 ppm 17 ppm 9 ppm 26 ppm 23 ppm 40 ppm 27 ppm 27 ppm 15 ppm A4 19 ppm 22 ppm 11 ppm 32 ppm 29 ppm 47 ppm 32 ppm 32 ppm 18 ppm A4K, A5 24 ppm 26 ppm 14 ppm 40 ppm 36 ppm 55 ppm 38 ppm 38 ppm 21 ppm A5K 28 ppm 32 ppm 16 ppm 48 ppm 42 ppm 65 ppm 44 ppm 44 ppm 25 ppm 22

23 VI Lähteet [1] NCSS Help System: Normality Tests Section Descriptive Statistics Copyright 2004 by Jerry Hinze [2] - EQ 2-24 [3] MAOL-taulukot, s uudistettu painos MAOL ry. ja Otava

24 Liite 1. Esimerkki skannauspäiväkirjasta. Tietoturvasyistä osa merkinnöistä on jouduttu peittämään. 24

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

2. TILASTOLLINEN TESTAAMINEN...

2. TILASTOLLINEN TESTAAMINEN... !" # 1. 1. JOHDANTO... 3 2. 2. TILASTOLLINEN TESTAAMINEN... 4 2.1. T-TESTI... 4 2.2. RANDOMISAATIOTESTI... 5 3. SIMULOINTI... 6 3.1. OTOSTEN POIMINTA... 6 3.2. TESTAUS... 7 3.3. TESTIEN TULOSTEN VERTAILU...

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

Järvitesti Ympäristöteknologia T571SA 7.5.2013

Järvitesti Ympäristöteknologia T571SA 7.5.2013 Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä.

Lisätiedot

Matemaatikot ja tilastotieteilijät

Matemaatikot ja tilastotieteilijät Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat

Lisätiedot

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi. 10.11.2006 1. Pituushyppääjä on edellisenä vuonna hypännyt keskimäärin tuloksen. Valmentaja poimii tämän vuoden harjoitusten yhteydessä tehdyistä muistiinpanoista satunnaisesti kymmenen harjoitushypyn

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus Mitä jäi mieleen viime viikosta? Mitä mieltä olet tehtävistä, joissa GeoGebralla työskentely yhdistetään paperilla jaettaviin ohjeisiin

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Esimerkki 1: auringonkukan kasvun kuvailu

Esimerkki 1: auringonkukan kasvun kuvailu GeoGebran LASKENTATAULUKKO Esimerkki 1: auringonkukan kasvun kuvailu Auringonkukka (Helianthus annuus) on yksivuotinen kasvi, jonka varren pituus voi aurinkoisina kesinä hyvissä kasvuolosuhteissa Suomessakin

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾. 24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ

Lisätiedot

Otantajakauman käyttö päättelyssä

Otantajakauman käyttö päättelyssä Keskiarvo otatajakauma Toisistaa tietämättä kaksi tutkijaa tutkii samaa ilmiötä, jossa perusjoukko koostuu kuudesta tutkittavasta ja tarkoituksea o laskea keskiarvo A: Kokoaistutkimus B: Otatatutkimus

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO Aki Taanila YHDEN SELITTÄJÄN REGRESSIO 26.4.2011 SISÄLLYS JOHDANTO... 1 LINEAARINEN MALLI... 1 Selityskerroin... 3 Excelin funktioita... 4 EKSPONENTIAALINEN MALLI... 4 MALLIN KÄYTTÄMINEN ENNUSTAMISEEN...

Lisätiedot

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli

Lisätiedot

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS...

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 2. TODENNÄKÖISYYS... Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN... 8 1.1 INDUKTIO JA DEDUKTIO... 9 1.2 SYYT JA VAIKUTUKSET... 11 TEHTÄVIÄ... 13

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhearviointi Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhelajit A. Tilastolliset virheet= satunnaisvirheet, joita voi arvioida tilastollisin menetelmin B. Systemaattiset virheet = virheet, joita

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot Sievin lukio Tehtävien ratkaisut tulee olla esim. Libre officen -writer ohjelmalla tehtyjä. Liitä vastauksiisi kuvia GeoGebrasta ja esim. TI-nSpire

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Juuri 0 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 9..08 Kertaus K. a) Alapaineiden pienin arvo on ja suurin arvo 74, joten vaihteluväli on [, 74]. b) Alapaineiden keskiarvo on 6676870774

Lisätiedot

METEORIEN HAVAINNOINTI III VISUAALIHAVAINNOT 3.1 YLEISTÄ

METEORIEN HAVAINNOINTI III VISUAALIHAVAINNOT 3.1 YLEISTÄ 23 METEORIEN HAVAINNOINTI III VISUAALIHAVAINNOT 3.1 YLEISTÄ Tässä metodissa on kyse perinteisestä. luettelomaisesta listaustyylistä, jossa meteorit kirjataan ylös. Tietoina meteorista riittää, kuuluuko

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

MATEMATIIKKA 5 VIIKKOTUNTIA. PÄIVÄMÄÄRÄ: 8. kesäkuuta 2009

MATEMATIIKKA 5 VIIKKOTUNTIA. PÄIVÄMÄÄRÄ: 8. kesäkuuta 2009 EB-TUTKINTO 2009 MATEMATIIKKA 5 VIIKKOTUNTIA PÄIVÄMÄÄRÄ: 8. kesäkuuta 2009 KOKEEN KESTO: 4 tuntia (240 minuuttia) SALLITUT APUVÄLINEET: Eurooppa-koulun antama taulukkovihkonen Funktiolaskin, joka ei saa

Lisätiedot

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4 1. JOHDANTO TILASTOLLISEEN PÄÄTTELYYN...6 1.1 INDUKTIO JA DEDUKTIO...7 1.2 SYYT JA VAIKUTUKSET...9

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle Tilastollisen analyysin perusteet Luento 4: Sisältö Testiä suhteelliselle voidaan käyttää esimerkiksi tilanteessa, jossa tarkastellaan viallisten tuotteiden osuutta tuotantoprosessissa. Tilanne palautuu

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014 1 MTTTP3 Tilastollisen päättelyn perusteet 2 Luennot 8.1.2015 ja 13.1.2015 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=6909&i dx=5&uilang=fi&lang=fi&lvv=2014

Lisätiedot

Laskun vaiheet ja matemaattiset mallit

Laskun vaiheet ja matemaattiset mallit Laskun vaiheet ja matemaattiset mallit Jukka Sorjonen sorjonen.jukka@gmail.com 28. syyskuuta 2016 Jukka Sorjonen (Jyväskylän Normaalikoulu) Mallit ja laskun vaiheet 28. syyskuuta 2016 1 / 22 Hieman kertausta

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Otoskoon arviointi. Tero Vahlberg

Otoskoon arviointi. Tero Vahlberg Otoskoon arviointi Tero Vahlberg Otoskoon arviointi Otoskoon arviointi (sample size calculation) ja tutkimuksen voima-analyysi (power analysis) ovat tilastollisen tutkimuksen suunnittelussa keskeisiä kysymyksiä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Otoskoko 107 kpl. a) 27 b) 2654

Otoskoko 107 kpl. a) 27 b) 2654 1. Tietyllä koneella valmistettavien tiivisterenkaiden halkaisijan keskihajonnan tiedetään olevan 0.04 tuumaa. Kyseisellä koneella valmistettujen 100 renkaan halkaisijoiden keskiarvo oli 0.60 tuumaa. Määrää

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto Kynä-paperi -harjoitukset Taina Lehtinen 43 Loput ratkaisut harjoitustehtäviin 44 Stressitestin = 40 s = 8 Kalle = 34 pistettä Ville = 5 pistettä Z Kalle 34 8 40 0.75 Z Ville 5 8 40 1.5 Kalle sijoittuu

Lisätiedot

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) 805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016) Tavoitteet (teoria): Hallita autokovarianssifunktion ominaisuuksien tarkastelu. Osata laskea autokovarianssifunktion spektriiheysfunktio. Tavoitteet

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen Tilastollisen analyysin perusteet Luento 5: Sisältö Tilastotieteessä tehdään usein oletuksia havaintojen jakaumasta. Useat tilastolliset menetelmät toimivat tehottomasti tai jopa virheellisesti, jos jakaumaoletukset

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1 Estimointi - tehdään päätelmiä perusjoukon ominaisuuksista (keskiarvo, riskisuhde jne.) otoksen perusteella - mitä suurempi otos, sitä tarkemmat estimaatit Otokseen perustuen määritellään otantajakaumalta

Lisätiedot

Aluksi. 1.1. Kahden muuttujan lineaarinen yhtälö

Aluksi. 1.1. Kahden muuttujan lineaarinen yhtälö Aluksi Matematiikan käsite suora on tarkalleen sama asia kuin arkikielen suoran käsite. Vai oliko se toisinpäin? Matematiikan luonteesta johtuu, että sen soveltaja ei tyydy pelkkään suoran nimeen eikä

Lisätiedot

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014 Yhtälönratkaisusta Johanna Rämö, Helsingin yliopisto 22. syyskuuta 2014 Yhtälönratkaisu on koulusta tuttua, mutta usein sitä tehdään mekaanisesti sen kummempia ajattelematta. Jotta pystytään ratkaisemaan

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Epävarmuuden hallinta bootstrap-menetelmillä

Epävarmuuden hallinta bootstrap-menetelmillä 1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015 2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn

Lisätiedot

Luottamusvälit. Normaalijakauma johnkin kohtaan

Luottamusvälit. Normaalijakauma johnkin kohtaan Luottamusvälit Normaalijakauma johnkin kohtaan Perusjoukko ja otanta Jos halutaan tutkia esimerkiksi Suomessa elävien naarashirvien painoa, se voidaan (periaatteessa) tehdä kahdella tavalla: 1. tutkimalla

Lisätiedot

Kliininen arviointi ja kliininen tieto mikä riittää?

Kliininen arviointi ja kliininen tieto mikä riittää? Kliininen arviointi ja kliininen tieto mikä riittää? Riittävä tutkimuksen otoskoko ja tulos Timo Partonen LT, psykiatrian dosentti, Helsingin yliopisto Ylilääkäri, Terveyden ja hyvinvoinnin laitos Tutkimuksen

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Ka6710000 TILASTOLLISEN ANALYYSIN PERUSTEET 2. VÄLIKOE 9.5.2007 / Anssi Tarkiainen Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1. a) Gallupissa

Lisätiedot