2. Mittaus ja data 2.1. Johdanto. 2.2. Mittaustyypit



Samankaltaiset tiedostot
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Tilastolliset menetelmät: Tilastolliset testit

Sormenjälkimenetelmät

n = 100 x = %:n luottamusväli µ:lle Vastaus:

Epäyhtälöoppia matematiikkaolympialaisten tehtäviin

TILASTOT: johdantoa ja käsitteitä

Solmu 3/ toteutuu kaikilla u,v I ja λ ]0,1[. Se on aidosti konveksi, jos. f ( λu+(1 λ)v ) < λf(u)+(1 λ)f(v) (2)

Valvontakortit. Sovelletun Matematiikan Erikoistyö. Pastinen Tommi

Äärettämän sarjan (tai vain sarjan) sanotaan suppenevan eli konvergoivan, jos raja-arvo lims

Tilastollinen todennäköisyys

4.3 Signaalin autokorrelaatio

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

EX1 EX 2 EX =

SMG-4200 Sähkömagneettisten järjestelmien lämmönsiirto Ehdotukset harjoituksen 6 ratkaisuiksi

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Harjoitustehtävien ratkaisuja

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Mat Sovellettu todennäköisyyslasku. Tilastolliset testit. Avainsanat:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

Tunnuslukuja 27 III TUNNUSLUKUJA

Otantajakauman käyttö päättelyssä

3 10 ei ole rationaaliluku.

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

S Laskennallinen systeemibiologia

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

9.7 Matriisinormit. Vaasan yliopiston julkaisuja 225. Ei siis lainkaan ongelmia defektiivisyydestä.

Tehtäviä neliöiden ei-negatiivisuudesta

8. laskuharjoituskierros, vko 11, ratkaisut

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Kertaa tarvittaessa induktiota ja rekursiota koskevia tietoja.

Esimerkki 2 (Kaupparatsuongelma eli TSP)

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Diskreetin Matematiikan Paja Ratkaisuja viikolle 4. ( ) Jeremias Berg. n(n + 1) 2. k =

1 Eksponenttifunktion määritelmä

Seuraavat peruslauseet 1-8 voidaan helposti todistaa integraalin määritelmästä. Integroimisjoukko R oletetaan rajoitetuksi Jordanmitalliseksi

Matematiikan tukikurssi

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

2.5. Eksponenttifunktio ja eksponenttiyhtälöt

10 Kertolaskusääntö. Kahta tapahtumaa tai satunnaisilmiötä sanotaan riippumattomiksi, jos toisen tulos ei millään tavalla vaikuta toiseen.

Lasketaan kullekin a euron maksuerälle erikseen, kuinka suureksi erä on n vuodessa kasvanut:

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

4.7 Todennäköisyysjakaumia

Digitaalinen signaalinkäsittely Signaalit, jonot

Matematiikan tukikurssi

Mat Sovellettu todennäköisyyslasku A

Insinöörimatematiikka IA

Kuluttajahintaindeksi (KHI) Kuluttajahintaindeksi (KHI) Kysymys Miten mitata rahan arvon muutoksia?

Markov-ketjun hetkittäinen käyttäytyminen

Mat Tilastollisen analyysin perusteet, kevät 2007

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

MATP153 Approbatur 1B Harjoitus 1, ratkaisut Maanantai

Ryhmän osajoukon generoima aliryhmä ja vapaat ryhmät

Osa 2: Otokset, otosjakaumat ja estimointi

pq n s n Kyllä Ei N Jäsenyys 5,4% 94.6 % 1500 Adressi 21,6% 78.4 % 1495 Lahjoitus 23,7% 76.3 % 1495 Mielenosoitus 1,1% 98.9 % 1489

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

Yhden selittäjän lineaarinen regressiomalli

Ehdollinen todennäköisyys

Luento 7 Luotettavuus Koherentit järjestelmät

2 avulla. Derivaatta on nolla, kun. g( 3) = ( 3) 2 ( 3) 5 ( 3) + 6 ( 3) = 72 > 0. x =

Luento 6 Luotettavuus Koherentit järjestelmät

811312A Tietorakenteet ja algoritmit, , Harjoitus 4, Ratkaisu

Matematiikan tukikurssi. Kertausta 1. välikokeeseen. Tehtävät

Testejä suhdeasteikollisille muuttujille

3.2 Polynomifunktion kulku. Lokaaliset ääriarvot

Oppimistavoite tälle luennolle

Otannasta ja mittaamisesta

811312A Tietorakenteet ja algoritmit , Harjoitus 1 ratkaisu

Otoskoko 107 kpl. a) 27 b) 2654

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

Matematiikan tukikurssi

Johdatus todennäköisyyslaskentaan Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 1

LIITE 1 VIRHEEN ARVIOINNISTA

Teoria. Tilastotietojen keruu

Tilastotieteen perusteet

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

1. osa, ks. Solmu 2/ Kahden positiivisen luvun harmoninen, geometrinen, aritmeettinen ja + 1 u v 2 1

5. Lineaarisen optimoinnin perusprobleemat

LIITE 1 VIRHEEN ARVIOINNISTA

ja läpäisyaika lasketaan (esim) integraalilla (5.3.1), missä nyt reitti s on z-akselilla:

MATEMATIIKAN JA TILASTOTIETEEN LAITOS

DEE Sähkömagneettisten järjestelmien lämmönsiirto

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Kompleksiluvut. Johdanto

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

****************************************************************** ****************************************************************** 7 Esim.

Työ 55, Säteilysuojelu

5.3 Matriisin kääntäminen adjungaatilla

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

Transkriptio:

2. Mittaus ja data 2.. Johdato Voidaksemme keksiä tosimaailma relaatioita tarkastelemme sitä kuvaavaa dataa, jote esiksi selvitämme, mitä data perimmiltää o. Data kerätää kuvaamalla mielekiitoaluee oliot eli etiteetit symbolisiksi esityksiksi joki mittausmeetelmä avulla, joka liittää muuttuja arvo olio aettuu omiaisuutee. Kohteide väliset suhteet esitetää umeerisilla relaatioilla muuttujie välillä. Numeeriset esitykset, data-alkiot, talletetaa datajoukkoo, ja juuri e ovat tiedolouhia subjekteja, iitä, joista jotaki todetaa. Mittausprosessi o keskeie. Sitä tutkitaa luvussa 2.2. 2. luku 28 Luvussa 2.3. pohditaa kahde kohtee välise etäisyyde käsitettä käyttäe kohteista mitattuja vektoreita.tehdyt raakamittaukset saattavat olla tai olla olematta sopivia suoraa tiedolouhitaa. Luku 2.4. käsittelee suppeasti ee tiedolouhitaa datalle tarvittaessa tehtäviä muuoksia. Kute halutaa välttää data keräystavasta aiheutuvia keiotekoisia vaikutteita, ii samoi o estettävä data määrittely vaikutus mahdolliste löydöste omiaisuuksii. Luvussa 2.5. tarkastellaa suppeasti käsitettä datamalli, sille a priori määrättyä rakeetta. Mikää data ei ole täydellistä. Mittausvirhe, puuttuva data, otosvääristymä, ihimilliset virheet ja muut tekijät pilaavat dataa. Ku tiedolouhiassa etsitää epätavallisia hahmoja, o tärkeää ottaa huomioo uo epätäydellisyydet. Ei haluta perustaa johtopäätöksiä hahmoihi, jotka heijastavat virheitä datakeräyksessä. Luvut 2.6. ja 2.7. käsittelevät laatua tässä mielessä. 2. luku 29 2.2. Mittaustyypit Mittauksia tyypitetää iide esitystava tai käytö mukaa. Pohdiskellaa esimerkiomaisesti PAINON (käytetää omiaisuude imessä isoja kirjaimia ja sitä vastaavassa muuttujassa pieiä) mittaamista. Olkoo kohteet kivikokoelma. Kivet ovat järjestettävissä PAINON mukaa. Niitä voitaisii asettaa pareittai vaakakuppeihi ja katsoa, kumpi o paiavampi. Täte voitaisii kulleki määrätä joki luku, joka kuvaisi paiojärjestystä suhteessa toisii. Tällöi luku 2 ei kuitekaa tarkoittaisi, että luvulla 4 merkitty kivi olisi edellise kuvaamaa kivee verrattua kaksikertaie paioltaa. Niipä mikä tahasa mootoie (järjestykse säilyttävä) lukujoo olisi tässä kelvollie. 2. luku 30 Sijoitetaa yksi iso kivi toisee vaakakuppii ja kaksi pietä toisee ii, että vaaka o tasapaiossa. Siis kaksi pietä ovat (yllätyksettömästi) yhde iso paioisia. Voidaa kuvata ämä luvuilla myös ii, että järjestykse lisäksi kahde piee kive lukuje summa o yhtä kui suure lukuarvo. Nytkää lukuesitykset eivät ole yksikäsitteisiä. Esim. pieille luvut 2 ja 3 sekä suurelle 5 toteuttavat tämä, mutta ii toteuttavat myös 4, 6 ja 0 vastaavasti. Numeerie esitys heijastaa tutkittava systeemi empiirisiä omiaisuuksia. Kivie väliset suhteet PAINON tapauksessa vastaavat suhteita mitatu muuttuja paio arvoje välillä. Esitykse ojalla voidaa tehdä päätelmiä fysikaalisesta systeemistä. 2. luku 3

Kiviesimerkki käsittää kaksi suhdetta: kivie järjestys ja iide yhdistelyomiaisuus. Muut empiiriset systeemit saattavat sisältää vähemmä tai eemmä kui kaksi suhdetta. Järjestysrelaatio o hyvi tavallie. Jos o vai yksi relaatio, se o järjestys. Esim. lääketieteessä taudeilla o vakavuusasteita. Järjestysrelaatio ei useikaa ole riittävä, sillä mm. omiaisuuksilla HIUSTENVÄRI, USKONTO ja OHJELMOIJAN ASUNTO ei ole luoollista järjestystä. Lukuja voidaa silti käyttää esittämää omiaisuuksie arvoja, kute vaalea =, musta = 2, ruskea = 3 je., mutta aioa empiirie suhde tässä o värie erilaisuus. Eipä tässäkää lukuesitys ole yksikäsitteie. Tätä helposti ogelmia aiheuttavaa yksikäsitteisyyde puutetta o rajoitettava. Kivie tapauksessa yksikertaista olisi käyttää iide paioja paioyksikköiä mitattuia. Mittaustyyppejä voidaa tyypittää säilytettävie empiiriste suhteide perusteella, mutta iitä voidaa kuvata myös muuoste suhtee, jotka johtavat iistä käyttökelpoisee umeerisee esitysmuotoo. Numeerie asteikko o äi aettavissa tautie vakavuusasteikoksi, kuha iide välie järjestys säilytetää, ts. o sovellettava mootoista muuosta. Tällaisia asteikkoja kutsutaa järjestysasteikoiksi. Jos kiviesimerkissä käytettäisii kiville 2, 3 ja 5 muuosta, jolla e kuvattaisiiki arvoilla e 2, e 3 ja e 5, empiirie suhde voitaisii yt kuvata yhtälöllä e 2 e 3 = e 5 käyttäe kertomista. Tosi yhteelasku o yksikertaisempaa suositeltavampi. Koska suhde säilyy täte oikeaa, kysymys o suhdeasteikosta. Hiusteväriä esitettäessä ei lukuje suuruusarvolla ole muuta merkitystä kui, että e erottavat värit toisistaa. Kysymys o omiaaliasteikosta. 2. luku 32 2. luku 33 O olemassa muitaki asteikkoja riippue soveltuvista muuoksista. Yksi o välimatka-asteikko. Tälle o mahdollista mittayksikö vaihto vakiolla kertomalla tai lisäämällä mielivaltaie vakio. Esimerkkeiä käyvät lämpötila (Celcius ja Fahreheit) ja kaleteriaika. Eri mittausasteikoide perusta o tärkeää tutea, jotta voidaa luottaa tiedolouhiassa löydettyje hahmoje aitoutee. O helppo keksiä esimerkki mm. tautie vakavuustapauksesta, jossa voi erilaisilla umeerisilla esityksillä, mitä tulee vakavuude määrittämisee, päätyä ristiriitaisii päätöksii. Tähä asti o tarkasteltu mittauksia, joide empiirisiä suhteita voidaa kuvata umeerisilla suhteilla. Kaikki mittausmeettelyt eivät sovellu äihi puitteisii. Joskus o luoollisempaa pitää mittausmeettelyä määrittelevää omiaisuutea edellise esittävä sijasta. Esim. ELÄMÄNLAATU lääketieteessä mitataa usei tuistamalla ihimillise elämä tekijät, jotka ovat tärkeitä, ja määrittelemällä keio yhdistää eri tekijöitä vastaavat pisteluvut joteki, kute paiotettua summaa. Tietojärjestelmie kehittämisessä pyritää mittaamaa vaadittua TYÖPANOSTA vastaavasti. 2. luku 34 Mittausmeettelyjä, jotka sekä määrittelevät omiaisuude että mittaavat se, kutsutaa operatioaalisiksi tai ei-esittäviksi. Mittausepätarkkuutta ilmeee moesti. Jos esitetää geometrise yksikköeliö halkaisija pituus arvoa eliöjuuri 2:sta, ei sitä havaita, mutta käytäössä tämä o esitettävä desimaalilukua, kute.4,.4 tai.442 je., mutta esitys ei ole koskaa tarkka arvo. Tiedolouhia sovelluksissa, kute tässä kurssissaki, pärjätää tavallisimmilla asteikkotyypeillä, jotka ovat yksiyhtee-muuokset sallivat luokka-asteikot (omiaaliset), järjestetyt eli ordiaaliset luokka-asteikot ja umeeriset (kvatitatiiviset eli reaaliarvoiset) asteikot. 2. luku 35

2.3. Etäisyysmitat Moet tiedolouhiassa sovellettavat meetelmät, kute lähimmä aapuri haku ja klusteroiti, perustuvat samalaisuusmittoihi kohteide välillä. Samalaisuus voidaa saada suoraa kohteista, esim. markkioitikyselyssä voidaa pyytää vastaajaa arvioimaa kohteide samalaisuutta. Se voidaa saada myös epäsuorasti mittausvektoreista tai kohteide kuvauksista esimerkkiä makutesti pyydettäessä testaajilta kuvauksia jäätelöide samakaltaisuuksista. Samalaisuude sijasta voidaa tarkastella myös erilaisuutta. Jos samalaisuus pystytää formaalisti määrittelemää, erilaisuus o johdettavissa siitä ja päivastoi. Olkoo s(i, kohteide samalaisuus ja d(i, erilaisuus. Muuos iide välille voidaa määritellä 2. luku 36 Termiä läheisyys käytetää usei yleistermiä viittaamaa jompaakumpaa edellisistä. Kaksi muuta termiä, etäisyys ja metriikka, liittyvät tähä yhteytee. Etäisyyttä käytetää moesti epäformaalisti, kute euklidisessä etäisyydessä alla, mutta metriikka o erilaisuusmitta, joka täyttää ehdot:. d(i, 0 kaikille i ja j ja d(i, = 0, jos ja vai jos i = j. 2. d(i, = d(j,i) kaikille i ja j d( i, = s( i, tai d( i, = 2( s( i, ). 3. d(i, d(i,k) + d(k, kaikille i, j ja k Kolmas ehto o kolmioepäyhtälö. 2. luku 37 Olkoot kohdetta ja p reaalilukuarvoista mittausta kulleki kohteelle. Havaitovektori i:elle kohteelle o x(i) = (x (i), x 2 (i),, x p (i)), i, missä k:e muuttuja arvo i:elle kohteelle o x k (i). Euklidie etäisyys määritellää i:elle ja j:elle kohteelle seuraavasti. p d ( i, ( ( x ( i) x ( ) 2 ) 2 E = k k k= Tämä mitta olettaa joki astee yhteismitallisuutta eri muuttujie välillä. Niipä voisi olla tehokasta, mikäli kuki muuttuja olisi pituusmitta (p: ollessa 2 tai 3 kysymyksessä o fysikaalie etäisyysmitta) tai paiomitta, jolloi kaikki muuttujat o mitattu samalla yksiköllä. Jos toie muuttuja olisi pituus ja toie paio, ei olisi mitää ilmeistä valitaa yksiköksi. Yksikköä muuttamalla voitaisii muuttujie tärkeyttä muuttaa. Koska moesti muuttujat eivät ole yhteismitallisia, o joteki ylitettävä yksikköje valia mielivaltaisuus. Tavaomaie tapa o stadardoida data jakamalla jokaie muuttuja keskihajoallaa, jolloi muuttujia pidetää yhtä tärkeiä. Keskihajota o k:e muuttuja X k estimaatti 2 ˆ σ ( ( ( ) ) ) 2 k = xk i µ k i= 2. luku 38 2. luku 39

jossa µ k o k:e muuttuja keskiarvo, jota voidaa estimoida (jos tutemato) otoskeskiarvolla xk = xk ( i). i= Näi olle jakamalla muuttuja keskihajoalla poistetaa asteiko vaikutus. Jos o joki käsitys jokaise muuttuja suhteellisesta tärkeydestä, voidaa vastaavasti paiottaa iitä käyttäe seuraavasti paiotettua euklidista mittaa. p d 2 2 WE ( i, = ( wk ( xk ( i) xk ( ) ) k= Sekä euklidie että paiotettu euklidie ovat molemmat additiivisia siiä mielessä, että muuttujat vaikuttavat riippumattomasti etäisyysmittaa. Tämä ei aia ole soveliasta. Esim. mitataa kuppie korkeutta ja halkaisijaa. Käytettäessä yhteismitallisia yksikköjä määriteltäisii kuppie samalaisuus äide mittoje suhtee. Oletetaa, että jokaise kupi korkeus o mitattu 00 kertaa ja halkaisija aioastaa kerra, jolloi muuttujia o 0 ja äistä 00 melkei idettistä arvoa. Jos ämä yhdistetää euklidisella etäisyydellä, korkeus domioi, mitä tulee kuppie samalaisuutee. Kuitekaa 99 korkeusmittauksista eivät mitekää vaikuta siihe, mitä todella halutaa mitata. Ne korreloivat voimakkaasti keskeää vai mittausvirhee erottaessa iitä toisistaa. Täte tarvitaa data ohjaama meetelmä. Stadardoiti kuki muuttuja suhtee ei riitä, vaa otetaa huomioo muuttujie välie kovariassi. 2. luku 40 2. luku 4 Yleisesti esittäe saadaa p:lle muuttujalle p pkovariassimatriisi, jossa alkio (k,l) o k:e ja l:e muuttuja välie kovariassi. Matriisi o selvästi symmetrie. Otokse kovariassi muuttujie X ja Y välillä o seuraava. Cov( X, Y ) = ( x( i) x)( y( i) y), missä x ja y ovat keskiarvoja i= Kovariassi osoittaa, kuika X ja Y vaihtelevat yhdessä. Sillä o suuria arvoja, jos suuret X: arvot liittyvät suurii Y: arvoihi ja vastaavasti pieet X: arvot pieii Y: arvoihi. Jos suuret X: arvot liittyvät pieii Y: arvoihi, se saa egatiivise arvo. Kovariassi arvo riippuu X: ja Y: arvoalueista. Tämä voidaa poistaa stadardoiilla jakamalla X: arvot keskihajoallaa ja samoi Y: tapauksessa. Tulos o otokse korrelaatiokerroi: (x(i)-x)( y( i) y) ρ( X, Y ) = i= ( ( x( i) x) i= i= ( y( i) y) Nytki saadaa edeltävä kaltaisesti yleisemmässä tapauksessa p:lle muuttujalle p p-korrelaatiomatriisi. 2 2 ) 2 2. luku 42 2. luku 43

Kovariassi ja korrelaatio atavat muuttujie välisiä lieaarisia riippuvuuksia. (Täsmällisesti saoe e ovat itseki lieaarisia.) Tarkasteltaessa datapisteitä, jotka ovat tasaisesti jakautueet ympyrä kaarelle tämä keskipistee ollessa origossa, muuttujat ovat selvästi riippuvia, mutta epälieaarisesti, eikä lieaarisesti, jolloi saadaa korrelaatioksi 0. Palataa kahvikuppiesimerkkii. Voidaa poistaa 00 keskeää korreloiva muuttuja vaikutus sisällyttämällä kovariassimatriisi etäisyysmääritelmää. Tämä johtaa Mahalaobis-etäisyytee kahde p-dimesioise mittaukse x(i) ja x( välillä T d ( i, (( ( i) ( ) ( ( i) ( )) 2 MH = x x x x missä T tarkoittaa traspoosia, o p p-kovariassimatriisi, - stadardoi data suhteessa kovariassimatriisii. Huomattakoo, että vaikka vektoria x(i) o ajateltu vaakarivivektoria matriisissa, sovelletaa matriisialgebra tapaa esittää se p -pystyrivi- eli sarakevektoria. Näi olle siiä o mukaa traspooiti pvektori saamiseksi, jotta kertomie kovariassimatriisi kassa o mahdollista. Lopputulos o skalaariarvo. Matriisi (k,l)-alkio o määritelty muuttujie X k ja X l välillä edellise yhtälö tapaa. Euklidie metriikka o yleistettävissä muuteki. Ilmeie yleistys o Mikovski eli L λ -metriikka p ( λ ( x ( i) x ( ) ) λ k k k= 2. luku 44 2. luku 45 jossa λ. Tällöi euklidie etäisyys o erikoistapaus λ=2. L - metriikka, imeltää myös Mahatta- tai korttelimetriikka, o seuraava. p xk ( i) xk ( k= Moimuuttujaise biääridata yhteydessä voidaa laskea muuttujat, joille kaksi kohdetta saavat sama tai eri arvo. Taulukossa 2.., jossa kaikki kohteille i ja j määritellyt muuttujat p ovat biäärisiä, alkio,, ku i= ja j=, tarkoittaa, että o, sellaista muuttujaa, joilla sekä i että j ovat arvoja. Tapaus λ ataa metriika L seuraavasti. j = j = 0 max xk ( i) xk ( k i =,,0 Erilaisia metriikoita o useita kvatitatiivisia mittauksia varte, jote vaikeutea voi olla sopiva valita. i = 0 0, 0,0 Taulukko 2.. Kahde biäärimuuttuja ristiiluokitus. 2. luku 46 2. luku 47

Biääridatalle mitataa pikemmi samalaisuutta erilaisuude sijasta. Keties ilmeisi samalaisuude mitta o yksikertaie täsmäyskerroi, + eli iide muuttujie määrä, joille kohteilla o sama arvo, jaettua muuttujie kokoaismäärällä p. Toisiaa tässä eivät käy molemmat osoittaja määrät, vaa vai toie pareista (,) ja (0,0) o mielekäs. Jos esim. muuttujat kuvaavat joki omiaisuude läsäoloa () tai poissaoloa (0), ei välttämättä ole mielekäs tilae, että kummallakaa kohteella ei olisi sitä. Tämä tarkastelu johtaa oheisee Jaccardi kertoimee.,,,0 + + +,,0 0,0 0, + + 0, 0,0 2. luku 48 Dice kerroi laajetaa edellistä. Jos (0,0)-täsmäys o epärelevatti, ii epätäsmäyste (0,) ja (,0) tulisi olla täsmäyste (,) ja (0,0) välissä. Täte epätäsmäyste (0,) ja (,0) määrä tulisi jakaa kahdella seuraavasti. 2, 2 + + Moimuuttujaisella biääridatallaki o useita muita mittoja., Luokkamuuttujille, joilla o kahta eemmä arvoja, aetaa arvo, jos kaksi kohdetta ovat samat, ja 0 muutoi, ilmaiste äide summaa osaa kokoaisarvosta p. Additiivisia etäisyysmittoja voidaa käyttää myös sekamuotoiselle datalle, jolloi mukaa voi olla biäärisiä, luokka- ja kvatitatiivisia muuttujia.,0 0, 2. luku 49 2.4. Data muutamie Raakadata ei toisiaa ole kätevimmässä muodossa, jolloi voi olla hyödyllistä muutaa sitä esiprosessoitivaiheessa, ee varsiaista aalyysia. Esim. jos mietitää, että muuttuja Y o muuttuja X eliöfuktio, voimme yrittää joko löytää sopiva X 2 : fuktio tai esi korottaa X eliöö muotoo U = X 2, ja sitte sovittaa fuktio U:hu. Tässä ämä ovat ekvivaletteja meettelyjä, mutta joskus jompikumpi voi olla suoraviivaisempi. Esim. 2.. Muuttuja V kuvassa 2.. o selvästi epälieaari suhteessa muuttujaa V 2. Jos muuetaa käyttäe V 2 : kääteislukua, saadaa V 3 = / V 2. Tämä o lieaari suhde kuva 2.2. mukaa. V 2 V Kuva 2.. Yksikertaie epälieaari kuvaus muuttujie V ja V 2 välillä. 2. luku 50 2. luku 5

V 3 V Kuva 2.2. Edeltävä kuva data yksikertaise muuokse V 2 :sta /V 2 :ee jälkee. Toisiaa jakauma muoto o tärkeä, jolloi sovelias muuos o tarpee. Tavaomaie o mm. logaritmie muuos jakauma ollessa vio, josta saadaa äi alkuperäistä symmetrisempi (usei mielellää lähellä ormaalijakaumaa, jota moet tilastolliset päättelyt edellyttävät). Esim. 2.2. Kuvassa 2.3. muuttujat eivät ole vai epälieaarissa suhteessa toisiisa ähde, vaa V 2 : variassi kasvaa V : kasvaessa. Toisiaa päättely perustuu oletuksee, että variassi ei muutu. Tällaisessa (keiotekoisessa) datassa V 2 : eliöjuurimuuos ataa kuvassa 2.4. esitety data. 2. luku 52 2. luku 53 V 2 V 3 V Kuva 2.3. Toie yksikertaise epälieaari kuvaus, jossa V 2 : variassi kasvaa V : kasvaessa. V Kuva 2.4. Edeltävä kuva data yksikertaise V 2 : eliöjuurimuuokse jälkee. Nyt V 2 : variassi o jokseeki vakio V : kasvaessa. 2. luku 54 2. luku 55

O kuiteki varottava meemästä muuoksissa liia pitkälle. O varottava, ettei muuoksilla luoda keiotekoisia vaikutuksia (artefakteja) dataa ilmiöitä, joita ei alu peri ollut. Tavalliset muuokset käsittävät eliöjuureottamise, kääteisarvo, logaritmit ja muuttuja korottamise positiivisee kokoaislukupotessii. Jotki meetelmät edellyttävät luokkamuuttujie käyttöä. Tällöi o moesti mahdollista muutaa jatkuvat muuttujat (jotka rajoittuvat jolleki lukuvälille) luokkamuuttujiksi käyttäe sopivia kyyksiä jakamaa lukuväli luokkii (äärimmillää biääriseksi). Tässä hukataa eemmä tai vähemmä iformaatiota alkuperäisee ähde. Toisaalta muuokse ollessa oistuut iformaatio kato o käytäössä piei eikä siitä tule vääristymiä tuloksii. Tämä olemme havaieet hyvi Jorma Laurikkala tutkimuksessa käyttäessämme geeettisistä algoritmia (vaati luokkamuuttujia) säätöje etsimisee lääketieteellisestä datasta. 2. luku 56 2.5. Data muoto Datajoukot o esitettävä jossaki muodossa, datamallie tai dataskeemoje mukaa. Yksikertaisimmillaa tämä voidaa esittää jo kuvatulla tavalla datamatriisia, josta myös imitystä taulukko toisiaa käytetää. O usei moia kohdetyyppejä aalysoitavaa. Palkamaksutietokaassa saattaisi olla tietoa sekä työtekijöistä että heidä osastoistaa. Edellisistä olisi mm. imi, työtekijä osasto imi, ikä, palkka ja jälkimmäisistä osasto imi, budjetti ja johtaja. Nämä datamatriisit liittyvät toisiisa sama luokkamuuttuja, osasto imi, kautta. Useita tällaisia matriiseja käsittävää tietojoukkoa kutsutaa moirelaatioiseksi dataksi. 2. luku 57 Moirelaatioie data o kuvattavissa yhdeksi datamatriisiksi tai taulukoksi eri tavoi. Mikää tällaie yksittäie taulukko ei kuitekaa parhaite kokoa iformaatiota moirelaatioisesta tietojoukosta. Lisäksi se voi olla muistitilakäytö kaalta huoo ratkaisu, koska voi olla rusaasti redudattia dataa. Jotki tietojoukot eivät sovi hyvi matriisimuotoo. Tällaie o aikasarja, esim. sigaali, jossa peräkkäiset arvot vastaavat aja mukaa otettuja mittauksia. Aikasarja o esitettävissä kahdella muuttujalla, ajalla ja tätä vastaavalla mittausarvolla. Tämä esitetää vektoria, koska alkioilla o olemassa selvä aja määrittelemä järjestys. Merkkijoo o äärellise aakkosto symbolie joo tai sekvessi. Luokkamuuttuja arvoje sekvessi o merkkijoo, samoi luoollise kiele teksti, jossa arvot ovat kirjaimia, välimerkkejä tai välilyötejä. Proteiiit ja DNA- tai RNAsekvessit ovat toie esimerkki (proteiiit sisältävät muutaki tietoa, ovat siis kolmiulotteise avaruude raketeita). Merkkijoo o järjestetty, jolle matriisiesitysmuoto ei yleesä sovellu. Järjestetty datatyyppi o tapahtumajoo. Ku käytettävissä o äärellie aakkosto luokkatapahtumatyyppejä, tapahtumajoo tai sekvessi muodostuu pareista {tapahtuma, tapahtumaaika}. Tämä muistuttaa merkkijooa, mutta kuki alkio o liitetty ajakohtaa. Esimerkkiä o tietoliiketee tapahtumalogi, joka sisältää ajakohda jokaise tapahtuma kohdalla. 2. luku 58 2. luku 59

2.6. Yksittäiste mittauste data laatu Spatiaalie tai kuvadata o kaksi- tai kolmiulotteista, ku taas järjestetty soveltuu yksiulotteisea (yksittäistä muuttujaa kohti). Hierarkkie rakee o edellisiä moimutkaisempi datamalli. esim. laste datajoukko voisi olla ryhmitetty koululuokiksi,, ämä vuosiluokiksi, jotka ovat kouluittai kuissa je. Tiedolouhia sovelluksessa o tärkeää olla tietoie datamallista, muute helposti hukkaa data tärkeitä hahmoja tai erehtyy muilla tavoi. Tiedolouhia vaikuttavuus riippuu oleaisesti data laadusta. Tuettuha o saota roskaa sisää, roskaa ulos (garbage i, garbage out). Laatu määritellää tässä yleesä kahdella tavalla, yksittäiste tietueide laatua tai koko tietojouko laatua, joista tarkastellaa aluksi edeltävää. Mikää mittausmeettely ei ole vapaa virheistä. Mahdolliset virhelähteet ovat ehtymättömät. Niitä voivat olla ihimillie huolimattomuus, istrumetoitivirheet ja riittämätö määrittely sille, mitä mitataa. Mittausistrumetit voivat saada aikaa kahdelaisia virheitä, epätäsmällisyyttä ja epätarkkuutta. 2. luku 60 2. luku 6 Tilastollisesti ilmaiste ero toistettuje mittauste keskiarvo ja todellise arvo välillä o mittausmeetelmä harha. Täsmällie mittausmeettely o sellaie, jossa o piei vaihtelevuus (usei variassi mukaa määritelty). Käytettäessä täsmällistä meettelyä saadaa kohteelle hyvi samalaisia arvoja vakaissa olosuhteissa. (Tätä ei tulkita tässä kurssissa mm. lukutarkkuudeksi, mikä erheellise kuva helposti voi saada umeerisia tuloksia atavista ohjelmatuotteista.) Tarkka mittausmeettely käsittää sekä piee vaihtelevuude että lähellä todellista arvoa oleva mittausarvo. Mittaus voi olla täsmällie, mutta epätarkka. Esim. hekilö paio mitattua vaatteet, kegät, käykkä ja selkäreppu päällä voi olla täsmällie, mutta se lieee kaukaa siitä, mikä saataisii mitattaessa hekilö vai uimapuku päällä. 2. luku 62 Todellie arvo liittyy tarkkuutee, mutta käsite voi olla liukuva. Jos mitataa esim. hekilö pituutta pyrkie hyvi tarkkaa mittauksee, voidaa havaita häe oleva yö levo jälkee hivee pidempi kui päivä pystyaseossa viettämise jälkee paiovoima vuoksi. Myös astroauttie o todettu veyvä (tilapäisesti) pituutta avaruudessa oleskelu aikaa. Mitattaessa jotaki vähemmä eksaktia muuttujaa, esim. sosiaalista seikkaa, voi tällaise perimmäise todellise arvo kyseealaistaa. Muitaki termejä o käytössä. Mittausmeettely luotettavuus o sama kui se täsmällisyys. Paikkasapitävyys eli validiteetti o sama kui tarkkuus. 2. luku 63

2.7. Tietojoukkoje laatu Yksittäiste havaitoje laadu ohella myös kokoaise tietojouko laatua o valvottava. Tilastotieteellie klassie kysymys o tehdä otata ii, että otos edustaa mielekkäästi koko se lähtöpopulaatiota, perusjoukkoa. Tällöi mm. otokse keskiarvoa voidaa käyttää estimoimaa perusjouko keskiarvoa. Estimaatit ovat hyödyllisiä vai, jos e ovat tarkkoja. Mikäli epätarkkuutta esiityy, toise otokse käyttö voisi ataa merkittävästi erilaise estimaati arvo. Tarkastellaa esimerkkiä Tamperee asukkaide paioja. Jos otamme otokse tietojekäsittelyopi opiskelijoista, keskiarvo estimaatti o tällöi epäluotettava mitä ilmeisimmi. 2. luku 64 Sukupuolijakauma tietojekäsittelyopi opiskelijoissa o sage vio, miehiä ehkä. 80 %. Tällöi keskipaio estimaatti olisi selvästi epätarkka. Myös ikäjakauma olisi yksipuolie, hyvi vähä opiskelijoita ikäryhmä [8,50] vuotta ulkopuolella, jote ei auttaisi värvätä esim. kielteopiskelijoita testiryhmää. Harha pysyisi estimaatissa melko todeäköisesti. Eustavie meetelmie epäoistumie voi usei johtua siitä, ettei ole kyetty ottamaa huomioo populaatiomuutosta aja mittaa. Esim. tiety kaupa asiakkaide kulutustottumukset saattavat aja kuluessa muuttua sosiaalise kulttuuri muuttuessa. Moesti koko tietojoukkoa, populaatiota, ei voida tarkastella täydellisesti tämä valtava koo vuoksi. Täte otaa suorittamie luotettavasti o tähdellistä (pohditaa luvussa 4). 2. luku 65 Otokse vääristymä o ähtävissä epätäydellise tiedo erikoistapauksea. Kokoaisia tietueita voi puuttua muute edustavasta otoksesta. Dataa voi puuttua muullaki tavoi. Tietueide yksittäiset ketät (muuttujat) voivat käsittää puuttuvia arvoja. Tavallaa tämä o edeltävää ogelmaa hivee helpompaa, koska tässä setää tiedetää tiedo puuttumie. Epätäydellisestä tiedosta voi kuiteki sytyä merkittäviä haittoja tiedolouhia kaalta. Sellaie lähestymistapa o kuiteki turvallie, jos o mahdollie, että käytetää tietojoukosta aioastaa täydellisiä osia. Poikkeavie havaitoje tai aomalioide tilae o yksi kysymys data laadu yhteydessä. Toisiaa tiedolouhia tehtävä o löytää aomalioita. Viatuistuksessa eemmistöstä poikkeavat tietueet ovat kiiostavia. Käytetää tällöi hahmotuistusmeetelmiä (luku 6 ja 3). Jos toisaalta tavoitteea o globaali malli kehittämie, poikkeavat havaiot saattavat harhauttaa mallissa. Havaioitaessa aioastaa yhtä muuttujaa poikkeavat havaiot o helppo löytää histogrammilla eli pylväsdiagrammilla. Pisteet, jotka ovat kaukaa muista, paljastuvat hätiä. Tilae o kuvattua haasteellisempi usea muuttuja vaikuttaessa yhtä aikaa. Tällöi yksittäiste muuttujie arvot voivat olla aiva kelvollisia, mutta iide yhteisvaikutus tuottaa poikkeava havaio. Esimerkkiä o kuva 2.5. Jos tällaie esiityy vasta moe muuttaja yhteisvaikutuksea, algoritmie lasketa (tietokoe) o välttämätötä. 2. luku 66 2. luku 67

Y Kuva 2.5. Varsi hyvä korrelaatio kaksimuuttujaista dataa, jossa esiityy yksi selkeä poikkeava havaito. X 2. luku 68