Sama mutta density-based (saadaan jakaumat): (tuli aavistuksen eri klusterointi)

Samankaltaiset tiedostot
pisteet Frekvenssi frekvenssi Yhteensä

PPSHP Vuoden 2010 aineiston trimmausprojekti. Peteri & Vesa

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Kandidaatintutkielman aineistonhankinta ja analyysi

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Peruskoulu - nousu, huippu (AAA) ja lasku?

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Ovatko tentit tarpeellisia? Tuomas Paloposki & Maria Clavert, Aalto-yliopisto Peda-Forum 2018

Til.yks. x y z

Luentorunko perjantaille

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Til.yks. x y z

4.3. Matemaattinen induktio

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 1 / vko 44

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

AIHE: Tyossa_kouluttautuminen

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

805306A Johdatus monimuuttujamenetelmiin, 5 op

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

AIHE: Tyytyvaisyysmittareita

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

TOIMINNALLINEN ESIOPETUS HENNA HEINONEN UITTAMON PÄIVÄHOITOYKSIKKÖ TURKU

MTTTP5, luento Luottamusväli, määritelmä

Hiirten ja rottien sydännäytteistä tuotetun mikrosirudatan analysointi

S Laskennallinen systeemibiologia

Vertailutestien tulosten tulkinta Mikä on hyvä tulos?

Harjoitus 3 -- Ratkaisut

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

AIHE: Tyytyvaisyysmittareita

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

AIHE: Tyytyvaisyysmittareita

AIHE: op_pohjola_tulojen_hajotelma

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

Otoskoon arviointi. Tero Vahlberg

MITEN TEET AIKAAN LIITTYVIÄ KYSYMYKSIÄ JA MITEN VASTAAT NIIHIN?

Märehtijä. Väkirehumäärän lisäämisen vaikutus pötsin ph-tasoon laiduntavilla lehmillä Karkearehun käyttäjä Ruoansulatus.

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

FETAL FIBROBLASTS, PASSAGE 10

Sukupuoli Mies Nainen Yht. Suhtautuminen kannattaa uudistukseen ei kannata Yht

Diagrammeja ja tunnuslukuja luokkani oppilaista

Taitajaa taitavammin. Taitaja-päällikkö Pekka Matikainen Skills Finland ry

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

A TIETORAKENTEET JA ALGORITMIT

MS-A0504 First course in probability and statistics

Matin alkuvuoden budjetti

Matriisilaskenta Laskuharjoitus 1 - Ratkaisut / vko 37

Mitä mikrobilääkkeiden kulutusluvut kertovat? Antibioottipäivä Katariina Kivilahti-Mäntylä

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

valikosta Data -> Import data -> from text file, clipboard or URL...

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Diskreetin Matematiikan Paja Tehtäviä viikolle 2. ( ) Jeremias Berg

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

I Data ja sen esiprosessointi

Otanta-aineistojen analyysi

I. Ristiintaulukointi Excelillä / Microsoft Office 2010

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

Laskut käyvät hermoille

Tähtitieteen käytännön menetelmiä Kevät 2009

TILASTOMATEMATIIKKA. Keijo Ruohonen

811120P Diskreetit rakenteet

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

I/2018 IV/2017 III/2017 II/2017 I/2017 IV/2016 III/2016 II/2016

Benecol Hedelmämix tehojuoma 6 x 65 ml

Perhevapaiden palkkavaikutukset

Lukion 1. ja 2. vuoden opiskelijoiden hyvinvointi Lapissa Kouluterveyskysely THL: Kouluterveyskysely 1

PUUT T E H TÄV. käyttää hyödyksi.

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Peruskoulun 8. ja 9. luokkien oppilaiden hyvinvointi Lapissa

Teema 8: Parametrien estimointi ja luottamusvälit

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

L9: Rayleigh testi. Laskuharjoitus

MALE ADULT FIBROBLAST LINE (82-6hTERT)

MATEMATIIKAN TASOTESTI / EKAMK /

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

E80. Data Uncertainty, Data Fitting, Error Propagation. Jan. 23, 2014 Jon Roberts. Experimental Engineering

Koira testissä vai Racci tuotannossa O10G/IAS10 Linuxilla

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

L9: Rayleigh testi. Laskuharjoitus

Suomen lääkintätekniikan teollisuuden markkinakatsaus. Vuosi

SAS ja R yhteiskäyttö

Metsälamminkankaan tuulivoimapuiston osayleiskaava

2. Keskiarvojen vartailua

Kvantitatiiviset menetelmät

Kokemuksia opintovierailulle osallistumisesta Study Visit september 23 september ICT in education

Todisteita aikakauslehtimainonnan tehokkuudesta

Erikoiskasvit vaihtoehtona. Kumina maataloutemme pikkujättiläinen Loimaa Sari Yli-Savola

Transkriptio:

1 Teht.1 1.1 1-means, järjestetty data Within cluster sum of squared errors:.95 Clustered Instances 16 ( 13%) 1 33 ( 3%) 3798 ( 33%) 3 3 ( %) 5 ( %) 5 33 ( 9%) 6 37 ( %) 7 783 ( 7%) 8 ( %) 9 167 ( 15%) Tutkitaan sisältöä: Klusteri : suuri. Hero< eli mutanteilla geeni passiivisempi kuin terveillä. Muuttujat korreloimattomia. Klusteri 1: melko pieni. Hero 1 eli mutanteilla geeni aktiivisempi. Muuttujat korreloimattomia. Klusteri : Iso. Hero< eli eli mutanteilla geeni passiivisempi. Muuttujat korreloimattomia. Klust. 3 vain 3 alkiota! (Ucp1, Alb, Pck1) rero iso (> 15), toiset pieniä. Eli rottavanhuksilla geeni paljon aktiivisempi. Klusteri : pieni. rero>1. Rottavanhuksilla geeni aktiivisempi. r(hero,rero1)=., toiset korreloimattomia. Klusteri 5: Iso. Kaikki lähellä :aa. Jollain yhden (rero1:n) arvo hieman suurempi. Muuttujat korreloimattomia. Klusteri 6: Suuri. hero> eli mutanteilla geeni aktiivisempi. Muuttujat korreloimattomia. (suurin r(hero,rero1)=.) Klusteri 7: Keskikokoinen. Hero hieman koholla. Muuttujat korreloimattomia. Klusteri 8: Pieni ( alkiota). Erikoinen! roero1:n arvot valtavan suuria! Jopa 179 (Rrm). Toiset kaksi muuttujaa hyvin pieniä. Eli vauvarotilla geeni tosi aktiivinen ja hiljenee aikuisena. Klusteri 9: Iso. Hero koholla eli mutanteilla geeni aktiivisempi. Muuttujat korreloimattomia. Sama mutta density-based (saadaan jakaumat): (tuli aavistuksen eri klusterointi) Fitted estimators (with ML estimates of variance): Cluster: Prior probability:.173 Attribute: hiero Normal Distribution. Mean = -. StdDev =.11 Attribute: roero1 Normal Distribution. Mean =.18 StdDev = 1.1 Attribute: roero Normal Distribution. Mean = -. StdDev =.16 1

Taulukko 1: 1-means kaikki 3 muuttujaa Attribute Full Data 1 3 5 6 7 8 9 (1165) (16) (33) (3798) (3) (5) (33) (37) (783) () (167) hiero.863 -. 1.3563 -.165.7.6.89.781.7785.718.3735 roero1.31.18.1865.39 -.867.7131.165 -.151.1588 56.35.89 roero.19 -. -.61.51 16.567.676.15 -.7.39.338 -.6

Cluster: 1 Prior probability:.9 Attribute: hiero Normal Distribution. Mean = 1.3563 StdDev =.199 Attribute: roero1 Normal Distribution. Mean =.1865 StdDev =.96 Attribute: roero Normal Distribution. Mean = -.61 StdDev =.13 Cluster: Prior probability:.3311 Attribute: hiero Normal Distribution. Mean = -.165 StdDev =.665 Attribute: roero1 Normal Distribution. Mean =.39 StdDev = 1.878 Attribute: roero Normal Distribution. Mean =.51 StdDev =.1655 Cluster: 3 Prior probability:.3 Attribute: hiero Normal Distribution. Mean =.7 StdDev =.7 Attribute: roero1 Normal Distribution. Mean = -.867 StdDev =.181 Attribute: roero Normal Distribution. Mean = 16.567 StdDev =.98 Cluster: Prior probability:.8 Attribute: hiero Normal Distribution. Mean =.6 StdDev =.7 Attribute: roero1 Normal Distribution. Mean =.7131 StdDev =.777 Attribute: roero Normal Distribution. Mean =.676 StdDev = 1.3797 : Cluster: 5 Prior probability:.878 Attribute: hiero Normal Distribution. Mean =.89 StdDev =.71 Attribute: roero1 Normal Distribution. Mean =.165 StdDev = 1.67 Attribute: roero Normal Distribution. Mean =.15 StdDev =.1757 Cluster: 6 Prior probability:.33 Attribute: hiero Normal Distribution. Mean =.781 StdDev = 1.178 Attribute: roero1 Normal Distribution. Mean = -.151 StdDev =.3518 Attribute: roero Normal Distribution. Mean = -.7 StdDev =.171 Cluster: 7 Prior probability:.683 Attribute: hiero Normal Distribution. Mean =.7785 StdDev =.139 Attribute: roero1 Normal Distribution. Mean =.1588 StdDev =.63 Attribute: roero Normal Distribution. Mean =.39 StdDev =.96 Cluster: 8 Prior probability:. Attribute: hiero Normal Distribution. Mean =.718 StdDev =.966 Attribute: roero1 Normal Distribution. Mean = 56.35 StdDev = 33.168 Attribute: roero Normal Distribution. Mean =.338 StdDev = 1.1313 Cluster: 9 Prior probability:.158 Attribute: hiero Normal Distribution. Mean =.3735 StdDev =.976 Attribute: roero1 Normal Distribution. Mean =.89 StdDev =.998 Attribute: roero Normal Distribution. Mean = -.6 StdDev =.17 1. Vain rottamuuttujat Tulee ihan erilaisia! 3

Taulukko : 1-means (vain rottien attr) Attribute Full Data 1 3 5 6 7 8 9 (1166) (8776) (36) (376) (6) (3) (81) (683) (11) (75) (35) roero1... -.38.98 -.5 -. -.9. -.88 -.1 roero. -.5 -.9. -.11.6.7...18 -.13

8885 ( 77%) 1 9 ( 3%) 361 ( 3%) 3 63 ( %) 39 ( 3%) 5 78 ( %) 6 669 ( 6%) 7 16 ( 1%) 8 53 ( %) 9 3 ( %) Teht..1 Average-link, K = 1 Esimerkkejä: Outliereita: *sin+pi yksin huomasin, c++osasin, osasin rautaa,dataa,raapustaa shell, lähellä usein sama taivutusmuoto (jos ei muuten): tehnyt, tekemiseen/tekemisessä kauniita klustereita: koulutyö, ohjelmointikieli/-kurssi, internet, ohjelma, perus-alkuiset Toimi varsin hyvin! (Eikä juuri eroa vaikka sotki datan välillä.) Kun K=5, ei yhtä hyviä.. Ward ja K=1 Omituisia. Miksi esim. kokeilu, aiheisiin, iltana ja freehand samassa? Näyttää kuin olisi eri etäisyysmitta! (mutta ei ollut).3 Complete ja K=1 Nättejä tuloksia, samantap. kuin average, mutta ehkä jakanut joitain averagen (samankantaisia) klustereita osiin? 3 Teht.3 Mansikilla outo outlier alussa klo 1 15. (Samaan an koko navetalla paljon vierailuja.) Mustikki syö harevmmin mutta enemmän. 5

Koko navetta h keskiarvot: iso piikki aamulla n. 8 an, seuraavat huiput eivät yhtä selviä, klo 15 ja 1 an. Klo 5 an hiljaisinta. Mansikki ja Mustikki h keskiarvot: Mansikilla paljon enemmän vierailuja ja isot erot vrk-aikojen välillä: suurin huippu n. 19 an, 6 hiljaista. Mustikilla vierailuja tasaisesti, jopa klo 1 eräs huippu. Mansikin määrissä sama kuvio, lisääntyvät klo 19 kohden ja sitten taas laskua. Mustikillakin suurin piikki illalla, mutta vasta klo? Muuallakin korkeita piikkejä. Määrien korrelogrammi: Mansikki näyttää säännöllisemmältä: selvempi piikki h kohdalla. Mustikin piikki 3h kohdalla eli vuorokausi pikemminkin 3h??? (Mutta ei selvä.) Huom! -kohdan neg. piikillä ei merkitystä. Frekvenssien korrelogrammi: Kummallakin korkea piikki h kohdalla, mutta Mustikin korkein piikki 3h kohdalla..? 6

5 Kuva 1: Koko navetta nimi..txt using 15 1 5-1 1 3 5 6 7 8 Frekv 18 nimi..txt using 3 16 1 1 1 8 6-1 1 3 5 6 7 8 Maara 7

3 Kuva : Frekvenssit: Mansikki ja Mustikki Mansikki Mustikki 5 15 1 5-1 1 3 5 6 7 8 Frekv 1 Mansikki Mustikki 1 1 8 6-1 1 3 5 6 7 8 Frekv 8

3 Kuva 3: Frekvenssit: Mansikki ja Mustikki nimi..txt using 5 15 1 5-1 1 3 5 6 7 8 Frekv 3 nimi..txt using 6 5 15 1 5-1 1 3 5 6 7 8 Frekv 9

1 Kuva : Määrät: Mansikki ja Mustikki nimi..txt using 5 1 8 6-1 1 3 5 6 7 8 Maara 1 nimi..txt using 7 1 8 6-1 1 3 5 6 7 8 Maara 1

Kuva 5: Määrät: Mansikki ja Mustikki 1 Mansikki Mustikki 1 8 kulutus 6 1 3 5 6 7 8 11

1 9 Kuva 6: Koko navetta nimi..txt using 8 7 6 5 3 1-5 5 1 15 5 Fr 1 nimi..txt using 3 9 8 7 6 5 3 1-5 5 1 15 5 Maara 1

5 Kuva 7: Frekvenssit: Mansikki ja Mustikki nimi..txt using 3 1-5 5 1 15 5 Fr 5 nimi..txt using 6 3 1-5 5 1 15 5 Fr 13

5 Kuva 8: Määrät: Mansikki ja Mustikki nimi..txt using 5 3 1-5 5 1 15 5 Maara 5 nimi..txt using 7 3 1-5 5 1 15 5 Maara 1

.5 Kuva 9: Määrien korrelogrammit: Mansikki ja Mustikki nimi..txt using..15.1.5 -.5 -.1 -.15 -. -.5-5 5 1 15 5 3 Mansikin Korrelogrammi.15 nimi..txt using.1.5 -.5 -.1 -.15 -. -5 5 1 15 5 3 Mustikin Korrelogrammi 15

.3 Kuva 1: Frekvenssien korrelogrammit: Mansikki ja Mustikki nimi..txt using..1 -.1 -. -.3-5 5 1 15 5 3 Mansikin Korrelogrammi.3 nimi..txt using..1 -.1 -. -.3-5 5 1 15 5 3 Mustikin Korrelogrammi 16