Lauri Tarkkonen: Erottelu analyysi



Samankaltaiset tiedostot
Teema 3: Tilastollisia kuvia ja tunnuslukuja

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä. Tentti

Faktorianalyysit työnkuvamittareille TIME Wed Apr 27 15:16: >COPY tyonkuvamittarit_latent_class_fa_tvak.pdf

MTTTP5, luento Luottamusväli, määritelmä

I. Principles of Pointer Year Analysis

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Lauri Tarkkonen: Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus

Perusnäkymä yksisuuntaiseen ANOVAaan

MATHM Hypermedian jatko-opintoseminaari

Harjoittele tulkintoja

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

#tilastomooc, osa 1 (s.2017): pisteet ja arvosanat (N=374)

pisteet Frekvenssi frekvenssi Yhteensä

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Testejä suhdeasteikollisille muuttujille

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä

Hierarkkiset koeasetelmat. Heliövaara 1

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Otanta-aineistojen analyysi

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

MATRIISILASKENTAA MATRIX ESIM1 /// PITUUS PAINO IKA SP X X X

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisällysluettelo. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

I Keskiarvot ja hajonnat muuttujista 3-26 niin, että luokittelevana muuttujana on muuttuja 2 eli sukupuoli

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

SELVITTÄJÄN KOMPETENSSISTA

Kvantitatiivinen genetiikka moniste s. 56

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

MTTTP1, luento KERTAUSTA

HAVAITUT JA ODOTETUT FREKVENSSIT

Vertailutestien tulosten tulkinta Mikä on hyvä tulos?

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

Frequencies. Frequency Table

Vertailutestien tulosten tulkinta Mikä on hyvä tulos?

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

TUTKIMUSOPAS. SPSS-opas

Supplementary Table S1. Material list (a) Parameters Sal to Str

Hypoteesin testaus Alkeet

E80. Data Uncertainty, Data Fitting, Error Propagation. Jan. 23, 2014 Jon Roberts. Experimental Engineering

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Harjoitustyön suorittaminen - artikkelit Artikkeli 1: Management Capabilities and Environmental Characteristics in the Critical Operational Phase of E

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MTTTP1, luento KERTAUSTA

SIMULINK S-funktiot. SIMULINK S-funktiot

SPSS-perusteet. Sisältö

MTTTP1, luento KERTAUSTA


ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Luonnollisten lukujen laskutoimitusten määrittely Peanon aksioomien pohjalta

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Mat Tilastollisen analyysin perusteet

Laskuharjoitus 3. Pääkomponenttianalyysin tulokset olivat seuraavat:

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden


Perhevapaiden palkkavaikutukset

OMAISHOIDON TUEN MITTARIN LAADINTA JA LUOKITUSRAJOJEN MÄÄRITTÄMINEN KOEAINEISTON POHJALTA

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Ratkaisuja luvun 15 tehtäviin

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Huomaa, että 0 kitkakerroin 1. Aika harvoin kitka on tasan 0. Koska kitkakerroin 1, niin

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Capacity Utilization

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

2 2 -faktorikokeen määritelmä

ARVIOINTIPERIAATTEET

Esimerkki 8. Ratkaise lineaarinen yhtälöryhmä. 3x + 5y = 22 3x + 4y = 4 4x 8y = r 1 + r r 3 4r 1. LM1, Kesä /68

Statistical design. Tuomas Selander

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=


Transkriptio:

Lauri Tarkkonen: Erottelu analyysi Erotteluanalyysin ongelma on kaksijakoinen:. Mikä havaittujen muuttujien (x i ) lineaarinen yhdistely erottaa mahdollisimman hyvin toisistaan tunnetut ryhmät? Siis selitettävä muuttuja, voi olla nominaaliasteikollinen.. Mihin tunnettuistä ryhmistä havaintoyksikkö kuuluu? Pyritään siis muodostamaan erottelufunktio (u): u = α x + α x +... + α p x p siten, että ryhmien keskiarvojen väliset erot olisivat mahdollisimman selvät. Jos merkitään x-muuttujien neliösumma ja ristitulomatriisia T:llä ja ajatellaan nämä tekijät jaetuiksi ryhmien välisiin ja ryhmien sisäisiin neliösumma ja ristituloihin W ja B, niin silloin T = W + B ja muuttujan u osalta neliösumma voidaan esittää α Tα. Tämä voidaan osittaa α Wα- +α Bα jolloin F-testisuure ryhmien välisen eron testaamiseen voidaan esittää: F = a Ba/(k-))/a Wa/(n-k); tämä on maksimoitava α:n suhteen Koska vapausasteilla ei ole mitään tekemistä α:n kanssa, voidaan ne jättää tästä maksimoinnista pois ja jäljelle jää osamäärä α Wα/α Bα, jos asetetaan vektorille α rajoitus α Wα =, päädytään jälleen rajoitetun ääriarvon keinon avulla: Q = α Bα - λ(α Wα - ), derivoidaan ja asetetaan nollaksi; saadaan: Q = Bα - λwα; (B - λw)α = Tämä merkitsee, että faktoroimme ryhmien välistä yhteisvaihtelua komponenteihin suhteessa ryhmien sisäiseen vaihteluun. (Huomatkaa, pääkomponenttianalyysin tapauksessa ominaisarvotehtävä oli muotoa: (Σ - λi)α = ja faktorianalyysin tapauksessa ((Σ-Ψ) - λi)α =. Esimerkki Tutkitaan kuinka seuraavilla muuttujilla voidaan selittää Ala Maapinta-ala km^..979 (#####.##) Maamet Maa- ja metsätaloudessa toimivien osuus (%) Teoll Teollisuudessa toimivien osuus (%) Palvelu Ammatissa ja palveluelinkeinoissa toim.osuus (%) Asuin Valmistuneet asuinhuoneistot v.978 (####) Äyri Veroäyrin hinta v.979 (##.##) Tulotaso Veroäyrejä asukasta kohti v.979 (#####) Suomen kuntien jakoa neljään ryhmään: Ruuhka-Suomi,Keski-Suomi,Pohjois-Suomi,Saaristo-Suomi

Lauri Tarkkonen: Erotteluanalyysi canonical Eigenvalues percents chi-square df prob correlations.89.7. 9..799.9 7..9 7..8.78 9..9.. Ominaisarvot kertovat erottelun voimakkuudesta. χ -testisuure testaa nollahypoteesia H: li = Kanonisen korrelaation antaa selitysosuuden Test for the hypothesis that all eigenvalues are zero (all group mean vectors are equal): Wilks lambda.99 Rao s F appr. F(, )=., prob=. Tests for hypotheses that the last k eigenvalues are zero k statistics chi-square df prob. 9.99..878.9. Discriminating function coefficients (scaled in W-metrics) for original variables Ala Maamet Teoll Palvelu Asuin Äyri Tulotaso -.9 -.9 -.78 -.8 -.9 -.8. -..9.797 -.7.8.778.7 -.9.87.9.7 -.9..7 Tässä ovat a-kertoimet kaavasta u = α x + α x +... + α p x p. For normed variables (in W metrics) Ala Maamet Teoll Palvelu Asuin Äyri Tulotaso -.979 -.889 -.7 -. -.9 -.8. -.8.777.8 -.79.7..7 -.89.999.78.88 -.7.8.97 Normeeratut (standardoidut) regressiokertoimet. Pooled within-groups statistics; Standard deviations.... -..... Total sample; Discriminating fu nctions M... D.99.97.9. -.....

Lauri Tarkkonen: Erotteluanalyysi Group no. : Group no. : M.97.77 -.8 M -..78. D.9.8.777 D.97.88.77.. -.9. -.. -.88 -.. -.79 -.9. Group no. : Group no. : M.9 -.77.77 M -.7 -.987 -.78 D.8.9.97 D.87.9.87.. -.8..88. -.8...77.99. Erottelufunktioiden tulkinnan kannalta ovat nämä korrelaatiot keskeisiä between discriminating functions and variables Ala -.98 -. -. Maamet -.7 -.. Teoll.. -.9 Palvelu. -.9 -. Asuin.7. -.778 Äyri -.9.78.99 Tulotaso.9. -.89 The classification is based on the discriminating functions. Equal group covariance matrices are assumed Classification matrix to SUM from 8 89 8 9 7 7 SUM 9 9 7 Percentage of diagonal observations: 7. Estimated actual error rate:.99 One minus the mean of maximum posterior probabilities:.7 The mean of minimum posterior probabilities:.

Lauri Tarkkonen: Erotteluanalyysi Muodostuneiden erottelufunktioiden jakautumat ja tunnusluvut Basic statistics: kuntat N= Variable: D / First discriminating function min=-.778 in obs.# (Inari) max=.979 in obs.# (Kauniainen) mean= stddev=.99 skewness=-. kurtosis=. lower_q=-.98 median=.79 upper_q=.998 up.limit f % *= obs. class width=. -.. : -. -.. : -. : -.. * -. * -. 8.7 **** -. ********** -.. ************* -.8 ************************* -.. ************************* 8. *****************************. 7.9 *************************************. **************************. 9. ********************* 8 8. *******************.. ********** 8.7 ****..9 **. * Variable: D / Second discriminating function min=-.9 in obs.#8 (Kökar) max=.7 in obs.#7 (Keikyä) mean= stddev=.97 skewness=-. kurtosis=.779 lower_q=-.8 median=.7 upper_q=.78 up.limit f % *= obs. class width=. -. : -.. -. : -.. * - 7. *** -.. * -. ***** -..8 ****** - 7 8. ****************** -. 9.7 ***************************** 9 9.8 **********************************************. 9 9. *********************************************. *********************************. 9 8. *******************.7 ***********..8 ******. *.. *... :

Lauri Tarkkonen: Erotteluanalyysi Variable: D / third discriminating function min=-9.8 in obs.# (Inari) max=.97 in obs.# (Vehmersalmi) mean=- stddev=.9 skewness=-.8 kurtosis=7.9 lower_q=-.888 median=.8 upper_q=.789 up.limit f % *= obs. class width= -9. : -8. -7.. : -. -. : -. : - 8.7 ** - 8.8 **********.8 **************************************. **************************************************. **************. : Erottelu graafisena: Diagram of kuntat - - - - - D - - - - - D Diagram of koord - D - D Ala Maamet Teoll Palvelu Asuin Äyri Tulotaso X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - - X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - - X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - - X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - -