Lauri Tarkkonen: Erottelu analyysi Erotteluanalyysin ongelma on kaksijakoinen:. Mikä havaittujen muuttujien (x i ) lineaarinen yhdistely erottaa mahdollisimman hyvin toisistaan tunnetut ryhmät? Siis selitettävä muuttuja, voi olla nominaaliasteikollinen.. Mihin tunnettuistä ryhmistä havaintoyksikkö kuuluu? Pyritään siis muodostamaan erottelufunktio (u): u = α x + α x +... + α p x p siten, että ryhmien keskiarvojen väliset erot olisivat mahdollisimman selvät. Jos merkitään x-muuttujien neliösumma ja ristitulomatriisia T:llä ja ajatellaan nämä tekijät jaetuiksi ryhmien välisiin ja ryhmien sisäisiin neliösumma ja ristituloihin W ja B, niin silloin T = W + B ja muuttujan u osalta neliösumma voidaan esittää α Tα. Tämä voidaan osittaa α Wα- +α Bα jolloin F-testisuure ryhmien välisen eron testaamiseen voidaan esittää: F = a Ba/(k-))/a Wa/(n-k); tämä on maksimoitava α:n suhteen Koska vapausasteilla ei ole mitään tekemistä α:n kanssa, voidaan ne jättää tästä maksimoinnista pois ja jäljelle jää osamäärä α Wα/α Bα, jos asetetaan vektorille α rajoitus α Wα =, päädytään jälleen rajoitetun ääriarvon keinon avulla: Q = α Bα - λ(α Wα - ), derivoidaan ja asetetaan nollaksi; saadaan: Q = Bα - λwα; (B - λw)α = Tämä merkitsee, että faktoroimme ryhmien välistä yhteisvaihtelua komponenteihin suhteessa ryhmien sisäiseen vaihteluun. (Huomatkaa, pääkomponenttianalyysin tapauksessa ominaisarvotehtävä oli muotoa: (Σ - λi)α = ja faktorianalyysin tapauksessa ((Σ-Ψ) - λi)α =. Esimerkki Tutkitaan kuinka seuraavilla muuttujilla voidaan selittää Ala Maapinta-ala km^..979 (#####.##) Maamet Maa- ja metsätaloudessa toimivien osuus (%) Teoll Teollisuudessa toimivien osuus (%) Palvelu Ammatissa ja palveluelinkeinoissa toim.osuus (%) Asuin Valmistuneet asuinhuoneistot v.978 (####) Äyri Veroäyrin hinta v.979 (##.##) Tulotaso Veroäyrejä asukasta kohti v.979 (#####) Suomen kuntien jakoa neljään ryhmään: Ruuhka-Suomi,Keski-Suomi,Pohjois-Suomi,Saaristo-Suomi
Lauri Tarkkonen: Erotteluanalyysi canonical Eigenvalues percents chi-square df prob correlations.89.7. 9..799.9 7..9 7..8.78 9..9.. Ominaisarvot kertovat erottelun voimakkuudesta. χ -testisuure testaa nollahypoteesia H: li = Kanonisen korrelaation antaa selitysosuuden Test for the hypothesis that all eigenvalues are zero (all group mean vectors are equal): Wilks lambda.99 Rao s F appr. F(, )=., prob=. Tests for hypotheses that the last k eigenvalues are zero k statistics chi-square df prob. 9.99..878.9. Discriminating function coefficients (scaled in W-metrics) for original variables Ala Maamet Teoll Palvelu Asuin Äyri Tulotaso -.9 -.9 -.78 -.8 -.9 -.8. -..9.797 -.7.8.778.7 -.9.87.9.7 -.9..7 Tässä ovat a-kertoimet kaavasta u = α x + α x +... + α p x p. For normed variables (in W metrics) Ala Maamet Teoll Palvelu Asuin Äyri Tulotaso -.979 -.889 -.7 -. -.9 -.8. -.8.777.8 -.79.7..7 -.89.999.78.88 -.7.8.97 Normeeratut (standardoidut) regressiokertoimet. Pooled within-groups statistics; Standard deviations.... -..... Total sample; Discriminating fu nctions M... D.99.97.9. -.....
Lauri Tarkkonen: Erotteluanalyysi Group no. : Group no. : M.97.77 -.8 M -..78. D.9.8.777 D.97.88.77.. -.9. -.. -.88 -.. -.79 -.9. Group no. : Group no. : M.9 -.77.77 M -.7 -.987 -.78 D.8.9.97 D.87.9.87.. -.8..88. -.8...77.99. Erottelufunktioiden tulkinnan kannalta ovat nämä korrelaatiot keskeisiä between discriminating functions and variables Ala -.98 -. -. Maamet -.7 -.. Teoll.. -.9 Palvelu. -.9 -. Asuin.7. -.778 Äyri -.9.78.99 Tulotaso.9. -.89 The classification is based on the discriminating functions. Equal group covariance matrices are assumed Classification matrix to SUM from 8 89 8 9 7 7 SUM 9 9 7 Percentage of diagonal observations: 7. Estimated actual error rate:.99 One minus the mean of maximum posterior probabilities:.7 The mean of minimum posterior probabilities:.
Lauri Tarkkonen: Erotteluanalyysi Muodostuneiden erottelufunktioiden jakautumat ja tunnusluvut Basic statistics: kuntat N= Variable: D / First discriminating function min=-.778 in obs.# (Inari) max=.979 in obs.# (Kauniainen) mean= stddev=.99 skewness=-. kurtosis=. lower_q=-.98 median=.79 upper_q=.998 up.limit f % *= obs. class width=. -.. : -. -.. : -. : -.. * -. * -. 8.7 **** -. ********** -.. ************* -.8 ************************* -.. ************************* 8. *****************************. 7.9 *************************************. **************************. 9. ********************* 8 8. *******************.. ********** 8.7 ****..9 **. * Variable: D / Second discriminating function min=-.9 in obs.#8 (Kökar) max=.7 in obs.#7 (Keikyä) mean= stddev=.97 skewness=-. kurtosis=.779 lower_q=-.8 median=.7 upper_q=.78 up.limit f % *= obs. class width=. -. : -.. -. : -.. * - 7. *** -.. * -. ***** -..8 ****** - 7 8. ****************** -. 9.7 ***************************** 9 9.8 **********************************************. 9 9. *********************************************. *********************************. 9 8. *******************.7 ***********..8 ******. *.. *... :
Lauri Tarkkonen: Erotteluanalyysi Variable: D / third discriminating function min=-9.8 in obs.# (Inari) max=.97 in obs.# (Vehmersalmi) mean=- stddev=.9 skewness=-.8 kurtosis=7.9 lower_q=-.888 median=.8 upper_q=.789 up.limit f % *= obs. class width= -9. : -8. -7.. : -. -. : -. : - 8.7 ** - 8.8 **********.8 **************************************. **************************************************. **************. : Erottelu graafisena: Diagram of kuntat - - - - - D - - - - - D Diagram of koord - D - D Ala Maamet Teoll Palvelu Asuin Äyri Tulotaso X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - - X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - - X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - - X(t)=m+s*sqrt(-*log(-eps))*cos(t), Y(t)=m+s*sqrt(-*log(-eps))*sin(t+atn(rho/sqrt(-rho*rho))) - - - - - - - - - -