SAS ja R yhteiskäyttö



Samankaltaiset tiedostot
Metsien luonnontuotteet ja luomu. Rainer Peltola, MTT Rovaniemi / LAPPI LUO

Erasmus-liikkuvuus Suomesta

Väestöennuste 2012 mikä muuttui?

Sisällys. 1. Energiatehokkuudesta. 2. Energiatehokkuusindikaattorit kansantalouden makrotasolla

Nuorisotyöttömyys Euroopassa. Eurooppafoorumi: Työläisten Eurooppa, Tampere, Liisa Larja

Tilastokeskuksen väestöennuste Kuolevuuslaskelmat. Markus Rapo, Tilastokeskus

Erasmus liikkuvuus Suomesta

805306A Johdatus monimuuttujamenetelmiin, 5 op

Suomen biokapasiteetti ja sen. Prof. Jyri Seppälä Suomen ympäristökeskus

Korkeakoulutettujen työllistyminen ja työmarkkinoiden muutokset

Esityksessäni 10/26/2015. Naiset ja miehet ikääntyvässä Suomessa Markus Rapo, Tilastokeskus. -Vanhus / ikääntynyt määritelmä?

MEKIN UUDET HAASTEET. Keski-Suomen matkailuparlamentti Jyväskylä Pirkko Perheentupa Matkailun edistämiskeskus

Korkeasti koulutettujen työllisyys

Tilastokeskuksen väestöennusteet

Henkilöstöhallinto Venäjällä: Johtaminen ja sitouttaminen Venäjällä. Jon Hellevig Awara Eduhouse Training

MITEN KÄY KUSTANNUSTEN EHDOTETUSSA SOTE MALLISSA

*) %-yks. % 2018*)

Ilmailijan lääketiede. Uudet medikaalivaatimukset. Helsinki Fly In, Jukka Terttunen, AME Liikennelääketiedeyksikkö. Yhteinen asia.

Tuottavuuskehitys pkyrityksissä

Nuorten työttömyys -faktaa ja fiktiota

muutos *) %-yks. % 2017*)

Mäntyöljykyllästys vaihtoehto kreosootille?

Maatalouden energiankulutus Suomessa ja Euroopassa

Projektikokemuksia pk-yrityshankkeista

Fingrid uuden edessä. Toimitusjohtaja Jukka Ruusunen. Kantaverkkopäivä

Kvantitatiiviset menetelmät

Porvoon matkailun tunnuslukuja Marraskuu 2012

NUORET JA LIIKENNE. Aluepäällikkö Rainer Kinisjärvi Rovaniemi

Porvoon matkailun tunnuslukuja huhtikuu 2012

4. KORKEA VEROTUS VIE MITALISIJAN HYVINVOINTIKILPAILUSSA

Sirpa Rajalin. tutkijaseminaari

KUNNAT JA VESIHUOLTO: VAIHTOEHTOJA VAI SUORAVIIVAISUUTTA Pekka Pietilä, TkT TTY/CADWES-ryhmä

Ajankohtaista Fingridistä

EU:n ilmastopolitiikan haasteet ja jäsenmaiden välinen taakanjako. Laura Saikku Helsingin Yliopisto

Rakentamisen suhdannekatsaus

Kiertotalouden mahdollisuudet infrarakentamisessa. INFRA ry Juha Laurila

HD WIRELESS N OUTDOOR CLOUD CAMERA DCS-2330L ASENNUSOPAS

SOSIAALITURVA JA LUOTTAMUS. Heikki Ervasti Seminaarialustus Työeläkepäivä

EU:n koulutusraportti: Koulutustavoitteisiin pääseminen edellyttää vieläkin lisätoimia

Uusiutuvien energialähteiden verkkoon pääsyn edistäminen syöttötariffit tulossa. Poliittiset linjaukset syöttötariffista

Kuka päättää sote-palveluiden kehittämisestä: asukas, professio vai manageri? Jouko Isolauri

Broilereiden hyvinvointi ja

Lapsen oikeudet ulottuvat myös nettiin. Mari Laiho Nettiturvallisuustyön päällikkö

CAP tilannekatsaus

Suomen energiapoliittiset sitoumukset: vaatimuksia ja mahdollisuuksia

Ovatko globalisaation vaikutukset luonnonlaki? Lisääkö globalisaatio eriarvoisuutta?

Anna Rotkirch Väestöntutkimuslaitos,

verkkovierailu Karri Huhtanen Arch Red Oy

Kauppalehti Tietopalvelut hinnasto

Maatalouspolitiikan uudistaminen vuosiksi

Erasmus+ KA1 Liikkuvuus- apurahat korkeakouluille

Henkilöstöhallinto Venäjällä: Johtaminen ja sitouttaminen Venäjällä. Mika Kokkonen Awara Eduhouse Training

KOTKAN-HAMINAN SEUTU. MATKAILUN TUNNUSLUKUJA Huhtikuu. Kotka venäläisyöpymisissä Jonsuun ja Jyväskylän. Alkuvuoden yöpymiset + 11 %

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Porvoon matkailun tunnuslukuja tammikuu 2012

Lihavuuden kustannuksia. Markku Pekurinen, osastojohtaja, tutkimusprofessori

Stenvest Oy - kultakolikkotaulukko

Markkinaraportti / elokuu 2015

IAB Europella on toimintaa 27 Euroopan maassa. IAB Finland ry perustettiin Nykyään noin sadan asiantuntijayrityksen ja liki tuhannen yksilön

Porvoon matkailun tunnuslukuja Lokakuu 2012

maa- ja metsätalousvalokunta Jaana Kaipainen maa- ja metsätalousministeriö

Kunnan perusolemus ja tehtävät. Kunnallisalan kehittämissäätiö Kuntakoulutus toimittajille Arto Haveri

Ympäristövaliokunta Heikki Granholm maa- ja metsätalousministeriö

Pankkisektori Suomessa

VANTAA Matkailun tunnuslukuja

CAP tilannekatsaus

Pikakatsaus maitomarkkinoihin Osuuskunta Pohjolan Maito Marko Puhto

Mitä on GLP? Pirkko Puranen, ylitarkastaja, FT Fimea, Luvat ja tarkastukset

Sähkön hinta ja toimitusvarmuus

Mielenterveyspalveluiden ongelmat ja haasteet

Erasmus+ KA103 eurooppalaisen liikkuvuuden ajankohtaista Anni Kallio, Sofia Lähdeniemi, Heidi Reese

Tilastokeskuksen asiakasaamu kirjastoille ja tietopalveluille Kansainväliset hintavertailut Harri Kananoja

Merkittävää eriarvoisuutta WHO-Koululaistutkimuksen tuloksia nuorten terveydestä ja hyvinvoinnista

Markkinaraportti / syyskuu 2015

SAMAPALKKAISUUTEEN PALKKAUSJÄRJESTELMÄUUDISTUKSIN Markku Palokangas, Toimihenkilöunioni Minna Etu-Seppälä, Suomen Varustamoyhdistys

Poistavatko kannustimet ja sanktiot työttömyyttä? Heikki Ervasti

Markkinaraportti / heinäkuu 2010

Transkriptio:

Maria Valaste Kela & Helsingin yliopisto 24.5.2012 SAS Technical Club

Sisällys 1 2 3 Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva 4 Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen institution-logo-filen

institution-logo-filen SAS/IML Studion (aiemmin SAS Stat Studio) kautta mahdollista käyttää a SAS 9.2 versiosta lähtien Vaatii toimiakseen SAS kokonaisuudet: Base SAS, SAS/STAT ja SAS/IML Ohjelmointikielenä SAS/IML Studiossa on IMLPlus, joka on laajennus SAS/IML ohjelmointikielestä SAS/IML Studiolla voi mm. käyttää R:n ominaisuuksia SAS/IML ja SAS ohjelmia. SAS- ja R-muotoisten datatiedostojen ja -matriisien käyttö on suhteellisen helppoa

institution-logo-filen R on tilastollinen ohjelmointiympäristö Vapaa ohjelma Ladattavissa osoitteesta http://cran.r-project.org/ Saatavilla eri käyttöjärjelmille (Linux, Windowsiin ja Macintosh) Moni uusista tilastometodeista on ensin koodattu an

Aineisto: Economic Freedom 2009* Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva # Variable Type Label 1 Country Char Country 2 Overall Num 2009 Overall 3 Business Num Business Freedom 4 Trade Num Trade Freedom 5 Fiscal Num Fiscal Freedom 6 GovtSize Num Government Size 7 Monetary Num Monetary Freedom 8 Investm Num Investment Freedom 9 Finance Num Finance Freedom 10 Property Num Property Rights 11 Corrupt Num Freedom from Corrupt 12 Labor Num Labor Freedom 13 EU Num 1=EU, 0=Ei EU * Lähde: http://www.heritage.org/index/ institution-logo-filen

institution-logo-filen Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva libname a C:\Users\Maria\STUFF\Esitys 20120524 ; submit; proc corr data=a.econfree noprob; var Overall Business Trade Fiscal GovtSize Monetary Investm Finance Property Corrupt Labor; run; endsubmit;

Tunnuslukuja (R) Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva /* Lähetetään data EconFree an */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; print( Tulostetaan sta: ); EconFree <- EconFree[,2:12] # Country & Eu jäävät pois names(econfree) # tulostetaan muuttujalista c = cor(econfree) # korrelaatiomatriisi nimet <- colnames(c) # muuttujien nimien tallennus endsubmit; run ImportMatrixFromR( IMLNames, nimet ); run ImportMatrixFromR( IMLCorr, c ); print Korrelaatiomatriisi: ; print IMLCorr[rowname=IMLNames colname=imlnames]; institution-logo-filen

Hierarkkinen ryhmittely Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva /* Hierarkkinen ryhmittely */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; EconFree2 <- EconFree[,1:12] d <- dist(econfree2, method = euclidean ) # etäisyysmatriisi # ryhmittelymenetelmä etäisin naapuri t <- hclust(d, method= complete ) # puukuvan (dendrogrammi) piirto plot(t,labels=econfree2$country) ryhma <- cutree(t, k=4) # jaetaan neljään ryhmään # korostetaan ryhmiä kuvassa rect.hclust(t, k=4, border= red ) endsubmit; institution-logo-filen

Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva Cluster Dendrogram Height 0 20 40 60 80 100 120 140 Denmark Austria Belgium Netherlands United_Kingdom Sweden Finland Germany Greece Poland Lithuania Slovak_Republic Bulgaria Romania Ireland Spain Estonia Luxembourg Malta Cyprus Czech_Republic Hungary Italy France Portugal Slovenia d hclust (*, "complete") institution-logo-filen

Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva institution-logo-filen /* Piirretään Chernoffin naamoja */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; # Otetaan TeachingDemos käyttöön library(teachingdemos) EconFree3 <- EconFree[,1:12] faces(econfree3[,2:12], labels=econfree3$country) endsubmit;

Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva institution-logo-filen Austria Belgium Bulgaria Cyprus Czech_Republic Denmark Estonia Finland France Germany Greece Hungary Ireland Italy Lithuania Luxembourg Malta Netherlands Poland Portugal Romania Slovak_Republic Slovenia Spain Sweden United_Kingdom

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Simulointisuunnitelma: 1 Luodaan aineisto SAS:n työkaluilla 2 Viedään aineisto an, jossa moni-imputoidaan simuloitua dataa PAN-paketilla 3 Tuodaan moni-imputoitu aineisto SAS/IML Studioon ja yhdistetään laskelmat proseduurin MIANALYZE avulla 4 Sovitetaan malli ja tulostetaan tulokset

Luodaan aineisto SAS:n työkaluilla Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Proseduuri SIMNORMAL luo ennalta annetulla korrelaatiomatriisi- tai kovarianssimatriisirakenteella simuloidun aineiston normaalijakaumasta Esimerkissä luodaan muuttujat x1 ja x2 Yhdessä aineistossa kaksi eri kokoista klusteria (koot: 2 ja 3) ja kummassakin klusterissa 600 havaintoa Simuloidaan kymmenen aineistoa Luodaan jokaiselle havainnolle id-muuttuja sekä jokaiselle klusterille oma id Jäljempänä laskettavaan logistista mallia varten simuloidaan Y -muuttuja sekä jokaiselle klusterille oma satunnainen vakio Käytetään proseduuria SURVEYSELECT satunnaisten puuttuvien arvojen luomiseen institution-logo-filen

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Viedään aineisto an, jossa moni-imputoidaan simuloitua dataa PAN-paketilla Viedään data an komennolla run ExportDataSetToR( esim2.esimerkki2 MIS, esimerkki2 MIS ); n paketti PAN soveltuu mm. ryvästyneen aineiston moni-imputoimiseen Moni-imputoidaan aineistoa 5 kertaa Käytetään moni-imputoidun aineiston tallennukseen n pakettia foreign, joka tuottaa tekstimuotoisen datatiedoston sekä valmiin SAS-ohjelman datan sisäänlukua varten

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Tuodaan moni-imputoitu aineisto SAS/IML Studioon, yhdistetään laskelmat proseduurin MIANALYZE avulla, sovitetaan malli ja tulostetaan tulokset PAN tuottaa datatiedoston, jossa imputoidut viisi muuttujaa ovat rinnakkain. Käännetään data ja yhdistetään alkuperäiseen aineistoon Muodostetaan jokaiselle imputointikerralle logistinen malli, jossa dikotomista muuttujaa Y selitetään imputoidulla x1-muuttujalla sekä x2-muuttujalla Yhdistetään imputointikertojen tulokset proseduurilla MIANALYZE ja tulostetaan ruudulle

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Kiitos!