SAS ja R yhteiskäyttö



Samankaltaiset tiedostot
Metsien luonnontuotteet ja luomu. Rainer Peltola, MTT Rovaniemi / LAPPI LUO

Pohjalaismaakuntien väestö ja perheet

Erasmus-liikkuvuus Suomesta

Väestöennuste 2012 mikä muuttui?

Sisällys. 1. Energiatehokkuudesta. 2. Energiatehokkuusindikaattorit kansantalouden makrotasolla

Nuorisotyöttömyys Euroopassa. Eurooppafoorumi: Työläisten Eurooppa, Tampere, Liisa Larja

Tilastokeskuksen väestöennuste Kuolevuuslaskelmat. Markus Rapo, Tilastokeskus

Erasmus liikkuvuus Suomesta

805306A Johdatus monimuuttujamenetelmiin, 5 op

Eduskunnan tarkastusvaliokunta

Suomen biokapasiteetti ja sen. Prof. Jyri Seppälä Suomen ympäristökeskus

Korkeakoulutettujen työllistyminen ja työmarkkinoiden muutokset

Esityksessäni 10/26/2015. Naiset ja miehet ikääntyvässä Suomessa Markus Rapo, Tilastokeskus. -Vanhus / ikääntynyt määritelmä?

EU Participant Report feedback Sofia Lähdeniemi & Kiira Noponen

MEKIN UUDET HAASTEET. Keski-Suomen matkailuparlamentti Jyväskylä Pirkko Perheentupa Matkailun edistämiskeskus

Korkeasti koulutettujen työllisyys

Tilastokeskuksen väestöennusteet

Henkilöstöhallinto Venäjällä: Johtaminen ja sitouttaminen Venäjällä. Jon Hellevig Awara Eduhouse Training

MITEN KÄY KUSTANNUSTEN EHDOTETUSSA SOTE MALLISSA

*) %-yks. % 2018*)

Suomi - Älykkään energiamittauksen kärkimaa

Ilmailijan lääketiede. Uudet medikaalivaatimukset. Helsinki Fly In, Jukka Terttunen, AME Liikennelääketiedeyksikkö. Yhteinen asia.

Tuottavuuskehitys pkyrityksissä

Nuorten työttömyys -faktaa ja fiktiota

muutos *) %-yks. % 2017*)

muutos *) %-yks. % 2016

Mäntyöljykyllästys vaihtoehto kreosootille?

Kuinka ammattirakenteet mukautuvat globaaleihin arvoketjuihin

Maksujärjestelmäsimulaattori SUOMEN PANKKI FINLANDS BANK BANK OF FINLAND

Elämää PISA:n varjossa

Työttömyysetuuksien vaikutuksesta työmarkkinakäyttäytymiseen - tarkastelussa enimmäiskeston lyhennys

Maatalouden energiankulutus Suomessa ja Euroopassa

MMM/R0/MY Eduskunnan maa- ja metsätalousvaliokunta on pyytänyt tietoa Suomeen ja muihin jäsenvaltioihin kohdistuneista rahoitusoikaisuista.

Projektikokemuksia pk-yrityshankkeista

Fingrid uuden edessä. Toimitusjohtaja Jukka Ruusunen. Kantaverkkopäivä

Kvantitatiiviset menetelmät

Porvoon matkailun tunnuslukuja Marraskuu 2012

NUORET JA LIIKENNE. Aluepäällikkö Rainer Kinisjärvi Rovaniemi

Talouspolitiikka Suomessa Ennusteet, pitkä vs. lyhyt aikaväli, globalisaatio Matti Viren. Turun yliopisto

Porvoon matkailun tunnuslukuja huhtikuu 2012

Kohti uutta normaalia? Pakolaisuus ja muuttoliike lukuina, tänään

4. KORKEA VEROTUS VIE MITALISIJAN HYVINVOINTIKILPAILUSSA

Sirpa Rajalin. tutkijaseminaari

KUNNAT JA VESIHUOLTO: VAIHTOEHTOJA VAI SUORAVIIVAISUUTTA Pekka Pietilä, TkT TTY/CADWES-ryhmä

Ajankohtaista Fingridistä

EU:n ilmastopolitiikan haasteet ja jäsenmaiden välinen taakanjako. Laura Saikku Helsingin Yliopisto

Rakentamisen suhdannekatsaus

Metsien hiilinielujen

KVS2008. Pertti Kuronen

Kiertotalouden mahdollisuudet infrarakentamisessa. INFRA ry Juha Laurila

Tekstiviestejä ilman rajoja : komissio aikoo tehdä lopun ulkomailla lähetettyjen tekstiviestien kohtuuttomista verkkovierailuhinnoista

HD WIRELESS N OUTDOOR CLOUD CAMERA DCS-2330L ASENNUSOPAS

SOSIAALITURVA JA LUOTTAMUS. Heikki Ervasti Seminaarialustus Työeläkepäivä

EU:n koulutusraportti: Koulutustavoitteisiin pääseminen edellyttää vieläkin lisätoimia

IP/09/1064. Bryssel 1. heinäkuuta 2009

Uusiutuvien energialähteiden verkkoon pääsyn edistäminen syöttötariffit tulossa. Poliittiset linjaukset syöttötariffista

Kuka päättää sote-palveluiden kehittämisestä: asukas, professio vai manageri? Jouko Isolauri

Broilereiden hyvinvointi ja

EU-rahoituksen uusia mahdollisuuksia Suomessa. Toimialojen kasvuseminaari Kari Virtanen

Lapsen oikeudet ulottuvat myös nettiin. Mari Laiho Nettiturvallisuustyön päällikkö

CAP tilannekatsaus

Suomen energiapoliittiset sitoumukset: vaatimuksia ja mahdollisuuksia

Ovatko globalisaation vaikutukset luonnonlaki? Lisääkö globalisaatio eriarvoisuutta?

Anna Rotkirch Väestöntutkimuslaitos,

verkkovierailu Karri Huhtanen Arch Red Oy

Kauppalehti Tietopalvelut hinnasto

Maatalouspolitiikan uudistaminen vuosiksi

Erasmus+ KA1 Liikkuvuus- apurahat korkeakouluille

Henkilöstöhallinto Venäjällä: Johtaminen ja sitouttaminen Venäjällä. Mika Kokkonen Awara Eduhouse Training

KOTKAN-HAMINAN SEUTU. MATKAILUN TUNNUSLUKUJA Huhtikuu. Kotka venäläisyöpymisissä Jonsuun ja Jyväskylän. Alkuvuoden yöpymiset + 11 %

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Porvoon matkailun tunnuslukuja tammikuu 2012

Miten varmistaa osaaminen työelämän muutoksessa?

Lihavuuden kustannuksia. Markku Pekurinen, osastojohtaja, tutkimusprofessori

Seuraava vaalikausi: Työllisyys ja hyvintointivaltion rahoitus

Stenvest Oy - kultakolikkotaulukko

Markkinaraportti / elokuu 2015

IAB Europella on toimintaa 27 Euroopan maassa. IAB Finland ry perustettiin Nykyään noin sadan asiantuntijayrityksen ja liki tuhannen yksilön

Kuntien talous ja sote-uudistus. Olli Savela, kaupunginvaltuutettu, Hyvinkää Helsinki

Porvoon matkailun tunnuslukuja Lokakuu 2012

maa- ja metsätalousvalokunta Jaana Kaipainen maa- ja metsätalousministeriö

Kunnan perusolemus ja tehtävät. Kunnallisalan kehittämissäätiö Kuntakoulutus toimittajille Arto Haveri

Ympäristövaliokunta Heikki Granholm maa- ja metsätalousministeriö

Pankkisektori Suomessa

VANTAA Matkailun tunnuslukuja

CAP tilannekatsaus

Pikakatsaus maitomarkkinoihin Osuuskunta Pohjolan Maito Marko Puhto

Mitä on GLP? Pirkko Puranen, ylitarkastaja, FT Fimea, Luvat ja tarkastukset

Sähkön hinta ja toimitusvarmuus

Mielenterveyspalveluiden ongelmat ja haasteet

Erasmus+ KA103 eurooppalaisen liikkuvuuden ajankohtaista Anni Kallio, Sofia Lähdeniemi, Heidi Reese

Tilastokeskuksen asiakasaamu kirjastoille ja tietopalveluille Kansainväliset hintavertailut Harri Kananoja

Merkittävää eriarvoisuutta WHO-Koululaistutkimuksen tuloksia nuorten terveydestä ja hyvinvoinnista

Kansallinen metsäohjelma 2015: Metsien ilmasto- ja energiahyödyt

KIERRÄTTÄMÄLLÄ. Miten (uusi) jätelainsäädäntö on muuttanut toimintaa? Valtakunnalliset Jätehuoltopäivät Jorma Mikkonen

Markkinaraportti / helmikuu 2009

Markkinaraportti / syyskuu 2015

SAMAPALKKAISUUTEEN PALKKAUSJÄRJESTELMÄUUDISTUKSIN Markku Palokangas, Toimihenkilöunioni Minna Etu-Seppälä, Suomen Varustamoyhdistys

Poistavatko kannustimet ja sanktiot työttömyyttä? Heikki Ervasti

Markkinaraportti / heinäkuu 2010

Transkriptio:

Maria Valaste Kela & Helsingin yliopisto 24.5.2012 SAS Technical Club

Sisällys 1 2 3 Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva 4 Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen institution-logo-filen

institution-logo-filen SAS/IML Studion (aiemmin SAS Stat Studio) kautta mahdollista käyttää a SAS 9.2 versiosta lähtien Vaatii toimiakseen SAS kokonaisuudet: Base SAS, SAS/STAT ja SAS/IML Ohjelmointikielenä SAS/IML Studiossa on IMLPlus, joka on laajennus SAS/IML ohjelmointikielestä SAS/IML Studiolla voi mm. käyttää R:n ominaisuuksia SAS/IML ja SAS ohjelmia. SAS- ja R-muotoisten datatiedostojen ja -matriisien käyttö on suhteellisen helppoa

institution-logo-filen R on tilastollinen ohjelmointiympäristö Vapaa ohjelma Ladattavissa osoitteesta http://cran.r-project.org/ Saatavilla eri käyttöjärjelmille (Linux, Windowsiin ja Macintosh) Moni uusista tilastometodeista on ensin koodattu an

Aineisto: Economic Freedom 2009* Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva # Variable Type Label 1 Country Char Country 2 Overall Num 2009 Overall 3 Business Num Business Freedom 4 Trade Num Trade Freedom 5 Fiscal Num Fiscal Freedom 6 GovtSize Num Government Size 7 Monetary Num Monetary Freedom 8 Investm Num Investment Freedom 9 Finance Num Finance Freedom 10 Property Num Property Rights 11 Corrupt Num Freedom from Corrupt 12 Labor Num Labor Freedom 13 EU Num 1=EU, 0=Ei EU * Lähde: http://www.heritage.org/index/ institution-logo-filen

institution-logo-filen Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva libname a C:\Users\Maria\STUFF\Esitys 20120524 ; submit; proc corr data=a.econfree noprob; var Overall Business Trade Fiscal GovtSize Monetary Investm Finance Property Corrupt Labor; run; endsubmit;

Tunnuslukuja (R) Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva /* Lähetetään data EconFree an */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; print( Tulostetaan sta: ); EconFree <- EconFree[,2:12] # Country & Eu jäävät pois names(econfree) # tulostetaan muuttujalista c = cor(econfree) # korrelaatiomatriisi nimet <- colnames(c) # muuttujien nimien tallennus endsubmit; run ImportMatrixFromR( IMLNames, nimet ); run ImportMatrixFromR( IMLCorr, c ); print Korrelaatiomatriisi: ; print IMLCorr[rowname=IMLNames colname=imlnames]; institution-logo-filen

Hierarkkinen ryhmittely Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva /* Hierarkkinen ryhmittely */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; EconFree2 <- EconFree[,1:12] d <- dist(econfree2, method = euclidean ) # etäisyysmatriisi # ryhmittelymenetelmä etäisin naapuri t <- hclust(d, method= complete ) # puukuvan (dendrogrammi) piirto plot(t,labels=econfree2$country) ryhma <- cutree(t, k=4) # jaetaan neljään ryhmään # korostetaan ryhmiä kuvassa rect.hclust(t, k=4, border= red ) endsubmit; institution-logo-filen

Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva Cluster Dendrogram Height 0 20 40 60 80 100 120 140 Denmark Austria Belgium Netherlands United_Kingdom Sweden Finland Germany Greece Poland Lithuania Slovak_Republic Bulgaria Romania Ireland Spain Estonia Luxembourg Malta Cyprus Czech_Republic Hungary Italy France Portugal Slovenia d hclust (*, "complete") institution-logo-filen

Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva institution-logo-filen /* Piirretään Chernoffin naamoja */ run ExportDataSetToR( a.econfree, EconFree ); submit / R; # Otetaan TeachingDemos käyttöön library(teachingdemos) EconFree3 <- EconFree[,1:12] faces(econfree3[,2:12], labels=econfree3$country) endsubmit;

Tunnuslukuja (R) Hierarkkinen ryhmittely Kuva institution-logo-filen Austria Belgium Bulgaria Cyprus Czech_Republic Denmark Estonia Finland France Germany Greece Hungary Ireland Italy Lithuania Luxembourg Malta Netherlands Poland Portugal Romania Slovak_Republic Slovenia Spain Sweden United_Kingdom

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Simulointisuunnitelma: 1 Luodaan aineisto SAS:n työkaluilla 2 Viedään aineisto an, jossa moni-imputoidaan simuloitua dataa PAN-paketilla 3 Tuodaan moni-imputoitu aineisto SAS/IML Studioon ja yhdistetään laskelmat proseduurin MIANALYZE avulla 4 Sovitetaan malli ja tulostetaan tulokset

Luodaan aineisto SAS:n työkaluilla Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Proseduuri SIMNORMAL luo ennalta annetulla korrelaatiomatriisi- tai kovarianssimatriisirakenteella simuloidun aineiston normaalijakaumasta Esimerkissä luodaan muuttujat x1 ja x2 Yhdessä aineistossa kaksi eri kokoista klusteria (koot: 2 ja 3) ja kummassakin klusterissa 600 havaintoa Simuloidaan kymmenen aineistoa Luodaan jokaiselle havainnolle id-muuttuja sekä jokaiselle klusterille oma id Jäljempänä laskettavaan logistista mallia varten simuloidaan Y -muuttuja sekä jokaiselle klusterille oma satunnainen vakio Käytetään proseduuria SURVEYSELECT satunnaisten puuttuvien arvojen luomiseen institution-logo-filen

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Viedään aineisto an, jossa moni-imputoidaan simuloitua dataa PAN-paketilla Viedään data an komennolla run ExportDataSetToR( esim2.esimerkki2 MIS, esimerkki2 MIS ); n paketti PAN soveltuu mm. ryvästyneen aineiston moni-imputoimiseen Moni-imputoidaan aineistoa 5 kertaa Käytetään moni-imputoidun aineiston tallennukseen n pakettia foreign, joka tuottaa tekstimuotoisen datatiedoston sekä valmiin SAS-ohjelman datan sisäänlukua varten

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Tuodaan moni-imputoitu aineisto SAS/IML Studioon, yhdistetään laskelmat proseduurin MIANALYZE avulla, sovitetaan malli ja tulostetaan tulokset PAN tuottaa datatiedoston, jossa imputoidut viisi muuttujaa ovat rinnakkain. Käännetään data ja yhdistetään alkuperäiseen aineistoon Muodostetaan jokaiselle imputointikerralle logistinen malli, jossa dikotomista muuttujaa Y selitetään imputoidulla x1-muuttujalla sekä x2-muuttujalla Yhdistetään imputointikertojen tulokset proseduurilla MIANALYZE ja tulostetaan ruudulle

institution-logo-filen Aineiston luominen Moni-imputointi R:ssä Tulosten yhdistäminen Kiitos!