Duplikaattien havaitseminen ja poisto DataFlux välinein



Samankaltaiset tiedostot
Data Governance tulee lihaksi

PIC-koodin luominen URF-tietokantaan Participant Portal

Tiedolla johtamisen varautuminen uusiin toimintamalleihin

Denormalisointia turvallisesti. Ougf syysseminaari Pörssitalo Helsinki Timo Raitalaakso

Monikanavaisen asiakkuuden analytiikkaa

Harjoitustyö. CSE-A1200 Tietokannat! Jasse Lahdenperä! ! Henri Nurmi! !

Tällä viikolla. Kotitehtävien läpikäynti Aloitetaan Pelifirman tietovaraston suunnittelu Jatketaan SQL-harjoituksia

DriveGate -ohjeet. DriveGate-käyttöohjeet: Rekisteröityminen palveluun. Rekisteröitymisohjeet ja rekisteröitymisprosessin kuvaus

Automatisoitu GTT potilasturvallisuustutkimuksessa

Kirjasto Relaatiotietokannat Kevät Auvinen Annemari Niemi Anu Passoja Jonna Pulli Jari Tersa Tiina

Makrojen mystinen maailma lyhyt oppimäärä

Analytiikka tilausmyynnin tukena

Kennelliiton Omakoira-jäsenpalvelu Ohje kennelpiireille, pätevyyksien käsittely

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

Unelma tiedon hyödyntämisen kokonaisekosysteemistä

SAS ja R yhteiskäyttö

SQL-perusteet, SELECT-, INSERT-, CREATE-lauseet

Mobility Tool. Demo CIMO

DI Studion käyttökokemuksia. Kaisu Ikonen, Tilastokeskus

Contact Form 7 -lomakkeen yhdistäminen Timeline Manageriin

HAAGA-HELIA Heti-09 1 (12) ICT05 Tiedonhallinta ja Tietokannat O.Virkki Näkymät

WEBINAARIN ISÄNNÄT. Jarno Wuorisalo Cuutio.fi. Petri Mertanen Superanalytics.fi. Tomi Grönfors Brandfors.com

GALERIE EXHIBITIONS (13) 1 2 EXHIBITIONS 2

HELIA TIKO-05 1 (17) ICT03D Tieto ja tiedon varastointi Räty, Virkki

HELIA 1 (14) Outi Virkki Tiedonhallinta

SAS -kartat Taloustohtori -verkkopalveluissa

TIETOKANTOJEN PERUSTEET OSIO 11 MARKKU SUNI

Lean johtaminen ja työkalut. Työpaja

Botnia Mill Service Laitostietojen siirto SAP-järjestelmään

Tiedonhallinnan perusteet. H11 Ovien ja kulun valvontajärjestelmän tietokanta

Hakukyselyt: SELECT * FROM taulu WHERE sarake1 = Malli Nimi [WHERE sarake1 LIKE M% ] [WHERE BETWEEN ehto1 AND ehto2] [WHERE sarake1 IN/= (alikysely)]

SAS sovellusten hallinnointi helpoksi Turbo Charge -menetelmällä Tapio Kalmi, SAS Institute Oy

CSE-A1200 Tietokannat

Nykyaikaiset paikkatietoratkaisut. Autodesk AutoCAD Civil 3D 2015 A BIM for infrastructure software solution. Olli Ojala Future Group Oy

Joko tunnet nämän Oracle10g SQL:n piirteet? Kari Aalto Saariston IT

WEBINAARI Mitä Tag Management on käytännössä ja miten se vaikuttaa analytiikkaan?

HELIA 1 (14) Outi Virkki Tiedonhallinta

Ylläpitopalvelu. Tietuekuvaus. Tietuekuvaus 1 (8) Ylläpitopalvelu. Julkinen - Public

Tietokannat. CREATE TABLE table(col1,col2,... ); Luo uuden taulun. CREATE TABLE opiskelijat(opnumero,etunimi,sukunimi);

Kansallinen hankintailmoitus: Savon koulutuskuntayhtymä : Plasma- ja kaasuleikkauskone/kone- ja metalliala

Palkkatietoilmoitus Esimerkki 6 Vakuuttamisen poikkeustilanne 1, ulkomainen työnantaja

Master s Thesis opinnäytetyön tuki Industrial Management Master s -ohjelmassa. TkT Marjatta Huhta, Metropolia

Sähköpostitilin luonti

Automaster tai MBS. 2. ODBC - ajurin asennus (jos ei ole jo asennettu)

Liiketoimintamalleja ja teknisiä ratkaisuja energiatehokkuuden parantamiseksi Lauri Heikkinen

Datalähtöinen IT-palveluprosessien kehittäminen, analysointi ja suorituskyvyn mittaaminen Prosessipäivät 2016 Matti Erkheikki QPR Software

Versionhallintaa. Versionhallinnan käyttöönotto SAS ympäristössä

Esimerkkiprojekti. Mallivastauksen löydät Wroxin www-sivuilta. Kenttä Tyyppi Max.pituus Rajoitukset/Kommentit

Software Signing System System overview and key domain concepts

KUSTANNUS- JA KANNATTAVUUSTIETOA NOPEAMMIN JA HAVAINNOLLISEMMIN SAS COST AND PROFITABILITY MANAGEMENT MIKKO VARILA BUSINESS ADVISOR

WEBINAARI

BaseMidlet. KÄYTTÖOHJE v. 1.00

Leica Viva TPS Nopein takymetri

Tiedot hallintaan PROC CONTENTSilla makroja ja ODS:ää hyödyntäen. Päivi Heimonen ICT-erikoisasiantuntija, Kela SAS Tech Club 24.1.

Kansallinen hankintailmoitus: HAAGA-HELIA Oy Ab : HAAGA-HELIA Oy Ab: Pasilan aktiivilaitteet 2011

Flowcode 6 Omien komponenttien luonti 3D- tilassa Ledi

Varmennepalvelu - testipenkki. Kansallisen tulorekisterin perustamishanke

Kansallinen hankintailmoitus: Mikkelin ammattikorkeakoulu Oy : Palvelimet ja kytkin

XML -muotoisen raportin luonti

Palkkatietoilmoitus Esimerkki 2 Tilapäinen työnantaja

OpenStreetMap-aineistojen haltuunotto GDAL:lla

Asynkroninen ohjelmointi.net 4.5 versiolla

Turnitin-ohjelma käyttö opettajana Turnitin.comissa

Bench-hanke. Kurki-seminaari Kouvola Ph.D. Maija Härkönen Tkt Antero Ollila 3 Nov 2010 Slide 1

Dynaamista ja joustavaa ohjelmointia - maukasta makrokielellä

FORD ST _ST_Range_V2_ MY.indd FC1-FC3 27/06/ :24:01

Copyright

Rekisteriseloste. Rekisterinpitäjä. Yhteyshenkilö rekisteriä koskevissa asioissa. Rekisterin nimi. Henkilötietojen käsittelyn tarkoitus

Museo 2015 järjestelmä ja Museoiden luettelointiohjeet

Tietokannat. CREATE TABLE table(col1,col2,... ); Luo uuden taulun. CREATE TABLE opiskelijat(opnumero,etunimi,sukunimi);

AUTOVISTA VIS KÄYTTÄJÄHALLINTA

Rekisteriseloste Henkilötietolain (523/99) 10 ja 24 mukainen rekisteri- ja tietosuojaseloste.

Käyttäjätunnus Användarnamn Username. Salasana Lösenord Password. Kieli Språk Language. Kirjaudu sisään / Logga in / Login

Bosch ST Nordic Road Show 3.10 Oulu- Kauppakeskus Valkea 4. krs 5.10 Helsingin oikea jäähalli

Motorola Phone Tools. Pikaopas

Opas administraattori-tason käyttäjille. MANAGERIX -ohjelman esittely... 2 Kirjautuminen... 2

Information Builders Nordic Summit 2011 BI:n hyödyntäminen, markkinat ja trendit Mika Rajamäki

Suomi.fi-palvelutietovaranto Kaikki oleellinen julkishallinnon palveluista yhdessä paikassa. PTV-rajapintojen ajankohtaiset asiat

SUGIF Technical Club Jarno Lindqvist

Tehtävä 1. Tietojen lisääminen, poistaminen, päivittäminen ja tulostaminen

SQL - STRUCTURED QUERY LANGUAGE

SMT / SUOMEN MATKATOIMISTO OY Y-TUNNUS / FO-NUMMER / BUSINESS ID

dupol.eu - smart home product comparison

Miten Hadoopista tuli helppoa? Jarno Lindqvist Principal Advisor SAS

Veronumero.fi Tarkastaja rajapinta

TIEDONHALLINTA - SYKSY Luento 11. Hannu Markkanen /10/12 Helsinki Metropolia University of Applied Sciences

Testilaitteiston ja -järjestelmän esittely

Informaatiotekniikan kehitysyksikkö

WWW-ohjelmoinnin kokonaisuus. WWW-OHJELMOINTI 1 Merkkauskielet. Merkkauskielten idea. Merkkauskielet (markup languages) Merkkauskielten merkitys

Kansallinen hankintailmoitus: Mikkelin ammattikorkeakoulu Oy : Neuropsykiatrinen valmentaja -koulutukset (3)

NAP: Merenkulun reitti- ja aikataulueditorin käyttöohje

Valtionhallinnon käyttäjäpäivä - IBM Cognosin tulevaisuuskatsaus ja nykypäivä

Jätteestä ekokaivokseksi. Kemian Päivät Jutta Laine-Ylijoki VTT

ARVOTIETO OY. Asiakasdatasta lisäarvoa

SAS ja Hadoop jotain uutta, wanhaa, lainattua ja keltaista. Jarno Lindqvist, SAS Simon Gregory, Hortonworks Woody Christy, Cloudera

Alihankkijoiden integrointi & tahtituotanto. Alustus: Aleksi Heinonen, Vison Oy

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus SAS Forum Helsinki

Facebook-pikseli tutuksi. Artem Daniliants / LumoLink

CSE-A1200 Tietokannat

Transkriptio:

Duplikaattien havaitseminen ja poisto DataFlux välinein SUGIF Technical Club 15.9.2011 Jarno Lindqvist SAS Institute Oy Copyright 2010 SAS Institute Inc. All rights reserved.

Miten tiedonlaatu ja MDM liittyvät SASiin? Source: TDWI Best Practice Report, Q4 2009 2

Miksi DataFlux, eikös meillä jo ole NODUP? SASin NODUP ja NODUPKEY (esim. PROC SORT) toimivat hyvin kun poistetaan identtisiä ilmentymiä Se toimii hyvin myös silloin kun halutaan säilyttää jollakin kriteerillä ensisijainen ilmentymä (tässä suurin Score) kun järjestelemme aineiston kriteerin mukaisesti Silloin vain ensimmäiseksi järjestelty arvo jää talteen ja muut poistetaan 3

Entä kun ilmentymät eivät olekaan identtisiä? Perinteiset metodit kuten NODUP eivät tunnista ilmentymiä samaan henkilöön liittyviksi, koska päälekkäisiä avaimia ei ole -> Tarvitaan joustavampia metodeja, joilla ilmentymät pystytään luokittelemaan samaan klusteriin kuuluviksi 4

Mikä DataFlux? DataFlux on perustettu 1997 Pohjois-Carolinassa SASin tytäryhtiö vuodesta 2000 Yli 2400 asiakasta globaalisti DataFlux tarjoaa ratkaisuja tiedonlaadun, data-integraation ja perustietojen hallinnan (MDM) alueille DataFlux Data Management Studio & Server qmdm Master Data Management 5 5

Tiedonlaadun kehittämisen vaiheet Metadatan analysointi Ymmärrys siitä, mitä dataa on käytettävissä Datan profilointi Käsitys datan nykytilanteesta; eheydestä ja rakenteesta Datan laatu Korjaustoimenpiteet datan standardisoimiseksi Datan integrointi Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan täydentäminen ulkoisista lähteistä (esim. paikkatiedon avulla) Parhaan ilmentymän valinta Duplikaattien poisto ja ilmentymien yhdistäminen 6

Mitä on parhaan ilmentymän tunnistus ja valinta? Ilmentymien tunnistaminen eri tietolähteissä sijaitsevasta datasta Sumean logiikan menetelmien hyödyntäminen klustereiden muodostamisessa match-koodien vertailun avulla Valintasääntöjen luominen, joiden mukaiset ilmentymät nostetaan klusterin muiden ilmentymien ohitse Parhaan ilmentymän valitseminen usean ilmentymän klusterista Jatkotoimet, eli poistuvien ilmentymien merkintä ja mahdollinen parhaan ilmentymän täydentäminen poistuvien ilmentymien tiedoilla 7

DataFlux käyttää match-koodien vertaillessaan näennäisesti päällekkäistä dataa keskenään Järjestelmä A Järjestelmä B Järjestelmä C Field Järjestelmä Loan A Järjestelmä Current Acc B Järjestelmä Mortgage C Nimi Name Aku Robert Ankka Smith A. Bob Ankka Smith Aku Rob Rankka Smith Osoite Address Paratiisitie 14 Church13 Street Paratiisikatu Fourteen Church 13 Paratiisit. 14 Church 13 St. Kaupunki Ankkalinna Ankkalinna Street Ankkalinnoitus Match-koodi City GHWS$$EWT$ Swindon GHWS$$EWT$ Swindon GHWS$$WWT$ Swansea Value 25000 2452.45 94000 8

Match-koodien luonti Data Management Studiossa 9

Saman talouden asukkaiden klusterointi matchkoodituksen avulla Etunimi Sukunimi Katuosoite Puhelin MC1 (Sukunimi ja katuosoite) MC2 (Katuosoite ja puhelin) MC3 (Sukunimi ja puhelin) Klusteri ID Tupu Ankka Paratiisitie 13 832-8239 $SV #V8 %A8 1 Hupu Ankka Paratiisitie 13 832-8239 $SV #V8 %S8 1 Lupu Ankka Paratiisitie 13 616-1504 $SV #V6 %S6 1 Mikki Hiiri Julle Ankan polku 6 688-2826 $GH #H3 %G6 2 Mortti Hiiri Julle Ankan polku 6 688-2857 $GH #H6 %R6 2 Vertti Hiiri Julle Ankan polku 6 688-2851 $GH #H1 %B6 2 10

Duplikaattien poistaminen Valintasäännöt tässä Contact = useimmin toistuva ilmentymä ID = suurin arvo (viimeksi päivitetty?) Muita valintasääntöesimerkkejä Pisin ilmentymä Viimeksi päivitetty ilmentymä Ulkoisesta lähteestä validoitu arvo Tietyn patternin omaava arvo (99999) 11

Luodaan Paras ilmentymä Täydennetään parasta ilmentymää valintasääntöjen mukaan Valintasäännöt tässä When Phone is Not Null, Select Phone When State is Shortest Value, Select City and State 12

Match-koodit, standardointi, klusterointi ja parhaan ilmentymän valinta Data Management Studiossa Vaihe 1: Lähdedatan määrittely Vaihe 2: Match-koodien luonti nimille Vaihe 3: Match-koodien luonti muille kentille Vaihe 4: Standardoidaan työpuhelinnumerot yleiseen muotoon Vaihe 5: Klusteroidaan ilmentymät vertaamalla match-koodeja Vaihe 6: Parhaan ilmentymän valinta klustereittain Vaihe 7: Avataan ilmentymien vertailuikkuna tarkastelua varten 13

Copyright 2010 SAS Institute Inc. All rights reserved.