Duplikaattien havaitseminen ja poisto DataFlux välinein SUGIF Technical Club 15.9.2011 Jarno Lindqvist SAS Institute Oy Copyright 2010 SAS Institute Inc. All rights reserved.
Miten tiedonlaatu ja MDM liittyvät SASiin? Source: TDWI Best Practice Report, Q4 2009 2
Miksi DataFlux, eikös meillä jo ole NODUP? SASin NODUP ja NODUPKEY (esim. PROC SORT) toimivat hyvin kun poistetaan identtisiä ilmentymiä Se toimii hyvin myös silloin kun halutaan säilyttää jollakin kriteerillä ensisijainen ilmentymä (tässä suurin Score) kun järjestelemme aineiston kriteerin mukaisesti Silloin vain ensimmäiseksi järjestelty arvo jää talteen ja muut poistetaan 3
Entä kun ilmentymät eivät olekaan identtisiä? Perinteiset metodit kuten NODUP eivät tunnista ilmentymiä samaan henkilöön liittyviksi, koska päälekkäisiä avaimia ei ole -> Tarvitaan joustavampia metodeja, joilla ilmentymät pystytään luokittelemaan samaan klusteriin kuuluviksi 4
Mikä DataFlux? DataFlux on perustettu 1997 Pohjois-Carolinassa SASin tytäryhtiö vuodesta 2000 Yli 2400 asiakasta globaalisti DataFlux tarjoaa ratkaisuja tiedonlaadun, data-integraation ja perustietojen hallinnan (MDM) alueille DataFlux Data Management Studio & Server qmdm Master Data Management 5 5
Tiedonlaadun kehittämisen vaiheet Metadatan analysointi Ymmärrys siitä, mitä dataa on käytettävissä Datan profilointi Käsitys datan nykytilanteesta; eheydestä ja rakenteesta Datan laatu Korjaustoimenpiteet datan standardisoimiseksi Datan integrointi Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan täydentäminen ulkoisista lähteistä (esim. paikkatiedon avulla) Parhaan ilmentymän valinta Duplikaattien poisto ja ilmentymien yhdistäminen 6
Mitä on parhaan ilmentymän tunnistus ja valinta? Ilmentymien tunnistaminen eri tietolähteissä sijaitsevasta datasta Sumean logiikan menetelmien hyödyntäminen klustereiden muodostamisessa match-koodien vertailun avulla Valintasääntöjen luominen, joiden mukaiset ilmentymät nostetaan klusterin muiden ilmentymien ohitse Parhaan ilmentymän valitseminen usean ilmentymän klusterista Jatkotoimet, eli poistuvien ilmentymien merkintä ja mahdollinen parhaan ilmentymän täydentäminen poistuvien ilmentymien tiedoilla 7
DataFlux käyttää match-koodien vertaillessaan näennäisesti päällekkäistä dataa keskenään Järjestelmä A Järjestelmä B Järjestelmä C Field Järjestelmä Loan A Järjestelmä Current Acc B Järjestelmä Mortgage C Nimi Name Aku Robert Ankka Smith A. Bob Ankka Smith Aku Rob Rankka Smith Osoite Address Paratiisitie 14 Church13 Street Paratiisikatu Fourteen Church 13 Paratiisit. 14 Church 13 St. Kaupunki Ankkalinna Ankkalinna Street Ankkalinnoitus Match-koodi City GHWS$$EWT$ Swindon GHWS$$EWT$ Swindon GHWS$$WWT$ Swansea Value 25000 2452.45 94000 8
Match-koodien luonti Data Management Studiossa 9
Saman talouden asukkaiden klusterointi matchkoodituksen avulla Etunimi Sukunimi Katuosoite Puhelin MC1 (Sukunimi ja katuosoite) MC2 (Katuosoite ja puhelin) MC3 (Sukunimi ja puhelin) Klusteri ID Tupu Ankka Paratiisitie 13 832-8239 $SV #V8 %A8 1 Hupu Ankka Paratiisitie 13 832-8239 $SV #V8 %S8 1 Lupu Ankka Paratiisitie 13 616-1504 $SV #V6 %S6 1 Mikki Hiiri Julle Ankan polku 6 688-2826 $GH #H3 %G6 2 Mortti Hiiri Julle Ankan polku 6 688-2857 $GH #H6 %R6 2 Vertti Hiiri Julle Ankan polku 6 688-2851 $GH #H1 %B6 2 10
Duplikaattien poistaminen Valintasäännöt tässä Contact = useimmin toistuva ilmentymä ID = suurin arvo (viimeksi päivitetty?) Muita valintasääntöesimerkkejä Pisin ilmentymä Viimeksi päivitetty ilmentymä Ulkoisesta lähteestä validoitu arvo Tietyn patternin omaava arvo (99999) 11
Luodaan Paras ilmentymä Täydennetään parasta ilmentymää valintasääntöjen mukaan Valintasäännöt tässä When Phone is Not Null, Select Phone When State is Shortest Value, Select City and State 12
Match-koodit, standardointi, klusterointi ja parhaan ilmentymän valinta Data Management Studiossa Vaihe 1: Lähdedatan määrittely Vaihe 2: Match-koodien luonti nimille Vaihe 3: Match-koodien luonti muille kentille Vaihe 4: Standardoidaan työpuhelinnumerot yleiseen muotoon Vaihe 5: Klusteroidaan ilmentymät vertaamalla match-koodeja Vaihe 6: Parhaan ilmentymän valinta klustereittain Vaihe 7: Avataan ilmentymien vertailuikkuna tarkastelua varten 13
Copyright 2010 SAS Institute Inc. All rights reserved.