Duplikaattien havaitseminen ja poisto DataFlux välinein SUGIF Technical Club 15.9.2011 Jarno Lindqvist SAS Institute Oy Copyright © 2010 SAS Institute Inc. All rights reserved. Miten tiedonlaatu ja MDM liittyvät SASiin? Source: TDWI Best Practice Report, Q4 20092 Copyright © 2010, SAS Institute Inc. All rights reserved. Miksi DataFlux, eikös meillä jo ole NODUP? SASin NODUP ja NODUPKEY (esim. PROC SORT) toimivat hyvin kun poistetaan identtisiä ilmentymiä Se toimii hyvin myös silloin kun halutaan säilyttää jollakin kriteerillä ensisijainen ilmentymä (tässä suurin Score) kun järjestelemme aineiston kriteerin mukaisesti Silloin vain ensimmäiseksi järjestelty arvo jää talteen ja muut poistetaan Copyright © 2010, SAS Institute Inc. All rights reserved. 3 Entä kun ilmentymät eivät olekaan identtisiä? Perinteiset metodit kuten NODUP eivät tunnista ilmentymiä samaan henkilöön liittyviksi, koska päälekkäisiä avaimia ei ole -> Tarvitaan joustavampia metodeja, joilla ilmentymät pystytään luokittelemaan samaan klusteriin kuuluviksi Copyright © 2010, SAS Institute Inc. All rights reserved. 4 Mikä DataFlux? DataFlux on perustettu 1997 Pohjois-Carolinassa SASin tytäryhtiö vuodesta 2000 Yli 2400 asiakasta globaalisti DataFlux tarjoaa ratkaisuja tiedonlaadun, data-integraation ja perustietojen hallinnan (MDM) alueille DataFlux Data Management Studio & Server qMDM Master Data Management 5 5 Copyright © 2010, SAS Institute Inc. All rights reserved. Tiedonlaadun kehittämisen vaiheet Metadatan analysointi Ymmärrys siitä, mitä dataa on käytettävissä Datan profilointi Käsitys datan nykytilanteesta; eheydestä ja rakenteesta Datan laatu Korjaustoimenpiteet datan standardisoimiseksi Datan integrointi Datan yhdistely, muokkaus ja keskittäminen Monitorointi Tavoitellun laatutason ylläpito jatkuvan seurannan avulla Rikastaminen Datan täydentäminen ulkoisista lähteistä (esim. paikkatiedon avulla) Parhaan ilmentymän valinta Duplikaattien poisto ja ilmentymien yhdistäminen 6 Copyright © 2010, SAS Institute Inc. All rights reserved. Mitä on parhaan ilmentymän tunnistus ja valinta? Ilmentymien tunnistaminen eri tietolähteissä sijaitsevasta datasta Sumean logiikan menetelmien hyödyntäminen klustereiden muodostamisessa match-koodien vertailun avulla Valintasääntöjen luominen, joiden mukaiset ilmentymät nostetaan klusterin muiden ilmentymien ohitse Parhaan ilmentymän valitseminen usean ilmentymän klusterista Jatkotoimet, eli poistuvien ilmentymien merkintä ja mahdollinen parhaan ilmentymän täydentäminen poistuvien ilmentymien tiedoilla 7 Copyright © 2010, SAS Institute Inc. All rights reserved. DataFlux käyttää match-koodien vertaillessaan näennäisesti päällekkäistä dataa keskenään Järjestelmä Järjestelmä Järjestelmä A B C Field Järjestelmä A Loan Järjestelmä B Current Acc Järjestelmä Mortgage C Nimi Name Aku Ankka Robert Smith A.Bob Ankka Smith Aku Rankka Rob Smith Osoite Address Paratiisitie 14 Church 13 Street Paratiisit. 13 St. 14 Church Kaupunki City Match-koodi Ankkalinna Swindon GHWS$$EWT$ Paratiisikatu 13 Fourteen Church Street Ankkalinna Value 25000 Swindon GHWS$$EWT$ 2452.45 Ankkalinnoitus Swansea GHWS$$WWT$ 94000 8 Copyright © 2010, SAS Institute Inc. All rights reserved. Match-koodien luonti Data Management Studiossa 9 Copyright © 2010, SAS Institute Inc. All rights reserved. Saman talouden asukkaiden klusterointi matchkoodituksen avulla Etunimi Sukunimi Katuosoite Puhelin MC1 MC2 MC3 Klusteri (Sukunimi (Katuosoite (Sukunimi ID ja ja puhelin) ja puhelin) katuosoite) Tupu Ankka Paratiisitie 13 832-8239 $SV #V8 %A8 1 Hupu Ankka Paratiisitie 13 832-8239 $SV #V8 %S8 1 Lupu Ankka Paratiisitie 13 616-1504 $SV #V6 %S6 1 Mikki Hiiri Julle Ankan polku 6 688-2826 $GH #H3 %G6 2 Mortti Hiiri Julle Ankan polku 6 688-2857 $GH #H6 %R6 2 Vertti Hiiri Julle Ankan polku 6 688-2851 $GH #H1 %B6 2 10 Copyright © 2010, SAS Institute Inc. All rights reserved. Duplikaattien poistaminen Valintasäännöt tässä Muita valintasääntöesimerkkejä Contact = useimmin toistuva ilmentymä ID = suurin arvo (viimeksi päivitetty?) Pisin ilmentymä Viimeksi päivitetty ilmentymä Ulkoisesta lähteestä validoitu arvo Tietyn patternin omaava arvo (99999) 11 Copyright © 2010, SAS Institute Inc. All rights reserved. Luodaan “Paras ilmentymä” Täydennetään parasta ilmentymää valintasääntöjen mukaan Valintasäännöt tässä When Phone is Not Null, Select Phone When State is Shortest Value, Select City and State 12 Copyright © 2010, SAS Institute Inc. All rights reserved. Match-koodit, standardointi, klusterointi ja parhaan ilmentymän valinta Data Management Studiossa Vaihe 1: Lähdedatan määrittely Vaihe 2: Match-koodien luonti nimille Vaihe 3: Match-koodien luonti muille kentille Vaihe 4: Standardoidaan työpuhelinnumerot yleiseen muotoon Vaihe 5: Klusteroidaan ilmentymät vertaamalla match-koodeja Vaihe 6: Parhaan ilmentymän valinta klustereittain Vaihe 7: Avataan ilmentymien vertailuikkuna tarkastelua varten 13 Copyright © 2010, SAS Institute Inc. All rights reserved. Copyright © 2010 SAS Institute Inc. All rights reserved.
© Copyright 2025