Match, Integrate and Cleanse data (Azure)

Bij veel van mijn opdrachtgevers speelt altijd de vraag (of uitdaging); hoe integreer je nu verschillende klanten binnen dezelfde bron of zelfs over bronnen heen?

Microsoft biedt hiervoor de volgende combinatie aan binnen SQL Server:
Master Data Services (MDS) = opslaan van de schone/juiste klantgegevens
Data Quality Services (DQS) = bibliotheek hoe je ruwe/vuile klantgegevens kunt opschonen en integreren

Helaas zijn beide services niet ‘native’ Azure en kun je ze niet zonder dure SQL Server VM draaien.

DQS is als product helaas niet volwassen genoeg, het trainen van de zogenaamde ‘Knowledge Base’ moet je handmatig uitvoeren. Kortom, tijd om zelf aan de slag te gaan! Tijd om een oplossing te vinden dat wél ‘native’ Azure is en zonder dure componenten of toevoegingen werkt binnen Azure.

Hieronder mijn ‘input’ dataset met ruwe klantgegevens, met de nadruk op ‘ruw’:

Data Cleansing Quality DQS MDS

 
De bovenstaande ‘input’ dataset moet ik natuurlijk met een schone dataset kunnen vergelijken, in dit geval mijn ‘DQS’-model. Alleen, gezien de slechte datakwaliteit, welke rijen/velden zal ik gebruiken? Na veel puzzelen heb ik toch een oplossing gevonden en vul ik mijn model zoals hieronder getoond wordt. Deze ‘schone’ dataset wordt direct m.b.v. een query op basis van de ‘input’ dataset samengesteld, handmatig is namelijk geen optie bij miljoenen rijen klantgegevens:

Data Cleansing Quality DQS MDS

 
MATCH
Okay, laten we nu eens kijken wat we ervan kunnen maken. Het algoritme matched de gegeven waarden met een klant in het ‘DQS’-model en retourneert het ‘CUSTOMERMODELID’:

Data Cleansing Quality DQS MDS

 
CLEANSE
Nu is het ook wel handig dat we een opgeschoonde (cleansed) dataset met klantgegevens terugkrijgen:

Data Cleansing Quality DQS MDS

 
INTEGRATE
Here comes the magic! Het algoritme heeft zelfs bepaald dat er een grote kans is dat deze drie ‘unieke’ klanten dezelfde natuurlijke persoon zijn:

Data Cleansing Quality DQS MDS

Een vervolgstap zou eventueel kunnen zijn om deze resultaten op te slaan in een ‘koppeltabel’, om vervolgens tot één klant te komen.

 

Uiteindelijk blijft een ‘unieke’ lijst met klanten over, zeg maar het ‘Golden Record‘:

Data Cleansing Quality DQS MDS

 
Veel is mogelijk! Deze demo is op basis van klantgegevens, maar dit is gemakkelijk om te bouwen naar bijvoorbeeld producten, diensten of bedrijven. Nieuwsgierig naar de manier waarop we dit integreren in het data landschap? Lees er hier meer over.

 

Interesse in een live demo bij u op locatie? Neem dan contact met ons op: clint.huijbers@monkeyconsultancy.nl