U weet inmiddels dat uw data grote strategische en operationele waarde heeft. En ook dat Data Management nodig is om deze waarde effectief en efficiënt te benutten.
Data Management is primair een taak van mensen. Er zijn echter tal van IT gereedschappen die u daarbij kunnen ondersteunen.
Maar wat doen deze gereedschappen, en welke heeft u nu echt nodig?
Dit artikel beschrijft de 10 belangrijkste vormen van IT-ondersteuning die er voor data management op de markt zijn.
Vaak worden deze als apart product aangeboden of in combinatie met andere functionaliteiten in één software-suite, meestal via de cloud. De bekendste aanbieders van Data Management oplossingen zijn onder meer Tibco, MarkLogic, Oracle, SAP, Informatica, IBM, MicroSoft, SAP, Talend, Amazon en SAS.
1. Data Integratie tools
Data is opgeslagen in diverse bronnen, zoals applicatie-databases, data lakes en documenten. Voor het gebruik in operationele processen, rapportages en analyse dient deze data samengebracht en uitgewisseld te worden. Data Integratie-tools stellen u in staat om data uit de diverse bronnen te ontsluiten, verwerken, samen te brengen en op te slaan in een doelomgeving. Bekende vormen van data integratie zijn de uitwisseling van data tussen applicaties en de opwerking van data via data lakes en Data warehouses tot rapporten en analyses.
De uitdaging voor de aanbieders van betreffende tools zit hem in het kunnen omgaan met de telkens toenemende variëteit, omvang en snelheid van data, zaken die populair gezegd “big data” genoemd worden.
Data Integratie is een geheel eigen gebied binnen DAMA.
Data integratie ook belangrijk voor Meta data management en Master data management, voor het respectievelijk ontsluiten en uitwisselen van metadata en het ontsluiten en synchroniseren van masterdata.
2. Data catalogus
Data Management draait om het beheer van uw data-assets. Metadata beschrijft deze data-assets, zoals bijvoorbeeld productdata uw producten beschrijft. Alles wat u van uw data wil weten legt u of uw systemen vast in de vorm van “metadata”. Een aantal voorbeelden van metadata zijn:
• Definities van de data
• de verantwoordelijken voor de data
• de locaties waar de data is opgeslagen
• de processen die de data gebruiken
• de vertrouwelijkheid en privacy-gevoeligheid van de data
• de herkomst van de data
• structuur en kenmerken van de data
• kwaliteit van de data, bijvoorbeeld in de vorm van KPI-s en metrics die de betrouwbaarheid of volledigheid beschrijven.
Metadata zit meestal over diverse systemen verspreid. Met een data catalogus (ook wel “Metadata Repository”) is de metadata centraal beschikbaar en hebben belanghebbenden toegang tot de voor hen bestemde data. Verder biedt een data catalogus de mogelijkheid om handmatig metadata toe te voegen (bijvoorbeeld door gebruikers hun feedback en wensen kenbaar te laten maken)
Niet onverwacht valt de data catalogus binnen DAMA onder “Metadata management”
Er zijn verder diverse relaties met andere DAMA gebieden. Data integratie zorgt dat de metadata aan de data catalogus aangeleverd wordt. Daarnaast levert het zelf metadata over de herkomst van data (“lineage”).
Het gebied “Data modeleren” levert metadata over structuur en betekenis. Data security op zijn beurt gebruikt classificatie metadata voor vertrouwelijkheid en privacy en levert daarnaast metadata over het gebruik van data. Data kwaliteit levert op zijn beurt metadata die de kwaliteit van data beschrijft (KPI-s).
3. Data modeleer-tools
Data modelleer tools gebruikt u om uw data structureren en te definiëren. Met andere worden: metadata te creëren. Gegevens staan niet op zichzelf. Data-objecten hebben een betekenis en structuur in de vorm van kenmerken en relaties met andere data-objecten. Zo heeft een klant bijvoorbeeld de kenmerken naam, adres en geboortedatum en een relatie met de bestellingen die hij of zij heeft geplaatst.
Een Data Model beschrijft deze structuren en relaties; Meestal in de vorm van diagrammen, vaak aangevuld met lijsten van kenmerken en beschrijvingen.
Data modeleren is een op zichzelf staand DAMA-gebied.
Behalve de relatie met metadata management zijn er relaties met Data Storage (voor beschrijving van de database structuren), Data Architectuur (voor het maken van conceptuele en logische datamodellen), Master Data management (beschrijving van de structuur van master data) en data Integratie (beschrijving van de uitgewisselde data)
4. Data Profiling-tools
Data profiling geeft u inzicht in uw bestaande data. Het bepaalt een aantal van de kenmerken (metadata dus) ervan, zoals de objecten, kenmerken, types en statistische gegevens zoals bereik, aantallen en gemiddelden. Ook kan het patronen detecteren in data, of basis waarvan een betekenis aan het kenmerk kan worden toegekend, zoals een email-adres.
Ook informatie over kwaliteit van de data kan worden bepaald, zoals de vulling en in hoeverre data voldoet aan specifieke kenmerken, bijvoorbeeld een gespecifieerd bereik of patroon.
Bepaalde profiling-tools kunnen ook verbanden leggen in de data: tussen objecten onderling op basis van bijvoorbeeld een sleutel-veld en ook tussen kenmerken binnen een object, zoals bijvoorbeeld een relatie tussen stad en het land.
Data profiling voorkomt veel handmatig werk doordat ze deze analyse automatisch uitvoeren. Ze kunnen één of meerdere databronnen input nemen, en genereren overzichten op basis van de output.
Data profiling wordt met name gebruikt voor het bepalen van data kwaliteit in het gelijknamige DAMA-gebied en bij Master Data Management.
Daarnaast kan profiling een initieel inzicht geven ten behoeve Data Architectuur en Data Modeling.
De door Data Profiling gegenereerde resultaten vallen op zich zelf weer onder Metadata Management.
5. Data Query-tools
Data wordt meestal via bedrijfsapplicaties aan gebruikers beschikbaar gesteld, zoals CRM software of voorraadbeheer systemen. Voor analyse- en onderhoudsdoeleinden is het ook handig als data rechtstreeks opgevraagd kan worden buiten deze applicaties om. Met data query tools kunnen op een gestructureerde manier data vanuit één of meerdere bronnen opvragen. Data Query tools bieden vaak een “opvraagtaal”, zoals de standaard taal “SQL” voor relationele databases of “XQuery” voor XML documenten. Daarnaast bieden ze vaak ook zoekfuncties of een grafische omgeving waarmee ze de gebruiker interactief data kan opvragen. De opgevraagde data kan meestal geëxporteerd worden, bijvoorbeeld naar Excel formaat.
De data query behoort tot het DAMA-gebied Data Storage.
BI en Data Warehousing en Big Data en Analytics zijn belangrijke gebruikers. Ook voor Data kwaliteit, Master Data Management, Metadata Management en Data Integratie is het een belangrijke voorziening, met name voor analyse doeleinden.
6. Data hub
Het doel van een data-hub (ook wel “data platform”) is om data centraal beschikbaar te stellen aan gebruikers. Een data-hub ontsluit meerdere databronnen. De meest voorkomende vorm is die waarbij data fysiek bijeen gebracht wordt. Er zijn ook vormen waar de hub alleen een routeer functie heeft en de werkelijke data bij de betreffende bron op vraagt.
De Data Hub is een veel voorkomende oplossing in Data Integratie omgevingen.
Het wordt vaak in gezet voor Master Data Management. Ook de Data Catalog is een vorm van een data hub, maar dan op het vlak van Meta Data management.
7. Data Lineage-tools
Data Lineage beschrijft de herkomst van uw data. Het maakt bijvoorbeeld inzichtelijk welke weg een specifiek data element in een rapport heeft afgelegd: vanaf het originele bron-systemen via eventuele tussenliggende systemen tot aan het rapport. Hierbij worden ook alle bewerkingen die op de data zijn uitgevoerd getoond.
Data lineage tools baseren zich vaak op uw bestaande tools om de weg die uw data aflegt te bepalen. Hiervoor worden vaak de data van (ETL/ELT) processen en ook architectuur tools geanalyseerd. Geavanceerde lineage tools kunnen ook database-scripts en applicatie-integratie-tools analyseren en enkele zelfs broncode.
Op deze wijze brengen ze datastromen in kaart om het door u gewenste overzicht te bieden.
Data lineage is steeds vaker onmisbaar om aan toezichthouders te verklaren hoe de cijfers in uw rapporten tot stand zijn gekomen. Denk aan Sarbanes-Oxley en Basel voor de financiele wereld, en ook track en trace verplichtingen in de food-sector. Daarnaast biedt data lineage veel waarde bij het analyseren van data kwaliteit issues en de impact van changes.
Data lineage genereert metadata (zie DAM gebied metadata management).
Data Integratie (via data integratie tools) en data architectuur (via datastroom modellen) zijn vaak belangrijke bronnen voor data lineage.
Dit zijn naast Data kwaliteit en BI en Data Warehousing ook de belangrijkste gebruikers van de data lineage.
8. Data Remediation
Data remediation dient om incorrecte data “te repareren”. Het analyseert data, en indien deze niet voldoet aan specifieke regels zal Data Remediation pogen de data te corrigeren. De regels kunnen eenvoudig van aard zijn, bijvoorbeeld dat een veld niet leeg mag zijn. Remediation kan dan een waarde invullen: bijvoorbeeld een standaard waarde, of een die via berekening of een bedrijfsregel uit andere data verkregen wordt. Andere voorbeelden zijn controles of een waarde zich bevindt in een geldige domein of voldoet aan vast patroon.
Als automatisch herstellen niet mogelijk is kan er een handmatig proces gestart worden waarin een gebruiker handmatig de correctie kan doorvoeren.
Automatisch repareren is nooit zonder risico: de nieuwe waarde kan ook foutief zijn. Vaak is het het beste om te proberen de oorzaak van de fout op te lossen.
Data remediation is een functie die valt onder “Data kwaliteit”. In die zin wordt het ook ingezet voor Master Data management. Ook voor Data Integratie uitdagingen en bij BI / data warehousing draagt het bij aan betere data kwaliteit
9. Master Data Management (MDM) – tools
Elke organisatie heeft te maken met business partners, klanten, producten, medewerkers en/of assets. Deze “bedrijfsobjecten” zijn betrokken bij vrijwel alle transacties, en kennen vaak een relatief lange levensduur en weinig mutaties. Goed en eenduidig beheer van deze bedrijfsobjecten (ook wel “master data”) is essentieel voor de operatie van de organisatie, en tevens voor rapportages en analyses. In de operatie kan een foutief klantadres bijvoorbeeld leiden tot issues met leveringen, met alle financiële en imago schade van dien. En als bijvoorbeeld een kostcenter incorrect is toegewezen kan dit leiden tot foutieve financiële rapportages.
Veel van deze issues worden veroorzaakt doordat uw klanten of producten in meerdere systemen onderhouden worden. Als een klantadres in systeem A wordt aangepast maar niet in systeem B ontstaat er een inconsistentie, met alle risico’s op fouten.
Master Data Management software zorgt dat de consistentie over al deze systemen bewaakt wordt en dat de “waarheid” eenduidig vastligt en opgevraagd kan worden. Het kan nieuw opgevoerde bedrijfsobjecten vergelijken met bestaande om te zien of het om hetzelfde object gaat (“matchen”), om zo dubbelingen (“redundantie”) te voorkomen. In geval van issues zijn de verantwoordelijke personen bekend en kan er een proces worden gedefinieerd om deze te adresseren. MDM tools bieden vaak een “data-hub” functionaliteit om vanuit een centraal punt toegang te bieden tot “de beste versie” van de masterdata (“golden record”).
Er zijn generieke MDM-tools die geschikt zijn voor elk type master data. Er zijn ook specialistische tools met master data functies voor een specifiek gebied (zoals een CRM-systeem voor klanten en een PLM of PIM systeem voor producten). De specialistische bieden veel functies “out-of-the-box”. Een generieke tool biedt meer vrijheden maar vragen ook een uitgebreidere initiële inrichting.
Master Data Management is een eigen gebied binnen DAMA.
Data Kwaliteit speelt hierin ook een grote rol, omdat alles staat en valt met een goede kwaliteit van de master data.
BI en Data warehousing zijn afhankelijk van een goede MDM oplossing voor betrouwbare rapportages en analyses
Data Integratie is nodig voor het synchroniseren en ontsluiten van de master data.
Data Governance is belangrijk voor een goed proces rond het beheer van de masterdata.
10. Content management
Ongestructureerde data -zoals tekst, geluid en beeld- zijn lastiger te managen dan gestructureerde data (bijvoorbeeld die van applicaties). Ze krijgen echter een toenemende mate van aandacht binnen Data Management. Document en Content Management Systemen dienen voor het beheer en beschikbaar stellen van deze data. Omdat de betekenis van de data vaak niet expliciet vastligt is het aanbrengen van aanvullende metadata extra belangrijk voor om ongestructureerde data te managen. Zaken als auteur, onderwerp, categorie, classificaties en keywords kunnen vaak handmatig worden vastgelegd. Steeds vaker bieden deze tools ook analyse instrumenten waarmee dergelijke metadata automatisch verzameld en vastgelegd kan worden. Het gaat zo ver dat tekst en image-analyse software al vaak in staat is om bijvoorbeeld personen en plaatsen te herkennen.
Belangrijke functies van Content Management is het beschikbaar stellen en zoeken naar specifieke ongestructureerde data, naast het beschermen en archiveren van content. Document management is een functie van Content Management.
Een andere functionaliteit van Content Management is record management en “e-discovery”. Hiermee kunnen juridische documenten op een veilige en inzichtelijke manier gevonden en beheerd worden.
CMS valt onder het DAMA-gebied: Document en Content Management.
Data governance maakt veel gebruik van deze functie voor het delen van informatie omtrent Data Management. Denk daarbij aan Uitleg over het nut en noodzaak, instructies voor de nieuwe rollen en voorgang en successen die het programma boekt.
Metadata management is een belangrijke functie om content beheerbaar te maken.
U ziet dat er een veelheid aan Data Management ondersteunende functies op de markt zijn die u kunnen helpen uw data management doelen te bereiken.
Neem gerust contact met ons op voor extra informatie!