Artikelen

Hoe maak ik data waardevol?

Met een goede data architectuur natuurlijk!
Maar wat is nu een goede data architectuur en waar moet je dan allemaal aan denken?
Dit boek is een goede start om daar wat meer inzicht in te krijgen!

Een vraag waar veel bedrijven mee worstelen is hoe zij data kunnen verwaarden in hun organisatie. Een van de uitdagingen is het neerzetten van een data architectuur die aansluit bij de ambities, waarbij data uit bronsystemen gehaald wordt, opgeslagen, getransformeerd, gecleansed en beschikbaar wordt gesteld aan allerlei gebruikers voor analyse en/of operationeel gebruik.

Een boek dat interessant is om te lezen is “Deciphering Data Architectures” van James Serra. Ik heb dit boek gelezen om bij te blijven in de ontwikkelingen op het gebied van Data Architecturen. We hebben binnen SynTouch namelijk een eigen framework ontwikkeld, genaamd SIDAF (=SynTouch Integratie en Data Architectuur Framework), waarin we een visie beschrijven op het gebied van data- en integratie architectuur. Dit framework evolueert op basis van nieuwe inzichten.

Maar terug naar het boek …

Het boek geeft een overzicht van verschillende concepten bij data architecturen. De verschillende onderdelen worden niet in detail beschreven, maar het geeft een high level inzicht in de mogelijkheden. Er worden technische data architecturen besproken zoals (Modern) Data Warehouse, Data Fabric en Data Lakes, maar ook architectuur concepten zoals Data Mesh.

Overigens plaatst de auteur Data Lakes en Data Mesh op hetzelfde architectuur nivo, maar hier ben ik het niet helemaal mee eens. Ik vind Data Mesh meer een socio-technische architectuur concept en data warehouse en data lakes meer technische architecturen. Je kunt zelfs een Data Mesh architectuur neerzetten gebruikmakend van een Data Lake. Maar dat even terzijde.

Ondanks dat het een introductie is van de verschillende technieken is het wel goed om de definities bij elkaar te zien. Bijvoorbeeld het verschil tussen Operationele Data Stores, Data Marts en Data Hubs is goed om te weten om je vocabulaire op data gebied op orde te hebben. Hetzelfde geldt voor de Lambda- en Kappa architectuur.

De technische concepten worden besproken vanuit verschillende fases, die bij de opzet van een data architectuur komen kijken. Denk hierbij aan design, data modellering, data storage, data ingestion en de data architectuur zelf.

Het boek heeft een veelal technische insteek maar bij data architecturen in bredere zin is governance natuurlijk ook belangrijk. Hier is ook een kort hoofdstuk aan gewijd. Het is fijn dat concepten worden beschreven en aan het einde van het boek worden mogelijke technische implementatie platformen toegelicht.

Dit boek is een aanrader voor een data architect die op hoog nivo inzicht wil krijgen in de verschillende mogelijkheden voor een data architectuur!

Roger van de KimmenadeHoe maak ik data waardevol?
lees meer

Het belang van experimenteren met data voor data-engineers

Als jonge data-engineer verbaas ik me soms over de overvloed aan opties om data op te schonen, te transformeren en op te slaan. Platformen zoals Azure Data Factory, Databricks, Azure Synapse Analytics en Snowflake bieden tal van mogelijkheden, en er komen steeds meer aanbieders bij in de markt. Om inzicht te krijgen in al deze opties is het verstandig om je in te lezen. Echter, om echt het verschil te begrijpen is het ook belangrijk om te experimenteren met echte input.

Om te kunnen experimenteren heb je data nodig. Hoewel er vrij veel gratis data te vinden is op het internet, bijvoorbeeld op websites zoals Kaggle, kleven er grote nadelen aan: deze data is vaak al opgeschoond. Het opzetten van een ELT-pijplijn met reeds schone data geeft je niet genoeg inzicht in de werking van een platform. De volgende vraag die beantwoord moet worden, is hoe data kan worden gegenereerd die nog opgeschoond moet worden.

Het antwoord hierop is door gebruik te maken van Python, specifiek de random en faker modules. Faker is een module die data kan genereren, zoals namen, adressen, steden, enzovoort, zodat je database gevuld kan worden met realistische data. Het is zelfs mogelijk om de locatie van de data in te stellen, zodat bijvoorbeeld de namen Nederlands worden. Het laatste stukje wat we nodig hebben is de random module. Met de random module kunnen we fouten in de data simuleren, zoals bijvoorbeeld een kleine kans creëren dat een naam ontbreekt in de dataset of dat een productieaantal op -1 wordt gezet, wat een fout in de data simuleert.

Doordat je op deze manier zelf kunt bepalen hoe je testdataset wordt aangemaakt, is het een ideale manier om data-engineeringplatforms te testen en het verschil te ontdekken. Een voorbeeld van een script dat gebruikmaakt van deze modules is te vinden via deze GitHub-link: mockData

Sander BosHet belang van experimenteren met data voor data-engineers
lees meer

Optimaliseer Integraties met ML en AI

“Stel je voor: je ontvangt dagelijks talloze e-mails over je producten, variërend van lovende feedback tot kritische klachten. Hoe zou je het vinden als een slimme machine deze e-mails automatisch voor je analyseert en de juiste acties in gang zet? Dat is de kracht van artificial intelligence (AI) en machine learning (ML) in integratieprocessen.

Sander BosOptimaliseer Integraties met ML en AI
lees meer

Transparantie: cruciaal voor AI

In de voorgaande blog spraken we over de rol van kunstmatige intelligentie (AI) in de huidige digitale wereld. Daarbij gaven we het belang van datamanagement aan. Aanvullend hierop dienen we de rol van transparantie niet te vergeten. Transparantie is een kernwaarde die openheid nastreeft en die steeds vaker vanuit regelgeving wordt vereist om zicht te blijven houden op de complexe en soms obscure wereld van AI. We willen niet dat besluitvorming in een black box gebeurt en we willen kunnen bijsturen waar nodig. Concreet bedoelen we met transparantie hier het inzicht geven in hoe informatie binnen de organisatie en met klanten en andere belanghebbenden wordt gedeeld. Het doel daarbij is om deze informatie aan te wenden voor betere en uitlegbare besluitvorming. Het doel is om enerzijds efficiënte en effectieve processen te creëren en tegelijkertijd vertrouwen te kweken en te voldoen aan ethische en wettelijke normen.

Harald van der WeelTransparantie: cruciaal voor AI
lees meer

AnyPoint Platform: een introductie

Het is alweer tijd geleden dat ik iets heb geschreven. Ik ben echter nog steeds een enthousiasteling op het gebied van integratie en APIs en daarom is het tijd om verder te gaan waar ik gebleven ben. In mijn eerste blog heb ik APIs geïntroduceerd als een pilaar voor de digital transformatie. We zijn alweer een aantal jaar verder, maar dit blijft belangrijk; alleen door het ontwikkelen van een Composible Enterprise’ (Gartner) kunnen bedrijven snel innoveren of reageren op veranderende marktomstandigheden. APIs spelen hierin een sleutelrol.

Eelco VerslootAnyPoint Platform: een introductie
lees meer

Kafka Summit London 2024

Onlangs bezocht ik samen met mijn collega’s Doreen Scheepens en Jacco van Bavel de Kafka Summit 2024 in Londen. Voor mij was het de eerste keer dat ik zakelijk met de trein reisde, en ik moet zeggen dat het me niet tegenviel. Hoewel ik vlak bij Schiphol woon, was de ‘van-deur-tot-deur’ reistijd naar Londen voor mij niet veel langer, maar de treinreis was zeker comfortabeler dan het vliegtuig. Het enige punt ter verbetering voor de volgende keer is om de vroege, rechtstreekse trein te verkiezen boven een latere trein met overstap in Brussel: bij vertraging loop je dan in ieder geval niet het risico om de aansluiting te missen en twee uur extra op een Brussels station te moeten doorbrengen!

Milco NumanKafka Summit London 2024
lees meer

De Europese AI Act: Wat betekent het voor jou?

Nadat onlangs de Data Act in werking trad (zie Ref[1]) heeft het Europees parlement op 13 maart 2024 de AI act omarmd (zie Ref[2]). Hoewel het nog even duurt voordat de effecten zichtbaar worden moet deze wet de wereld van kunstmatige intelligentie (“AI” of “Artifical Intelligence”) in Europa gaan reguleren.

Harald van der WeelDe Europese AI Act: Wat betekent het voor jou?
lees meer

Data Management: Onmisbare schakel voor effectieve AI

In deze tijd van digitalisering gaat alle aandacht uit naar kunstmatige intelligentie. Daarbij wordt vaak vergeten dat deze fascinerende wereld rust op een cruciale pijler: Datamanagement. Deze discipline is lang niet zo sexy als Artificial Intelligence (AI), maar wel een onmisbare hygiënefactor om AI veilig en effectief in te zetten. De defacto-standaard DAMA-DMBOK geeft een goede leidraad hoe datamanagement helpt om betrouwbaarheid, veiligheid, effectiviteit en compliance van AI-systemen te verhogen. In deze blog gaan we in op deze essentiële rol van datamanagement in AI, vanuit de diverse invalshoeken, zoals datakwaliteit, data governance, data security, metadata, en data-integratie.

Harald van der WeelData Management: Onmisbare schakel voor effectieve AI
lees meer