Sander Bos

Het belang van experimenteren met data voor data-engineers

Als jonge data-engineer verbaas ik me soms over de overvloed aan opties om data op te schonen, te transformeren en op te slaan. Platformen zoals Azure Data Factory, Databricks, Azure Synapse Analytics en Snowflake bieden tal van mogelijkheden, en er komen steeds meer aanbieders bij in de markt. Om inzicht te krijgen in al deze opties is het verstandig om je in te lezen. Echter, om echt het verschil te begrijpen is het ook belangrijk om te experimenteren met echte input.

Om te kunnen experimenteren heb je data nodig. Hoewel er vrij veel gratis data te vinden is op het internet, bijvoorbeeld op websites zoals Kaggle, kleven er grote nadelen aan: deze data is vaak al opgeschoond. Het opzetten van een ELT-pijplijn met reeds schone data geeft je niet genoeg inzicht in de werking van een platform. De volgende vraag die beantwoord moet worden, is hoe data kan worden gegenereerd die nog opgeschoond moet worden.

Het antwoord hierop is door gebruik te maken van Python, specifiek de random en faker modules. Faker is een module die data kan genereren, zoals namen, adressen, steden, enzovoort, zodat je database gevuld kan worden met realistische data. Het is zelfs mogelijk om de locatie van de data in te stellen, zodat bijvoorbeeld de namen Nederlands worden. Het laatste stukje wat we nodig hebben is de random module. Met de random module kunnen we fouten in de data simuleren, zoals bijvoorbeeld een kleine kans creëren dat een naam ontbreekt in de dataset of dat een productieaantal op -1 wordt gezet, wat een fout in de data simuleert.

Doordat je op deze manier zelf kunt bepalen hoe je testdataset wordt aangemaakt, is het een ideale manier om data-engineeringplatforms te testen en het verschil te ontdekken. Een voorbeeld van een script dat gebruikmaakt van deze modules is te vinden via deze GitHub-link: mockData

Sander BosHet belang van experimenteren met data voor data-engineers
lees meer

Optimaliseer Integraties met ML en AI

“Stel je voor: je ontvangt dagelijks talloze e-mails over je producten, variërend van lovende feedback tot kritische klachten. Hoe zou je het vinden als een slimme machine deze e-mails automatisch voor je analyseert en de juiste acties in gang zet? Dat is de kracht van artificial intelligence (AI) en machine learning (ML) in integratieprocessen.

Sander BosOptimaliseer Integraties met ML en AI
lees meer