All posts tagged: DataManagement

Het belang van experimenteren met data voor data-engineers

Als jonge data-engineer verbaas ik me soms over de overvloed aan opties om data op te schonen, te transformeren en op te slaan. Platformen zoals Azure Data Factory, Databricks, Azure Synapse Analytics en Snowflake bieden tal van mogelijkheden, en er komen steeds meer aanbieders bij in de markt. Om inzicht te krijgen in al deze opties is het verstandig om je in te lezen. Echter, om echt het verschil te begrijpen is het ook belangrijk om te experimenteren met echte input.

Om te kunnen experimenteren heb je data nodig. Hoewel er vrij veel gratis data te vinden is op het internet, bijvoorbeeld op websites zoals Kaggle, kleven er grote nadelen aan: deze data is vaak al opgeschoond. Het opzetten van een ELT-pijplijn met reeds schone data geeft je niet genoeg inzicht in de werking van een platform. De volgende vraag die beantwoord moet worden, is hoe data kan worden gegenereerd die nog opgeschoond moet worden.

Het antwoord hierop is door gebruik te maken van Python, specifiek de random en faker modules. Faker is een module die data kan genereren, zoals namen, adressen, steden, enzovoort, zodat je database gevuld kan worden met realistische data. Het is zelfs mogelijk om de locatie van de data in te stellen, zodat bijvoorbeeld de namen Nederlands worden. Het laatste stukje wat we nodig hebben is de random module. Met de random module kunnen we fouten in de data simuleren, zoals bijvoorbeeld een kleine kans creëren dat een naam ontbreekt in de dataset of dat een productieaantal op -1 wordt gezet, wat een fout in de data simuleert.

Doordat je op deze manier zelf kunt bepalen hoe je testdataset wordt aangemaakt, is het een ideale manier om data-engineeringplatforms te testen en het verschil te ontdekken. Een voorbeeld van een script dat gebruikmaakt van deze modules is te vinden via deze GitHub-link: mockData

Sander BosHet belang van experimenteren met data voor data-engineers
lees meer

Transparantie: cruciaal voor AI

In de voorgaande blog spraken we over de rol van kunstmatige intelligentie (AI) in de huidige digitale wereld. Daarbij gaven we het belang van datamanagement aan. Aanvullend hierop dienen we de rol van transparantie niet te vergeten. Transparantie is een kernwaarde die openheid nastreeft en die steeds vaker vanuit regelgeving wordt vereist om zicht te blijven houden op de complexe en soms obscure wereld van AI. We willen niet dat besluitvorming in een black box gebeurt en we willen kunnen bijsturen waar nodig. Concreet bedoelen we met transparantie hier het inzicht geven in hoe informatie binnen de organisatie en met klanten en andere belanghebbenden wordt gedeeld. Het doel daarbij is om deze informatie aan te wenden voor betere en uitlegbare besluitvorming. Het doel is om enerzijds efficiënte en effectieve processen te creëren en tegelijkertijd vertrouwen te kweken en te voldoen aan ethische en wettelijke normen.

Harald van der WeelTransparantie: cruciaal voor AI
lees meer

De Europese AI Act: Wat betekent het voor jou?

Nadat onlangs de Data Act in werking trad (zie Ref[1]) heeft het Europees parlement op 13 maart 2024 de AI act omarmd (zie Ref[2]). Hoewel het nog even duurt voordat de effecten zichtbaar worden moet deze wet de wereld van kunstmatige intelligentie (“AI” of “Artifical Intelligence”) in Europa gaan reguleren.

Harald van der WeelDe Europese AI Act: Wat betekent het voor jou?
lees meer

Data Management: Onmisbare schakel voor effectieve AI

In deze tijd van digitalisering gaat alle aandacht uit naar kunstmatige intelligentie. Daarbij wordt vaak vergeten dat deze fascinerende wereld rust op een cruciale pijler: Datamanagement. Deze discipline is lang niet zo sexy als Artificial Intelligence (AI), maar wel een onmisbare hygiënefactor om AI veilig en effectief in te zetten. De defacto-standaard DAMA-DMBOK geeft een goede leidraad hoe datamanagement helpt om betrouwbaarheid, veiligheid, effectiviteit en compliance van AI-systemen te verhogen. In deze blog gaan we in op deze essentiële rol van datamanagement in AI, vanuit de diverse invalshoeken, zoals datakwaliteit, data governance, data security, metadata, en data-integratie.

Harald van der WeelData Management: Onmisbare schakel voor effectieve AI
lees meer