De strijd tegen corona toont eens te meer het belang van goede data. Data is een wapen dat ons in staat stelt om de ontwikkelingen van het virus te volgen, te voorspellen en uiteindelijk een strategie te ontwikkelen om COVID-19 in te tomen.
Hierbij hebben we het dan nog niet eens over de gigantisch hoeveelheden onderzoeksdata die door virologen bestudeerd worden over bijvoorbeeld DNA-structuren. Of over de statistische data die wordt verzameld bij het testen van mogelijke medicijnen. We hebben het puur over de relatief eenvoudige data die we verzamelen tijdens het volgen van het ziekteproces van COVID-19 patiënten.
Indicatoren
Om het ziektebeeld in beeld te krijgen gebruiken we zogenaamde indicatoren. Dit zijn meetbare “zaken” die ons in staat stellen een cijfermatig beeld te vormen over iets waar we controle over willen krijgen. Voor corona zijn dat bijvoorbeeld de momenteel veelvuldig in de pers genoemde gemeten infecties en sterftecijfers. Deze cijfers stellen ons in staat om te zien waar en hoe het virus zich ontwikkelt: Is er sprake een van (versnelde) groei of is er juist sprake van stabilisering of afname, en waar zitten de besmettingshaarden?
Indicatoren over ziekenhuis- en intensive care bezetting helpen ons de beschikbare capaciteit te bepalen en voorspellingen te doen over wanneer grenzen bereikt worden, en opschaling nodig zal zijn. De “gemiddelde hersteltijd” geeft ons een beeld van wanneer bezette ziekenhuisbedden ongeveer weer vrij komen, terwijl “gemiddelde incubatietijd” van belang is om in te schatten hoeveel tijd er overheen gaat voor een getroffen maatregel tegen corona naar verwachting effect heeft. Voor het bepalen van de effectiviteit van een strategie gebaseerd op groepsimmuniteit is een indicator is “Kans op herbesmetting” van belang, welke de kans aangeeft dat een voormalige COVID-19 patiënt opnieuw de ziekte kan krijgen. Naast deze relatief eenvoudige inzichten over de actuele situatie kan het vakgebied “Data Science” de data verder gebruiken om geavanceerde analyse methoden (analytics) op los laten, om zo voorspellingen te doen over het verwachte gedrag van het virus in de toekomst.
Bovenstaande indicatoren vragen om een systematische patiëntgerichte registratie: Door in het proces elk besmettingsgeval als “zaak” te volgen, en alle relevante gebeurtenissen te registreren verzamel je belangrijke informatie over het verloop van de ziekte. Denk aan het vastleggen van het moment van de eerste symptomen, het afnemen van een coronatest, de eventuele opname in het ziekenhuis, de eventuele noodzakelijke verzorging op de IC en het uiteindelijke ontslag uit het ziekenhuis en het uiteindelijke herstel.
Meta-data
De meetwaarden van indicatoren hebben op zich zelf staand geen betekenis. Ze vragen om context, zogenaamde “meta-data”. Van de besmettingscijfers moet bijvoorbeeld bekend zijn waar en wanneer de meting is gedaan. Meta-data als “plaats” en “tijdstip van meting” beschrijven de context en plaatsen meetwaardes in perspectief. Het tijdstip stelt ons in staat om trends te bepalen door de meetwaarden in volgorde te plaatsen tot een chronologische serie meetwaarden (ook wel “tijd-serie” genoemd). De verblijfslocatie van de geteste persoon levert informatie over de geografische verspreiding van het virus. Het RIVM gebruikt dit bijvoorbeeld om dagelijks een kaart op te stellen met de aantallen besmettingen per gemeente. Het vastleggen van data rond de tijd en plaats van de besmettingsbron geeft ons informatie over de incubatietijd en de verwachte lokale ontwikkelingen van de besmetting. Meta-data rond leeftijd en geslacht kunnen weer interessante inzichten verstrekken omtrent risico’s per demografisch groep. Als bijvoorbeeld blijkt dat vrouwen beneden de 25 niet of nauwelijks vatbaar zijn voor besmetting of het doorgeven van het virus, dan zou daar het beleid op afgestemd kunnen worden.
Data kwaliteit
Indicatoren en hun meta-data kunnen dus krachtige wapens zijn in de strijd tegen het coronavirus. Hoe krachtig echter hangt samen met de kwaliteit van de data. Als de meetwaarden van de indicatoren of de meta-data niet correct zijn kunnen op basis daarvan verkeerde conclusies getrokken worden. Een voorbeeld uit de praktijk is het Nederlands besluit om minder vaak op corona te testen, waardoor een dip in het aantal coronagevallen te zien was. Bepaalde partijen trokken daardoor de onterechte conclusie dat het tempo van verspreiding afnam. Een dergelijke foutieve conclusie kan weer leiden tot ineffectieve maatregelen.
Data (in)consistentie is een ander aandachtspunt: Als Nederland en België elk verschillende meetmethoden gebruiken om het aantal besmettingen te meten is het lastig om een goede vergelijking te maken en bijvoorbeeld te bepalen welke maatregelen effectiever zijn.
Data kwaliteit wordt ook beïnvloed door de frequentie van meten. Een dagelijkse meting stelt ons in staat om nauwkeurigere trends te bepalen dan wekelijkse metingen.
Accuraatheid is een ander belangrijk aspect voor de kwaliteit: in hoeverre is het resultaat van een meting een correcte afspiegeling van de werkelijkheid? De Nederlandse praktijk laat hier het probleem zien: Het gepubliceerde aantal coronabesmettingen wijkt af van de werkelijkheid. De oorzaak is dat de meetwaarde niet het aantal besmette mensen weergeeft, maar het aantal mensen waarbij een corona test is uitgevoerd die positief is uitgevallen (daarbij ga ik er gemakshalve vanuit dat er geen her-test gedaan wordt na een positief resultaat).
Dat betekent dat er geen rekening gehouden is met onder andere:
- … corona dragers die niet getest zijn
- … de uitstroom van positief geteste dragers die weer genezen
- … tests die een foutief resultaat hebben opgeleverd (een “foutief-positief” resultaat voor iemand zonder corona of een foutief-negatief resultaat voor iemand met corona)
De eerste twee punten betreffen procesfouten. Niet iedereen wordt getest door een terughoudend testbeleid. Tegelijkertijd is er geen nazorg voor corona patiënten of meldplicht die in kaart brengt wat de uitstroom is. Het derde punt is een technisch aspect dat te maken heeft met de kwaliteit van de testmethode. Hier kan bijvoorbeeld een kwaliteitsverbetering bereikt worden door dezelfde persoon vaker te testen. Dit is natuurlijk afhankelijk van de beschikbaarheid van tests en de testcapaciteit, en om die structureel te verhogen is tijd en geld nodig. Het is duidelijk dat het verhogen van de kwaliteit een prijs heeft, waarbij een afweging gemaakt dient te worden hoe deze prijs opweegt tegen de opbrengsten.
Conclusie
Bovenstaande laat het belang zien van data in de strijd tegen het coronavirus. Het biedt degenen aan het roer de middelen om ons door de woelige golven te loodsen richting het gestelde doel: het bezweren van de crisis. Het kiezen van de juiste indicatoren en meta-data zijn daarbij essentieel, en ook de juiste kwaliteit van data is daarbij zeer belangrijk. Daarbij zal een afweging gemaakt moeten tussen de prijs en opbrengsten ervan.
Eenvoudige initiatieven kunnen daarbij helpen. In een tijd van connectivity zou bijvoorbeeld het verspreiden van een app een optie zijn, waarmee mensen de status rond hun gezondheid periodiek kunnen doorgeven. Het zou een waardevolle aanvulling zijn op de cijfers die vanuit de verschillende instanties worden verzameld en vastgelegd, en de sturing en besluitvorming als wapen tegen corona aanzienlijk kunnen ondersteunen. Een uitdaging is daarbij wel bijvoorbeeld de privacy van de gebruikers.
Al met al toont corona dat het realiseren van doelen begint bij het goed nadenken over data die je daar kan leiden.