Hoe maak ik mijn data gereed voor analyse?

Schrijver

Anne van Breda

Onderwerp Blogs
Gepubliceerd op

5 maart 2025

Deze blog is een onderdeel van de reeks: ‘Data structuur: de basis’ 

Data voorbereiden voor analyse

Hieronder volgt een korte beknopt stappen om je data klaar te maken voor analyse. Mocht je met je eigen data aan de slag gaan, zorg er dan voor dat je een kopie van de originele dataset gebruikt, zodat je geen wijzigingen aanbrengt in je originele data.

Stap 1. Check missende waarden

Open je data in Excel en controleer of elke cel informatie bevat. Is er een kolom met veel ontbrekende waarden?

Stap 2. Check inconsistenties

Is de verzamelde data consistent?

Stap 3. Creëer zoveel mogelijk numerieke waarden als mogelijk

Computers hebben moeite met het vinden van patronen in tekstuele data. Wil je bijvoorbeeld de prijs van een product voorspellen, dan is de totale omschrijving van het product niet erg handig. Wat we echter wel kunnen vragen, is of er een beschrijving is of niet. Deze vraag vertaalt zich onmiddellijk in een waar of niet waar antwoord, dat in cijfers kan worden geschreven als 0 (niet waar) en 1 (waar). Op deze manier verlies je niet alle informatie, maar is de data toch numeriek.

Voor categorische waardes, zoals landen, merken of geslacht, bevat de kolom vaak tekstwaarde zoals Nederland, Apple of Vrouw. Nogmaals, dit is moeilijk te begrijpen voor een computer. Het is ook mogelijk om deze data om te zetten in numerieke waarden zoals hierboven. Dit keer stellen we onszelf de vraag “Wonen ze in Nederland?”, “Is het merk Apple?”, “Is het geslacht vrouwelijk?”. Het antwoord op deze vragen is wederom niet waar (0) of waar (1). Een voorbeeld van hoe je deze landen in Excel naar 0 of 1 kunt vertalen, wordt hieronder uitgewerkt. Dit process heet one-hot-encoding, ook wel dummy encoding genoemd.

Excel voorbeeld

Stap 4. Sla je data op als CSV file

Zodra de meeste data numeriek is en alle cellen zijn gevuld met consistente gegevens, kan het bestand worden opgeslagen. Sla het bestand op als een .csv bestand (comma separated value bestand, een veelgebruikt bestandsformaat voor data analyse) en je bestand is klaar voor verkenning!