Deze blog is een onderdeel van de reeks: ‘Data structuur: de basis’
Data voorbereiden voor analyse
Hieronder volgt een korte beknopt stappen om je data klaar te maken voor analyse. Mocht je met je eigen data aan de slag gaan, zorg er dan voor dat je een kopie van de originele dataset gebruikt, zodat je geen wijzigingen aanbrengt in je originele data.
Stap 1. Check missende waarden
Open je data in Excel en controleer of elke cel informatie bevat. Is er een kolom met veel ontbrekende waarden?
- Probeer de lege cellen met de juiste informatie te vullen
- Is de informatie onbekend, maar de kolom wel relevant? Vul een numerieke waarde dan met een 0 of het gemiddelde van de kolom.
- Bevat een van de kolommen veel missende waarden, maar wil je weten of de informatie aanwezig is of niet? Wil je bijvoorbeeld weten of een klant een website heeft of niet, dan kunt u een kolom “Website beschikbaar?” Toevoegen. Als er een website is vul je de waarde 1 in, zo niet vul je 0 in. Hierdoor ga je perfect om met je ontbrekende data en haal je toch meer informatie uit de beschikbare data.
- Is de informatie onbekend en de kolom niet relevant? Bijvoorbeeld; de beschrijving van een product. Dan kun je de kolom verwijderen.
Stap 2. Check inconsistenties
Is de verzamelde data consistent?
- Zijn telefoonnummers op dezelfde manier geschreven? (Denk aan +3161042455 versus 0611042455)
- Worden categorische gegevens consistent verzameld? Bijv. je kunt niet zowel Mortimer WE als Mortimer West End hebben, dit zou hetzelfde geformuleerd moeten worden
- Je kunt de unieke waarden van een kolom in Excel controleren met behulp van de formule =SORT(UNIQUE(column)). Dit kan helpen om je inconsistenties te vinden en daarmee je data op te schonen.
Stap 3. Creëer zoveel mogelijk numerieke waarden als mogelijk
Computers hebben moeite met het vinden van patronen in tekstuele data. Wil je bijvoorbeeld de prijs van een product voorspellen, dan is de totale omschrijving van het product niet erg handig. Wat we echter wel kunnen vragen, is of er een beschrijving is of niet. Deze vraag vertaalt zich onmiddellijk in een waar of niet waar antwoord, dat in cijfers kan worden geschreven als 0 (niet waar) en 1 (waar). Op deze manier verlies je niet alle informatie, maar is de data toch numeriek.
Voor categorische waardes, zoals landen, merken of geslacht, bevat de kolom vaak tekstwaarde zoals Nederland, Apple of Vrouw. Nogmaals, dit is moeilijk te begrijpen voor een computer. Het is ook mogelijk om deze data om te zetten in numerieke waarden zoals hierboven. Dit keer stellen we onszelf de vraag “Wonen ze in Nederland?”, “Is het merk Apple?”, “Is het geslacht vrouwelijk?”. Het antwoord op deze vragen is wederom niet waar (0) of waar (1). Een voorbeeld van hoe je deze landen in Excel naar 0 of 1 kunt vertalen, wordt hieronder uitgewerkt. Dit process heet one-hot-encoding, ook wel dummy encoding genoemd.
- Let op: als je een geslacht enkel in man en vrouw uitdrukt, is het voldoende om enkel de vraag “Is het geslacht vrouwelijk?” of “Is het geslacht mannelijk?” op te nemen in je data. Namelijk, is de persoon geen vrouw (antwoord is 0), dan is deze automatisch man.
Excel voorbeeld

- In kolom A zien we de originele kolom waarin iemand zijn woonplaats wordt opgeslagen. Elke rij geeft een klant aan en de waarden in kolom A vertellen ons waar de klant vandaan komt.
- Rechts in kolom K zien we een lijst met unieke waarden van de landkolom (A), de originele kolom.
- Deze unieke lijst wordt opgehaald met de formule = SORT(UNIQUE (A2: A20))
- De kolommen B t/m H geven aan of de klant uit deze rij uit een van die landen komt.
- Kolom B stelt dus de vraag “Komt deze klant uit België of niet?”
- De gebruikte formule is = IF(A2 = K2; 1; 0), wat zich vertaalt naar: Als de waarde in A2 (de oorspronkelijke landkolom, in dit geval Duitsland) gelijk is aan de waarde in K2 (België), noteer een 1, als ze niet gelijk zijn, noteer dan een 0.
- Kun je de formule achterhalen die in cel F10 zou staan?
Stap 4. Sla je data op als CSV file
Zodra de meeste data numeriek is en alle cellen zijn gevuld met consistente gegevens, kan het bestand worden opgeslagen. Sla het bestand op als een .csv bestand (comma separated value bestand, een veelgebruikt bestandsformaat voor data analyse) en je bestand is klaar voor verkenning!
- In Excel: File > Save As >
