Welke data moet je verzamelen?

Deze blog is een onderdeel van de reeks: ‘Data structuur: de basis’ 

Data Verzameling

Deze blogpost is vooral relevant als je nog weinig data hebt verzameld of als je nieuwe data wilt gaan verzamelen. Vaak houdt de volgende vuistregel stand: hoe meer data je kunt verzamelen met weinig tot geen inspanning en middelen, hoe beter. Als je echter net begint, is het wel belangrijk om in je achterhoofd te houden wat de reden is om bepaalde variabelen te verzamelen en wat de extra kosten zijn. Het heeft zelden zin om de temperatuur van de dag vast te leggen tijdens het registreren van bijvoorbeeld verkooporders, maar als je geïnteresseerd bent in het analyseren van het effect van het weer op je verkopen, kan het interessant zijn. Besteed dus geen tijd en middelen aan het verzamelen van irrelevante gegevens die je sowieso niet gaat gebruiken. Door de volgende vragen te beantwoorden, kun je bepalen welke data je moet verzamelen voor je eerste analyses:

  1. Welke vraag wil ik beantwoorden met de data analyse?
  2. Welke data heb ik nodig om deze vraag te beantwoorden?
  3. Welke relevante data kan ik verzamelen?
  4. Is dat voldoende om mijn eerste vraag te beantwoorden?

Voorbeeld 

Je hebt een bedrijf dat laptops verkoopt en het is je doel om je klanten beter te benaderen met gepersonaliseerde deals. Het invullen van de bovenstaande vragen zou er ongeveer zo uit kunnen zien:

  1. Welke vraag wil ik beantwoorden met de data analyse?

Hoe kan ik onze klanten benaderen met meer gepersonaliseerde deals op basis van hun laptopvoorkeuren?

  1. Wat zijn de deelvragen om deze vraag te beantwoorden en welke gegevens heb ik nodig om mijn analyses te maken?
  • Wat voor verschillende soorten klanten heb ik?

Data die relevant is om vast te kunnen stellen of er verschillende soorten klantgroepen zijn, hiervoor is vaak enige domeinkennis nodig:

    • Land
    • Leeftijd
    • Geslacht
    • Grootte van de stad
    • Burgerlijke staat
    • Inkomen
    • Gezinsgrootte
    • Laatste aankoop (datum)
    • Aantal aankopen
    • Totaal uitgegeven geld
  • Wat kopen mijn klanten meestal?

Order data en data die relevant is voor het onderscheiden van producttypen:

    • Productnaam
    • Merk
    • Geheugen van de laptop
    • Schermgrootte
    • Camera
    • Bluetooth
    • Aantal USB-poorten
  • Kan ik een patroon zien in bepaalde klanten die bepaalde producten kopen?

Vereist alle bovenstaande informatie.

  1. Welke relevante gegevens kan ik nu verzamelen?
  • Klantgegevens – naam, adres, telefoonnummer, e-mail, land, leeftijd, ..
  • Productgegevens – productnaam, beschrijving, specificaties, …
  • Verkoopgegevens – datum, product, klant, hoeveelheid, prijs, …
  1. Is dat voldoende om mijn eerste vraag te beantwoorden?

Data analyse is een iteratief proces, wat betekent dat we kunnen starten met de beschikbare data. Als blijkt dat we niet genoeg informatie hebben om tot interessante inzichten te komen, is het altijd mogelijk om meer data te verzamelen. Begin echter met zoveel mogelijk van de beschikbare en relevante databronnen.

Je kunt natuurlijk veel verschillende Key Performance Indicators (KPI’s) hebben, waarvoor een andere informatiebronnen nodig zijn. Het is daarom geen slecht idee om veel data te verzamelen. Echter is het belangrijkste dat je minimaal over de data beschikt die nodig is om je onderzoeksvragen te beantwoorden. Bovenstaande vragen helpen je te bepalen welke data en variabelen je minimaal nodig hebt om die vragen te beantwoorden.

Nadat we de verschillende variabelen hebben geïdentificeerd, is het belangrijk om de data op de juiste manier op te slaan. Er zijn veel opties om je data op te slaan, maar Excel is een goede plek om te beginnen als je net begint met het verzamelen van data. Als je al veel data hebt, of je hebt meer ervaring, dan kun je kijken in databases zoals MySQL, PostgreSQL of MongoDB.

Wil jij aan de slag om inzichten te halen uit je verzamelde data?

Mocht je aan de slag zijn gegaan met het verzamelen van data en nu de volgende stap willen zetten en de data willen vertalen naar waardevolle inzichten? Stuur ons even een berichtje en dan proberen wij jullie zo goed mogelijk te helpen bij het zetten van jullie eerste stap naar een meer datagedreven bedrijfsvoering.

Wil je graag meer leren over gestructureerde data? Klik dan op deze link.

Maaike Blok

Maaike Blok

Maaike heeft een Master in Data Science en Entrepreneurship en ervaring als manager binnen verschillende ondernemingen. Samen kunnen we kijken hoe we jouw vraagstuk kunnen herschrijven naar een datavraagstuk. Klik hier om haar een mail te sturen.

Benieuwd wat we met jouw
data kunnen doen?

Scroll naar top