Big data is "in". En het is belangrijk voor Kennismanagement: meten is immers weten. Maar is big data wel zo nieuw? En welke lessen kunnen we uit het verleden leren?
In de enge zin is "big data" nieuw: het is immers door het Internet, sociale media... dat we zo'n gigantische hoeveelheden data hebben waar we hopen iets uit te leren. En daar bestaat al een tijdje statistiek voor. En alvorens in te gaan op nieuwere meer krachtige statistische technieken moet toch steeds weer gewaarschuwd worden dat je uit data nooit meer kan halen dan er in zit. En als je enkel reageert op wat je leert uit de data-analyse, dan kan je al te laat zijn.
Een verhaal van een kennisproject uit het begin van mijn carrière is me steeds bijgebleven.
De Berlijnse muur valt en steeds meer Oost-Europeanen komen naar het westen in hun typische wagens, waaronder ook de Lada's die ook in België te krijgen waren. Bruno, een alerte risico-analist van autoverzekeringen fronst zijn wenkbrauwen: "er gaan hier veel meer Lada's gestolen worden voor die Oost-Europeanen !"
Hoezo Bruno? Waarom Lada's dat hebben ze daar toch al? En waarom niet onze westerse luxeauto's? "Omdat ze Lada's zelf kunnen herstellen, en die luxemerken nog niet" en Bruno vervolgde: "we zullen de verzekeringspremies voor diefstal van Lada's met 20% optrekken" En waarom 20% Bruno? "Dat weet ik niet juist, we zullen dat later wel verfijnen als we statistieken beginnen te hebben. Vergeet niet, it's better to be roughly right, than to be precisely wrong"
Hier leren we veel uit, bv. je kan nooit op gegevens alleen vertrouwen om te leren. Er is steeds een wisselwerking nodig tussen de menselijke wereldkennis, het vertellen en het tellen, de analyse van data. Goede kennisopbouw vereist beide. En aangezien je zelden beide geesten in 1 brein hebt, weten we uit Kennismanagement dat het belangrijk ze duurzaam te verbinden in een lerend netwerk, een Community of Practice van complementaire experts. De verhalen uit het dagelijks leven genereren statistische hypotheses om te testen op de (big) data, en de statistische resultaten moeten met gezond verstand geïnterpreteerd worden. Wie ooit statistiek gestudeerd heeft weet dat er 3 soorten leugens zijn: lies, dammend lies and statistics. Het moge een troost zijn dat dit niet altijd komt omdat men bewust wil liegen, maar ook uit wishful thinking of te weinig kritische gevormde geest bij het nagaan of statistische verbanden wel significant zijn. Wat dat betreft is er met Big Data niets nieuws onder de zon.
Schijnprecisie is een nog groter risico wanneer we Datamining met nieuwere statistische technieken toepassen, de halve nieuwigheid in Big Data. Zo is er sedert een paar decennia de techniek van de Artificiële Neurale Netwerken (ANN) bijgekomen. Hierbij probeert men uit gegevens te leren op de manier waarop onze hersenen, de natuurlijke neurale netwerken leren. Dit laat heel duidelijk toe om meer krachtige voorspellers te maken dan typische lineaire regressie uit de statistiek (je weet wel, rechte lijnen trekken in een wolk van gegevens. De wiskunde die ANN dit oplevert laat toe om kromme lijnen te trekken.)
Ik heb het zelf ook kunnen ervaren in projecten. Je neemt een grote database met voorbeelden van situaties en uitkomsten (zoals koopt de klant of niet), en je laat een ANN leren uit die voorbeelden. Dat lukt over het algemeen zeer aardig. Maar als je dan het ANN uitspraken laat doen over gevallen die niet in de voorbeelden zaten, dan kunnen die soms de bal helemaal mis slaan. Waarom? Omdat zeer krachtige ANN de voorbeelden bijna "van buiten leren".
Om geen leerling tovenaar te spelen, en de kracht van Big Data, ANN, of andere krachtige statistische technieken te benutten heb je des te meer de 3 factoren nodig:
- een zeer gezond statistisch inzicht en kennis om significantie te herkennen en uw techniek er aan aan te passen.
- veel menselijk gezond verstand om statistische resultaten te interpreteren en hypothesen te formuleren
- beide soorten verstand in een lerend team te verbinden, waarbij er een kennisfacilitator is die beide denkwerelden verbindt in een permanente lerende dialoog (een rol die ik in projecten speel).
Voor wie het graag wat minder vulgariserend leest: Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts
Reacties