Tableau Software's senior consultant David Sigerson nodigt mensen op de Tableau Conference 2019 uit om te leren hoe je moet liegen met statistiek in het moderne tijdperk. "Blijkbaar zijn er veel aspirant leugenaars, te oordelen naar hoeveel mensen zijn komen opdagen", grapt de deskundige die voor een enorme zaal een presentatie doet aan de hand van het beroemde boek Liegen met cijfers (oorspronkelijk al uit 1954), maar dan bijgewerkt met moderne inzichten.
Belazerd waar we bijstaan
Door data ondersteunde leugens zien we overal. Logisch, want wat waar is, is voor mensen die niet bekend zijn met alle feiten bar lastig in te schatten, zegt Sigerson. Een interessant voorbeeld is de Flat Earth Society, die begon als een soort gedachteoefening waarbij werd uitgegaan van een kaal gegeven zonder aannames van vaststaande feiten en uitgroeide tot een monster waarbij diverse aanhangers fanatiek zijn gaan geloven dat de aarde plat is.
"Het is onwaarschijnlijk dat ik in m'n dagelijkse leven bewijs dat de Aarde bolvormig is, ik accepteer dat het zo is", zegt Sigerson. "Niet iedereen gelooft dat en bewijzen dat het wel zo is, kan heel lastig blijken. Dat is de basis van een goede complottheorie."
En dat is nog vaak per ongeluk een anders geïnterpreteerde realiteit, maar vaak worden we doelbewust belazerd waar we bijstaan. Een geoefend leugenaar gebruikt statistiek om de realiteit genoeg te verstoren, zodat iets waar lijkt, vertelt Tableau's Sigerson. Hij noemt voorbeelden als Tim Cook die cumulatieve verkoop laat zien in plaats van traditionele verkoopcijfers, om een mooie stijgende grafiek weer te geven in plaats van de afvlakkende die je anders zou zien.
Of reclamemakers die een taartdiagram driedimensionaal presenteren om hun eigenlijke kwart van de taart een overweldigend groter aandeel te laten lijken. Beide voorbeelden bewijzen dat het plaatje altijd wint, zegt de specialist. "Het onderbewustzijn van het brein interpreteert het plaatje eerst en daarna wordt de boodschap toegevoegd."
Malafide visualisaties
Eerder op de dag stond Tableau-onderzoeker Michael Correll in zijn eigen presentatie uitgebreid stil bij bewust verkeerd gepresenteerde visualisaties van data. Hij vergelijkt visualisaties met man-in-the-middle-aanvallen: de visualisatie staat tussen de verzender en de ontvanger en levert mogelijk een malafide versie van de werkelijke data. In een onderzoek naar Black Hat Visualization (PDF) schrijft hij onder meer over leidende peilingsgegevens met sturende grafieken, staafdiagrammen die geen relatie meer hebben met de werkelijkheid (waarbij bijvoorbeeld 0,3 de helft lager is dan 48 procent) en grafieken waarbij de ruwe data wordt verdoezeld. De hierboven gelinkte PDF is een korte inleiding op de wonderlijke wereld van misleidende grafieken.
Of denk aan de beruchte grafieken van Fox News waarbij gegevens enorm misleidend worden gepresenteerd, zoals je ziet in deze voorbeelden op Business Insider een paar jaar geleden. Spelen met de nullijn, verdoezelen van gegevens of grafieken presenteren die geen enkele relatie meer hebben met de daadwerkelijke data vind je in overvloed in dat verhelderende artikel van datajournalist Walt Hickey.
Twee beslissingsystemen
Een groot deel van Sigersons sessie is gewijd aan wat in de statistiek systematische fout of onzuiverheid wordt genoemd, afhankelijk van het type bias waar je mee te maken krijgt. Hij verwijst naar het werk van onder meer psycholoog Daniel Kahneman die als eerste aandacht besteedde aan hoe het onderbewustzijn van invloed is op rationele economische beslissingen, en het werk van Dan Ariely, een psycholoog die soortgelijke onderzoeken deed naar beslissingen en systematische denkfouten die mensen maken.
De psychologen beschreven daarbij dat het brein ruwweg twee denksystemen heeft: systeem één (het instinctieve deel dat snelle beslissingen neemt gebaseerd op ervaring en gevoel) en systeem twee (het rationele deel dat beslissingen afweegt op basis van beschikbare gegevens). "We gebruiken systeem twee alleen als we echt tijd hebben om na te denken en systeem één is meestal aan het werk", vertelt Sigerson. Beslissingen die eigenlijk puur door dat tweede systeem zouden moeten worden ingegeven, bijvoorbeeld oordelen over mens, maatschappij en economie, worden daarom vaak bepaald door systeem één.
Het Linda-probleem
Een bekend experiment die de hypothese van Kahneman et al ondersteunt is de zogenoemde combinatiemisvatting, ook bekend als het Linda-probleem. Daarbij wordt een persoon gepresenteerd met een korte bio, ongeveer als volgt: "Linda is 31, single, gedreven en heeft uitgesproken meningen. Ze volgde een opleiding filosofie en in haar studententijd was ze betrokken met issues omtrent discriminatie en sociaal onrecht en liep ze mee in antinucleaire demonstraties." Vervolgens kregen deelnemers twee stellingen over Linda waarvan ze moesten aangeven welke van de twee een grotere kans heeft om waar te zijn. 1: Linda is een bankbediende. 2: Linda is een bankbediende en actief in een feministische beweging.
In de zaal kiezen de meeste mensen voor optie 1, waar Sigerson mild teleurgesteld over is. "Iedereen is buitengewoon helder aan het begin van dit congres of jullie kennen het probleem al", zegt hij, want dit is zo'n voorbeeld waar mensen vaker voor optie 2 blijken te kiezen. Dat voelt namelijk als een conclusie die best waar zou kunnen zijn, maar optie 2 is natuurlijk een subset van optie 1. De kans dat een subset van een bewering waar is, is kleiner: 2 kan alleen waar zijn als 1 ook waar is. Kortom, het instinctieve systeem neemt de beslissing, niet het rationele systeem.
Hoe webshops je meer laten betalen
Een van deze denkfouten is gebaseerd op ons referentieniveau, waarbij hoe we denken over bepaalde gegevens wordt ingegeven door het referentiekader van dat moment. Concreet noemt Sigerson het volgende voorbeeld: "Stel dat je op vaderdag een scheerapparaat wilt kopen en je hebt in je hoofd dat je ongeveer 50 dollar wilt uitgeven. Als ik op een webshop zoek naar een scheerapparaat worden de resultaten automatisch gesorteerd op de 'beste match'. Dat zijn toevalligerwijs ook de duurdere modellen, rond de 300 dollar", merkt de deskundige op.
"Het is niet alsof je nu opeens 300 gaat uitgeven, maar je idee van wat zo'n apparaat kost verandert een beetje." Je concludeert sneller dat het bedrag dat je in je hoofd had misschien wel aan de zuinige kant is en het is voor je vader, die verdient toch wel iets beters? Dus je gaat net een stukje hoger zitten met je geplande bedrag. "Denk aan de laatste keer dat je spijt had van een aankoop. 'Ik heb te veel betaald. Waarom heb ik dat gedaan?' Wat er gebeurd is, is dat systeem één de aankoopbeslissing neemt en als systeem twee vervolgens van start gaat, krijg je spijt van de aankoop."
Dat zijn allemaal voorbeelden van bewuste misleiding, maar vaak gaan dingen mis door interpretatieproblemen, betoogt Sigerson. "Het gaat niet altijd om slecht gepresenteerde data, maar om verkeerd gebruik van statistische inzichten", legt hij uit. Hij noemt bijvoorbeeld het klassieke voorbeeld van een loonsverhoging van 100 procent aan het eind van het eerste arbeidsjaar, gevolgd door een loonsverlaging van 50 procent aan het eind jaar twee. Hoeveel verdien je dan in jaar drie vergeleken met jaar drie? Instinctief blijken mensen dan vaak het antwoord "vijftig procent meer" te geven.
Wat is de regel?
Sigerson presenteert drie getallen en vraagt het publiek om drie getallen die daarmee stroken en wat de regel is die bepaalt welke getallen worden gepresenteerd. Hij geeft de cijfers 2, 4 en 8. Het publiek van voornamelijk IT'ers komt uiteraard met het antwoord: "16, 32, 64". "Dat is juist, maar waarom?" vraagt de datadeskundige. "Verdubbeling? Nee, dat is niet de regel." Hij neemt een kleine minuut lang allerlei antwoorden van het publiek zoals "5, 10, 15" en "1, 2, 3" waarvan zijn antwoord steevast is: "die getallen zijn juist, maar dat is niet de regel" wanneer iemand uitlegt waar de reeks van drie op is gebaseerd, bijvoorbeeld "drie getallen minder dan tien, drie getallen die beginnen met 2, enzovoorts.
Dan geeft hij het antwoord. "De regel is: steeds hogere getallen." Dat is zo'n brede regel dat je veronderstelling al snel lijkt te kloppen met de gegevens die je vindt, maar dat betekent niet dat je hypothese juist is. Zijn punt van dit simpele voorbeeld is dat het gevaar van het bepalen van de logica achter bepaalde data dat je snel een bevestiging ziet van je denkwijze die strookt met de gegevens, maar wat niet noodzakelijkerwijs een juiste veronderstelling is.
"Je zag een patroon, probeerde dat te volgen en het niet te weerleggen", legt hij uit. "De realiteit is dat je de juiste vragen moet stellen over de gegevens als je de data wilt gebruiken om verder te gaan. We weerleggen niet veel als we patronen vinden. We denken vaak 'ah, dát is het patroon, aan de slag!'"
Bevestigingsvooroordelen, of tunnelvisie zo je wilt, zijn nog steeds een van de denkfouten die je het meest ziet bij het interpreteren van statistiek, betoogt Sigerson.
Blijf doorvragen
Verder heb je natuurlijk de bekende fout van het vinden van een correlatie tussen twee dingen die wellicht een gedeeld verband hebben (denk aan "verkochte ijsjes" en "doden door haaienaanvallen", met als gedeeld verband dat ze allebei een piek in de zomer doormaken) maar verder niets met elkaar van doen hebben of waar verder geen enkel verband in te ontdekken valt. Dat doet denken aan het prachtige Spurious Correlations, zoals deze grafiek met "Verkoop van iPhones" en "Sterfgevallen door valpartijen van de trap".
De les die Sigerson probeert mee te geven is dat dataspecialisten zich meer bezig moeten houden met het weerleggen van hun uitkomst. "Je moet niet ophouden met zoeken omdat je een patroon hebt gevonden", houdt hij zijn publiek voor. "Stel altijd vragen over de getallen die je ziet, hoe ze zijn geproduceerd, of we ze kunnen gebruiken en vooral hoe we ze kunnen weerleggen."
Sigerson stelt dat organisaties in hun queeste om data beter in te zetten te veel worden geleid door de HiPPO, de highest paid person's opinion. Door het verhaal van die strategie worden gegevens geïnterpreteerd, in plaats van dat gegevens worden bekeken om een verhaal te interpreteren. Maar zelfs als je de HiPPO-visie omdraait en data leidend laat zijn, kom je bij problemen zoals hierboven zijn beschreven, tenzij een organisatie heel doelbewust omgaat met data.
Volgens hem is een datagedreven organisatie niet eentje die veel data gebruikt (al dan niet met een machine learning-saus) of veel rapportages maakt, maar eentje waarbij iedereen die met data aan de slag gaat drie vragen stelt: "Wat denken we te weten? Hoe kunnen we dat ontkrachten? Hoe leren we er meer over?" Zo bewust bezig zijn met gegevens levert datageletterdheid op en zorgt ervoor dat er minder (onbewust, althans) wordt gelogen met statistiek.
Reageer
Preview