Data uit het verleden en het heden verzamelen en ordenen is een methode die we al honderden jaren toepassen. Daarmee krijgen we vat op de toekomst. Ik heb ooit iemand horen zeggen: “Als je weet dat je gaat vallen, kun je maar beter gaan liggen”. Dat is zo’n beetje het toppunt van de zoektocht naar grip op incidenten en ongevallen.
De instroom van nieuwe studenten Integrale Veiligheidskunde (IVK) wordt gedomineerd door niet-technische profielen. Hetzelfde geldt voor de instroom bij het post-hbo onderwijs. Het lijkt erop dat veiligheidsmanagement de afgelopen twintig jaar steeds meer als sociaalwetenschappelijk domein wordt gezien en ervaren.
Het (relatieve) belang van getallen
Getalletjes zijn ook belangrijk, maar worden veelal geproduceerd door slimme elektronica. Rekenen en omrekenen, daar heb je een app voor. Werken met MS Excel is bij de jeugdige veiligheidskundige in wording onontgonnen terrein, lijkt het. Statistiek is al jaren het minst populaire vak op school. Het beste wat de nieuwe generatie nog lijkt te worden aangereikt, is werken met indexen zoals een LTIR.
Nu is het niet erg als je niet kunt rekenen. Het is alleen verdomde lastig in je professionele leven. Van de andere kant zeggen getalletjes ook niet altijd alles. Wat mij betreft moet het alleen niet gebeuren dat het basisbegrip voor bepaalde wetmatigheden, begrippen en concepten in zijn geheel verdwijnt.
Ja, algoritmen gaan hoogstwaarschijnlijk veel van ons denkwerk en rekenwerk overnemen. Nu al rolt per seconde meer informatie dan wij bij kunnen houden uit een of ander geautomatiseerd systeem. Wij blijven echter vooralsnog de enige natuurlijke vorm van intelligentie die betekenis en relevantie van informatie (voor onze eigen soort) kan onderscheiden.
Over statistiek en kansverdelingen
Daarom doe ik een kleine greep uit de wereld van de statistiek, en kansverdelingen in het bijzonder. Wat is statistiek? Wat zijn verdelingen? Wat zijn veelgebruikte verdelingen? Wat hebben ze gemeen? Hoe verschillen ze? Wat is het belangrijkste besef dat je bij werken met verdelingen moet hebben? Hierna geef ik antwoorden op onder meer deze vragen.
Statistiek
De basis voor de moderne statistiek is ergens medio zeventiende eeuw gelegd. De aanleiding was gokken: wat zijn de winkansen bij dobbelen? Voor velen is statistiek dan ook dat vak met munten, dobbelstenen en knikkers. Dat vak met die saaie en niet te volgen docent die maar doorgaat en doorgaat over iets wat je niet snapt … en dat je uiteindelijk dan ook niets interesseert.
Statistiek gaat vaak tegen je gevoel in: je gevoel zegt je iets anders dan de getallen je laten zien. Voor velen is de kans op winnen of verliezen vaak niet meer dan een fiftyfifty-vraagstuk: je wint óf je verliest. Meer is er niet toch? Het gegeven dat het genuanceerder is dan dat, is voor velen van ons een hersenkraker. Begrip en respect voor statistiek komt dan ook met de tijd, heb ik ervaren.
Kansrekenen
Kansrekenen is briljant. Kansrekenen maakt bepaalde onderliggende processen van het leven inzichtelijker. Door het leven te observeren kom je tot de conclusie dat de dingen vaak minder onvoorspelbaar zijn dan je denkt. (Een beter woord dan ‘onvoorspelbaar’ is hier misschien ‘onverwacht’, omdat voorspellen een wat te mystieke lading heeft).
Let wel: het leven is geen statistiek! Statistiek is een getalsmatige benadering van verwachtingen van het leven. Een deel van datzelfde leven is onze zoektocht naar veiligheid en zekerheid. Onzekerheid is niet iets waar wij als mensen warm van worden. Statistiek kan helpen het gevoel van onzekerheid te verminderen. Maar pas op, daarmee is niet gezegd dat statistiek (absolute) zekerheid biedt.
Terug naar de dobbelstenen: het is een feit dat de kans op zes ogen gooien met één dobbelsteen 1/6 is. Maar het is goed mogelijk dat je in zes worpen niet één keer zes ogen gooit. Als je honderd keer of meer mag gooien, benader je gemiddeld gezien die kans van 1/6 wel. Maar dan moet je ook de gelegenheid voor dat aantal worpen krijgen.
De kans dat we doodgaan is 100 procent. Maar wat is de kans dat je komt te overlijden ná je tachtigste levensjaar?1 Dat je komt te overlijden door ziekte? Of door een (arbeids)ongeval? Wat is de kans dat je 100 jaar oud wordt? Dat zijn de vragen die ons soms bewust en veelal onbewust bezighouden. Gaat het niet over leven en dood, dan gaat het over winsten en verliezen, mogelijkheden en bedreigingen (en meer van dat soort contrasten).
Gegevens verzamelen en ordenen
Statistiek is uiteindelijk een techniek die ons helpt bij zingeving en bij de wereld om ons heen wat beter te begrijpen. Om echter tot berekening en zingeving te komen, zullen we eerst gegevens moeten verzamelen. Dat is vaak een kwestie van observeren. Sommige gegevens worden ons door onze omgeving aangedragen, andere moeten we zelf genereren. In het laatste geval spreken we van experimenteren.
Een manier om verzamelde gegevens te ordenen en geschikt te maken om mee te werken en van te leren, is het werken met kansverdelingen. Ik licht hierna de bekendste kansverdeling toe.
Kansverdeling met de normaalverdeling
De Duitse wis- en natuurkundige Carl Friedrich Gauss ontdekte in de achttiende eeuw de normaalverdeling, ook wel Gaus-kromme. Dit is toch wel veruit de bekendste kansverdeling. Maar waarom is die verdeling eigenlijk zo normaal?
Dat ‘normaal’ heeft hier niets te maken met de gangbare betekenis van het woord: ‘niks geks’. Nee, het gaat er hier om dat er altijd een bepaalde verdeling zal zijn rondom grootheden die gelijk worden verondersteld. Het gemiddelde (x) van alle gemeten waarden nemen we dan als waarde (de norm) waartegen we alle andere waarden als normaal of abnormaal beoordelen. Ik leg dit uit met een voorbeeld.
Normaalverdeling in de appelgaard
Neem een appelgaard. Je gaat op een dag de appels plukken. Daarbij bepaal je van elke appel zijn doorsnede of gewicht. Aan het einde van deze letterlijk en figuurlijk vruchtbare dag zit je met kisten vol heerlijke appels en lijsten vol meetwaarden. Je bladert even door je aantekeningen, maar ziet al snel door de (appel)bomen het bos niet meer.
Vervolgens zet je thuis alle meetwaarden in bijvoorbeeld een Excelbestand, in de volgorde waarin je ze hebt genoteerd. Deze lijst ziet er grillig en willekeurig uit. Vervolgens laat je de rekensoftware zijn magie doen: die genereert automatisch een histogram. Benadruk je nu met een pen in één vloeiende lijn de bovenkant van de grafiek, dan ziet die eruit als een klokvormige curve: de normaalcurve (zie figuur).
Normaalcurve vanzelfsprekend? Ja en nee
Met de normaalcurve heb je een elegant patroon te pakken. Is dit vanzelfsprekend? Ja en nee. Als je bedoelt te vragen: ‘Was dit voor dit voorbeeld op voorhand te verwachten?’, dan is het antwoord: JA. Als je bedoelt ‘Geldt dit beeld voor álle appelgaarden?’, dan is het antwoord: NEE. Daarvoor zijn er te veel variabelen in het spel om rekening mee te houden.
Ik ga die variabelen niet allemaal noemen, maar wel een paar om mijn punt te maken. Ten eerste geldt dit beeld exclusief voor dít specifieke soort appels uit deze appelgaard. Bij een ander soort appels kan dit anders uitpakken. Je zou zelfs een grafiek kunnen krijgen met twee pieken. Bijvoorbeeld omdat een deel van je appelbomen op veel betere grond staat.
Ten tweede is het zo dat als er één piek is, dat nog niet het rekenkundig gemiddelde hoeft te zijn. Als alle appelbomen uit Nederland komen, bij dezelfde kweker vandaan en van dezelfde grond, krijg je hoogstwaarschijnlijk een normaalverdeling. Vlak daarnaast in deze tijd de verstorende invloed van genetische manipulatie van gewassen niet uit.
Noot
- Mannen worden in Nederland gemiddeld circa 80 jaar oud en vrouwen circa 83 jaar (bron: cbs.nl).