Jan van Bakel



Statistiek



Vorige Entr'acte
Volgende Entr'acte
Terug naar Archief
Terug naar hoofdmenu

Ik zal het eerst allemaal netjes citeren. Dan raakt u misschien minder in de war zodra u verderop mijzelf begint te lezen.

    UITGESLAPEN TWITTERAARS
    TWEETEN HET VROLIJKST

    ROTTERDAM. Twitteraars hebben 's
    ochtends een goed humeur, maar
    hun stemming neemt in de loop van
    de ochtend af, om 's avonds weer te
    stijgen en rond middernacht te pie-
    ken. Dat beschreven sociologen van
    Cornell University vrijdag in Science.
    Ze telden woorden die positieve en
    negatieve gevoelens uitdrukken met
    een daarvoor ontwikkeld tekstanaly-
    seprogramma, Linguistic Inquiry
    and Word Count geheten, in 509 mil-
    joen 140-woordenboodschapjes, ge-
    twitterd door 2,4 miljoen mensen
    tussen februari 2008 en januari 2010.
    Volgens de onderzoekers weerspie-
    gelt het humeur in de tweets de slaap-
    patronen van de twitteraars: slaap
    maakt blij. Mensen met verschillen-
    de dag- en nachtritmes verschillen
    dan ook in het verloop van hun stem-
    ming gedurende de dag. En in het
    weekend is het getwitterde humeur
    beter dan door de week. In de Vere-
    nigde Arabische Emiraten, waar
    mensen van zondag tot en met don-
    derdag werken, was het humeur op
    vrijdag en zaterdag het best.(NRC)

    (NRC 3 okt. 2011, Wetenschap, 16)

Ik ga u niet lastig vallen met alle beschouwingen die door mijn hoofd zijn gedwaald na het lezen van dit stukje. Het staat in de rubriek wetenschap, dus je zou er iets ernstigs over moeten kunnen zeggen. Wetenschap streeft naar verklarende uitspraken over een of andere werkelijkheid. Er wordt niet iets verteld over een werkelijkheid, maar er wordt onderzoek naar gedaan om te komen tot een in algemene termen van een theorie geformuleerde verklaring van het waargenomene. Zo kun je het zinken van een steen in water verklaren met gegevens over zijn maat en gewicht in relatie tot eenzelfde maat en bijbehorend gewicht van de vloeistof waarin hij al of niet zinkt. Eén enkele drijvende steen gooit de hele theorie omver. Wetenschap zegt dus niet alleen hoe iets is maar ook waarom het zo is. Alles binnen de wetenschap moet een theoretische status hebben. De feitelijke werkelijkheid wordt gepresenteerd in termen van een algemene theorie en daarbij staat deze altijd zelf ter discussie. Ontbreekt de theorie dan is er gebabbel.

Hoe is dat bij de statistiek? Een paard kan zien dat dat geen wetenschap is. Ze doet niet anders dan frekwenties tellen bij een hoop waarnemingen met betrekking tot een bepaalde werkelijkheid, en vervolgens frekwenties omtrent andere waarnemingen bij dezelfde werkelijkheid om daarna uitspraken te doen over de samenhang daartussen in termen van waarschijnlijkheid. Bijvoorbeeld: ze laten personen met open respectievelijk dichte ogen kijken naar een flitsend licht en antwoorden op de vraag "welke kleur licht zag u?". En kijken dan of de antwoorden samenhangen met al of niet die dichtheid van die ogen. De statistiek doet geen uitspraak over oorzaak en gevolg. Die vraag ligt buiten het veld van de statisticus. Die spreekt alleen over waarschijnlijkheid of kans in termen van een theorie over waarschijnlijkheid.

Wat was de beginvraag (de hoofdvraag, DE vraag) waaromheen voor bepaalde sociologen van Cornell University alles draaide? Ik denk: "Hoe is het goede/slechte humeur van twitteraars over de dag verdeeld?". Die vraag kwam misschien bij ze op toen ze zich tijdens een obligate, melige vergadering zaten af te vragen wat ze nou weer eens zouden ondernemen nu de vorige publicatie alweer in het verleden verzopen was. Maar de reden waarom ze dit of dat willen weten is voor statistici niet aan de orde. Statistiek is altijd een instrument - een slecht instrument, een alternatief zelfs moet je zeggen - voor een "andere" wetenschapper. Statistiek treedt op waar die andere "wetenschap" tekortschiet of eindigt. Binnen een echte wetenschap kan ze uiteraard niet aan de orde zijn omdat statistiek nou eenmaal niet over oorzakelijkheid spreekt. Ik denk dus dat iemand tijdens een melige stafvergadering, die niet weet waarnaartoe, komt met: Nou voorzitter, we hebbben altijd nog dat materiaal van de L.I. Kunnen we daar niet eens iets mee doen? Iets over emotie en stemming van mensen in de loop van de dag en zo?. Na wat gemompel zegt de voorzitter: Ja ja, daar moet je niet sceptisch over doen. Laat iemand maar eens een voorstel doen. We komen erop terug. En dan vinden ze dat van die stemmingen en die positieve en negatieve woordjes.

Om de vraag te beantwoorden hoeven onze sociologen natuurlijk geen twitteraars te gaan opzoeken om ze lastig te vallen met moeilijke vragen Ze hoeven alleen naar hun teksten te kijken. Als ware statistici gaan ze kijken hoe woorden met positieve respectievelijk negatieve gevoelens in hun teksten voorkomen, en wel in samenhang met tijdstippen op de dag dat ze geproduceerd zijn. Tijdstippen die ze mooi gratis tot hun beschikking hebben! Want die staan er gewoon bij op You-tube of wat het mag wezen. Hoe ze kwamen tot de karakterisering van de gebruikte woorden als positief gestemd dan wel negatief gestemd? Dat blijft een raadsel, tenminste als je niet aanneemt dat dat voor zichzelf spreekt. Zoals je ook geen moeilijkheden moet maken over de werkelijke slaaptijden van die mensen. Want die staan er natuurlijk niet bij op die twitter-data. Wat gevonden werd waren dus paren als:

      N viezerik - 22.33 uur
      P schatje - 14.12 uur
      P plezier - 9.11 uur

(N betekent negatief te waarderen, P positief te waarderen. Deze eigenschappen kennen ze wellicht gemakshalve zelf aan de woorden toe.) En dan ga je kijken met een programmaatje waar sociologen tegenwoordig zelfs al kennis van hebben voordat ze hun allereerste eerstejaarstentamentje hebben gedaan: correleren die N en die P signifikant met die kloktijden? Zonodig leg je op jouw eigen manier uit waarom het soms hier of daar een beetje anders is dan je zou verwachten. Slechte weerstoestanden of niet goed geslapen of zo. Dan valt alles niet te vroeg in duigen. En dan? En dus? Nou? Niks. Da's alles. (NRC) staat eronder.

Jan van Bakel, 7 oktober 2011

janvanbakel.nl

Terug naar boven

Reactie? Bericht: jan.van.bakel@gmail.com.