Simpsons paradoks

Vi er svært gode i få data til å passe til den årsaken vi ønsker skal være tilfelle og dårlige til å finne data som svekker de vi ønsker å se.
I forrige uke var jeg på en konferanse i Konstanz med det spennende navnet "Causality, uncertainty and ignorance". På denne konferansen møtes forskere innen blant annet filosofi, statistikk, kunstig intelligens og psykologi for å diskutere årsaksanalyser. Mange forskere i det helt ypperste internasjonale toppskiktet, særlig innen filosofi og psykologi, var deltakere på konferansen.

Et gjennomgangstema på konferansen var utfordringene rundt hvordan man kommer fram til gode årsaksmodeller. For eksempel, de aller fleste er i dag overbevist om at røyking er en årsak til lungekreft, men hvordan vet vi at det ikke er en felles bakenforliggende årsak som både fører til at noen røyker og får lungekreft? Hva om noen mennesker er genetisk utrustet slik at de både er mer disponert for å begynne å røyke og å få lungekreft? Dette innebærer at røyking kanskje kun samvarierer med lungekreft og ikke er en årsak til lungekreft.

Årsak og virkning

Denne teorien har vært fremsatt som en reell mulighet og hadde mange tilhengere blant røykere og tobakksprodusenter. Stort sett finnes det mange alternative årsaker til en virkning og det aller meste av forskningen viser at vi har en sterk tendens til å velge den årsaken som passer oss best.

Vi er svært gode i få data til å passe til den årsaken vi ønsker skal være tilfelle og dårlige til å finne data som svekker de vi ønsker å se. Dette er vel mange klar over at er tilfelle - hos andre i det minste - men kanskje ikke over hvor sterk og ubevisst denne tilbøyeligheten er. Tilbøyeligheten går blant annet under navnet "teoriladet observasjon" og er et stort problem også innen forskning.

Et av problemene vi har med korrekte årsaksmodeller ble på konferansen illustrert med et paradoks kalt "Simpsons paradoks". Dette paradokset er særlig relevant siden det kan illustreres med en årsaksanalyse jeg for noen år siden gjennomførte i en større norsk IT-bedrift.

Endret modell

IT-bedriften hadde nylig endret sin utviklingsmodell fra vannfallsmetoden til inkrementell modell, og ønsket å evaluere effekten av endringen. Produktiviteten, målt i antall funksjonspoeng (en målestørrelse for størrelsen på produsert funksjonalitet) per timeverk, viste seg å ha økt betraktelig og gi produktivitetsgevinster på mange millioner kroner per år.

De fleste, særlig prosessforbedringsgruppa og ledelsen, var svært fornøyde og tolket produktivitetsforbedringen som et resultat av ny utviklingsmodell. De høye kostnadene forbundet med endring av utviklingsmodell var heldigvis verdt pengene.

Eller var de det? Problemet var at når jeg delte opp produktivitetsdataene i prosjekter gjennomført med ulike utviklingsverktøy (i hovedsak Cobol og Powerbuilder) fant jeg at produktiviteten innen hver av disse typene prosjekter hadde sunket! Tabellen nedenfor illustrerer dette med data som ligner på de reelle dataene.

Opp og ned

Mens produktiviteten for både Cobol og Powerbuilder-prosjekter isolert sett hadde gått ned med henholdsvis 0.05 og 0.07 FP/tv, så hadde altså produktiviteten for Cobol og Powerbuilder-prosjekter sett under ett gått opp med 0.12 FP/tv!

Simpsons paradoks kommer i dette tilfelle av at organisasjonen på samme tid som ny utviklingsmodell ble innført også hadde en stor overgang fra Cobol til Powerbuilder-prosjekter, og at Powerbuilder-prosjektene var mer produktive.

Det blir som på et stafettlag der alle løper langsommere enn tidligere, men siden de beste på laget løper en større andel av distansen enn tidligere setter laget likevel rekord. I IT-bedriften fant vi at inkrementell utviklingsmodell hadde andre positive effekter, for eksempel raskere leveringstid og bedre estimeringspresisjon, som gjorde at den likevel var å foretrekke.

Men det ville åpenbart være feil å si at endret utviklingsmodell hadde ført til høyere produktivitet selv om totalproduktiviteten hadde økt. Der var i stedet et behov for å se på årsaker til at produktiviteten hadde gått ned.

Metoder og refleksjon

Konferansen i Koblenz viste at gode årsaksanalyser krever svært gode metodiske evner og høy grad av refleksjon. Av den grunn er det uheldig at så få norske it-bedrifter synes å ha tilstrekkelig ressurser til å analysere data og å gjøre gode undersøkelser av effekter av prosesstiltak.

Etter det vi har observert bruker mange norske it-bedrifter svært mye tid og penger på å måle ulike deler av utviklingsprosessen og svært lite på å analysere data og designe gode undersøkelser. Dette misforholdet gjør at målingene som gjøres blir av lav verdi og vil lett lede til mangelfulle årsaksanalyser og feil konklusjon.

Et tegn på økt modenhet i norsk it-bransje vil være at nye metoder og teknikker ikke blir innført som et resultat av god markedsføring, men basert på gode analyser av effekter. Ansvaret for dette ligger mye hos forskere og leverandører av nye teknologier, men også i stor grad hos it-bedriftene selv.