Weapons of Math Destruction

Jag har precis läst en bok med ett ganska annorlunda budskap om data science: Weapons of Math Destruction. 

Bland alla optimistiska böcker som utlovar en fantastisk framtid med hjälp av algoritmer och statistik i stor skala (som Freakonomics och the Signal and the Noise för att nämna ett par) står den här boken ut med sin kritik mot destruktiva matematiska modeller.

Författaren Cathy O'Neil går igenom ett antal exempel där statistiken har eller kan ha skadliga effekter - t.ex. rankningsmodeller för högskolor och universitet i USA, skattningsmodeller som bedömer lärares arbetsprestation, personlighetstester som används för rekryteringsbeslut, prediktiva modeller som riktar polisarbete mot specifika områden vid specifika tidpunkter, kreditvärdighetsmodeller som inte granskas av något statligt organ (detta är specifikt för USA) osv. 

Genomgående får jag intrycket av att författaren vet vad hon talar om och att hennes invändningar för det mesta är insiktsfulla. Hon arbetade som matematiker i finansbranchen just när världens marknader kraschade 2007-2008, så hon har bevittnat på nära håll hur statistiska modeller kan balla ur. Enligt henne ligger slarvig kod och felaktiga antaganden bakom en stor del av den effekt som finanskrisen hade på världsekonomin.

Genom hela boken finns några huvudbudskap som hamras in gång på gång. De bygger på författarens definition av ett "Weapon of Math Destruction", som består av tre delar:

1. Dunkelhet (Opacity) - När modeller och algoritmer är dolda och inte kan granskas utifrån. Detta kan till exempel hända med proprietära modeller där ägaren inte vill dela med sig av detaljerna, eller när modellerna är så komplexa att de är omöjliga att förstå.

2. Skala (Scale) - När modeller och algoritmer blir så utbredda att de dominerar sina respektive marknader eller områden. Detta leder ofta till oväntade effekter - som när universitet började forma sina budgetar för att maximera sina poäng på U.S. News listor över de bästa lärosätena (vilket inte nödvändigtvis är synonymt med att öka kvaliteten på utbildningen).

3. Skadlighet (Damage) - När modeller och algoritmer har en skadlig effekt på vissa individer. Detta kan hända när modellerna avsiktligt eller oavsiktligt identifierar utsatta människor och i förlängningen försvårar deras chanser i livet.

När dessa kriterier sammanfaller skapas en farlig feedback-loop där felaktigheter inte identifieras (på grund av dunkelhet) och där väldigt många människor kan drabbas (på grund av skala och skadlighet). Ofta är det ekonomiskt och socialt utsatta människor som blir lidande. Författaren hävdar att denna grupp blir utsatt för aggressiv och vilseledande reklam, överdrivna och kränkande poliskontroller, försämrade chanser att få jobb, m.m. i högre utsträckning än andra.

Så, låt oss alla ta ansvar för vad vi gör med vår data, hur vi bygger våra modeller och vad vårt arbete kan få för effekter. Låt oss alla svära en ed för data scientists (fritt översatt från boken, upphovsmän E. Derman och P. Wilmott):


Jag ska påminna mig själv om att det inte var jag som skapade världen och att den inte följer mina ekvationer.
~
Samtidigt som jag kommer att använda modeller för att mäta värde, ska jag inte bli överdrivet imponerad av matematiken.
~
Jag ska aldrig offra sanning för elegans utan att förklara varför jag har gjort det. 
~
Jag ska inte heller ge falsk säkerhet till människor som använder mina modeller. Istället kommer jag att vara tydlig med deras antaganden och förbiseenden. 
~
Jag inser att mitt arbete kan ha en stor påverkan på samhället och ekonomin, i många fall utöver min egen förståelse.
~