Populära metoder inom data science

KDnuggets är en bra resurs för blogginägg om data mining, big data, analytics och data science. Häromdagen la de upp en enkätundersökning som visade de vanligaste algoritmerna och metoderna som används av data scientists.

Något som jag noterade var att regression ligger överst på listan. Trots att detta är en av de äldre och mindre komplexa/spännande/sexiga statistiska modellerna i undersökningen, används den flitigt både i industri och akademi. (För att vara tydlig, i detta inlägg pratar jag om Generalized Linear Models eller GLMs).

Självklart beror detta i viss utsträckning på att gamla metoder har lärts ut under längre tid och till fler människor, vilket gör dem till ett bekvämt alternativ för många som vill bygga statistiska modeller.

Samtidigt är det många framstående statistiker och data scientists (mina idoler Rob Tibshirani och Trevor Hastie för att nämna några) som förespråkar enkla modeller framför komplexa. Dels av prestationssjäl - enkla modeller är lättare att implementera och gamla modeller har optimerats under längre tid vilket gör att det finns väldigt robust och sofistikerad programvara tillgänglig för oss som bygger modeller.

Men det finns även teoretiska skäl. Enklare modeller är per definition mer begripliga och är därför lättare att kommunicera till beslutfattare och andra som berörs av dem. Vilket är viktigt om man jobbar med modeller vars resultat man behöver stå till svars för (vilket bör gälla alla enligt mig). Plus den klassiska avvägningen mellan "bias" och "variance" - med lägre komplexitet kommer oftast lägre "modellvarians" (det vill säga varians i modellens parametrar när den tränas på olika dataset) vilket minskar risken för overfitting.

Läs mer om undersökningen här