Onlinekurser för Data Science

En vanlig beskrivning av en data scientist är: "någon som är bättre på statistik än en programmerare, och bättre på programmering än en statistiker". Jag gillar den beskrivningen och tycker att den fångar de centrala komponenterna i jobbet:

För att kunna jobba med data science behövs färdigheter i programmering och statistik. 

Många personer i branschen har bakgrund inom det ena fältet, och har lärt sig lite från det andra på egen hand. Andra har (som jag) byggt ihop båda färdigheter på egen hand.

Så hur skaffar man sig den kunskap man behöver om man inte "fick" den under sina universitetsstudier? 

Själv har jag haft stor nytta av material som finns tillgängligt gratis online. Idag finns ett stort utbud av MOOCs (massive open online courses) som riktar sig mot data science. Jag tänkte presentera några av mina favoriter nedan. 

Data Science på Coursera
En uppsättning högkvalitativa kurser som skapats av John Hopkins University, och som lärs ut av bl.a. Jeff Leek och Roger Peng (kolla in deras blogg på http://simplystatistics.org/). Kurserna täcker allt från R-programmering till statistik och datavisualisering. Det tar 3-6 månader att genomföra alla 10 kurserna, men för den som vill börja med ett smakprov kan jag rekommendera "R programming" som innehåller många användbara tips och råd för nya R-programmerare.

Statistical Learning från Stanford
En otroligt bra kurs som ger en översikt över moderna statistiska verktyg, med teoretiskt djup och praktiska exempel i R. Föreläsarna är riktiga tungviktare inom fältet (Trevor Hastie och Rob Tibshirani) och det märks på innehållet att de vet vad de pratar om. Kursen är baserad på boken Introduction to Statistical Learning, vilken i sin tur är en mer lättläst version av Elements of Statistical Learning som är en standardtext för många universitetsutbildningar inom statistik.

Machine Learning på Coursera
En av de första kurserna på Coursera, som fortfarande är otroligt populär - av goda skäl. Föreläsaren Andrew Ng (även grundare till Coursera) ger välstrukturerade och pedagogiska föreläsningar, och uppgifterna är utmanande och väldigt lärorika. Jag gillade framförallt avsnittet om neural networks. Kodexempel och inlämningsuppgifter bygger på Matlab/Octave.

Probabilistic Graphical Models på Coursera
En ny förpackning av en kurs som funnits sedan 2013 - numer är innehållet uppdelat på tre kurser och inlämningsuppgifterna i Matlab/Octave är frivilliga. Föreläsaren Daphne Koller (också hon grundare av Coursera) är antagligen den största experten i världen inom PGMs, ett fält inom sannolikhetslära/statistik som bygger på grafiska representationer av statiska modeller. För mig introducerade den här kursen ett nytt sätt att tänka kring statistiska samband, och därför har innehållet varit ganska utmanande att ta till sig. Men jag har stora förhoppningar om nya insikter längs vägen! (Jag har kommit en tredjedel i den här kursen ännu och fick just veta att logistisk regression är ett specialfall av conditional random fields - mindblown!)