Kursen ges i tre moduler. Utöver föreläsningar av kursansvariga kommer det finnas gästföreläsningar med inbjudna föreläsare från näringslivet.
Modul 1 - Introduktion till Data Science: Introduktion till feltoleranta distribuerade filsystem och beräkning. Hela Data Science-processen illustreras med fallstudier från industrin. Praktiskt introduktion till skalbar datahantering för att hämta in, extrahera, ladda, transformera och explorera (o)strukturererade datamängder. Skalbara maskininlärningsflöden (pipelines) för att modellera, träna/anpassa, validera, välja, anpassa, testa och predikera eller uppskatta i ett övervakat eller oövervakat ramverk med icke-parametriska och uppdelningsmetoder såsom random forests. Introduktion till fördelad vertex-programmering.
Modul 2 - Distribuerad djupinlärning: Introduktion till teorin och implementering av distribuerad djupinlärning. Klassificering och regression med generaliserade linjära modeller, inklusive olika tekniker för inlärning, regularisering, och anpassning av hyperparametrar. Introduktion av feedforward-nätverk som fundementalt nätverk och mer avancerade tekniker för att hantera dess huvudutmaningar, såsom overfitting (överanpassning), vanishing / exploding (försvinnande / exploderande) gradient, och träningshastighet. Djupa nätverk för olika typer av data diskuteras, t ex CNN för att skala upp neurala nätverk för hantering av stora bilder, RNN för att skala upp djupa nätverk för hantering av långa tidsserier, samt auto-encoders och GANs.
Modul 3 - Beslutsfattande med skalerbara algoritmer: Teoretiska grunder för fördelade system och analys av deras skalbara algoritmer för sortering, sammanföring, strömmande, skissande (sketching), optimering och beräkning i numerisk linjär algebra med tillämpningar i skalerbara maskininlärningsflöden (pipelines) för typiska beslutsproblem ( t ex prediktion, A/B test, avvikelsedetektion) med olika typer av data ( t ex tidsannoterad, rum-tids-annoterad, och nätverks-annoterad). Integritets-medvetna beslut med sanerade (renodlade, korrigerade (imputed), anonymiserade) datamängder och dataströmmar. Praktiska tillämpningar av dessa algoritmer på äkta exempel (t ex mobilitet, sociala media, maskinsensorer och logg-filer). Illustration genom industriella användningsfall.