Kursen ges i tre moduler. Utöver föreläsningar av kursansvariga kommer det finnas gästföreläsningar med inbjudna föreläsare från näringslivet.
Modul 1 - Introduktion till Data Science: Introduktion till feltoleranta distribuerade filsystem och beräkning. Hela Data Science-processen illustreras med fallstudier från industrin. Praktiskt introduktion till skalbar datahantering för att hämta in, extrahera, ladda, transformera och explorera (o)strukturererade datamängder. Skalbara maskininlärningsflöden (pipelines) för att modellera, träna/anpassa, validera, välja, anpassa, testa och predikera eller uppskatta i ett övervakat eller oövervakat ramverk med icke-parametriska och uppdelningsmetoder såsom random forests. Introduktion till fördelad vertex-programmering.
Modul 2 - Distribuerad djupinlärning: Introduktion till teorin och implementering av distribuerad djupinlärning. Klassificering och regression med generaliserade linjära modeller, inklusive olika tekniker för inlärning, regularisering, och anpassning av hyperparametrar. Introduktion av feedforward-nätverk som fundementalt nätverk och mer avancerade tekniker för att hantera dess huvudutmaningar, såsom overfitting (överanpassning), vanishing / exploding (försvinnande / exploderande) gradient, och träningshastighet. Djupa nätverk för olika typer av data diskuteras, t ex CNN för att skala upp neurala nätverk för hantering av stora bilder, RNN för att skala upp djupa nätverk för hantering av långa tidsserier, samt auto-encoders och GANs.
Modul 3 - Beslutsfattande med skalerbara algoritmer: Teoretiska grunder för fördelade system och analys av deras skalbara algoritmer för sortering, sammanföring, strömmande, skissande (sketching), optimering och beräkning i numerisk linjär algebra med tillämpningar i skalerbara maskininlärningsflöden (pipelines) för typiska beslutsproblem ( t ex prediktion, A/B test, avvikelsedetektion) med olika typer av data ( t ex tidsannoterad, rum-tids-annoterad, och nätverks-annoterad). Integritets-medvetna beslut med sanerade (renodlade, korrigerade (imputed), anonymiserade) datamängder och dataströmmar. Praktiska tillämpningar av dessa algoritmer på äkta exempel (t ex mobilitet, sociala media, maskinsensorer och logg-filer). Illustration genom industriella användningsfall.
The course is given in three modules. In addition to lectures by the organizers there will be invited guest speakers from industry.
Module 1 – Introduction to Data Science: Introduction to fault-tolerant distributed file systems and computing.
The whole data science process illustrated with industrial case-studies. Practical introduction to scalable data processing to ingest, extract, load, transform, and explore (un)structured datasets. Scalable machine learning pipelines to model, train/fit, validate, select, tune, test and predict or estimate in an unsupervised and a supervised setting using nonparametric and partitioning methods such as random forests. Introduction to distributed vertex-programming.
Module 2 – Distributed Deep Learning: Introduction to the theory and implementation of distributed deep learning.
Classification and regression using generalised linear models, including different learning, regularization, and hyperparameters tuning techniques. The feedforward deep network as a fundamental network, and the advanced techniques to overcome its main challenges, such as overfitting, vanishing/exploding gradient, and training speed. Various deep neural networks for various kinds of data. For example, the CNN for scaling up neural networks to process large images, RNN to scale up deep neural models to long temporal sequences, and autoencoder and GANs.
Module 3 – Decision-making with Scalable Algorithms
Theoretical foundations of distributed systems and analysis of their scalable algorithms for sorting, joining, streaming, sketching, optimising and computing in numerical linear algebra with applications in scalable machine learning pipelines for typical decision problems (eg. prediction, A/B testing, anomaly detection) with various types of data (eg. time-indexed, space-time-indexed and network-indexed). Privacy-aware decisions with sanitized (cleaned, imputed, anonymised) datasets and datastreams. Practical applications of these algorithms on real-world examples (eg. mobility, social media, machine sensors and logs). Illustration via industrial use-cases. The first course module, we aim to ensure that all students understand the basic concepts and tools in deep learning.