Kursplan för

Skalbar data science och distribuerad maskininlärning
Scalable Data Science and Distributed Machine Learning

EDA080F, 6 högskolepoäng

Gäller från och med: Höstterminen 2020
Beslutad av: Professor Thomas Johansson
Datum för fastställande: 2022-01-19

Allmänna uppgifter

Avdelning: Datavetenskap (LTH)
Kurstyp: Ren forskarutbildningskurs
Undervisningsspråk: Engelska

Syfte

Deltagaren i kursen ska få insikter i: skalbar datahantering och uppdelningsmetoder, såsom random forests; att skala upp neurala nätverk såsom CNN, RNN och GANs; skalbara maskininlärningsflöden (pipelines), A/B tester och avvikelsedetektering.

Mål

Kunskap och förståelse

För godkänd kurs skall doktoranden Visa i inlämningsuppgifter att introducerade begrepp och teorier har förståtts och kan tillämpas på givna problem

Färdighet och förmåga

För godkänd kurs skall doktoranden Lösa reella eller realistiska problem i respektive uppgifter under användning av begrepp och underliggande teorier som diskuteras i kursen.

Värderingsförmåga och förhållningssätt

För godkänd kurs skall doktoranden Kunna bedöma vilken metod som ska användas i en given problemkontext. Kunna bedöma kvaliteten av ett resultat från användning av de introducerade metoder.

Kursinnehåll

Kursen ges i tre moduler. Utöver föreläsningar av kursansvariga kommer det finnas gästföreläsningar med inbjudna föreläsare från näringslivet. Modul 1 - Introduktion till Data Science: Introduktion till feltoleranta distribuerade filsystem och beräkning. Hela Data Science-processen illustreras med fallstudier från industrin. Praktiskt introduktion till skalbar datahantering för att hämta in, extrahera, ladda, transformera och explorera (o)strukturererade datamängder. Skalbara maskininlärningsflöden (pipelines) för att modellera, träna/anpassa, validera, välja, anpassa, testa och predikera eller uppskatta i ett övervakat eller oövervakat ramverk med icke-parametriska och uppdelningsmetoder såsom random forests. Introduktion till fördelad vertex-programmering. Modul 2 - Distribuerad djupinlärning: Introduktion till teorin och implementering av distribuerad djupinlärning. Klassificering och regression med generaliserade linjära modeller, inklusive olika tekniker för inlärning, regularisering, och anpassning av hyperparametrar. Introduktion av feedforward-nätverk som fundementalt nätverk och mer avancerade tekniker för att hantera dess huvudutmaningar, såsom overfitting (överanpassning), vanishing / exploding (försvinnande / exploderande) gradient, och träningshastighet. Djupa nätverk för olika typer av data diskuteras, t ex CNN för att skala upp neurala nätverk för hantering av stora bilder, RNN för att skala upp djupa nätverk för hantering av långa tidsserier, samt auto-encoders och GANs. Modul 3 - Beslutsfattande med skalerbara algoritmer: Teoretiska grunder för fördelade system och analys av deras skalbara algoritmer för sortering, sammanföring, strömmande, skissande (sketching), optimering och beräkning i numerisk linjär algebra med tillämpningar i skalerbara maskininlärningsflöden (pipelines) för typiska beslutsproblem ( t ex prediktion, A/B test, avvikelsedetektion) med olika typer av data ( t ex tidsannoterad, rum-tids-annoterad, och nätverks-annoterad). Integritets-medvetna beslut med sanerade (renodlade, korrigerade (imputed), anonymiserade) datamängder och dataströmmar. Praktiska tillämpningar av dessa algoritmer på äkta exempel (t ex mobilitet, sociala media, maskinsensorer och logg-filer). Illustration genom industriella användningsfall.

Kurslitteratur

Specifikt kursmaterial och litteratur delas ut och meddelas i samband med kursomgångerna.

Kursens undervisningsformer

Undervisningsform: Föreläsningar. Föreläsningar hålls modulvis i block.

Kursens examination

Examinationsform: Inlämningsuppgifter. Inlämningarna kan innehålla praktiska moment.
Betygsskala: Underkänd, godkänd
Examinator:

Antagningsuppgifter

Kurstillfällesinformation

Kontaktinformation och övrigt

Kursansvarig: Elin A. Topp <elin_a.topp@cs.lth.se>

Fullständig visning

Skalbar data science och distribuerad maskininlärning Scalable Data Science and Distributed Machine Learning