lu.se

Forskar­utbildnings­kurser

Lunds tekniska högskola | Lunds universitet

Detaljer för kurs EDA080F Skalbar data science och distribuerad maskininlärning

Utskriftsvänlig visning

Allmänt
  • EDA080F
  • Aktiv
Kursnamn
  • Skalbar data science och distribuerad maskininlärning
  • Scalable Data Science and Distributed Machine Learning
Kursomfattning
  • 6
Undervisningsform
  • Ren forskarutbildningskurs
Administrativ information
  • 7121 (Datavetenskap (LTH))
  • 2022-01-19
  • Professor Thomas Johansson

Aktuell fastställd kursplan

Allmänt
Syfte
  • Deltagaren i kursen ska få insikter i: skalbar datahantering och uppdelningsmetoder, såsom random forests; att skala upp neurala nätverk såsom CNN, RNN och GANs; skalbara maskininlärningsflöden (pipelines), A/B tester och avvikelsedetektering.
  • The student should become familiar with: scalable data processes and partitioning methods such as random forrest; scaling up neural networks such as CNN, RNN and GANs; and scalable machine learning pipelines for typical decision problems, such as prediction, A/B testing and anomaly detection.
Innehåll
  • Kursen ges i tre moduler. Utöver föreläsningar av kursansvariga kommer det finnas gästföreläsningar med inbjudna föreläsare från näringslivet.
    Modul 1 - Introduktion till Data Science: Introduktion till feltoleranta distribuerade filsystem och beräkning. Hela Data Science-processen illustreras med fallstudier från industrin. Praktiskt introduktion till skalbar datahantering för att hämta in, extrahera, ladda, transformera och explorera (o)strukturererade datamängder. Skalbara maskininlärningsflöden (pipelines) för att modellera, träna/anpassa, validera, välja, anpassa, testa och predikera eller uppskatta i ett övervakat eller oövervakat ramverk med icke-parametriska och uppdelningsmetoder såsom random forests. Introduktion till fördelad vertex-programmering.
    Modul 2 - Distribuerad djupinlärning: Introduktion till teorin och implementering av distribuerad djupinlärning. Klassificering och regression med generaliserade linjära modeller, inklusive olika tekniker för inlärning, regularisering, och anpassning av hyperparametrar. Introduktion av feedforward-nätverk som fundementalt nätverk och mer avancerade tekniker för att hantera dess huvudutmaningar, såsom overfitting (överanpassning), vanishing / exploding (försvinnande / exploderande) gradient, och träningshastighet. Djupa nätverk för olika typer av data diskuteras, t ex CNN för att skala upp neurala nätverk för hantering av stora bilder, RNN för att skala upp djupa nätverk för hantering av långa tidsserier, samt auto-encoders och GANs.
    Modul 3 - Beslutsfattande med skalerbara algoritmer: Teoretiska grunder för fördelade system och analys av deras skalbara algoritmer för sortering, sammanföring, strömmande, skissande (sketching), optimering och beräkning i numerisk linjär algebra med tillämpningar i skalerbara maskininlärningsflöden (pipelines) för typiska beslutsproblem ( t ex prediktion, A/B test, avvikelsedetektion) med olika typer av data ( t ex tidsannoterad, rum-tids-annoterad, och nätverks-annoterad). Integritets-medvetna beslut med sanerade (renodlade, korrigerade (imputed), anonymiserade) datamängder och dataströmmar. Praktiska tillämpningar av dessa algoritmer på äkta exempel (t ex mobilitet, sociala media, maskinsensorer och logg-filer). Illustration genom industriella användningsfall.
  • The course is given in three modules. In addition to lectures by the organizers there will be invited guest speakers from industry.
    Module 1 – Introduction to Data Science: Introduction to fault-tolerant distributed file systems and computing.
    The whole data science process illustrated with industrial case-studies. Practical introduction to scalable data processing to ingest, extract, load, transform, and explore (un)structured datasets. Scalable machine learning pipelines to model, train/fit, validate, select, tune, test and predict or estimate in an unsupervised and a supervised setting using nonparametric and partitioning methods such as random forests. Introduction to distributed vertex-programming.
    Module 2 – Distributed Deep Learning: Introduction to the theory and implementation of distributed deep learning.
    Classification and regression using generalised linear models, including different learning, regularization, and hyperparameters tuning techniques. The feedforward deep network as a fundamental network, and the advanced techniques to overcome its main challenges, such as overfitting, vanishing/exploding gradient, and training speed. Various deep neural networks for various kinds of data. For example, the CNN for scaling up neural networks to process large images, RNN to scale up deep neural models to long temporal sequences, and autoencoder and GANs.
    Module 3 – Decision-making with Scalable Algorithms
    Theoretical foundations of distributed systems and analysis of their scalable algorithms for sorting, joining, streaming, sketching, optimising and computing in numerical linear algebra with applications in scalable machine learning pipelines for typical decision problems (eg. prediction, A/B testing, anomaly detection) with various types of data (eg. time-indexed, space-time-indexed and network-indexed). Privacy-aware decisions with sanitized (cleaned, imputed, anonymised) datasets and datastreams. Practical applications of these algorithms on real-world examples (eg. mobility, social media, machine sensors and logs). Illustration via industrial use-cases. The first course module, we aim to ensure that all students understand the basic concepts and tools in deep learning.
Kunskap och förståelse
  • För godkänd kurs skall doktoranden
  • Visa i inlämningsuppgifter att introducerade begrepp och teorier har förståtts och kan tillämpas på givna problem
  • Show in assignments that the introduced concepts (see course content) have been understood and can be applied to a given problem.
Färdighet och förmåga
  • För godkänd kurs skall doktoranden
  • Lösa reella eller realistiska problem i respektive uppgifter under användning av begrepp och underliggande teorier som diskuteras i kursen.
  • Solve given, real-world or realistic problems in respective assignments using the concepts and theories introduced in the course.
Värderingsförmåga och förhållningssätt
  • För godkänd kurs skall doktoranden
  • Kunna bedöma vilken metod som ska användas i en given problemkontext. Kunna bedöma kvaliteten av ett resultat från användning av de introducerade metoder.
  • Be able to determine which method to apply in a given problem context. Be able to determine the quality of a result from applying the taught methods.
Undervisningsformer
  • Föreläsningar
  • Föreläsningar hålls modulvis i block.
  • Lectures are given module wise in block sessions.
Examinationsformer
  • Inlämningsuppgifter
  • Inlämningarna kan innehålla praktiska moment.
  • Hand-ins (assignments) can include practical parts.
  • Underkänd, godkänd
Förkunskapskrav
Förutsatta förkunskaper
Urvalskriterier
Litteratur
  •  
  • Specifikt kursmaterial och litteratur delas ut och meddelas i samband med kursomgångerna.
  • Specific material and literatur is announced and distributed in connection to the course instances.
Övrig information
Kurskod
  • EDA080F
Administrativ information
  • 2022-01-19
  • Professor Thomas Johansson

Alla fastställda kursplaner

1 kursplan.

Gäller från och med Första inlämning Andra inlämning Fastställd
HT 2020 2021‑07‑06 14:13:36 2022‑01‑18 10:48:15 2022‑01‑19

Aktuellt eller kommande publicerat kurstillfälle

Inget matchande kurstillfälle hittades.

Alla publicerade kurstillfällen

1 kurstillfälle.

Kursplan giltig från Startdatum Slutdatum Publicerad
Höstterminen 2020 2020‑09‑01 (ungefärligt) 2020‑12‑31 2022‑02‑01

Utskriftsvänlig visning