Kopfbild TUM Mathematik-Fakultät






Kursankündigung zum SS 2011:

Reading and Discussion Course
on
Statistical Learning and Data Mining




Allgemeines


Dozent:
  
Prof. Dr. Fabian Theis
Zimmer 02.08.039
Tel.: +49 (0)89 289-17961
Email: theis@ma.tum.de
Betreuer:

Dr. Christiane Dargatz
Zimmer 02.08.039
Tel.: +49 (0)89 289-17961
Email: christiane.dargatz@helmholtz-muenchen.de
Beginn:

03.05.2011
Zeiten:

mittwochs 14:00-15:30 Uhr, Ausnahmen siehe unten!
Ort:

Raumänderung: Helmholtz Zentrum München, Gebäude 56, kleiner Seminarraum
Verwendbarkeit:

Masterstudiengänge Mathematics, Mathematical Finance and Actuarial Science, Mathematics in Operations Research
ECTS-Credits:

3
Wochenstunden:

2V + 0Ü
Sprache:

Deutsch/Englisch
Vorkenntnisse:

Statistik: Grundlagen (MA2402), Stochastik I (MA1401) mit Statistikpraktikum, Softwarekenntnisse in MATLAB und R
Ziele:

Die TeilnehmerInnen sollen sich durch angeleitetes Selbststudium mit einer wissenschaftlichen Arbeitsweise vertraut machen. Die Themen beziehen sich dabei auf aktuelle Methoden zur statistischen Datenanalyse sowie zur statistischen Inferenz. Durch Programmier- und Simulationsaufgaben wird ein starker Praxisbezug sichergestellt. Neben der fachlichen Thematik liegt das Ziel des Kurses vor allem in der Stärkung der Diskussionsfähigkeit.




Ablauf:


Die Studierenden bearbeiten jede Woche eigenständig die angegebene Literatur und implementieren die entsprechenden Algorithmen, um das Verständnis des Stoffes zu vertiefen. Dabei handelt es sich inhaltlich stets um einfache statistische Fragestellungen, was zu einer gemeinsamen Diskussion des Themas führen wird. Der Stoff wird zu Anfang jedes Termins von einer/m der Studierenden in einem 30- bis 45-minütigen Vortrag zusammengefasst. Als Diskussionsgrundlage sollen sich die Studierenden eigenständig zu den wöchentlichen Themen ein bis zwei Diskussionspunkte überlegen. Eine aktive Teilnahme der Studierenden wird erwartet. Nach dem Vortrag wird über das Gelesene anhand von Beispielen diskutiert und das Thema aufgearbeitet. Zur Implementation der Algorithmen werden MATLAB/Octave bzw. die statistische Software R zur Anwendung kommen.



Overview:


With the availability of increased computational power, researchers from all kinds of fields such as finance, marketing, biology and medicine are generating huge masses of data. Handling and analyzing this data has become a major challenge to statisticians. In this seminar, we will introduce statistical methods for unsupervised as well as supervised learning. We will discuss methods like principal and independent component analysis, cluster analysis (k-means, Gaussian mixtures, hierarchical clustering), linear methods for classification, kernel methods, neural networks, support vector machines, Bayesian networks and many more. Statistical estimation techniques such as maximum likelihood estimation, kernel density estimation, the expectation maximization algorithm and bootstrapping will be introduced. As the research focus of our group lies on the modelling of biological systems, the method will be illustrated on applications from biology or medical biology where appropriate.


Topic 1:
  
Overview of Supervised Learning
References: [1] Ch. 1, 2
Introduction: Fabian Theis
Date: 03.05.2011 (Di), 10:15-11:45 Uhr
Vortrag: pdf
Topic 2:
  
Linear Methods for Regression
References: [1] Ch. 3
Introduction: Christiane Dargatz
Date: 16.05.2011 (Mo), 14:00-15:30 Uhr
Vortrag: pdf (as of 16.05.11, 16:45h)
Topic 3:
  
Linear Methods for Classification
References: [1] Ch. 4
Introduction: Ferdinand Stückler
Date: 25.05.2011
Vortrag: pdf
Topic 4:
  
Basis Expansions and Regularization
References: [1] Ch. 5
Introduction: Ivan Kondofersky
Date: 30.05.2011 (Mo), 10:00-11:30 Uhr
Vortrag: pdf
Topic 5:
  
Kernel Smoothing Methods
References: [1] Ch. 6
Introduction: Katrin Illner
Date: 08.06.2011
Vortrag: pdf
Topic 6:
  
Model Assessment and Selection
References: [1] Ch. 7
Introduction: Sabrina Hock
Date: 15.06.2011
Vortrag: pdf
Topic 7:
  
Model Inference and Averaging
References: [1] Ch. 8
Introduction: Sabine Hug
Date: 22.06.2011
Vortrag: pdf
Topic 8:
  
Neural Networks
References: [1] Ch. 11
Introduction: Dennis Rickert
Date: 29.06.2011
Vortrag: pptx, pdf
Topic 9:
  
Support Vector Machines cancelled!
References: [1] Ch. 12
Introduction: Michael Schwarzfischer
Date: 13.07.2011 (changed order of Topics 9 and 10)
Topic 10:
  
Prototype Methods, Nearest-Neighbors and Introduction to Unsupervised Learning
References: [1] Ch. 13, 14.1, 14.3
Introduction: Steffen Sass
Date: 04.07.2011 (Mo), 14:00-15:30 Uhr (changed order of Topics 9 and 10)
Vortrag: pdf (as of 04.07.11, 16:00h)
Topic 11:
  
Principal and Independent Component Analysis cancelled!
References: [1] Ch. 14.5, 14.6 and [2] Ch. 6.1, 6.3, 6.5, 7.1-7.3
Introduction: Fabian Theis
Date: 27.07.2011
Vortrag: pdf




Template für Latex-Vorträge:





Software Links:





Literatur:



[1]

T. Hastie, R. Tibshirani and J. H. Friedman (2009): The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd edition). Springer, New York.

[2]

A. Hyvärinen, J. Karhunen and E. Oja (2001): Independent Component Analysis. John Wiley & Sons, Inc., New York.




Zurück zu Veranstaltungen