Inhalt:
Kann man mit Twitter Daten den Ausgang der Bundestagswahl vorhersagen? Wie deckt man in sozialen Netzwerken oder anhand von Verbindungsdaten Gruppen von Individuen auf, die zusammen gehören? Wie erzeugt man Profile von Internetnutzern, um deren Verhalten vorherzusagen oder Werbemaßnahmen zielgerecht zu platzieren? Wie betreibt man Meinungsforschung im Internet, also z.B. ob ein bestimmter Text einem Produkt positiv oder negativ gegenübersteht? Mit solchen Fragen, die von großem ökonomischen und politischen Interesse sind und gegenwärtig stark beforscht werden, wird sich das WPF Data Mining beschäftigen. Ausgangspunkt für die behandelten Verfahren ist die Lineare Algebra. Der Kurs gliedert sich in drei Teile:
Im ersten Teil (Vorlesung) werden zunächst Regressionsmodelle, dann einfache neuronale Netze (Perceptron) und Verfahren des Deep Learnings behandelt.
Im zweiten Teil (Vorlesung) kommen weitere überwachte und nicht überwachte Lernverfahren hinzu, insbesondere
- Entscheidungsbäume
- K-NN
- Naïve Bayes
- Support Vector Machines
- Clustering
- Assoziationsanalyse
Die Teilnehmerinnen und Teilnehmer sollen im dritten Teil des Kurses eine praxisrelevante Data Mining Aufgabe selbstständig bearbeiten, z.B. im Rahmen eines Data Mining Wettbewerbs (Data Mining Cup) oder durch die Analyse aktueller Daten eines Industriepartners.
Als Tools zur praktischen Umsetzung werden wir Python und R nutzen. Zu Beginn wird es einen Python-Einführungskurs geben.
Literatur
- Jan, H., Kamber, M., Peo, J.: Data Mining: Concepts and Techniques: Concepts and Techniques, Morgan-Kaufman, 2011.
- Pang-Ning Tan, Michael Steinbach und Vipin Kumar: Introduction to Data Mining, Pearson, 2013.
- Witten I.H., Eibe, F., Data Mining, Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2011.
- James, G., Witten, D., Hastie, T., and Tibshirani, R. An Introduction to Statistical Learning with Applications in R, 4th ed. Springer, 2014.