Sei in: Home > Storico dei corsi di insegnamento > Data Mining: Modellazione Statistica e Apprendimento Automatico dei Dati
 
 

Data Mining: Modellazione Statistica e Apprendimento Automatico dei Dati

 

Anno accademico 2012/2013

Codice dell'attività didattica
INT0833
Docente
Dott. Ciro Cattuto (Titolare del corso)
Corso di studi
Laurea Magistrale Interateneo in Fisica dei sistemi complessi
Anno
1° anno 2° anno
Periodo didattico
Terzo periodo didattico
Tipologia
C=Affine o integrativo
Crediti/Valenza
6
SSD dell'attività didattica
FIS/02 - fisica teorica, modelli e metodi matematici
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano
Modalità di frequenza
Obbligatoria
Tipologia d'esame
Orale
 
 

Obiettivi formativi

Il corso si pone l'obiettivo di fornire competenze di base per l'analisi e la modellazione statistica dei dati, con speciale attenzione alle tecniche di apprendimento automatico (machine learning) in contesti sia descrittivi che predittivi. Il corso ha un forte carattere interdisciplinare e copre argomenti tradizionalmente trattati in corsi di laurea di computer science e statistica. Un importante obiettivo del corso è la conoscenza operativa delle tecniche e degli algoritmi trattati. Le lezioni teoriche si alterneranno perciò ad esercitazioni al computer.

 

Programma

- The major paradigms of learning from data, the learning problem, the feasibility of learning

- The theory of generalization, the Vapnik-Chervonenkis generalization bound, model complexity penalization, the approximation-generalization tradeoff, bias and variance, the learning curve

- Measurement, Uncertainty, and Hypotheses: statistical inference, maximum likelihood estimation, Bayesian estimation, hypothesis testing

- The architecture of machine learning algorithms: model structure, scoring, and search

- Models and Patterns: parametric and non-parametric models, regression models

- Score functions and optimization techniques. Gradient descent and stochastic gradient descent.

- Linear Models: linear classification, linear regression, ordinary least squares, logistic regression, non-linear transformations

- Overfitting and Regularization: model complexity and overfitting, commonly used regularizers, weight decay and lasso.

- Validation and Cross-Validation: validation set, leave-one-out cross validation, K-fold cross-validation

- Descriptive Modeling: density models, mixture models, the Expectation-Maximization algorithm, cluster analysis, the K-means algorithm, hierarchical clustering

- Predictive Modeling for Regression: linear regression, generalized linear models

- Predictive Modeling for Classification: linear discriminants, tree models, nearest-neighbor methods, Naive Bayes, feature selection 

- Mining Patterns and Rules: association rule learning, frequent itemset mining

- Content-based retrieval: text representation and classification, term weighting, latent semantic indexing

 

Testi consigliati e bibliografia

- Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin, "Learning from Data"AMLBook 2012

- David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", MIT Press 2011

 

Note

Le esercitazioni del corso richiedono la capacità di scrivere ed eseguire semplici programmi in Python. La conoscenza del linguaggio di programmazione Python non è richiesta ma ci si aspetta che gli studenti si impegnino per acquisire una sufficiente competenza nell'uso di Python in parallelo alle lezioni del corso.

 
Ultimo aggiornamento: 02/07/2013 09:54
Campusnet Unito
Non cliccare qui!