- Oggetto:
- Oggetto:
Data Mining: Modellazione Statistica e Apprendimento Automatico dei Dati
- Oggetto:
Data Mining, Statistical Modeling and Machine Learning
- Oggetto:
Anno accademico 2013/2014
- Codice dell'attività didattica
- INT0833
- Docente
- Dott. Ciro Cattuto (Titolare del corso)
- Corso di studi
- Laurea Magistrale Interateneo in Fisica dei sistemi complessi
- Anno
- 1° anno 2° anno
- Periodo didattico
- Secondo periodo didattico
- Tipologia
- C=Affine o integrativo
- Crediti/Valenza
- 6
- SSD dell'attività didattica
- FIS/02 - fisica teorica, modelli e metodi matematici
- Modalità di erogazione
- Tradizionale
- Lingua di insegnamento
- Italiano
- Modalità di frequenza
- Obbligatoria
- Tipologia d'esame
- Orale
- Modalità d'esame
- Discussione alla lavagna ed esercitazioni interattive al computer.
- Prerequisiti
- Analisi matematica, algebra lineare, elementi di statistica e probabilità.
- Oggetto:
Sommario insegnamento
- Oggetto:
Obiettivi formativi
Il corso si pone l'obiettivo di fornire competenze di base per l'analisi e la modellazione statistica dei dati, con speciale attenzione alle tecniche di apprendimento automatico (machine learning) in contesti sia descrittivi che predittivi. Il corso ha un forte carattere interdisciplinare e copre argomenti tradizionalmente trattati in corsi di laurea di computer science e statistica. Un importante obiettivo del corso è la conoscenza operativa delle tecniche e degli algoritmi trattati. Le lezioni teoriche si alterneranno perciò ad esercitazioni al computer.
- Oggetto:
Risultati dell'apprendimento attesi
- compresione teorica dei fondamenti dell'apprendimento automatico (machine learning) dai dati
- capacità di usare alcune librerie Python per il machine learning nel contesto di semplici applicazioni
- Oggetto:
Programma
- The major paradigms of learning from data, the learning problem, the feasibility of learning
- The architecture of machine learning algorithms: model structure, scoring, and search
- The theory of generalization, the Vapnik-Chervonenkis generalization bound, model complexity penalization, the approximation-generalization tradeoff, bias and variance, the learning curve
- Models and Patterns: parametric and non-parametric models, regression models
- Score functions and optimization techniques. Gradient descent and stochastic gradient descent.
- Linear Models: linear classification, linear regression, ordinary least squares, logistic regression, non-linear transformations
- Overfitting and Regularization: model complexity and overfitting, commonly used regularizers, weight decay and lasso.
- Validation and Cross-Validation: validation set, leave-one-out cross validation, K-fold cross-validation
- Descriptive Modeling: density models, mixture models, the Expectation-Maximization algorithm, cluster analysis, the K-means algorithm, hierarchical clustering
- Predictive Modeling for Classification: linear discriminants, tree models, nearest-neighbor methods, Naive Bayes, feature selection
- Predictive Modeling for Regression: linear regression, generalized linear models
- Singular Value Decomposition, Matrix Factorization, and applications
- Content-based retrieval: text representation and classification, term weighting, latent semantic indexing
Testi consigliati e bibliografia
- Oggetto:
- Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin, "Learning from Data", AMLBook 2012
- David J. Hand, Heikki Mannila, Padhraic Smyth, "Principles of Data Mining", MIT Press 2011
- Oggetto:
Note
Le esercitazioni del corso richiedono la capacità di scrivere ed eseguire semplici programmi in Python. La conoscenza del linguaggio di programmazione Python non è richiesta ma ci si aspetta che gli studenti si impegnino per acquisire una sufficiente competenza nell'uso di Python in parallelo alle lezioni del corso.
- Oggetto: