APPRENDIMENTO STATISTICO E MACHINE LEARNING
2° Anno - Primo Semestre
Frequenza Non obbligatoria
- 9 CFU
- 60 ore
- ITALIANO
- Sede di Trieste
- Obbligatoria
- Convenzionale
- Orale
- SSD SECS-S/01
- Conoscenza e capacità di comprensione: gli studenti dovranno mostrare di avere compreso le idee essenziali che motivano il ricorso a tecniche di apprendimento supervisionato e gli aspetti critici che ne delimitano l'impiego.
- Conoscenza e capacità di comprensione applicate: lo studente dovrà mostrare di sapere impiegare, anche utilizzando strumenti software adeguati, le tecniche apprese per l'analisi di dati reali.
- Autonomia di giudizio: lo studente deve mostrare di sapere scegliere quale sia la strategia di analisi più adeguata anche nel contesto dell'analisi di dati reali.
- Abilità comunicative: lo studente sarà in grado di comunicare efficacemente i risultati delle analisi dei dati utilizzando opportuni strumenti (incluse le moderne tecniche di compilazione di documenti dinamici).
- Capacità di apprendere: lo studente al termine del corso sarà in grado di consultare lavori scientifici teorici e applicativi che utilizzano tecniche di apprendimento automatico supervisionato
Conoscenze di base di statistica (equivalente a due insegnamenti in una laurea triennale). Capacità di programmare e utilizzare il software R
Il corso si propone di fornire le idee, i concetti essenziali e le tecniche di apprendimento statistico e automatico in particolare per problemi di apprendimento supervisionato.
1. Introduzione
2. Che cos'è l'apprendimento statistico (o machine learning)?
a. Apprendimento supervisionato e non supervisionato: alcuni esempi e ambiti di applicazione
b. Regressione e classificazione: le diverse tipologie di variabili target
c. Valutazione dell'accuratezza del modello: funzioni di perdita, errore quadratico medio, la matrice di confusione e le misure da essa derivate
d. Il compromesso tra previsione, accuratezza e interpretazione
e. Il compromesso tra bias e varianza e il rischio di sovraadattamento (overfitting)
f. Utilizzo e riutilizzo dei dati e come evitare l'overfitting: test e training set, cross validation, bootstrap
3. Problemi di regressione
a. Richiami sul modello lineare e sulle tecniche per la sua selezione
b. Regressione ridge e il LASSO e altre tecniche di regolarizzazione
c. Oltre la linearità: Regressione polinomiale
e. Spline di regressione e di lisciamento
f. Modelli generalizzati additivi (GAM)
g. Metodi di partizione ricorsiva: gli alberi di regressione, costruzione e interpretazione
4. Problemi di classificazione (in particolare binaria)
a. metodo dei K vicini più vicini (KNN)
b. Analisi discriminante lineare e quadratica, naive Bayes
c. Regressione logistica e sue varianti (includendo i GAM)
d. Alberi di classificazione: le misure di impurità
e. Support vector machines e sue varianti
5. Metodi d'insieme: Bagging, Foreste casuali, Boosting (incluse varianti)
6. Deep learning e reti neurali (cenni)
7. Argomenti pratici e applicazione di apprendimento supervisionato
a. Pre-trattamento dei dati e delle variabili
b. Sbilanciamento dei dati nei problemi di classificazione
c. Alcune applicazioni per problemi nell'ambito della CRM e nell'ambito bancario e assicurativo.
- James G., Witten D. , Hastie T, Tibshirani R - An Introduction to Statistical Learning, Second Edition. Springer 2021. (testo iprincipale) Può essere scaricato liberamente da https://www.statlearning.com/ Hastie T, Tibshirani R, Friedman J - The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition, Springer, 2009. (per consultazione) Può essere scaricato liberamente da https://hastie.su.domains/ElemStatLearn/printings/ESLII_print12.pdf Appunti dalle lezioni e materiali forniti dai docenti sulla piattaforma moodle2/units
Lezioni frontali in aula.
Attività di laboratorio e esercitazioni guidate in aula.
Lavori di gruppo su analisi di casi di studio con discussione comune.
Il corso si avvarrà di strumenti didattici disponibili nelle piattaforme moodle2, MS/Teams e wooclap. Inoltre è previsto che tutti gli studenti usino il software R pertanto è necessario che posseggano o possano accedere a un computer.
La valutazione avviene in diversi momenti e con più modalità:
- Per gli studenti frequentanti
1. durante il corso verranno assegnati compiti a casa da consegnare entro termini stabiliti;
2. durante il corso verranno svolte delle prove di esame intermedie;
3. lo studente dovrà infine presentare un rapporto in cui espone il risultato di un progetto assegnato al termine del corso.
La valutazione finale avverrà facendo la media dei voti conseguite nelle 3 parti (con pesi rispettivamente pari a 0.2, 0.4, 0.4).
Il complesso delle prove è tale da poter giudicare il raggiungimento degli obiettivi formativi come sopra enunciati.
- Studenti non frequentanti: si svolge un esame orale nel quale verrà chiesto anche di svolgere alcune analisi usando il software R.
Questo insegnamento approfondisce argomenti connessi a uno o più obiettivi dell’Agenda 2030 per lo Sviluppo Sostenibile delle Nazioni Unite.