Machine Learning in Stata: Una Introduzione Modulo I

INTRODUZIONE AL CORSO

Gli ultimi anni hanno visto una disponibilità senza precedenti di informazioni su fenomeni sociali, economici e relativi alla salute. Ricercatori, professionisti e responsabili delle politiche hanno oggi accesso a enormi database (i cosiddetti “Big Data”) su persone, aziende, istituzioni, dispositivi cellulari, web, satelliti, ecc., con sempre maggiore dettaglio.

Il “machine learning” (o “apprendimento automatico”) è un approccio relativamente nuovo all’analisi dei dati, che si colloca nell’intersezione tra statistica, informatica ed intelligenza artificiale. Il suo obiettivo principale è quello di trasformare le informazioni in conoscenza e valore, “lasciando che i dati parlino da soli”.

A tal fine, il machine learning limita le ipotesi preliminari sulla struttura dei dati e fa affidamento su una filosofia che supporta lo sviluppo di algoritmi, di procedure computazionali e d’ispezione grafica dei risultati più che su assunzioni analitiche e soluzioni algebriche.

Il corso offre una introduzione ad alcune popolari tecniche di machine learning utilizzando il software Stata. Stata possiede oggi vari pacchetti per eseguire il machine learning che sono tuttavia poco conosciuti da molti suoi utenti. il programma è stato sviluppato per colmare questa lacuna rendendo i partecipanti più familiari (e meglio informati) sul potenziale di Stata per trarre conoscenza e valore dai dati, possibilmente di grandi dimensioni e “rumorosi”. Più specificamente verranno trattati i seguenti temi e metodi: 1) le basi concettuali del machine learning, 2) i metodi di ricampionamento e di validazione di un modello, 3) le tecniche di feature-selection e specificazione del modello attraverso regressione regolarizzata, 4) la classificazione con analisi discriminante e con il metodo nearest-neighbor.

L’approccio all’insegnamento sarà principalmente basato sul linguaggio grafico e sull’intuizione più che sull’algebra. Le lezioni si avvarranno di esempi sia simulati che reali, e permetterà di bilanciare equamente sessioni teoriche e sessioni pratiche.

Dopo il corso, i partecipanti avranno una migliore comprensione del potenziale di Stata per eseguire il machine learning, diventando così in grado di padroneggiare compiti di ricerca che includono, tra gli altri: (i) rilevamento d’importanza dei fattori, (ii) estrazione segnale-rumore, (iii) corretta specificazione del modello, (iv) classificazione, sia da un punto di vista di data mining che di approccio causale.

DESTINATARI

Il corso è di interesse per ricercatori e analisti in economia, medicina, marketing e scienze sociali che desiderano acquisire gli strumenti fondamentali per implementare l’approccio di machine learning sui così detti Big Data.

REQUISITI NECESSARI

Buona conoscenza della statistica ed econometria di base ed in particolare del modello di regressione lineare, delle regressioni logit/probit e dell’inferenza classica. E’ consigliata la conoscenza del Software Stata.

PROGRAMMA

SESSIONE I: LE BASI DEL MACHINE LEARNING

Machine Learning: definizione, logica, utilità
Apprendimento supervisionato e non supervisionato
Problemi di regressione e di classificazione
Inferenza e previsione
Errore di campionamento ed errore di specificazione
La fondamentale non-identificabilità di E(y|x)
- Modelli parametrici e non parametrici
- Il trade-off tra accuratezza della previsione e interpretabilità del modello
Misure di bontà di adattamento
- Capacità predittiva “in-sample” e “out-sample”
- Il trade-off tra distorsione e variance
- La minimizzazione dell’errore quadratico medio
- Training-error vs. test-error
- I criteri di informazione
La relazione tra Machine Learning ed intelligenza artificiale
Super-learning e apprendimento dinamico

SESSIONE II: METODI DI RICAMPIONAMENTO E DI VALIDAZIONE

Stima del test-error
Metodi di validazione
- Approccio con “insieme di validazione”
- K-fold cross-validation
- Approccio “leave-one-out”
Metodo bootstrap
L’algoritmo di bootstrap
Bootstrap vs. cross-validation ai fini della valutazione
Implementazione in Stata

SESSIONE III: SELEZIONE DEL MODELLO ATTRAVERSO REGRESSIONE REGOLARIZZATA

Selezione del modello e corretta specificazione
Metodi di regressione “shrinkage”
- Regressione Lasso, Ridge ed elastica
- Criteri di informazione e cross-validation per il Lasso
- Lasso e inferenza causale
Implementazione in Stata

SESSIONE IV: ANALISI DISCRIMINANTE E CLASSIFICATORE NEAREST- NEIGHBOR

Classificatore con analisi discriminante e metodo nearest-neighbor
Classificatore ottimale Bayesiano e frontiera decisionale
Tasso di errore di classificazione
Analisi discriminante
Analisi discriminante lineare e quadratica
Il classificatore Naive-Bayes
Il classificatore k-nearest-neighbor
Implementazione in Stata

LETTURE CONSIGLIATE

Cameron, A. C. & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume I: Cross-Sectional and Panel Regression Methods. Second Edition. Stata Press Publication.
Cameron, A. C. & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume II: Nonlinear Models and Casual Inference Methods. Second Edition. Stata Press Publication.
Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. Springer.
Gareth, J., Witten, D., Hastie, T., Tibshirani, R. & Taylor, J. (2023). An Introduction to Statistical Learning. Springer.
Cerulli, G. (2020). A Super-Learning machine for predicting economic outcomes. MPRA Paper 99111, University Library of Munich, Germany.
Cerulli, G. (2023). Fundamentals of Supervised Machine Learning. Springer

DATA E LUOGO DI SVOLGIMENTO

Al momento non sono inserite date 2026 per questo corso. L’offerta formativa è comunque in continua evoluzione; suggeriamo pertanto di contattare la segreteria organizzativa formazione@tstat.it per segnalare il vostro interesse ed essere ricontattati non appena sarà inserita una data in calendario.

SCARICA IL CORSO IN FORMATO PDF

Epidemiologia e Biostatistica

Econometria

ECONOMETRIA FINANZIARIA

Corsi per l'utilizzo del software

CONVEGNO ITALIANO DEGLI UTENTI DI STATA

Analisi biostatistica, epidemiologica e ricerca medica

Software per ricerche operative

Analisi statistica generale

formazione multimediale

modelli gerarchici lineari e non lineari

Analisi di data mining

Trasferimento di archivi di dati

Analisi spaziale

Matematica e Ingegneria

word processing scientifico

Analisi statistica specialistica

Disegno di esperimenti e analisi della dimensione dei campioni

Analisi di serie temporali e la stima di modelli econometrici

analisi qualitativa

modelli di reti neurali

STATA PRESS

Altri testi relativi a Stata

INTRODUZIONE AL CORSO

DESTINATARI

REQUISITI NECESSARI

PROGRAMMA

DATA E LUOGO DI SVOLGIMENTO

CORSO ONLINE