CODICE CORSO: I-EF34 LINGUA:

Machine Learning in Stata: Un’Introduzione

Gli ultimi anni hanno visto una disponibilità senza precedenti di informazioni su fenomeni sociali, economici e relativi alla salute. Ricercatori, professionisti e responsabili delle politiche hanno oggi accesso a enormi database (i cosiddetti Big Data) su persone, aziende e istituzioni, dispositivi cellulari, web, satelliti, ecc., con sempre maggiore dettaglio.

 

Il machine learning (o “apprendimento automatico”) è un approccio relativamente nuovo all’analisi dei dati, che si colloca nell’intersezione tra statistica, informatica e intelligenza artificiale. Il suo obiettivo principale è quello di trasformare le informazioni in conoscenza e valore, “lasciando che i dati parlino da soli”.

 

A tal fine, il machine learning limita le ipotesi preliminari sulla struttura dei dati e fa affidamento su una filosofia che supporta lo sviluppo di algoritmi, di procedure computazionali e d’ispezione grafica dei risultati più che su assunzioni analitiche e soluzioni algebriche. Computazionalmente irrealizzabile fino a pochi anni fa, il machine learning è un prodotto dell’era del computer, della potenza di calcolo e della capacità di apprendimento delle macchine odierne, dello sviluppo dell’hardware e del continuo sviluppo del software.

 

Questo corso è una introduzione alle tecniche di machine learning che utilizzano Stata. Stata possiede oggi vari pacchetti per eseguire il machine learning che sono tuttavia poco conosciuti da molti suoi utenti. Questo corso colma questa lacuna rendendo i partecipanti più familiari (e meglio informati) del potenziale di Stata per trarre conoscenza e valore dai dati, possibilmente di grandi dimensioni e “rumorosi”.
L’approccio all’insegnamento sarà principalmente basato sul linguaggio grafico e sull’intuizione più che sull’algebra. Le lezioni si avvarranno di esempi sia simulati che reali, e permetterà di bilanciare equamente sessioni teoriche e sessioni pratiche.

 

Dopo il corso, i partecipanti avranno una migliore comprensione del potenziale di Stata per eseguire il machine learning, diventando così in grado di padroneggiare compiti di ricerca che includono, tra gli altri: (i) rilevamento d’importanza dei fattori, (ii) estrazione segnale-rumore, (iii) corretta specificazione del modello, (iv) classificazione senza modello, sia da un punto di vista di data mining che di approaccio causale.

 

In linea con la nostra filosofia di formazione, le sessioni teoriche sono affiancate da illustrazioni pratiche ed esempi provenienti da diverse discipline sia sociali che biomediche, in cui il docente chiarisce le limitazioni e i punti di forza di ogni metodologia, nonché i criteri per la scelta e l’implementazione dello strumento di analisi statistica più appropriato per il problema oggetto di studio.

Il corso è di interesse per ricercatori e analisti in economia, medicina, marketing e scienze sociali che desiderano acquisire gli strumenti fondamentali per implementare l’approccio di machine learning sui così detti Big Data.

Conoscenza di base di econometria/statistica e del Software Stata.

Giorno 1

 

SESSIONE I: LE BASI DEL MACHINE LEARNING

 

Machine Learning: definizione, razionale, utilità

Apprendimento supervisionato vs. non supervisionato
Problemi di Regressione e problemi di classificazione
Inferenza e previsione
Errore di campionamento ed errore di specificazione

La fondamentale non-identificabilità di E(y|x)

Modelli parametrici e non parametrici
Il trade-off tra accuratezza della previsione e interpretabilità del modello

Misure di bontà di adattamento

Capacità predittiva “in-sample” e “out-sample
Il trade-off tra distorsione e variance
La minimizzazione dell’errore quadratico medio
Training-error vs. test-error
I criteri di informazione
La relazione tra Machine Learning ed intelligenza artificiale
Super-learning e apprendimento dinamico

 

SESSIONE II:  METODI DI RICAMPIONAMENTO E  DI VALIDAZIONE

 

Stima del test-error
Metodi di validazione

Approccio con “insieme di validazione”
K-fold cross-validation
Approccio “leave-one-out”

Metodo bootstrap
L’algoritmo di bootstrap
Bootstrap vs. cross-validation ai fini della valutazione
Implementazione in Stata

 

SESSIONE III: SELEZIONE DEL MODELLO E SUA REGOLARIZZAZIONE

 

Selezione del modello e corretta specificazione
L’approccio con criteri di informazione

Best subset selection
Backward stepwise selection
Forward stepwise Selection

Metodi di regressione “shrinkage”

Regressione Lasso, Ridge ed elastica
Il Lasso adattivo
Criteri di informazione e cross-validation per il Lasso

Implemetazione in Stata

 

Giorno 2

 

SESSIONE IV: ANALISI DISCRIMINANTE E CLASSIFICATORE NEAREST-NEIGHBOR

 

Classificatore ottimale Bayesiano e frontiera decisionale
Tasso di errore di classificazione
Analisi discriminante
Analisi discriminante lineare e quadratica
Il classificatore Naive-Bayes
Il classificatore k-nearest-neighbor
Implementazione in Stata

 

SESSIONE V: REGRESSIONE NON-PARAMETRICA

 

Oltre i modelli parametrici: una panoramica
Approcci locali, semi-globali e globali
Metodi locali

Regressione kernel
Regressione nearest-neighbor

Metodi semi-globali

Funzione a gradini costante
Piecewise polynomials
Regressione spline

Metodi globali

Stimatori polinomiali e seriali
Modelli parzialmente lineari
Modelli additivi generalizzati

Implementazione in Stata

 

Giorno 3

 

SESSIONE VI: ALBERI DECISIONALI E METODI DI REGRESSIONE “ENSEMBLE”

 

Alberi di regressione e di classificazione
Costruire un albero decisionale tramite la “divisione binaria ricorsiva”
Potatura ottimale di un albero tramite cross-validation
Metodi di stima “ensemble” basati su alberi decisionali

Bagging, Random Forests e Boosting

Implementazione in Stata

 

SESSIONE VII: RETI NEURALI

 

Il modello a “rete neurale”: una introduzione
Neuroni, strati nascosti e multi-outcome
Stima di reti neurali

Back-propagation tramite l’algoritmo “gradient descent”
Adattamento con dati high-dimensional

Validazione dei parametri di una rete neurale
Implementazione in Stata

 

TESTI UTILI

Econometric Analysis of Cross Section and Panel Data, Wooldridge, MIT Press (2010)
Microeconometrics Using Stata, Cameron e Trivedi, Revised Edition, StataPress (2010)
The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Hastie, T., Tibshirani, R., Friedman, J., Springer (2009)
An Introduction to Statistical Learning, Gareth, J., Witten, D., Hastie, T., Tibshirani, R., Springer (2013)

 

Contattaci per le date 2020

La partecipazione al workshop è soggetta al pagamento della seguente quota di iscrizione:

 

Studente*: € 790.00
Assegnista / Specializzando: € 1050.00
Università: € 1310.00
Commerciale: € 1645.00

 

*Per usufruire dello status “studente” è necessario presentare copia del libretto universitario o un certificato di iscrizione (in carta semplice) all’Università ed essere studenti a tempo pieno. Studenti lavoratori dovranno considerare la tariffa Assegnisti /Specializzandi.

 

I prezzi si intendono IVA 22% esclusa. L’aliquota IVA non sarà applicata per Enti Pubblici soggetti ad esenzione a norma dell’art. 14 c. 10 della L. 537/93 per la partecipazione a corsi di formazione dei propri dipendenti.

 

La quota di iscrizione include il pranzo, il materiale didattico e una licenza temporanea del software Stata (si consiglia di venire muniti del proprio computer o di chiedere informazioni alla segreteria per l’eventuale noleggio, al momento dell’iscrizione). Dà inoltre diritto ad uno sconto sull’acquisto di una nuova licenza per singolo utente del Software Stata (ad esclusione della versione per Studenti) e sull’acquisto di testi in catalogo Stata Press.

 

Lo svolgimento è condizionato dal raggiungimento di un numero minimo di 8 partecipanti ed un numero massimo di 15.

 

 


L’iscrizione al corso dovrà avvenire tramite lo specifico modulo di registrazione e pervenire a TStat S.r.l. almeno 15 giorni prima dell’inizio del corso stesso. E’ possibile richiedere il modulo di registrazione compilando il seguente form oppure inviando una mail a formazione@tstat.it


NOME*


EMAIL*


OGGETTO


IL TUO MESSAGGIO


Termini e condizioni*
Ho preso visione della Privacy
Accetto il trattamento dei dati




Il workshop intende fornire ai partecipanti la strumentazione teorica e applicata necessaria per poter migliorare la comprensione del potenziale di Stata per eseguire il machine learning, diventando così in grado di padroneggiare compiti di ricerca.