Ricevere dati dall'ISTAT (e da EUROSTAT): un'esperienza personale

/ Articolo / Ricevere dati dall'ISTAT (e da EUROSTAT): un'esperienza personale
  • Condividi

La ricerca accademica è il bene pubblico per eccellenza: i risultati sono utilizzabili da chiunque per fare altra ricerca e creare benessere. La ricerca economica ha bisogno di dati, che spesso vengono raccolti da enti pubblici, come l'ISTAT, con i soldi dei contribuenti. Questi dati dovrebbero essere resi ampiamente disponibili, gratis, online. Purtoppo, così non è né in Italia né in Europa. Vi racconterò la mia avventura: 35 giorni e 72 euro per ricevere un file di microdati il cui equivalente statunitense è disponibile gratis, online, a chiunque in tutto il mondo senza condizioni.

Tutto è nato dal tentativo mio e di Sandro di qualche settimana fa di calcolare le rendite da pubblico impiego. Ci eravamo affidati per le nostre analisi ad un'indagine che la Banca d'Italia compie ogni due anni, i cui dati sono disponibili liberamente online. Sapevamo però che l'indagine è di dimensione piuttosto limitata, e nei commenti sono sorte numerose lamentele sull'adeguatezza dei dati. Il lettore Poca Soltada suggeriva di usare i dati EU-SILC, un'indagine più completa che in seguito scoprii essere un aggregato delle indagini di tutti gli istituti statistici dei paesi membri dell'EU.

I dati europei mi interessavano perché avrebbero reso possibile il confronto con gli altri paesi. Cominciai dunque ad interessarmi per l'acquisizione di questi dati. Ebbene, dopo uno scambio di mail con una solerte funzionaria di Eurostat, scoprii una procedura che definire bizantina è poco. Non solo la richiesta non può essere fatta da un singolo ricercatore, ma deve venire dall'istituzione di appartenenza (e se un ricercatore pensionato - o disoccupato - volesse fare un'indagine nel suo tempo libero?), e richiede una complicata serie di passaggi che si conclude con (cliccare per credere) un PARERE DEL PARLAMENTO EUROPEO e l'approvazione finale da parte della commissione europea con tanto di pubblicazione nel bollettino ufficiale dell'EU. Ebbene si, cari concittadini che vi accingete a votare per il parlamento europeo, eccovi un'esempio delle attività di cui saranno occupati i vostri costosi rappresentanti.

Va chiarito che i dati di cui sto parlando non hanno particolari caratteristiche di riservatezza. Si tratta di campioni piuttosto limitati della popolazione, alcune decine di migliaia di individui, e risalire all'identità degli individui rilevati a partire dalle informazioni fornite è pressoché impossibile. Ho lavorato e sto lavorando con dati confidenziali: vi assicuro le informazioni in esse contenute sono ben più precise e dettagliate.

Ho dunque coinvolto la bibliotecaria responsabile delle banche dati nella mia università, che ha contattato la sua collega di Duke University, una delle 4 o 5 istituzioni americane che hanno ottenuto l'autorizzazione ad acquistare i dati (che peraltro sono piuttosto costosi, circa 2000 euro per anno di rilevazione). Hanno iniziato la procedura più di un anno fa e i dati non li hanno ancora ricevuti.

Non avendo mai avuto grosse speranze riguardo i dati europei, ho parallelamente consultato il sito dell'ISTAT. Ebbene sì, la controparte italiana dei dati europei, IT-SILC, è disponibile, a pagamento (90 euro, meno un 20% di sconto accademico), previa autorizzazione da parte del presidente dell'ISTAT (addirittura?), che, avvertono, richiede circa una ventina di giorni (immagino abbia altre cose da fare, il presidente).

La richiesta all'ISTAT va fatta online, specificando il motivo per cui si vogliono usare i dati. Lo faccio il 29 Gennaio, indicando una motivazione piuttosto generica. Il giorno successivo nella mia casella trovo un messaggio da parte di una funzionaria ISTAT, che mi chiede di completare la procedura stampando dal sito la domanda che avevo inviato il giorno precedente, e di ri-inviarla per fax, firmata. Sembra uno scherzo, ma è vero, e la cosa non avrebbe richiesto neanche tanto tempo (a parte il giorno perso per dirmi che dovevo ANCHE mandare il fax: ma non potevano dirlo subito?) se non per il fatto che a quell'ora le nostre segretarie non c'erano e ho dovuto perdere un discreto ammontare di tempo per trovare dove fosse la macchina del fax in dipartimento, che evidentemente non usa più nessuno. Dopodiché, per un mese tutto tace. Il 27 Febbraio mi viene richiesto di inviare i dati per il pagamento, ma non mi è chiaro come devo fare ad inviarli, e devo chiederlo con un altro messaggio. E passa così un altro giorno, anzi due, perché la risposta alla mia richiesta di chiarimenti avviene il giorno dopo. Dopo un altro paio di giorni, oggi, ho finalmente i dati sul mio computer. Spero ci siano le variabili di cui ho bisogno.

Va detto che la funzionaria è sempre stata molto solerte nel rispondere alle mie richieste di chiarimenti, di questo non mi lamento. Mi lamento più del fatto che "esiste" la funzionaria ... non lei personalmente, ma la figura istituzionale. E che occorrano 30 giorni per l'approvazione, questo è inaccettabile. Ripeto, dati di questo tipo sono stati raccolti con i soldi dei contribuenti e dovrebbero essere disponibili a tutti, gratis, liberamente. Non c'è scusa di privacy che tenga. I 90 euro di pagamento, con o senza sconto, sono un'assurdità pazzesca: nella maggior parte dei casi quei dati vengono acquistati da ricercatori italiani con fondi di ricerca delle università, quindi per lo stato si tratta di una partita di giro. Se non si capisce, specie in tempi di crisi economica, che la ricerca è un'attività da incentivare, ci sono poche speranze.

Indietro

Commenti

Ci sono 32 commenti

Ho dato un'occhiata, e tutto discende da un Regolamento del Consiglio (il 322/97), al quale la Commissione ha dato attuazione con un altro proprio Regolamento (l'831/2002). Il Consiglio sono gli Stati, e sappiamo che ci sono diverse sensibilità. L'art. 17 comma 2 richiama la necessaria autorizzazione degli Stati che hanno fornito i dati ad EUROSTAT, e inoltre l'art. 20 comma 1 richiama la necessaria assistenza alla Commissione da parte del Comitato per il Segreto Statistico. Da qui si intuisce come nasca il popo' di percorso.

Comunque posso dirti a naso che il problema è proprio nazional-politico, dei Governi che tipicamente riversano le loro idiosincrasie e financo il loro mercato dei cavalli (ingl.: horse-trading) in tutto quello su cui possono/devono avere parola. Il grossissimo peccato è che poi di tutto ciò esce fuori tipicamente che il "colpevole" è la Commissione, o comunque tutti se la prendono con la UE, che tanto non ci ha nessuna rete televisiva per spiegare come stanno le cose.

Le cose cu cui i Governi vanno talvolta in folle sono proprio le comparazioni, la possibilità di disporre di quei dati commensurabili per cui a dirla tutta esistono proprio gli uffici/organismi comunitari. Vorrebbero al meglio tenersi tutto per sè, chè il popolo-bue da solo non capisce (qualche volta è "vero": capire l'Europa è difficile).

RR

storia molto interessante, sara' per questo che pochi giornalisti (o pensionati) sanno o vogliono maneggiare i dati, altrimenti graverrebbero troppo sui bilanci delle proprie testate. A parte quelli dell'Economist che addirittura i dati li vendono. Ma se ti puo' consolare anche l'istituto nazionale di statistica del Canada si fa pagare i propri dati, pero' li scarichi direttamente on line. 

 

Ma se ti puo' consolare anche l'istituto nazionale di statistica del Canada si fa pagare i propri dati, pero' li scarichi direttamente on line.

 

Certo non consola me che in Canada ci lavoro. Comunque in Canada la maggior parte dei dati distribuiti da statscan sono disponibili agevolmente a chi lavora nelle universita' e in altri istituti di ricerca che hanno contratti con statscan. Tuttavia esiste un notevole problema per quanto riguarda dati ritenuti piu' confidenziali e che comprendono anche panel data del tipo NLSY e PSID (SLID ad esempio). In questo caso le procedure di accesso a questi dati sono quasi impossibili, ma non e' una questione di soldi. Risultato? un sacco di ricerca su gli USA e poca sul Canada (in Canada).

Non sono sicuro che l'accesso ai dati debba essere totalmente gratuito. E' vero che questi dati sono raccolti con soldi pubblici ma una forma di copayment potrebbe anche essere un metodo efficace di pre-selezionare le richieste in modo da non sovraccaricare la struttura e ridurre i costi di gestione. In fondo 90 euro mi sembrano una cifra molto modesta. Nel settore medico questa e' pratica comune anche in US. L'USRDS (il registro di dialisi e trapianto americano) ad esempio richiede $1000 per il core dataset + $500-1250 per ogni anno di Medicare payments data. Inoltre, se e' vero che i benefici di queste analisi empiriche sono estesi alla popolazione per una parte sostanziale, e' anche vero che nella maggior parte dei casi chi ha le competenze per farle puo' estrarne un profitto. Mi pare quindi corretto sussidiare la raccolta dei dati, ma pure corretto e' che chi li usa per la sua attivita' di ricerca/informazione concorra al pagamento dei costi. Altrimenti semplicemente o i dati non verrebbero raccolti o aumenterebbero i contributi rischiesti alla popolazione.

La cosa veramente fastidiosa a mio avviso sono le barriere burocratiche all'accesso dei dati che scoraggerebbero (e forse di fatto scoraggiano) anche il ricercatore piu' determinato.

Questo passaggio fa venire i brividi.

richiede una complicata serie di passaggi che si conclude con (cliccare per credere) un PARERE DEL PARLAMENTO EUROPEO e l'approvazione finale da parte della commissione europea con tanto di pubblicazione nel bollettino ufficiale dell'EU

 

Questo passaggio fa venire i brividi.

<q>richiede una complicata serie di passaggi che si conclude con (cliccare per credere) un PARERE DEL PARLAMENTO EUROPEO e l'approvazione finale da parte della commissione europea con tanto di pubblicazione nel bollettino ufficiale dell'EU</q>

 

Ora, non vorrei sembrare un po' permaloso sulla questione, ma in definitiva si tratta solo di precisazione e metodo scientifico: ho già argomentato al buon Andrea che i responsabili della cautela, e indi della valutazione, sono nel Consiglio, cioè sono gli Stati che devono rappresentare il parere dell'autorità statistica nazionale. Successivamente il Parlamento Europeo viene informato, ma solo per verificare il testo ove la Commissione modifica la Decisione del 2004 che conteneva in origine una lista di Enti di Ricerca autorizzati all'uso dei dati, ed allargarla - vedi esempio - e quindi ri-pubblicarlo sull'OfficialJournal.

RR

 

Luca, scusa ma sono completamente in disaccordo. I prezzi di mercato (guarda per esempio quanto carica uno dei gestori di hosting che fanno pagare a la carte: nearlyfreespeech.net) sono:

$10 / gigabyte al mese per storage
$0.20 per gigabyte di bandwith per i trasferimenti

Ovviamente, gestendo la cosa "in house" i costi saranno anche piu' bassi. Il file che ho acquistato sai quant'e'? 10megabytes. Il prezzo e' dunque completamente sproporzionato ai costi di gestione, che ovviamente non comprendono il costo fisso di raccogliere i dati. Per evitare i sovraccarichi basta predisporre un meccanismo che permetta di scaricare solo le variabili che servono, anziche' inviare un link a tutto il database. 

90 euro saranno anche una cifra modesta, ma le opportunita' di profitto mi sembrano limitate, ma dico, anche se non lo fossero? Si facciano pagare i 90 euro ex-post a chi realizza profitti, o si richieda la pubblicazione gratuita dei risultati come si fa con le ricerche finanziate dall'NIH. Perche' disincentivare lo studente che vuole dare un'occhiata a due dati e riportarli nel suo blog? Davvero, i benefici sono enormi, i 90 euro sembrano ottenere il doppio effetto negativo sia di non bastare a coprire granche' dei veri costi di raccolta dei dati, sia di disincentivare il piu' ampio uso degli stessi.  

è strano perchè la regola generale nell'UE è la trasparenza:

http://ec.europa.eu/transparency/access_documents/index_en.htm

 

Andrea, nel mio post ponevo semplicemente alcune questioni poiche' la necessita' della gratuita' non mi sembrava ne' ovvia ne' adeguatamente illustrata nell'articolo, soprattutto per chi  non maneggia quei dati ed e' invece abituato a veder applicati fees salatissimi per l'acquisizione di dati raccolti con soldi pubblici.

Nel mio campo, il pagamento di una tariffa di accesso viene giustificato degli enti gestori dalle ragioni che ho elencato. Generalmente chi gestisce queste banche dati ha costi che vanno ben oltre lo storage: lo USRDS ha almeno due comitati e diversi servizi tecnici delegati alla gestione e consegna dei dati. Altrettando complessa e' la struttura del NHANES. Le universita' e i ricercatori vendono analisi secondarie fatte su quei dati alle case farmaceutiche fecendone ottimi profitti. Se esistono sia benefici pubblici che benefici privati perche' non applicare una tariffa che ne tenga conto?

Mi chiedevo se questo discorso non valesse per i dati che hai richiesto. Prendo atto che il costo dello storage dei dati e' molto basso e che i restanti costi di gestione sono probabilmente molto contenuti. Puo' anche darsi che i profitti "privati" per i dati ISTAT siano modesti. In questo caso concordo con te che il vantaggio di far circolare queste informazioni velocemente e ampiamente sarebbe tale da giustificare un completo sussidio dei costi.

Da un punto di vista teorico hai ragione: assumendo che si tratti di bene con esternalita', non e' detto che il sussidio debba essere totale. In pratica pero' vista l'esiguita' della somma richiesta, mi pare che costi di piu' mantenere l'impiegato che raccolga i soldi e gestisca le pratiche. 

Andrea - benvenuto nel mondo di coloro che lavorano con dati empirici in paesi non-USA, non-developing (secondo me c'è un'"inverse-U-relationship" tra il livello di GDP p.c. e burocrazia -- è semplice ottenere dati dagli Stati Uniti quanto dal Brasile, molto meno dai paesi EU).

Questa la mia esperienza con l'ufficio statistico tedesco (Destatis). In confronto, l'Istat mi sembra il regno dell'efficienza. Ecco alcuni esempi:

(1) Ho bisogno della "Einkommens- und Verbrauchsstichprobe" (income and consumption statistics), un survey condotto ogni 5 anni sullo 0.1% della popolazione. (Tieni in mente che in Germania non esiste un censimento da oltre 30 anni, grazie alle paranoie del partito dei Verdi e della SPD). In aggiunta ai dati classici, ho bisogno di una variabile aggiuntiva, ossia residenza dell'intervistato. Ovviamente è impossibile ottenere i dati con il comune o il circondario ("Kreis") di residenza. Per soli 700 Euro, Destatis crea una nuova variabile binaria apposta per me, ove 0 è il "control" e 1 è il "treatment" secondo la mia definizione.

(2) Dato che adesso so dove risiedono gli intervistati (eccome se lo so! Ho una variabile binaria per oltre 10000 intervistati), non sono autorizzato a vedere i dati. Tutto quello che posso fare è spedire dei do-files per Stata alla sede di Destatis e aspettare che loro li utilizzino sul dataset e mi rispediscano i risultati. (in genere, ci mettono 5 giorni)

(3) Per ottenere tutto ciò, ho dovuto compilare un modulo. Dato che ogni volta che compilo il modulo trovano un errore (non me li possono dire tutti  in una volta, gli errori che ho fatto. Me li dicono uno alla volta), invio lo stesso modulo 5 volte, ogni volta con una piccola modifica. Dopo 5 settimane la richiesta è approvata.

(4) Nota bene che i 700 Euro sono un prezzo di favore per ricercatori affiliati con un'università tedesca. Se non avessi questa fortuna, dovrei spendere di più (non ho osato chiedere quanto).

(5) Ovviamente bisogna essere affiliati ad un'università o istituzione di ricerca, ça va sans dire. Un privato cittadino non può accedere a quei dati.

(6) Dopo sei mesi, il contratto scade. Ovvio, perché in 6 mesi chiunque è in grado di scrivere un paper empirico, testare tutte le specificazioni, spedirlo ad un journal, ottenere i commenti dei referees, testare nuove specificazioni, e completare il progetto. Per rinnovare il contratto, il processo è lo stesso come sei mesi fa. Viene trattato come una richiesta ex-novo.

(7) Questa volta trovano 3 errori nel mio modulo che è identico a quello approvato 6 mesi fa, dopo la 5a revisione. Inoltre, questa volta non va bene che il mio coautore, non affiliato ad una università tedesca, figuri sul contratto. Tutti i ricercatori devono essere della stessa università, preferibilmente tedesca. Mi confermano, però, che il mio coautore può utilizzare e vedere i risultati delle mie regressioni, ma non può spedire i do-file. Visto che nessuno può vedere il dataset, non vedo che differenza faccia.

(8) Tra l'altro, questa volta scopro che la domanda di utilizzo dei dati deve essere approvata non solo dalla centrale di Destatis a Wiesbaden, ma -- essendo la Germania uno stato federale -- da 16 uffici statistici dei "Länder". In tal caso, 5 settimane di attesa per il rinnovo del contratto sono persino poche.

Questa la mia esperienza con l'ufficio statistico tedesco (Destatis)

Ecco, l'avevo detto io che il problema sono gli Stati. Poi, non incazzatevi con Bruxelles...

RR

... su come venga considerata la raccolta dati in Italia.

Qual è il risvolto di questo passaggio:

Ci si potrà più fidare delle rilevazioni Istat? Se già in passato Eurostat (l’ufficio statistico della Commissione europea) le prendeva con le pinze, da domani varranno meno d’un oroscopo tracciato sui segni zodiacali.

Che le statistiche italiane saranno considerate come quelle cinesi? Inaffidabili? Ancora un po' di tempo fa il nostro inviato a Hong Kong dubitava delle statistiche cinesi...

 

 

... su come venga considerata la raccolta dati in Italia.

 

E' utile ricordare che il Presidente dell'ISTAT, Biggeri, è anche Presidente del CNVSU, il Comitato Nazionale di Valutazione del Sistema Universitario.

Vale a questo riguardo, più di ogni altro commento personale, citare il seguente passo di "La valutazione dell'Università" di Matteo Turri:

«Affrontando il tema della valutazione nelle università occorre innanzitutto chiarire cosa si intende con il termine valutazione. […] Nella pratica quotidiana accade che tale lacuna sia sanata mediante l’applicazione, da parte dei diversi attori dell’organizzazione universitaria, dei concetti di valutazione che sono loro più familiari. Il risultato è una situazione variegata, priva di un’identità univoca, spesso contraddittoria, dove abbondano le contrapposizioni. Imporre il proprio concetto di valutazione corrisponde, infatti, a imporre i propri riferimenti culturali e dunque ad acquisire un vantaggio competitivo nei confronti di colleghi di discipline differenti. Oltretutto, se la valutazione assume i principi di una disciplina, proprio gli esperti di questa disciplina saranno chiamati ad assumere il ruolo di valutatori. A questo proposito il panorama universitario italiano presenta almeno due testimonianze di “usurpazione” del concetto di valutazione:

- il ruolo rilevante assunto da studiosi di scienze statistiche presso il CNVSU (Comitato nazionale  per la valutazione del sistema universitario) e a cascata nella maggior parte dei nuclei di  valutazione degli atenei italiani ha fatto sì che tutto il sistema nazionale, caso unico in Europa, sia impostato sull’idea che valutare le università e le attività universitarie significhi raccogliere, mediante sofisticate tecniche statistiche, una gran mole di dati;

- l’attivazione, da parte della Conferenza dei Presidi della Facoltà di Ingegneria, di un Sistema Nazionale di Accreditamento dei Corsi di Studio di Ingegneria (SI.N.A.I.) tra il 1999 e 2000 su 9 corsi di diploma, sfociata in seguito nelle esperienze, promosse dalla Conferenza dei Rettori delle università italiane (C.R.U.I.), Campus e Campusone, ha innescato un dibattito promosso da accademici dell’area di ingegneria circa l’opportunità di introdurre sistemi di valutazione ispirati alle norme ISO 9000 mutuando direttamente dai settori produttivi modelli che sono presso le stesse imprese oggetto di una riflessione critica.»

 

 

 

 

 RR

Questo e' il response rate dell'US census 2000.

www.census.gov/dmd/www/response/2000response.html

www.amstat.org/sections/srms/Proceedings/y2001/Proceed/00082.pdf

Qualcuno conosce il response rate ISTAT?

 

Qualcuno conosce il response rate ISTAT?

 

Io no, ma anche se lo conoscessi non ci crederei: come tutte le statistiche ISTAT è probabilmente manipolato a fini personali, o politici, o entrambi.

L'Italia non è una nazione: è un'opera ridicola (avevo messo "buffa", ma non rende il livello di piaggieria a cui si è oramai scesi), ed i funzionari dello stato italiano sono i pupi che, manovrati dalla casta attraverso mille fili, la recitano. Il popolo beota si infila l'ago televisivo in vena ed applaude estasiato ...

Questo paese fa passare la voglia di ricordarsi che esiste, altro che 'essere propositivì ... ma di che?