La Valutazione della Qualità della ricerca italiana: istruzioni per l’uso

23/07/2013 Giovanni Federico

Alcuni giorni fa, l’Agenzia per la Valutazione dell’Università e la Ricerca (ANVUR) ha pubblicato i risultati della valutazione della qualità della ricerca italiana (VQR), riferiti al periodo 2004-2010. E’ un lavoro monumentale, che merita un’analisi approfondita. I giornali ne hanno parlato relativamente poco per la concomitanza nel tempo dell’affaire Kazako, ma i dati sono disponibili in rete (www.anvur.org). In questo post, si forniscono le informazioni essenziali per far comprendere i meccanismi di valutazione ed i loro limiti a chiunque voglia andare oltre una lettura superficiale delle classifiche.

i) Iniziamo dal quadro legislativo. Perché è stata fatta la VQR? La legge Gelmini (legge 240/2010 art 5 comma 5) stabilisce che una “quota non superiore al 10 per cento del fondo di funzionamento ordinario (FFO)” sia allocata sulla base di una

“valutazione delle politiche di reclutamento degli atenei, elaborati da parte dell'ANVUR e fondati su: la produzione scientifica dei professori e dei ricercatori successiva alla loro presa di servizio ovvero al passaggio a diverso ruolo o fascia nell'ateneo; la percentuale di ricercatori a tempo determinato in servizio che non hanno trascorso l'intero percorso di dottorato e di post‐dottorato, o, nel caso delle facolta' di medicina e chirurgia, di scuola di specializzazione, nella medesima universita'; la percentuale dei professori reclutati da altri atenei; la percentuale dei professori e ricercatori in servizio responsabili scientifici di progetti di ricerca internazionali e comunitari; il grado di internazionalizzazione del corpo docente."

La legge si ferma alla distribuzione del FFO fra università: sarà poi loro compito riallocarlo fra i dipartimenti in base ai criteri definiti dagli organi interni. In apparenza la percentuale redistribuita è modesta, ma può avere un impatto molto notevole sul funzionamento delle università. Infatti, gli stipendi del personale (docenti e personale amministrativo) assorbono oltre l’80%, con punte fino al 100% in alcuni casi, dell’ FFO. Quindi anche un aumento del 4-5% dell’FFO può essere essenziale per investire in nuovi laboratori, biblioteche, progetti di ricerca etc. Per distribuire il premio è necessario disporre di una valutazione della ricerca che possa essere condensata in un solo numero: bisogna in sostanza poter dire che la qualità ricerca dell’università di Pisa è superiore (o inferiore) del 20% a quella media italiana. La VQR dovrebbe fornire tale parametro. La valutazione è stata poi estesa anche agli enti di ricerca non universitari, come il CNR anche se non esplicitamente citati nella legge.

ii) Per ottemperare al suo compito, l’ANVUR , ha diviso l’intero universo della conoscenza in 14 aree – ciascuna delle quali a sua volta composta da parecchi settori scientifico-disciplinari (SSD), talora raggruppati in sub-aree. Per esempio, l’area 13 (Economia) è divisa in tre sub-aree (Economia, Statistica e Matematica, Economia Aziendale) e in diciotto settori, dall'Economia Politica ai Metodi Matematici per l'Economia. A ciascun “soggetto valutato” (professore universitario o ricercatore di enti di ricerca) in servizio è stato chiesto di indicare i suoi tre migliori lavori scientifici (sei per il personale degli enti di ricerca) pubblicati nel periodo 2004-2010. Nel complesso, i GEV si sono trovati a dover valutare circa 185000 prodotti, di natura e dimensioni diverse, dall’articolo di matematica di poche pagine al pesante tomo di filosofia. Ciascuno di essi è stato assegnato ad una di quattro classi di merito così definite

Eccellente: la pubblicazione si colloca nel 20% superiore della scala di valore condivisa dalla comunità scientifica internazionale (peso 1);

Buono: la pubblicazione si colloca nel segmento 60% - 80% (peso 0.8);

Accettabile: la pubblicazione si colloca nel segmento 50% - 60% (peso 0.5);

Limitato: la pubblicazione si colloca nel 50% inferiore (peso 0);

L’ANVUR ha inoltre assegnato una penalizzazione di -0.5 per i prodotti non presentati. Quindi un docente può avere ricevuto da 3 punti (tre prodotti eccellenti) a -1.5 (nessun prodotto presentato). L’ANVUR ha poi pubblicato i risultati per Area, Sub-Area (se presente), Dipartimento e settore disciplinare per l’intera università e per ciascun dipartimento (un settore può essere presente in più dipartimenti nella stessa università). La misura più semplice della performance è il voto medio, assoluto e relativo all’area, ma l’ANVUR fornisce anche le percentuali delle singole classi di valutazione sul totale dei prodotti presentati (x% eccellenti, y% buoni etc.) ed una serie di altri indicatori secondari, derivati da quelli base

iii) Arriviamo al punto essenziale: come si può valutare la qualità di un articolo di Giovanni Federico sulla storia del commercio mondiale? In sostanza, esiste solo un metodo: chiedere ad un altro esperto del tema, detto referee, cosa ne pensa (peer review). Questo è il metodo adottato da tempo per la scelta degli articoli da pubblicare nelle riviste internazionali. Il direttore della rivista interpella due o più referee e pubblica l’articolo quando i pareri sono positivi – un esito che si verifica quasi sempre solo dopo almeno una profonda revisione del testo originale. In genere, tanto più la rivista è prestigiosa, tanto più i referees sono severi e quindi tanto più è difficile pubblicare. Una versione più “democratica” dello stesso principio affida il giudizio sulla qualità del lavoro alla comunità scientifica piuttosto che a due referees. La qualità dell’articolo si misura dal numero di citazioni che ha ricevuto: tanto più è alto, tanto più l’articolo è importante. I GEV hanno utilizzato questi due criteri per tutti gli articoli delle aree cosidette bibliometriche (la bibliometria è la disciplina che studia come misurare la qualità dei lavori scientifici) – matematica, fisica, chimica, biologia, medicina. In pratica, per ciascun settore, hanno ordinato le riviste presenti in due grandi banche-dati internazionali (ISI e Scopus) per numero di citazioni ricevute (impact factor) ed hanno calcolato quante volte gli articoli da valutare sono stati citati nelle riviste presenti nelle stesse banche dati. Un articolo è stato definito eccellente se pubblicato in una rivista nel primo quintile (le 20% migliori per impact factor) e se ha avuto un numero di citazioni che lo pone nel primo quintile degli articoli. In economia è stato applicato un metodo semplificato – basandosi solo sul primo criterio, la qualità della rivista.

Questo metodo di valutazione presuppone evidentemente la disponibilità di una banca-dati di articoli su rivista e relative citazioni. Quindi non è stato possibile applicarlo alle riviste non censite nelle banche dati(p.es. quasi tutte le riviste italiane) ed a tutti i prodotti diversi dagli articoli - libri, capitoli di libri collettivi, progetti architettonici, brevetti etc. In totale, si è trattato di quasi centomila prodotti da valutare, la quasi totalità di quelli delle aree letterarie e giuridiche (fino al 99.2% per queste ultime), la maggioranza dei prodotti di ingegneria ed architettura (80%) e di economia (54%) ed anche di una significativa quota per le scienze (circa il 25% per fisica e chimica). L’ANVUR, con uno sforzo organizzativo veramente immane, ha chiesto a due esperti di valutare la qualità di ciascuno di questi prodotti, sulla base di tre criteri, rilevanza, originalità ed internazionalizzazione. La valutazione finale, in caso di disaccordo fra i due esperti, è stata affidata ai GEV, in alcuni casi con il ricorso ad un terzo esperto.

Per chi ha avuto la pazienza di seguire questa lunga spiegazione, aggiungo alcune osservazioni personali su alcuni temi “caldi”

a) La domanda più ovvia è quanto siano affidabili le valutazioni dei singoli prodotti. Il tema ha suscitato un vivace dibattito, e le critiche specifiche sono state riprese con gusto dagli avversari della valutazione. Gran parte della discussione si è concentrata sulle valutazioni bibliometriche In questo esercizio di buttare interi asili infantili per evitare la contaminazione con l’acqua sporca, si è distinto il sito ROARS che ha passato al microscopio i metodi dell’ANVUR alla ricerca di ogni possibile difetto. In particolare, è stata criticata l’inferenza dalla qualità della rivista alla qualità del singolo articolo: una rivista ottima può pubblicare per sbaglio un articolo mediocre o, più raramente di questi tempi, un autore può pubblicare per sbaglio un ottimo articolo in una rivista di secondo piano. Proprio per questo l’ANVUR ha aggiunto il criterio delle citazioni: un articolo mediocre, anche se pubblicato in una rivista di altissimo livello, attrae pochi lettori e poche citazioni. La valutazione bibliometrica dell’Area 13, che si basa solo sul criterio della rivista, è quindi più debole. D’altra parte, i miei amici amerikani, che sono notoriamente cattivi ed elitari, mi fanno notare che i criteri di valutazione del GEV sono relativamente generosi. La lista di riviste di classe A (che garantiscono i tre prodotti eccellenti) è molto lunga. In effetti, per la Storia Economica comprende ben otto riviste, contro le tre considerate nel recente lavoro di Kalaitzidakis et al (2010) sulla qualità delle riviste di economia. In base a tale criterio, avrebbe dovuto essere facile avere tre prodotti eccellenti. Probabilmente, alcune delle critiche di dettaglio sono corrette e si spera che l’ANVUR ne tenga conto per la prossima VQR. D’altra parte, appare difficile trovare il metodo bibliometrico perfetto, ed anche se lo si trovasse potrebbe avere conseguenze indesiderate. Infatti, dato qualsiasi criterio noto ex-ante, i valutati potrebbero orientare la propria strategia di pubblicazione per massimizzare i propri risultati.

In realtà la vera novità della VQR è l’uso massiccio della peer review per i prodotti non valutabili bibliometricamente. E’ passata sotto silenzio o quasi, forse perché più consona alla tradizione dell’università italiana. Infatti, tutte le promozioni, compresa l’abilitazione scientifica nazionale ora in corso, si basano sul giudizio individuale dei membri delle commissioni di concorso. Anzi la peer review è implicitamente considerata da molti l’alternativa “corretta” alla valutazione bibliometrica. Pur nell’ammirazione per l’enorme sforzo di raccolta dei pareri (quasi duecentomila da quasi 15000 referee diversi), vorrei sottolineare due problemi, uno “teorico” ed uno pratico. I giudizi per l’ANVUR sono diversi dai “normali” rapporti per le riviste scientifiche. Questi ultimi sono in genere articolati, contengono consigli specifici per migliorare il lavoro e comunque hanno un impatto solo indiretto, in quanto la decisione finale spetta al direttore della rivista. Invece, i pareri per l’ANVUR dovevano essere compressi in un voto (eccellente/buono/accettabile/limitato) e, salvo discordanze fra esperti, erano definitivi. La responsabilità era maggiore e corrispondentemente maggiore era il rischio di introdurre elementi soggettivi in una valutazione che avrebbe dovuto essere solo scientifica. Detto brutalmente, maggiore era la tentazione di attribuire un voto più alto al lavoro di un amico o di un allievo, o magari di tutti i colleghi di settore, per migliorare la valutazione collettiva e quindi le prospettive del settore. L’ANVUR ha ovviamente tentato di minimizzare questo rischio – p.es. non chiedendo il parere di colleghi dello stesso dipartimento- ma è difficile dire in quale misura abbia avuto successo. Infatti il numero di esperti su un argomento specifico che siano anche in grado di leggere lavori in italiano, la stragrande maggioranza di quelli presentati in peer review, è molto spesso relativamente piccolo. Il secondo problema nasce dall’interpretazione dei criteri per la valutazione. Non sempre è facile individuare una “scala di valori condivisa dalla comunità scientifica internazionale” Per esempio un sociologo marxista potrebbe giudicare male un lavoro di un autore di formazione liberale e vice-versa. Nel caso di giurisprudenza, materia strettamente legata alla legislazione nazionale, la stessa esistenza di una “comunità scientifica internazionale” è discutibile. Inoltre i tre criteri per la valutazione del prodotto sono molto generali, ed il terzo, l’”internazionalizzazione”, è di interpretazione a dir poco controversa. Alcuni esperti lo hanno inteso in senso più ampio, come conoscenza della letteratura internazionale sul tema e capacità di utilizzare concetti e metodi in uso all’estero, altri come possibilità di diffusione del lavoro all’estero. In sostanza, quest’ultima dipende dalla sede di pubblicazione e dalla lingua. In una interpretazione molto rigida, un lavoro può essere veramente internazionale solo se scritto in inglese e pubblicato in una rivista di ampia diffusione (o da una casa editrice anglosassone di buon livello). Il combinato effetto di questi fattori può spiegare la percentuale abbastanza elevata, oltre il 50%, di giudizi discordanti fra i due referees. In totale 3.5% dei casi (sembra poco, ma sono oltre 3500 prodotti fra tutte le aree) la divergenza è di tre classi – lo stesso prodotto è stato giudicato eccellente da un referee e limitato dall’altro. Personalmente, pur riconoscendo l’impossibilità di fare altrimenti in assenza di documentazione di supporto, preferisco la bibliometria, con tutti i suoi limiti, alla peer review. D’altro canto è possibile consolarsi notando che eventuali errori dovrebbero compensarsi nei grandi numeri e che quindi le conseguenze per la valutazione di università o di area potrebbero essere sopportabili. A livello individuale, o per un piccolo settore, però, ogni errore conta.

b) Gran parte dell’attenzione si concentra e si concentrerà sul voto medio, ma la dispersione è altrettanto importante. Un dipartimento con metà dei professori bravissimi (tutti E) e metà imbrattacarte (tutti L) otterrebbe 0.5, quanto un dipartimento di professori mediocri che presentano prodotti accettabili (tutti A). Analogamente, un dipartimento di alta qualità potrebbe essere affossato da un piccolo numero di professori fannulloni: servono sette geni (tre E) per compensare tre fannulloni (zero prodotti) ed avere 0.55 di media. In ambedue i casi, non è la stessa cosa, anche se non è chiaro se sia meglio la dispersione o la mediocrità. Cosa dicono i dati? In primo luogo, è rassicurante notare che nell’Area 13 il numero di fannulloni totali– con zero lavori- è basso (solo il 3.5%, con una punta di quasi il 20% all’università telematica Roma Marconi), anche se sono abbastanza numerosi i fannulloni parziali, con meno di tre lavori, circa uno su dodici-tredici. E’ molto meno rassicurante considerare la distribuzione per qualità. In media, i prodotti degli economisti italiani (sub-area E dell'Area 13) sono stati giudicati di poco inferiore all’accettabile (voto medio 0.42). Però, solo una minoranza di prodotti è stata valutata buono (608 su 4224) o eccellente (1113 su 4224). E soprattutto, la distribuzione di questi ultimi fra i docenti è fortemente squilibrata: 224 soggetti, 93 ordinari, 52 associati e 79 ricercatori, circa il 15%, hanno presentato tre prodotti eccellenti. Tutti gli altri 1250 si dividono i rimanenti 441 prodotti eccellenti (meno del 40% del totale): anche nell’ipotesi, alquanto improbabile, che nessuno ne abbia presentati due, si evince che il 54% dei docenti di economia italiani non è stato in grado di scrivere almeno un lavoro eccellente in sette anni. In sostanza gli economisti italiani si dividono in una élite relativamente piccola di studiosi di valore ed una grande massa di persone abbastanza mediocri, ma comunque scientificamente operose. La situazione è simile per la sub-area statistica mentre solo l’8% dei professori di Scienze Aziendali ha ottenuto il massimo (tre E).

c) I voti medi sono sicuramente comparabili fra università nella stessa area e di dimensioni simili. Si può dire che – p.es.- Padova nell’Area 13 è meglio della Bocconi (oh yes – voto medio rispettivamente 0.59 e 0.55). Il confronto è meno preciso fra università di dimensioni molto diverse fra loro: p.es. il voto medio dell’IMT di Lucca è altissimo (0.91), ma è calcolato solo su 13 prodotti contro i 390 di Padova. I voti non sono invece direttamente confrontabili fra aree: dire che la ricerca a Chimica (Area 3, voto medio 0.81) è meglio di quella di Economia (0.32) è scorretto, anche se probabilmente l’affermazione è vera. Sarebbe come dire che uno studente della scuola media è meglio di un liceale perché ha la media del 9 mentre l’altro ha la media del 7. Come detto, i metodi di valutazione sono diversi, ma soprattutto le diverse discipline hanno modelli di trasmissione dei risultati della ricerca molto differenti frutto di un processo lungo e complesso. Gli scienziati pubblicano articoli brevi, spesso con molti co-autori, gli storici ed i filosofi (ancora) scrivono libri. Quindi, a parità di bravura ed impegno, uno scienziato può scegliere i tre migliori fra 60-70 prodotti, mentre uno storico solo fra 4 o 5. E’ chiaro che la probabilità di avere tre E è maggiore nel primo che nel secondo caso. Infatti l’ANVUR ha sconsigliato esplicitamente confronti fra aree, ma i giornali (ed alcuni professori) non hanno ascoltato. Il Sole 24 ore si è distinto in questa nobile gara: ha pubblicato una pagina intera con la classifica per aree ed ha anche sbagliato anche i nomi delle aree.

d) Un ultimo punto, riguardante la comunicazione dei risultati. E’ ovvio diritto del singolo sapere come è stato giudicato ed infatti l’ANVUR ha promesso di comunicare in via riservata i risultati a ciascun soggetto valutato entro il 20 settembre. I giudizi individuali non sono invece pubblici, ed anzi l’ANVUR ha esplicitamente rinunciato a fornire i risultati aggregati basati sulla valutazione di meno di tre docenti, proprio per rendere impossibile inferire la performance di singoli docenti. La giustificazione è la legge sulla privacy: avrebbero dovuto avvertire in anticipo i soggetti valutati della possibilità che la valutazione fosse resa pubblica. Non so se legalmente questo argomento sia valido e se sia possibile aggirarlo. Nel merito, lo ritengo profondamente sbagliato. I professori universitari sono pagati significativamente di più dei docenti di scuola ed insegnano per un numero di ore molto minore, proprio perché fanno ricerca. Quindi è giusto che i contribuenti sappiano chi si è meritato lo stipendio e chi no. Più prosaicamente, le informazioni sui risultati per singolo docente sarebbero utili anche per le università, per decidere chi promuovere o chi assumere o per distribuire i fondi di ricerca. Sarebbe dunque opportuno che il ministero renda pubblici i dati individuali.

L’ultima osservazione porta alla domanda finale. Cosa succederà? In teoria, il ministero dovrebbe applicare la legge ed annuciare, sperabilmente in tempo, il meccanismo di distribuzione dei fondi per il 2014, compredente i premi per le università virtuose. In Italia, però, le cose non sono mai semplici. In primo luogo, la legge è abbastanza ambigua. Infatti, il ministro potrebbe ridurre la percentuale distribuita su base premiale (p.es. il 2% invece che il 10%) o utilizzare anche criteri diversi dalla VQR. L’ANVUR nella sua relazione finale ha introdotto anche altre misure di performance. I risultati non differiscono molto da quelli della valutazione della ricerca, ma probabilmente è possibile trovare una combinazione di criteri tale da ridurre l'impatto della VQR. Inoltre non è chiaro se l'aumento delle risorse per le università migliori debba essere pagato con un corrispondente taglio dei fondi alle altre o piuttosto da un aumento del FFO totale.

Il problema è politico. La legge è ispirata dal principio “amerikano” di premiare le università migliori. Personalmente ritengo che l’introduzione di questo meccanismo sia non solo giusta, ma anche un passo indispensabile per la riforma del sistema. Nel lungo periodo, però, probabilmente determinerà una crescente divergenza fra università di élite ed università prevalentemente di insegnamento. Questa differenza è tipica del mondo anglosassone, dove la ricerca si concentra nelle università migliori (quelle in testa a tutte le classifiche mondiali) ed i docenti dei colleges e delle università minori insegnano e basta (salvo, se vogliono e sono bravi, cambiare università). E’ quindi possibile che una valutazione simile negli Stati Uniti dia una distribuzione della qualità della ricerca non dissimile da quella citata per economia. Invece in Italia formalmente le università sono tutte eguali e fino a due anni fa, ricevevano fondi in proporzione al numero di studenti.

La mia impressione personale è che i docenti universitari, come quasi tutti gli italiani, siano contrari al cambiamento. Probabilmente la maggioranza si trova bene nel sistema esistente, salvo auspicare un aumento generalizzato dei fondi e quindi preferirebbe che la VQR non venisse utilizzata. Alcuni obiettano al principio stesso dalla valutazione come attentato alla libera ricerca. I più estremi la dipingono come un bieco complotto (ameriKano) ai danni della università pubblica, libera e gratuita. Alcuni suggeriscono una critica più sofisticata, che rovescia il principio della legge Gelmini. Si sostiene che sarebbe opportuno finanziare di più le università peggiori, specie quelle delle regioni più povere, che sono meno in grado di attingere a risorse esterne (p.es. finanziamenti da banche o contratti di ricerca industriale). In effetti, le università migliori secondo la VQR si concentrano al Nord. Quindi i fondi aggiuntivi affluirebbero prevalentemente al Nord e nel lungo periodo l’ eventuale divaricazione fra università di ricerca ed altre assumerebbe quindi una dimensione geografica. E' quindi possibile che l'opposizione all'attuazione dell'articolo 5 della riforma, trovi appoggi politici. D’altra parte, anche le università virtuose potrebbero cercare sponde politiche per veder riconosciuti i propri diritti. Il ministro avrà il coraggio di applicare la legge – cioè di distribuire una percentuale significativa dell’FFO sulla base dei risultati della VQR? Se non lo facesse, sarebbe un’occasione sprecata. Si accettano scommesse.

Citazioni

Kalaitzidakis Pantelis, Theofanis P. Mamuneas and Thanasis Stengos (2010) An Updated Ranking of Academic Journals in Economics’ The Rimini Centre for Economic Analysis WP 15-10

Addendum (27 luglio)

Mi è stato fatto notare che la pubblicazione delle valutazioni sui prodotti presentati individualmente, da me auspicata, potrebbe penalizzare i soggetti valutati che avessero generosamente rinunciato a presentare i propri prodotti migliori per favorire i co-autori nello stesso dipartimento. E' una obiezione comune, ma a mio avviso facilmente superabile. Per comprendere il punto è necessaria una piccola spiegazione tecnica. Nella VQR era vietato presentare lo stesso prodotto a nome di più docenti della stessa università (mentre era permesso farlo se i docenti erano in servizio in università diverse). In tal modo l'Anvur ha inteso evitare che un dipartimento migliorasse i propri risultati semplicemente facendo firmare a i suoi membri poco produttivi lavori a cui non avessero contribuito. Molti dipartimenti hanno quindi allocato gli articoli con più autori in modo da massimizzare il voto totale. Consideriamo un esempio concreto: il geniale ricercatore Rossi ha scritto tre articoli su riviste di altissimo livello che sono citatissimi, e tre articoli meno importanti su riviste di secondo piano. Il suo barone fannullone prof Federico ha contribuito marginalmente al lavoro di Rossi e per il resto si è dedicato ai suoi sporchi giochi di potere. Nella nella sua infinita (ma preveggente) arroganza baronale, ha però costretto a suo tempo Rossi a co-firmare i tre articoli più importanti con la minaccia di rovinargli la carriera. Ovviamente, dal punto di vista del dipartimento era meglio far presentare i tre articoli migliori a Federico, che altrimenti sarebbe stato penalizzato per improduttività, visto che comunque Rossi aveva altri prodotti da presentare. Se venisse pubblicata solo la valutazione degli articoli presentati, Federico apparirebbe migliore di Rossi. La soluzione è semplice: pubblicare il giudizio su tutti i prodotti valutati, indipendentemente da chi li abbia presentati (comprendendo anche quelli presentati da co-autori in altre strutture). In questo caso, Rossi avrebbe tre prodotti eccellenti e tre accettabili, e Federico solo tre accettabili. In tal modo, si avrebbe una valutazione complessiva della produzione di tutti e due e Rossi avrebbe riconosciuto il suo merito.