L’H-index e l’illusione di misurare la scienza

Negli anni ’80, fare una ricerca bibliografica significava trascorrere ore tra gli scaffali delle biblioteche, sfogliando volumi cartacei di Index Medicus e Chemical Abstracts per trovare gli articoli scientifici di interesse. La consultazione era lenta e faticosa: trovare una pubblicazione significava copiare a mano le parti salienti, perché le fotocopiatrici non erano ancora diffuse. Oggi, grazie alle banche dati digitali, l’accesso alla letteratura scientifica è immediato e globale. Tuttavia, la facilità di accesso ha generato un nuovo problema: l’esplosione del numero di pubblicazioni.

Nel 1950, la banca dati Scopus contava 123.000 pubblicazioni scientifiche; nel 2000 erano salite a 1,3 milioni; nel 2024 hanno superato i 4,3 milioni. Per un’analisi più approfondita ecco un’analisi del 2020 di Thelwall e Sud. La quantità di articoli è diventata insostenibile e ha reso impossibile leggere tutto ciò che viene pubblicato, anche per settori specialistici. In questo contesto, gli indici bibliometrici hanno assunto un ruolo centrale nella valutazione della ricerca, permettendo di quantificare l’impatto di uno scienziato senza dover leggere una riga di ciò che ha scritto. In particolare, obiettivo di questi indicatori era quello di iniziare a classificare i diversi livelli di produttività scientifica di singoli ricercatori o di singoli dipartimenti, dando una dimensione quantitativa ai prodotti di ricerca. (Termine di recente additato da Ernesto Galli della Loggia sulla terza pagina de Il Corriere come indicativo dell’ideologia produttivistico-quantitativa che domina nella valutazione delle attività scientifiche.. e che anche a noi non suscita molta simpatia).

Il paradosso dell’H-index

Nel 2005, Jorge Eduardo Hirsch, fisico argentino della University of California, San Diego, ha introdotto l’H-index come metrica  per valutare la produttività scientifica: un autore ha un H-index pari a H se H delle sue pubblicazioni hanno ricevuto almeno H citazioni ciascuna. Il sistema è intuitivo e ha trovato rapida diffusione perché consente di confrontare ricercatori in pochi secondi, senza la necessità di conoscere i loro campi di studio. Ma siamo sicuri che sia una misura efficace?

Osserviamo alcuni dati curiosi: lo stesso Hirsch,  ha 274 pubblicazioni e un H-index di 62; la sua ricerca più citata è proprio l’articolo in cui propone l’H-index. NdR: H come Hirsch. Charles Kuen Kao, Nobel per la Fisica nel 2008, ha un H-index di 7 e il suo quinto lavoro più citato è la sua Nobel Lecture. Walter C. Willett, epidemiologo con il più alto H-index al mondo, ha un H-index di 332 e oltre 2.275 pubblicazioni. Dal 1993 non ha pubblicato meno di 56 articoli all’anno, con un picco di 113 nel 2004. Quando ha trovato il tempo per fare ricerca?

L’IA e la distorsione delle citazioni

Il valore dell’H-index si basa sul presupposto che le citazioni siano un indicatore della qualità della ricerca. Tuttavia, con l’avvento dell’intelligenza artificiale, il sistema sta diventando vittima di sé stesso. Esistono già software in grado di generare riferimenti bibliografici per un testo scientifico, selezionando citazioni in modo automatico, senza che l’autore abbia effettivamente letto o scelto i lavori citati.

Più un articolo è citato, più è probabile che venga citato di nuovo, non perché sia effettivamente rilevante, ma perché i sistemi automatici lo selezionano statisticamente. In questo modo, le citazioni diventano un fenomeno autoreferenziale, e l’H-index smette di essere un indicatore della qualità scientifica per diventare un meccanismo di accumulazione algoritmica.

Un ritorno alla sostanza della ricerca

Oggi pubblicare è diventato un imperativo quantitativo, e le metriche bibliometriche stanno influenzando in modo preoccupante la valutazione dei ricercatori. È ancora possibile valutare la scienza basandosi sull’esperienza e sulla competenza? Possiamo tornare a pubblicare per condividere il sapere e non per accumulare numeri?

Le citazioni non devono sostituire la lettura critica degli articoli. La speranza è che il futuro della ricerca non sia dominato solo da software che contano citazioni, ma da studiosi che valutano il valore delle idee, indipendentemente da quanti numeri possa generare un algoritmo.

Comincia da noi…

Nel nostro piccolo ci stiamo provando… stiamo additando a colleghi ricercatori la brutta pratica che abbiamo chiamato citations club: un perverso sistema collusivo piuttosto semplice e assai efficace che funziona più o meno così: io cito la ricerca di Franco, Franco cita quella di Arturo, Arturo cita la mia… e così via, fino a garantire che i nostri “prodotti di ricerca” ottengano risultati d’impatto soddisfacenti. Ma soprattutto, ci piace insegnare ai nostri dottorandi che il ricercatore, come un marinaio, solca i mari lasciando una scia… di carta e di citazioni… ma il suo obiettivo non è certo quello di lasciare in acqua tracce del suo passaggio: è quello di viaggiare, di scoprire nuove rotte, di esplorare nuovi continenti.

PS: ovviamente gran parte di questo articolo è stato scritto grazie all’intelligenza artificiale.

 

Di Riccardo Pietrabissa e Alberto Di Minin