La Declaración de San
Francisco (DORA) y la mala bibliometría
Isidro F. Aguillo
Isidro F. Aguillo
La publicación de la llamada
Declaración de San Francisco (Declaration on Research Assessment Putting
science into the assessment of research) (1) en la que explícitamente se denuncia el uso del
factor de impacto como herramienta en los procesos de evaluación de la
actividad científica ha sido recibida con entusiasmo por buena parte de la
comunidad investigadora. Aunque no tan evidente, la citada Declaración, termina
también cuestionando el análisis de citas en particular y la bibliometría en
general para los fines de evaluación. Aunque es cierto que se ha abusado del
Factor de Impacto de Garfield, más allá de las propias recomendaciones de su
creador y de los continuos consejos de la comunidad bibliométrica, el éxito de
la Declaración obliga a reflexionar sobre las razones para el rechazo no ya de
un indicador particular, sino de toda la estrategia basada en métricas para
medir el rendimiento, visibilidad y calidad de la producción científica.
Obviamente hay que excluir del análisis al conjunto de académicos que rechazan cualquier tipo de evaluación de la actividad investigadora, puesto que no se dedican a ella. Por ejemplo, en España los incentivos económicos más importantes de los docentes universitarios están ligados a la actividad investigadora, independientemente de su carga lectiva o los medios o recursos a los que tengan acceso, lo que efectivamente dificulta o imposibilita algún tipo de producción científica. La ausencia de contrapartidas ligadas a otras actividades puede explicar el rechazo a este tipo de incentivos y su sistema de adjudicación.
Un segundo grupo lo
constituyen aquellos científicos que han alcanzado un elevado estatus
académico, incluyendo un reconocido prestigio entre sus pares locales, a partir
de explotar relaciones y otros resultados intangibles, cuando no contribuciones
de impacto muy localizado, pobre calidad o insignificantes. La bibliometría en
estos casos puede descubrir, quizás inopinadamente para muchos de sus colegas y
discípulos, las carencias y limitaciones de la carrera del investigador en
cuestión. Es obvio que los interesados rechacen, incluso de manera violenta, la
generalización de métodos objetivos de evaluación.
El presente ensayo pretende
analizar, si además de los colectivos contrarios a las métricas, hay otras
razones para explicar el rechazo de un uso más extendido de los indicadores
bibliométricos. Adelantaré al lector que mi tesis es que los intereses
comerciales de los productores de bases de datos bibliométricas, la desidia de
la comunidad de especialistas en técnicas métricas, la mala praxis de muchos
aficionados y algunos profesionales y el desconocimiento temerario de los
gestores políticos y académicos pueden estar detrás de este lamentable e injustificado
rechazo. De forma sintética, se intentará establecer que la causa última es la
generalización en las últimas décadas de un fenómeno que doy en llamar “mala
bibliometría”.
El pecado original: Los
“índices de citas” de Garfield.
El monopolio durante varias
décadas de las bases de datos del ISI explica en el largo plazo algunos de los
problemas que enfrentamos en la actualidad. Dejando a un lado los importantes
sesgos en la cobertura de la producción científica mundial, hay que destacar
varias decisiones técnicas y comerciales claves:
Una unidad
de trabajo, la revista, que aunque útil para construir indicadores de actividad
(producción), es manifiestamente inadecuada para crear indicadores de
visibilidad o impacto. Todo ello unido a una clasificación temática de las
revistas muy subjetiva, mal reflejo de las relaciones disciplinares de los
títulos incluidos. Como parte de una política inmovilista que caracterizó a
este sistema hasta la aparición de Scopus, muchas de las categorías continuaron
existiendo incluso cuando era evidente su artificiosidad.
Un
indicador principal (el infame factor de impacto, que crea un artefacto de
citas esperadas en lugar de citas reales, que pueden ser valores muy
diferentes) común a todas las disciplinas (que en realidad tienen diferentes
distribuciones y escalas) con una ventana temporal (dos años) inapropiada para
muchas de las áreas y que penalizaba la estabilidad interanual de un sistema
muy dinámico.
La
ausencia de un sistema de desambiguación tanto de nombre de autores como de
normalización de los nombres de instituciones en las afiliaciones.
La
utilización de una matriz de citas que identificaba pares revista-revista en
vez de artículo-artículo (citante-citado).
El
(posterior) sistema de cuartiles, construido sobre posiciones en la lista, y no
como lógicamente había que hacer, sobre los valores absolutos del indicador.
De esos barros vinieron
lodos
En las décadas de los 80s y
90s el acceso a los datos de las bases del ISI solo se podía realizar a través
de complejas y caras estrategias en Dialog o mediante lentísimos lectores de
CD-ROM de aún más caros discos, guardados celosamente por expertos poco
proclives a compartirlos y frecuentemente no actualizados. Alternativamente,
una edición en papel impresa y vendida clandestinamente del “Journal Citation
Reports” se convertía en manos de inexpertos investigadores de todo el país en
piedra filosofal objeto de adoración. Aún hoy tan magno documento es pieza
central, única si excluimos los intereses personales o disciplinares, de las
discusiones en los famosos comités de expertos.
Los trabajos descriptivos de
materias e instituciones se multiplican, muchos de ellos tesis doctorales,
aunque en la mayoría de los casos se trata de meros conteos sin valorar
aspectos clave tanto de la estructura de la organización ni de las prácticas de
publicación de la disciplina. Es frecuente, por ejemplo, que se utilice la
temática general de las revistas, siguiendo a rajatabla la sesgada
clasificación del ISI para delimitar la producción en un área, lo que o bien
infrarrepresenta dicha producción al excluir contribuciones publicadas en
revistas no incluidas o, por el contrario, incluye múltiples publicaciones
ajenas si el área tiene algún componente metodológico de carácter horizontal a
otras disciplinas.
La consecuencia lógica, pero
nunca reconocida salvo por algún honrado miembro de tribunal, fue la
estupefacción de los especialistas que ni reconocían los patrones mostrados ni
estaban de acuerdo con los líderes identificados. Cabe recordar la famosa
visita de Garfield, que en un tour por España presentaba los resultados para el
país que había obtenido de manera automática, y que mostraba una lista de
científicos españoles muy citados. En muchos casos, aparte del asombro de los
auditorios, los resultados causaron hilaridad entre los responsables
ministeriales.
Aunque es posterior, es
necesario señalar que el producto “Essential Science Indicators” sigue esa
misma tradición de no realizar control documental sobre los resultados
obtenidos de forma automática. Se puede comprobar fácilmente los problemas de
normalización de nombres (autores con 30.000 publicaciones), los fallos en las
afiliaciones o las disparatadas clasificaciones y aun así sigue siendo
utilizado por los amigos de la bibliometría fácil (véase por el ejemplo el
ranking turco URAP).
La comunidad bibliométrica
publicó durante esos años números trabajos criticando abiertamente el uso
abusivo del factor de impacto, con el asentimiento explícito del propio
Garfield presente en muchas ocasiones. Pero al igual que las críticas a los
problemas de cobertura solo como introducción a prolijos análisis que
utilizaban tanto la denostada fuente como el inadecuado indicador. Cierto es
que algunos de ellos proponían alternativas, juiciosas unas (como por ejemplo
factores modificados por disciplina, o factores con ventanas más dilatadas),
inviables otras, pero que nunca dieron lugar ni a bases de datos más
inclusivas, ni a JCRs alternativos y ni siquiera a un acuse de recibo por parte
de ISI, ya Thomson.
La ausencia de desarrollo de
herramientas alternativas, complementarias o derivadas por parte tanto de la
comunidad métrica como de ISI/Thomson es un claro símbolo del fracaso de la
bibliometría, no como disciplina científica, todavía brillante, sino como
técnica incontestable y objetiva en los procesos de evaluación.
Autorías, conteos y
colaboraciones
La aparición de la plataforma
WoS permitió incrementar de forma considerable la cantidad y calidad de los
estudios bibliométricos. No solo se podía filtrar de forma más precisa los
resultados por autor, afiliación, disciplina o palabra clave, sino que el
análisis de citas pasó a utilizar citas reales en vez de citas esperadas.
Aunque la desambiguación de autores seguía siendo un proceso laborioso, los
trabajos micro, meso y macro eran ahora viables y al alcance de cualquiera con
un poco de dedicación. Sin embargo, la supuesta facilidad generó en seguida una
grave problemática. Así superado el modelo Medline de atribuir toda la autoría
al primer autor/institución, y antes de que la inflación del número de firmas
cuestionara el conteo fraccionado puro, la mayoría de los bibliómetras
aceptaron como estándar el conteo completo, es decir asignar el 100% a todos y
cada uno de los autores de los trabajos.
Este acuerdo tácito favoreció
los estudios de co-autoría, perdón quiero decir de colaboración, el sucedáneo
de la bibliometría fácil en un tema de cada vez mayor importancia estratégica
en la definición de políticas científicas. El tratamiento descuidado de las colaboraciones
asimétricas (frecuentes en Iberoamérica) provocó el rechazo de resultados poco
informados, nuevamente para descrédito de la disciplina. Pero quizás la
distorsión de mayor impacto en el largo plazo fue que el conteo completo
favoreció, aunque sea indirectamente, el aumento del número de publicaciones
con múltiples firmas y también el número medio (moda) de estas. Es necesario
recordar que en muchos países de Latinoamérica el incremento porcentual de la
co-autoría explica incluso mucho más que el aumento de su producción bruta. Es
decir, que la supuesta mejora de la actividad científica de muchas
instituciones y países, de la que se ufanan políticos y gestores, no es sino un
puro artefacto técnico. Cómo si no se explicaría que la producción científica
española crezca de forma constante incluso después de muchos años de profunda
crisis de financiación (lustros, que invalidan explicaciones basadas en
condicionantes técnicos como el retraso en la publicación de resultados).
Scopus
El fin del monopolio que
supone la publicación por parte de Elsevier de la base Scopus parece traer
algunas mejoras. Se cita normalmente la mayor cobertura, especialmente en
ciencias sociales y humanas, aunque ya todos los expertos reconocen que esa
extensión afecta sobre todo a la cola de distribución de la calidad. Aunque se
incrementa el número de revistas, no aumenta de manera similar el número de
trabajos, y los criterios de inclusión parecen más relajados. Pero esto tiene
una consecuencia, lógica entre competidores comerciales que luchan por un mismo
mercado, y que o bien ha pasado inadvertida a muchos usuarios o simplemente han
preferido ignorarla: WoS/Thomson incrementa también su cobertura, incorporando
centenares de títulos “locales” o “regionales”, lo que quiere decir que de
forma artificiosa se aumenta el volumen de la producción científica a nivel
mundial, pero también a nivel individual, institucional o nacional. La solución
obvia de empezar a usar indicadores relativos, especialmente en los estudios
temporales, no parece casar bien con ciertos intereses interesados de expertos
buscando financiación.
La aparición de Scopus
revoluciona también la batería de indicadores disponibles. Se generaliza el uso
del índice h, sin tener en cuenta recomendaciones para matizar según edad
académica o particularidades disciplinares, y Thomson introduce el factor de
impacto de 5 años y el Eigenfactor, propuestas que cosechan un absoluto
fracaso. Se critica su complejidad, comentario también utilizado para describir
las alternativas para Scopus (curiosamente no desarrolladas por la propia
Elsevier), como el SNIP (CWTS) o el SJR (Scimago). Es cuando menos extraño que
ninguno de estos indicadores claramente superiores, opinión que cualquiera con
conocimientos de algebra o simple espectador del éxito del algoritmo de Google
suscribiría, haya sido adoptado de forma generalizada para la construcción, por
ejemplo, de cuartiles de revistas. Más sorprendente aún es la reciente
introducción del indicador CPP (¡citas por artículo!) por parte del CWTS,
básicamente un remedo del factor de impacto, lo que nos hace retroceder
décadas.
Rankings
Si hay un ejemplo
paradigmático del fracaso histórico de la bibliometría éste es el éxito del llamado
Ranking de Shanghái, un trabajo propio de un estudiante de secundaria, que sin
base bibliométrica, indicadores cuestionables y nula evolución a lo largo de
más de una década se ha posicionado como referente de “prestigio” en la
evaluación de las Universidades. Sorprende que trabajos más rigurosos (y mucho
más tardíos) como el Ranking de Leiden o el de Scimago no hayan logrado
competir y que incluso compartan análisis con subproductos como el Ranking NTU
o el ya citado URAP.
Pero, a los efectos de este
análisis, el ranking más interesante es posiblemente el de Times Higher
Education (THE). Aunque utiliza, como el ranking de QS y el de US&World
News, datos de encuestas de opinión, obviamente información subjetiva y
sesgada, también usa, y en un elevado porcentaje datos bibliométricos. La
fuente de estos es nada menos que Thomson que no es un mero suministrador, sino
que ha desarrollado específicamente indicadores para este ranking. El
despropósito es inaudito y el fiasco de tal calibre que THE ha decidido cambiar
de proveedor y pasarse a la competencia (Scopus): El indicador es relativo al
tamaño de la producción en cada disciplina, utiliza un umbral ridículo y acepta
conteos completos en áreas como la astrofísica y la física de altas energías.
Ello da lugar a que, por ejemplo, universidades con un firmante entre los miles
del trabajo que informa del descubrimiento del Bosón de Higgs permita situarlas
entre las mejores del mundo.
No obstante, los rankings han
tenido la virtud de volver a poner la bibliometría en el centro del debate,
incluso en países con escasa tradición en el uso de indicadores métricos. Pero
no siempre las interpretaciones son correctas, lo que queda bien ilustrado con
sugerencias mediocres como incrementar la producción en cuartiles inferiores,
en vez de cuidar la publicación de excelencia, aumentar las co-autorías
explicita e independientemente de la colaboración real o simplemente “obligar”
la normalización de las firmas y afiliaciones.
Google Scholar, en español
Google Académico
Un pecado habitual tanto
dentro como fuera de la comunidad bibliométrica era identificar las carencias
específicas de las fuentes (WoS, Scopus) como problemáticas intrínsecas de las
disciplinas. Los análisis DAFO confundían (y aún lo hacen con la Webometría y la
Altmetría) limitaciones coyunturales con problemas estructurales. La aparición
de un tercer contendiente (Google Scholar) demuestra que con las herramientas
adecuadas se puede evaluar objetivamente la publicación informal, las
contribuciones en monografías o el creciente número de publicaciones en acceso
abierto y todo ello independientemente de la disciplina, pues todas ellas
(incluyendo ciencias sociales, humanidades y tecnologías, tradicionalmente
maltratadas en las otras fuentes) aparecen razonablemente representadas en esta
base de acceso gratuito.
Lamentablemente, aunque
concediendo que GS tiene todavía muchas limitaciones, muchos autores están
ignorando esta herramienta en sus agendas de investigación. El hecho de que
algún caso se denigre o desprecie nos lleva a cuestionar si hay también
intereses comerciales por parte de equipos ligados mediante acuerdos
preferenciales con los otros proveedores. Incluso no sería atrevimiento
cuestionar si la propia Declaración DORA no oculta asimismo intereses mercantiles.
En todo caso, señalar que la
actitud ante este nuevo actor no es pro-activa, no se reclama su presencia, no
se discuten sus propuestas, no se sugieren desarrollos y todo ello en un
contexto, donde bajo una apreciación puramente personal, la continuidad y
supervivencia de GS no está en absoluto garantizada.
No matéis al mensajero.
Una crítica cada vez más
extendida a la evaluación basada en indicadores bibliométricos es la supuesta
incapacidad de estos para identificar malas prácticas, incluyendo exceso de
auto-citación, círculos de citas, falsas autorías, plagios y otras trampas
varias. Ciertamente descubrir las estrategias más sofisticadas puede ser
complicado, pero en mi opinión ese no es el problema principal. Como demuestran
los hechos, incluso ante el flagrante “delito” el corporativismo de la academia
dificulta el adecuado castigo de esas prácticas por mucho que los especialistas
en métricas las identifiquen y denuncien. En el contexto de esta contribución,
la buena bibliometría no solo ha de entenderse en el sentido de publicar
correctos y rigurosos estudios sino también en el de hacer públicos los datos
de la forma más transparente posible. No es frecuente la publicación de
perfiles personales, de grupos o de organizaciones que permitan el escrutinio
público de los datos y la posible denuncia de comportamientos poco éticos, pero
son dichas herramientas y resultados los que pueden guiar a una mejor
gobernanza del sistema.
A modo de conclusión
Un grupo de profesionales de
la bibliometría, crecientemente preocupados por el descrédito de la disciplina,
motivado a nuestro parecer por la proliferación del uso poco informado y
descuidado de las bases de datos bibliométricas, la poca transparencia en un
entorno cada vez más comercializado y la convivencia ignorante o interesada de
gestores y políticos, nos hemos venido reuniendo en los últimos años en
congresos científicos en Viena, Berlín y Leiden para estudiar la situación. Se
está preparando un borrador de un documento que frente al DORA recibirá el nombre
de Declaración de Leiden y que, en espera de su redacción definitiva, hace un
llamamiento para desterrar la mala bibliometría y confiar estos estudios a
profesionales con experiencia comprobada. De momento, nada que objetar.
(1)
American Society for Cell Biology (2013). San
Francisco Declaration on Research Assess (DORA). http://www.ascb.org/dora-old/files/SFDeclarationFINAL.pdf
Isidro F. Aguillo
Miembro del Grupo ThinkEPI
ORCID
0000-0001-8927-4873
ResearcherID:
A-7280-2008
Scholar
Citations SaCSbeoAAAAJ