viernes, 20 de febrero de 2015

LA DECLARACIÓN DE SAN FRANCISCO (DORA) Y LA MALA BIBLIOMETRÍA





La Declaración de San Francisco (DORA) y la mala bibliometría

Isidro F. Aguillo

La publicación de la llamada Declaración de San Francisco (Declaration on Research Assessment Putting science into the assessment of research) (1)  en la que explícitamente se denuncia el uso del factor de impacto como herramienta en los procesos de evaluación de la actividad científica ha sido recibida con entusiasmo por buena parte de la comunidad investigadora. Aunque no tan evidente, la citada Declaración, termina también cuestionando el análisis de citas en particular y la bibliometría en general para los fines de evaluación. Aunque es cierto que se ha abusado del Factor de Impacto de Garfield, más allá de las propias recomendaciones de su creador y de los continuos consejos de la comunidad bibliométrica, el éxito de la Declaración obliga a reflexionar sobre las razones para el rechazo no ya de un indicador particular, sino de toda la estrategia basada en métricas para medir el rendimiento, visibilidad y calidad de la producción científica.

Obviamente hay que excluir del análisis al conjunto de académicos que rechazan cualquier tipo de evaluación de la actividad investigadora, puesto que no se dedican a ella. Por ejemplo, en España los incentivos económicos más importantes de los docentes universitarios están ligados a la actividad investigadora, independientemente de su carga lectiva o los medios o recursos a los que tengan acceso, lo que efectivamente dificulta o imposibilita algún tipo de producción científica. La ausencia de contrapartidas ligadas a otras actividades puede explicar el rechazo a este tipo de incentivos y su sistema de adjudicación.
Un segundo grupo lo constituyen aquellos científicos que han alcanzado un elevado estatus académico, incluyendo un reconocido prestigio entre sus pares locales, a partir de explotar relaciones y otros resultados intangibles, cuando no contribuciones de impacto muy localizado, pobre calidad o insignificantes. La bibliometría en estos casos puede descubrir, quizás inopinadamente para muchos de sus colegas y discípulos, las carencias y limitaciones de la carrera del investigador en cuestión. Es obvio que los interesados rechacen, incluso de manera violenta, la generalización de métodos objetivos de evaluación.
El presente ensayo pretende analizar, si además de los colectivos contrarios a las métricas, hay otras razones para explicar el rechazo de un uso más extendido de los indicadores bibliométricos. Adelantaré al lector que mi tesis es que los intereses comerciales de los productores de bases de datos bibliométricas, la desidia de la comunidad de especialistas en técnicas métricas, la mala praxis de muchos aficionados y algunos profesionales y el desconocimiento temerario de los gestores políticos y académicos pueden estar detrás de este lamentable e injustificado rechazo. De forma sintética, se intentará establecer que la causa última es la generalización en las últimas décadas de un fenómeno que doy en llamar “mala bibliometría”.

El pecado original: Los “índices de citas” de Garfield.
El monopolio durante varias décadas de las bases de datos del ISI explica en el largo plazo algunos de los problemas que enfrentamos en la actualidad. Dejando a un lado los importantes sesgos en la cobertura de la producción científica mundial, hay que destacar varias decisiones técnicas y comerciales claves:
Una unidad de trabajo, la revista, que aunque útil para construir indicadores de actividad (producción), es manifiestamente inadecuada para crear indicadores de visibilidad o impacto. Todo ello unido a una clasificación temática de las revistas muy subjetiva, mal reflejo de las relaciones disciplinares de los títulos incluidos. Como parte de una política inmovilista que caracterizó a este sistema hasta la aparición de Scopus, muchas de las categorías continuaron existiendo incluso cuando era evidente su artificiosidad.
Un indicador principal (el infame factor de impacto, que crea un artefacto de citas esperadas en lugar de citas reales, que pueden ser valores muy diferentes) común a todas las disciplinas (que en realidad tienen diferentes distribuciones y escalas) con una ventana temporal (dos años) inapropiada para muchas de las áreas y que penalizaba la estabilidad interanual de un sistema muy dinámico.
La ausencia de un sistema de desambiguación tanto de nombre de autores como de normalización de los nombres de instituciones en las afiliaciones.
La utilización de una matriz de citas que identificaba pares revista-revista en vez de artículo-artículo (citante-citado).
El (posterior) sistema de cuartiles, construido sobre posiciones en la lista, y no como lógicamente había que hacer, sobre los valores absolutos del indicador.

De esos barros vinieron lodos
En las décadas de los 80s y 90s el acceso a los datos de las bases del ISI solo se podía realizar a través de complejas y caras estrategias en Dialog o mediante lentísimos lectores de CD-ROM de aún más caros discos, guardados celosamente por expertos poco proclives a compartirlos y frecuentemente no actualizados. Alternativamente, una edición en papel impresa y vendida clandestinamente del “Journal Citation Reports” se convertía en manos de inexpertos investigadores de todo el país en piedra filosofal objeto de adoración. Aún hoy tan magno documento es pieza central, única si excluimos los intereses personales o disciplinares, de las discusiones en los famosos comités de expertos.
Los trabajos descriptivos de materias e instituciones se multiplican, muchos de ellos tesis doctorales, aunque en la mayoría de los casos se trata de meros conteos sin valorar aspectos clave tanto de la estructura de la organización ni de las prácticas de publicación de la disciplina. Es frecuente, por ejemplo, que se utilice la temática general de las revistas, siguiendo a rajatabla la sesgada clasificación del ISI para delimitar la producción en un área, lo que o bien infrarrepresenta dicha producción al excluir contribuciones publicadas en revistas no incluidas o, por el contrario, incluye múltiples publicaciones ajenas si el área tiene algún componente metodológico de carácter horizontal a otras disciplinas.
La consecuencia lógica, pero nunca reconocida salvo por algún honrado miembro de tribunal, fue la estupefacción de los especialistas que ni reconocían los patrones mostrados ni estaban de acuerdo con los líderes identificados. Cabe recordar la famosa visita de Garfield, que en un tour por España presentaba los resultados para el país que había obtenido de manera automática, y que mostraba una lista de científicos españoles muy citados. En muchos casos, aparte del asombro de los auditorios, los resultados causaron hilaridad entre los responsables ministeriales.
Aunque es posterior, es necesario señalar que el producto “Essential Science Indicators” sigue esa misma tradición de no realizar control documental sobre los resultados obtenidos de forma automática. Se puede comprobar fácilmente los problemas de normalización de nombres (autores con 30.000 publicaciones), los fallos en las afiliaciones o las disparatadas clasificaciones y aun así sigue siendo utilizado por los amigos de la bibliometría fácil (véase por el ejemplo el ranking turco URAP).
La comunidad bibliométrica publicó durante esos años números trabajos criticando abiertamente el uso abusivo del factor de impacto, con el asentimiento explícito del propio Garfield presente en muchas ocasiones. Pero al igual que las críticas a los problemas de cobertura solo como introducción a prolijos análisis que utilizaban tanto la denostada fuente como el inadecuado indicador. Cierto es que algunos de ellos proponían alternativas, juiciosas unas (como por ejemplo factores modificados por disciplina, o factores con ventanas más dilatadas), inviables otras, pero que nunca dieron lugar ni a bases de datos más inclusivas, ni a JCRs alternativos y ni siquiera a un acuse de recibo por parte de ISI, ya Thomson.
La ausencia de desarrollo de herramientas alternativas, complementarias o derivadas por parte tanto de la comunidad métrica como de ISI/Thomson es un claro símbolo del fracaso de la bibliometría, no como disciplina científica, todavía brillante, sino como técnica incontestable y objetiva en los procesos de evaluación.

Autorías, conteos y colaboraciones
La aparición de la plataforma WoS permitió incrementar de forma considerable la cantidad y calidad de los estudios bibliométricos. No solo se podía filtrar de forma más precisa los resultados por autor, afiliación, disciplina o palabra clave, sino que el análisis de citas pasó a utilizar citas reales en vez de citas esperadas. Aunque la desambiguación de autores seguía siendo un proceso laborioso, los trabajos micro, meso y macro eran ahora viables y al alcance de cualquiera con un poco de dedicación. Sin embargo, la supuesta facilidad generó en seguida una grave problemática. Así superado el modelo Medline de atribuir toda la autoría al primer autor/institución, y antes de que la inflación del número de firmas cuestionara el conteo fraccionado puro, la mayoría de los bibliómetras aceptaron como estándar el conteo completo, es decir asignar el 100% a todos y cada uno de los autores de los trabajos.
Este acuerdo tácito favoreció los estudios de co-autoría, perdón quiero decir de colaboración, el sucedáneo de la bibliometría fácil en un tema de cada vez mayor importancia estratégica en la definición de políticas científicas. El tratamiento descuidado de las colaboraciones asimétricas (frecuentes en Iberoamérica) provocó el rechazo de resultados poco informados, nuevamente para descrédito de la disciplina. Pero quizás la distorsión de mayor impacto en el largo plazo fue que el conteo completo favoreció, aunque sea indirectamente, el aumento del número de publicaciones con múltiples firmas y también el número medio (moda) de estas. Es necesario recordar que en muchos países de Latinoamérica el incremento porcentual de la co-autoría explica incluso mucho más que el aumento de su producción bruta. Es decir, que la supuesta mejora de la actividad científica de muchas instituciones y países, de la que se ufanan políticos y gestores, no es sino un puro artefacto técnico. Cómo si no se explicaría que la producción científica española crezca de forma constante incluso después de muchos años de profunda crisis de financiación (lustros, que invalidan explicaciones basadas en condicionantes técnicos como el retraso en la publicación de resultados).

Scopus
El fin del monopolio que supone la publicación por parte de Elsevier de la base Scopus parece traer algunas mejoras. Se cita normalmente la mayor cobertura, especialmente en ciencias sociales y humanas, aunque ya todos los expertos reconocen que esa extensión afecta sobre todo a la cola de distribución de la calidad. Aunque se incrementa el número de revistas, no aumenta de manera similar el número de trabajos, y los criterios de inclusión parecen más relajados. Pero esto tiene una consecuencia, lógica entre competidores comerciales que luchan por un mismo mercado, y que o bien ha pasado inadvertida a muchos usuarios o simplemente han preferido ignorarla: WoS/Thomson incrementa también su cobertura, incorporando centenares de títulos “locales” o “regionales”, lo que quiere decir que de forma artificiosa se aumenta el volumen de la producción científica a nivel mundial, pero también a nivel individual, institucional o nacional. La solución obvia de empezar a usar indicadores relativos, especialmente en los estudios temporales, no parece casar bien con ciertos intereses interesados de expertos buscando financiación.
La aparición de Scopus revoluciona también la batería de indicadores disponibles. Se generaliza el uso del índice h, sin tener en cuenta recomendaciones para matizar según edad académica o particularidades disciplinares, y Thomson introduce el factor de impacto de 5 años y el Eigenfactor, propuestas que cosechan un absoluto fracaso. Se critica su complejidad, comentario también utilizado para describir las alternativas para Scopus (curiosamente no desarrolladas por la propia Elsevier), como el SNIP (CWTS) o el SJR (Scimago). Es cuando menos extraño que ninguno de estos indicadores claramente superiores, opinión que cualquiera con conocimientos de algebra o simple espectador del éxito del algoritmo de Google suscribiría, haya sido adoptado de forma generalizada para la construcción, por ejemplo, de cuartiles de revistas. Más sorprendente aún es la reciente introducción del indicador CPP (¡citas por artículo!) por parte del CWTS, básicamente un remedo del factor de impacto, lo que nos hace retroceder décadas.

Rankings
Si hay un ejemplo paradigmático del fracaso histórico de la bibliometría éste es el éxito del llamado Ranking de Shanghái, un trabajo propio de un estudiante de secundaria, que sin base bibliométrica, indicadores cuestionables y nula evolución a lo largo de más de una década se ha posicionado como referente de “prestigio” en la evaluación de las Universidades. Sorprende que trabajos más rigurosos (y mucho más tardíos) como el Ranking de Leiden o el de Scimago no hayan logrado competir y que incluso compartan análisis con subproductos como el Ranking NTU o el ya citado URAP.
Pero, a los efectos de este análisis, el ranking más interesante es posiblemente el de Times Higher Education (THE). Aunque utiliza, como el ranking de QS y el de US&World News, datos de encuestas de opinión, obviamente información subjetiva y sesgada, también usa, y en un elevado porcentaje datos bibliométricos. La fuente de estos es nada menos que Thomson que no es un mero suministrador, sino que ha desarrollado específicamente indicadores para este ranking. El despropósito es inaudito y el fiasco de tal calibre que THE ha decidido cambiar de proveedor y pasarse a la competencia (Scopus): El indicador es relativo al tamaño de la producción en cada disciplina, utiliza un umbral ridículo y acepta conteos completos en áreas como la astrofísica y la física de altas energías. Ello da lugar a que, por ejemplo, universidades con un firmante entre los miles del trabajo que informa del descubrimiento del Bosón de Higgs permita situarlas entre las mejores del mundo.
No obstante, los rankings han tenido la virtud de volver a poner la bibliometría en el centro del debate, incluso en países con escasa tradición en el uso de indicadores métricos. Pero no siempre las interpretaciones son correctas, lo que queda bien ilustrado con sugerencias mediocres como incrementar la producción en cuartiles inferiores, en vez de cuidar la publicación de excelencia, aumentar las co-autorías explicita e independientemente de la colaboración real o simplemente “obligar” la normalización de las firmas y afiliaciones.

Google Scholar, en español Google Académico
Un pecado habitual tanto dentro como fuera de la comunidad bibliométrica era identificar las carencias específicas de las fuentes (WoS, Scopus) como problemáticas intrínsecas de las disciplinas. Los análisis DAFO confundían (y aún lo hacen con la Webometría y la Altmetría) limitaciones coyunturales con problemas estructurales. La aparición de un tercer contendiente (Google Scholar) demuestra que con las herramientas adecuadas se puede evaluar objetivamente la publicación informal, las contribuciones en monografías o el creciente número de publicaciones en acceso abierto y todo ello independientemente de la disciplina, pues todas ellas (incluyendo ciencias sociales, humanidades y tecnologías, tradicionalmente maltratadas en las otras fuentes) aparecen razonablemente representadas en esta base de acceso gratuito.
Lamentablemente, aunque concediendo que GS tiene todavía muchas limitaciones, muchos autores están ignorando esta herramienta en sus agendas de investigación. El hecho de que algún caso se denigre o desprecie nos lleva a cuestionar si hay también intereses comerciales por parte de equipos ligados mediante acuerdos preferenciales con los otros proveedores. Incluso no sería atrevimiento cuestionar si la propia Declaración DORA no oculta asimismo intereses mercantiles.
En todo caso, señalar que la actitud ante este nuevo actor no es pro-activa, no se reclama su presencia, no se discuten sus propuestas, no se sugieren desarrollos y todo ello en un contexto, donde bajo una apreciación puramente personal, la continuidad y supervivencia de GS no está en absoluto garantizada.

No matéis al mensajero.
Una crítica cada vez más extendida a la evaluación basada en indicadores bibliométricos es la supuesta incapacidad de estos para identificar malas prácticas, incluyendo exceso de auto-citación, círculos de citas, falsas autorías, plagios y otras trampas varias. Ciertamente descubrir las estrategias más sofisticadas puede ser complicado, pero en mi opinión ese no es el problema principal. Como demuestran los hechos, incluso ante el flagrante “delito” el corporativismo de la academia dificulta el adecuado castigo de esas prácticas por mucho que los especialistas en métricas las identifiquen y denuncien. En el contexto de esta contribución, la buena bibliometría no solo ha de entenderse en el sentido de publicar correctos y rigurosos estudios sino también en el de hacer públicos los datos de la forma más transparente posible. No es frecuente la publicación de perfiles personales, de grupos o de organizaciones que permitan el escrutinio público de los datos y la posible denuncia de comportamientos poco éticos, pero son dichas herramientas y resultados los que pueden guiar a una mejor gobernanza del sistema.

A modo de conclusión
Un grupo de profesionales de la bibliometría, crecientemente preocupados por el descrédito de la disciplina, motivado a nuestro parecer por la proliferación del uso poco informado y descuidado de las bases de datos bibliométricas, la poca transparencia en un entorno cada vez más comercializado y la convivencia ignorante o interesada de gestores y políticos, nos hemos venido reuniendo en los últimos años en congresos científicos en Viena, Berlín y Leiden para estudiar la situación. Se está preparando un borrador de un documento que frente al DORA recibirá el nombre de Declaración de Leiden y que, en espera de su redacción definitiva, hace un llamamiento para desterrar la mala bibliometría y confiar estos estudios a profesionales con experiencia comprobada. De momento, nada que objetar.

(1)       American Society for Cell Biology (2013). San Francisco Declaration on Research Assess (DORA). http://www.ascb.org/dora-old/files/SFDeclarationFINAL.pdf

Isidro F. Aguillo
Miembro del Grupo ThinkEPI
ORCID 0000-0001-8927-4873
ResearcherID: A-7280-2008
Scholar Citations SaCSbeoAAAAJ



No hay comentarios:

Publicar un comentario