La Singularidad Desnuda

Un universo impredecible de pensamientos y cavilaciones sobre ciencia, tecnología y otros conundros

Cambio 1 ingeniero por 2.58 biólogos: Universalidad de las distribuciones de citas

Posted by Carlos en octubre 22, 2008

La evaluación de la actividad investigadora es algo con lo que que todo el que se mueve en el mundo académico ha de lidiar un día sí y al otro también. Lo más extendido en nuestro entorno cercano es usar a tal efecto indicadores bibliométricos que cuantifiquen de algún modo la calidad de las publicaciones realizadas. El ejemplo más clásico lo constituye el índice de impacto, que intenta aproximar la relevancia que una determinada revista científica tiene dentro de su campo a través del número medio de citas que un articulo publicado en la misma recibe. La idea sería entonces que en la medida en la que uno publique en revistas de alto índice de impacto, tanto mejor. Este tipo de medida es sin embargo de grano grueso, y aunque puede permitir realizar una discriminación cualitativa de alto nivel, presenta diferentes problemas. El primero y más evidente es que la distribución del número de citas que un artículo recibe en cualquier revista no es gaussiana (se trata de una distribución de Bradford, que sigue una ley de potencias), y por lo tanto una medida de tendencia central no es un indicador adecuado. El segundo es la dificultad de comparar revistas de diferentes áreas. Por poner un ejemplo, en el Science Citation Index de 2007 el índice de impacto de las revistas en el primer cuartil de biología es >2.599, mientras que para astronomía y astrofísica es >3.483, para inteligencia artificial es >1.644, y para matemáticas es >0.723. La discrepancia es mucho mayor si se considera la revista de más alto índice de impacto en cada campo, con diferencias que pueden rondar el orden de magnitud en algún caso.

0806.0974

Distribución del número de citas en diferentes campos - Credit: Radicchi, Fortunato and Castellano, arXiv:0806.0974

Una de las alternativas cada vez más empleada es contar las citas individuales que cada artículo publicado recibe, lo que -con algunos matices importantes- puede permitir sortear el primero de los problemas anteriores.  Sin embargo, sigue existiendo el segundo, ya que éste reponde a los patrones de publicación que se siguen en cada área: cuánto se publica, dónde se publica (esto es importante, ya que hay áreas como por ejemplo la informática en la que una gran parte del volumen de publicaciones se realiza en conferencias con estricta revisión por pares, y éstas no siempre están adecuadamente indexadas), qué patrones de co-autoría se dan, etc. Sorprendentemente, esta disparidad se puede eliminar con una corrección estadística muy simple, tal como Filippo Radicchi, Santo Fortunato y Claudio Castellano -los dos primeros de la ISI Foundation, y el tercero de la Sapienza de Roma– muestran en un artículo titulado

que acaba de ser aceptado para su publicación en PNAS. La idea básica es normalizar los números de citas dividiendo por c0, el número medio de citas del campo en el año anterior. Parece una trivialidad, pero resulta en una homogeneización casi perfecta de las distribuciones de citas en diferentes campos, como puede verse en la figura inferior.

0806.0974

Distribución reescalada del número de citas en diferentes campos, normalizada según el promedio de cada uno - Credit: Radicchi, Fortunato and Castellano, arXiv:0806.0974

Tal como describen los autores, no sólo se pueden comparar diferentes campos, sino un mismo campo en diferentes años (en los que el factor de reescalado será diferente). De hecho, van más allá, y proponen que esta renormalización se use dentro de una versión generalizada del índice h (véanse también los artículos de Emulenews sobre este indicador). Para ello es necesario introducir otro factor de normalización: N0, el número medio de artículos publicados por año por un autor en una disciplina. Así, el valor de este indicador generalizado sería el máximo número n de artículos con al menos c/c0 > n/N0 citas. Se trata de una sugerencia muy interesante, pero requiere del uso de unos datos estadísticos precisos y que cambian de un año para otro. De todas formas, el que tu índice h vaya fluctuando como la bolsa seguro que animaría mucho la cosa.

Anuncios

7 comentarios to “Cambio 1 ingeniero por 2.58 biólogos: Universalidad de las distribuciones de citas”

  1. Jafma said

    Y todo eso, a fin de cuentas, no reflejará la calidad de un artículo, porque… ¿qué es la calidad de un artículo? 🙂

  2. JJ said

    El número de citas está relacionado con la calidad, pero también con la calidad de quien te ha citado antes; y, por supuesto, con la oportunidad.

  3. Carlos said

    @jafma: efectivamente, he ahí el meollo del asunto. Estas medidas basadas en citas darían una indicación de lo que uno está dando que hablar en el campo, que puede o no tener que ver con la calidad. Creo que una buena analogía sería decir que si un futbolista ficha por muy buenos equipos, entonces es que es muy bueno. Claro que entonces sale el (¿contra?)ejemplo de Miquel Soler, y nos deja cavilando 😉 .

  4. Carlos said

    @JJ: y también con el contenido de la cita en sí, que no es lo mismo que te citen de pasada junto con otros 20 en la sección de introducción, que te citen como trabajo fundamental, o que te citen para decir que vaya piltrafilla de trabajo hiciste.

  5. cua said

    No se si alguien habrá intentado (seguro que si) medir la calidad de un articulo como una suma de las calidades de los articulos que lo referencian. De esta forma, no todas las referencias cuentan igual, y será mucho mejor recibir una referencia de un articulo muy referenciado que de un articulo no referenciado. Esta definicion de “calidad” es recursiva, pero se puede definir usando un sistema de ecuaciones y se puede calcular usando “random walks” como hace google con las páginas Web. Creo que sería mucho más objetivo.

  6. Carlos said

    Ciertamente es mucho más indicativo que el número de citas (que sería la centralidad de grado en una red). La medida que describes equivale a calcular el autovector principal de la matriz de referencias, y está también relacionada con otro indicador denominado índice de poder de Bonacich. El inconveniente es que mientras el número de citas de un cierto artículo se puede calcular de manera local (por parte de cada nodo de la red), las otras medidas requieren conocimiento global de la red de referencias. Igual la Thomson Corporation tiene una buena posibilidad de negocio aquí 😉 .

  7. emulenews said

    @JJ,@Cua: La idea del PageRank de Google, la “calidad” de una página web depende de la “calidad” de las páginas que la citan, se ha propuesto y utilizado como índice de calidad para revistas y/o investigadores. Por ejemplo, los granadinos de SCImago (http://www.scimago.es/) subvencionado por Scopus de Elsevier, competencia de ISI Thomson. Que yo sepa, ésta última no está pensando en este tipo de medida. Varios estudios demuestran que este tipo de medida puede detectar “gemas” (artículos muy influyentes que han sido poco citados, porque se ha citado mucho a un artículo que los cita o a un artículo que no los cita pero debiera haberlo hecho). Por ejemplo, el reciente Premio Nobel de Física a Kobayashi y Maskawa que ha olvidado a Cabbibo, KM-1973 tiene 3257 citas y C-1963 sólo tiene 1998. Hoy en día todo el mundo se refiere a su trabajo como CKM.

Sorry, the comment form is closed at this time.

 
A %d blogueros les gusta esto: