jueves, 11 de abril de 2013

Mala neurociencia

significant / xkcd


La neurociencia genera titulares casi todos los días. Cada vez que se publica un nuevo estudio aparece alguna correlación interesante que tiene que ver con cómo pensamos, cómo recordamos, cómo percibimos o cómo nos deterioramos. Hemos de ser conscientes de que el famoso paso de los resultados de investigación al titular conlleva en buena parte de los casos una simplificación extrema y una elevación al absoluto que no se corresponde con lo afirmado en el artículo técnico, cuando no una manifiesta deformación torticera. Pero no todos los problemas son atribuibles a la prensa: buena parte de la investigación en neurociencia podría ser considerada mala ciencia.

Veamos un ejemplo para ilustrar lo que queremos decir. Imaginemos que queremos comprobar que una determinada variable externa se corresponde con la actividad de determinada área cerebral. Por ejemplo, que la visión de fotos de rostros conocidos provoca la activación de determinadas áreas cerebrales. Diseñamos el experimento cuidadosamente: corregimos por belleza de los rostros, sexo, edad, etnia, relación con el sujeto y cualquier variable que se nos ocurra. Al final nos decantamos por una colección de fotos seleccionadas de 24 actores de Hollywood y 67 personas anónimas no relacionadas con ningún sujeto. En paralelo, hemos solicitado voluntarios entre los estudiantes de nuestra universidad y hemos solicitado tiempo en el aparato de resonancia magnética del hospital universitario. Dados todos los condicionantes, haremos el experimento finalmente con 9 chicos y 12 chicas.

Hecho nuestro experimento, publicamos un artículo que afirma que “en el 55% de los varones y el 42% de las mujeres se aprecia una activación del área XYZ del orden del 7% mayor cuando se ven rostros conocidos”. Posteriormente aparece un titular en la nota de prensa de la universidad que dice: “Ver a Scarlett Johansson activa el área XYZ en los chicos pero no en las chicas” que se traduce en Ciencia Muy Guay por “Hallada el área del cerebro de la atracción sexual”.

De acuerdo que exageremos algo (tampoco mucho), pero el hecho cierto es que no se puede sacar ninguna conclusión de un experimento así. Lo hemos repetido muchas veces aquí diciendo que los resultados son preliminares y deben ser reproducidos. Pero, la cuestión es que esta falta de relevancia estadística, la pequeñez de las muestras, hace que muchos resultados en neurociencia estén en cuestión permanente. Lo único que nos hacía falta es que alguien midiese hasta qué punto esto es así, que alguien empezase a medir la gravedad del problema. Esto es lo que ha hecho Katherine Button, de la Universidad de Bristol (Reino Unido), encabezando a un equipo de colaboradores que han publicado sus resultados en Nature Reviews Neuroscience.

Button y sus colegas revisaron 48 artículos con meta-análisis (estudios que extraen conclusiones a partir de varios estudios similares sobre un mismo asunto, en esto caso cada uno de los 48 analizaba entre 24, el que menos, y 71 estudios, el que más) en neurociencia publicados en 2011 y concluyeron que la mayoría tenían una potencia estadística de alrededor del 20%. Y esto, ¿qué significa? Pues, ni más ni menos, que el estudio promedio tenía una probabilidad de descubrir el efecto objeto de investigación de 0,2 (siendo 1 la certeza absoluta de que lo va a detectar).

Y, ¿qué es lo que causa esta potencia estadística tan baja? Pues lo que era esperable: muestras muy pequeñas y efectos investigados muy pequeños. Hay estudios neurocientíficos que informan de mecanismos muy complejos con muy pocos sujetos y efectos estudiados que suponen variaciones porcentualmente muy pequeñas en las variables medidas, variables que pueden recoger fácilmente ruidos estadísticos varios que den lugar a confusiones. Nuestro ejemplo anterior recoge ambos problemas.

Una consecuencia de todo ello es que cuando se anuncia que se ha hecho un descubrimiento en neurociencia basado en un solo estudio lo más probable es que sea falso o engañoso.

Button et al. afirman que existen pruebas suficientes como para aseverar que:
  • los estudios pequeños y de baja potencia estadística son “endémicos” en neurociencia
  • una proporción grande de la investigación publicada en las revistas científicas podría ser poco fiable;
  • el número de hallazgos está exagerado ya que los estudios pequeños dan más resultados positivos que los grandes de forma consistente (lo que es especialmente cierto en los estudios que usan herramientas genéticas, técnicas de imagen o animales)
Y, ¿qué se puede hacer para remediar esta situación? Lo primero sería facilitar la reproducibilidad de los resultados, lo que implica transparencia metodológica por parte de los investigadores, y aumentar los tamaños de muestra de forma significativa, lo que hoy día implica colaboración. Los investigadores proponen cinco acciones:

a) Antes de realizar un experimento es conveniente calcular de la potencia estadística del mismo: se puede usar la literatura existente para estimar qué tamaño de muestra es necesario para investigar un determinado efecto.

b) Transparencia en la exposición de métodos y resultados: sobre todo si no se encuentra nada hay que decirlo así. Los resultados negativos no publicados distorsionan los datos.

c) Pre-registro del protocolo de estudio y el plan de análisis: así se alientan los dos puntos anteriores y se evita la tentación de la elaboración creativa de datos o de informar sólo de algunos resultados. Un medio para hacerlo es Open Science Framework.

d) Disponibilidad de los materiales de estudio y de los datos sin elaborar: facilita la replicación y la extensión de los estudios.

e) Trabajar colaborativamente para incrementar la potencia y la replicabilidad de los estudios: la combinación de datos incrementa el tamaño de muestra, minimizando el trabajo.

Estas son propuestas. Mientras no vayan calando habrá que tomarse con dosis habitual de escepticismo los resultados publicados.

Referencia:

Button K.S., Ioannidis J.P.A., Mokrysz C., Nosek B.A., Flint J., Robinson E.S.J. & Munafò M.R. (2013). Power failure: why small sample size undermines the reliability of neuroscience, Nature Reviews Neuroscience, DOI:

4 comentarios:

Abraham dijo...

La meta está parada.
Luego está la tortuga.
Está la liebre.
Y están los sueños de la liebre.
(léase relación proporcional
velocidad-neurociencia)

Guido Corradi dijo...

En mi opinión esto viene de una mala gestión de incentivos. Publicar con potencia estadística 0.2 equivale lo mismo a 0,8.... Cuenta como publicación te citan (otros autores con potencia estadistica mala...) y encima hay cientos de grupos sacando estudios de poca potencia.

Yo creo que habría que organizar la cosa para que en la publicación se premie la potencia estadística y hacer que los grupos de investigación se junten para sacar estudios grandes en conjunto que pequeños estudios en individual. Pero bueno ya sabemos como son algunos egos de científicos! : P

Además de las propuestas de Neuroskeptic! una referencia en esto de la buena ciencia en Neurociencia/Psicología cogntivia y tal!

Gracias por el post muy bueno

Pedro Tarrafeta dijo...

No he podido dejar de acordarme de la carta abierta de Kahneman a algunos psicólogos...

Un saludo

Manuel Sánchez dijo...

Hola

No sé si conoces este IgNobel, pero creo que se ajusta como un guante a lo que has escrito:

Demonstrating that brain researchers, by using complicated instruments and simple statistics, can see meaningful brain activity anywhere — even in a dead salmon.

http://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf

Un saludo