miércoles, 25 de enero de 2012

Programación genética, próximamente en tu supermercado.


Yogur de “frutas del bosque”, refresco de “naranja”, champú de “limón”, limpiador de “pino”, hidratante de “aguacate”. El diseño de aromas, los sabores de la comida y la bebida envasada y los olores de los productos de limpieza, cosmética y demás, es un negocio multimillonario. Las grandes compañías internacionales de aromas invierten millones de euros todos los años en investigación y desarrollo, incluyendo una gran cantidad de ensayos con paneles de consumidores.

Pero sacar algo en claro de los resultados de los paneles es muy difícil. Las preferencias de los sujetos pueden variar tanto que no aparece ningún patrón evidente. La salida obvia a esta dificultad sería recoger suficientes datos acerca de cada sujeto como para poder filtrar después las inconsistencias. El problema está precisamente en recoger esos datos de forma fiable. Después de oler 40 muestras ni tú sabes qué te gusta o te deja de gustar. Así, los ejecutivos de las empresas se ven tomando decisiones en base a un conjunto de datos pequeño y poco fiable.

Una solución a este problema es usar las matemáticas, en concreto modelos matemáticos que compiten entre sí para ajustarse a los datos disponibles y que después pueden combinarse para producir modelos aún más precisos. Puede que te suene al funcionamiento de la evolución de los seres vivos y es que hablamos de programación genética.

Un equipo de investigadores encabezado por Kalyan Veeramachaneni, del MIT (EE.UU.), ha abordado el reto de analizar los resultados de un panel de la empresa suiza Givaudan. Los 69 sujetos evaluaron 36 combinaciones diferentes de 7 sabores básicos a los que asignaban una puntuación en función de su atractivo olfativo. Los resultados aparecen publicados en Genetic Programming and Evolvable Machines.

Los investigadores generaron al azar para cada sujeto un conjunto de ecuaciones matemáticas que predecía las puntuaciones en función de 7 variables, los sabores. Cada conjunto se evaluó en función de 2 criterios: precisión y simplicidad. Un conjunto que, por ejemplo, predice las preferencias de un sujeto con bastante precisión usando una sola variable (la concentración de mantequilla, por caso) sería mucho más útil que otro que fuese ligeramente más preciso pero que requiriese una manipulación matemática compleja por incluir las 7 variables.

El proceso es iterativo: una vez que todos los conjuntos de ecuaciones han sido evaluados, los peores son eliminados; y a los supervivientes se les combina al azar para crear una nueva generación de ecuaciones, que vuelve a ser evaluada. Todo el proceso se repite unas 30 veces, hasta que converge en un conjunto de ecuaciones que se ajustan bien a las preferencias de un solo sujeto.

Una vez que las preferencias de cada persona tienen una expresión matemática fiable, es sencillo encontrar pautas. De esta manera los sujetos pueden clasificarse en grupos en función de gustos que tienen una expresión en lógica matemática pero que son difícilmente detectables de otra manera dentro del enjambre de datos. Por ejemplo, hay un grupo de sujetos que muestran una gran predilección por la canela o la nuez moscada, pero no por ambos sabores combinados. Tendría sentido, pues, que la empresa pusiese en el mercado dos productos, uno para los amantes de la canela y otro para los de la nuez moscada, pero cometería un grave error si comercializase uno sabor a canela con toques de nuez moscada como sugeriría un análisis tradicional. Este resultado puede parecer pobre, pero si tenemos en cuenta que para cada una de las 36 combinaciones alguien le dio la nota máxima y otro la mínima, el resultado es espectacular.

Como los investigadores no tenían la posibilidad de comprobar con los miembros del panel la validez de sus modelos en nuevos sabores, tuvieron que idear una forma de hacerlo. Con lo que habían aprendido diseñaron un conjunto de ecuaciones que representaba el conjunto de preferencias “reales” de varios sujetos ficticios. Introduciendo entonces las condiciones de contorno que implican los diseños de las pruebas de los paneles de consumidores, demostraron que sus algoritmos podían predecir los resultados.

Paradójicamente, lo más interesante para las empresas puede que sea el método de validación de los resultados más que los propios algoritmos: los diseños de las pruebas serían manifiestamente mejorables, por una parte y, por otra, una vez “modelado” un sujeto lo puedes incorporar a una base de datos que, debidamente mantenida y actualizada, te permitiría extrapolar resultados con mucha mayor fiabilidad.

Esta entrada es una participación de Experientia docet en la VI Edición del Carnaval de la Tecnología que acoge Scientia y en la Edición 2.X del Carnaval de Matemáticas que organiza Resistencia Numantina.

Referencia:

Veeramachaneni, K., Vladislavleva, E., & O’Reilly, U. (2012). Knowledge mining sensory evaluation data: genetic programming, statistical techniques, and swarm optimization Genetic Programming and Evolvable Machines DOI: 10.1007/s10710-011-9153-2