lunes, 20 de julio de 2009

Una red neuronal artificial es capaz de predicir las apuestas de un jugador de póquer.


Śrī Pandit Jawāharlāl Nehru, el que fuera primer ministro de la India e iniciador de una saga política, dijo una vez “La vida es como una partida de cartas. La mano que te reparten es el determinismo; la forma en que la juegas es el libre albedrío”. Un nuevo estudio publicado en el Journal of Gambling Studies recoge que una red neuronal artificial predice las apuestas de un jugador de póquer y cuánto ganará o perderá en acumulado con una precisión de tres cifras decimales.

El estudio de sistemas complejos que no pertenecen al campo tradicional de la ciencia está a la orden del día. El póquer es uno especialmente interesante. A diferencia, por ejemplo, de la bolsa de valores, en la que influyen factores como la política, la guerra o el tiempo atmosférico, los torneos de póquer no están afectados por fenómenos externos. Además, se considera que es uno de los juegos de apuestas dónde la habilidad de los jugadores influye más en el resultado final.

Haciendo buena la primera parte de la frase de Nehru, Clément Sire de la Universidad de Toulouse (Francia), demostró que su modelo [1], en el que empleó las herramientas de la mecánica estadística, de la variante del póquer Texas Hold’Em era capaz de predecir muchas de las características de un torneo de póquer, lo que implica que estas características tomadas como un todo son predecibles.

Así, por ejemplo, Sire descubrió que tanto el número máximo de fichas (de casino, dinero) que tiene el jugador con más fichas en cada momento como el número total de líderes en fichas de un torneo, son proporcionales al logaritmo del número inicial de jugadores del torneo. Esto es un resultado típico de modelos que reproducen sistemas en los que hay agentes que compiten, como los de la evolución biológica.

Si dadas unas condiciones iniciales podemos predecir el resultado en términos estadísticos, tenemos el determinismo del que hablaba Nehru. Pero, siempre podemos decir que esos son los grandes números, que cada jugador toma cada una de sus decisiones libremente en cada momento. Pero ¿qué ocurre si las apuestas que va a hacer un jugador concreto son predecibles? Eso es lo que consigue la red neuronal artificial (RNA) que ha creado Víctor Chan del Instituto Politécnico de Macao (China) [2].

La RNA que ha creado Chan es relativamente sencilla. Se trata de una RNA de retropropagación. La RNA toma un conjunto de datos de resultados obtenidos y los compara con los que ella misma ha suministrado partiendo de los mismos datos de partida, determinando así el error de la capa de nodos más externa, la de salida [S en la imagen]. Sabiendo el peso [W en la imagen] que en cada nodo de salida tiene cada nodo de la capa oculta anterior, se le asigna una “culpa” a cada uno, siendo esta culpa el error asignado a ese nodo. De esta forma el error viaja hacia atrás (de ahí el nombre), pasando por las distintas capas ocultas [O en la imagen] hasta llegar a los nodos de entrada [E en la imagen]. Las conexiones se reajustan usando esta información, calculando cuál debía haber sido su peso para minimizar el error de salida. Tras un período de “aprendizaje”, una iteración del procedimiento anterior, la RNA está lista para ser usada.

Chan usó los patrones de juego de 6 jugadores online de Texas Hold’Em, cada uno de los cuales había jugado más de 100 partidas. Introdujo en la RNA sólo las primeras partidas y le pidió que predijese cómo jugaría cada uno a continuación en función de dos modelos, M1 y M2.

M1 es el modelo para el valor de la apuesta sucesiva, que modela sucesivamente y debe predecir los valores de las apuestas en cada una de las partidas que cada jugador realiza en función de sus pérdidas/ganancias en una serie de partidas inmediatamente precedentes y de su resultado neto en el juego.

Tras el entrenamiento, M1 fue capaz de predecir el valor de las apuestas de un jugador en juegos sucesivos con una precisión de al menos tres cifras decimales de dólar en promedio, para cada uno de los seis jugadores.

M2 es el modelo para la trayectoria temporal de las pérdidas/ganancias acumuladas, que modela y predice la trayectoria temporal de las pérdidas/ganancias acumuladas de un jugador en función de las pérdidas/ganancias en una serie de partidas inmediatamente precedentes.

Increíblemente, este modelo también fue capaz de predecir la trayectoria temporal de las pérdidas/ganancias y, por lo tanto, las pérdidas o ganancias acumuladas, con una precisión similar. La influencia de las habilidades de cada jugador, sus estrategias y personalidad está prácticamente reflejada en el patrón de su trayectoria de pérdidas/ganancias de las partidas anteriores.

En resumen, a partir de una muestra de partidas iniciales, el comportamiento de cada jugador era casi completamente predecible matemáticamente de la misma manera en 6 personas. Me imagino a algún jugador profesional o al jefe de sala de un casino leyendo esto y corriendo a buscar aplicaciones prácticas; sin embargo, más trascendentemente, ¿qué significa este resultado para el libre albedrío?

Referencias:

[1]

Sire, C. (2007). Universal statistical properties of poker tournaments Journal of Statistical Mechanics: Theory and Experiment, 2007 (08) DOI: 10.1088/1742-5468/2007/08/P08013

[2]

Chan, V. (2009). Using Neural Networks to Model the Behavior and Decisions of Gamblers, in Particular, Cyber-Gamblers Journal of Gambling Studies DOI: 10.1007/s10899-009-9139-7