El test de Turing ya no sirve
El debate filosófico de los últimos 70 años alrededor de los robots y las inteligencias artificiales no se puede entender sin el test de Turing. «¿Pueden pensar las máquinas?» o más concretamente «¿pueden las máquinas hacer, lo que nosotros (como entidades pensantes) hacemos?». Para obtener respuesta se propuso someter a las IAs y las máquinas a un juego de imitación. Una prueba para ver si las máquinas podían pasar por humanos. Lamentablemente, desde hace años este test está completamente obsoleto. Estas son las alternativas.
El test de Lovelace 2.0. En 2001, Mark Riedl, profesor del Instituto Tecnológico de Georgia, diseñó una nueva prueba, con nombre inspirado en la famosa matemática. Y en 2014 lo actualizó. Mientras el test de Turing se basa en si una máquina es capaz de imitar a los humanos, la prueba de Lovelace se centra en el aspecto creativo.
Para superar el test, la IA debe ser capaz de escribir una historia de ficción, crear un poema o elaborar una pintura y obtener la aprobación de los examinadores. Esto requiere de tareas complejas como entender los tamaños relativos o la mezcla de conceptos. Sin embargo, recientemente con el boom de las IAs generativas como Stable Diffusion o ChatGPT ya hemos visto que son capaces de pasar el test con facilidad.
La prueba de esquemas de Winograd. Terry Winograd, profesor de psicología e inteligencia artificial de la Universidad de Stanford, propuso una prueba que consiste en resolver anáforas. En este caso identificar el antecedente de un pronombre ambiguo. Con esto el test pretende poner a prueba el procesamiento del lenguaje natural. Las máquinas son buenas a la hora de resolver preguntas o cuestiones que pueden entenderse como un algoritmo, pero cuando el lenguaje es más cotidiano, muchas de ellas fallan.
El ejemplo original es el siguiente: «Los concejales de la ciudad negaron a los manifestantes la autorización porque ellos [temían/defendían] la violencia». La pregunta es si «ellos» se refiere a los concejales o a los manifestantes. Para pasar la prueba, la máquina debe identificar la relación entre los distintos elementos y entender el contexto subyacente, que no se especifica directamente. Como esta frase, existen centenares similares. Hoy en día estos esquemas son la base de benchmarks como GLUE (‘General Language Understanding Evaluation’).
Test de Eugene. Eugene Goostman fue uno de los primeros en demostrar que el test de Turing estaba obsoleto. En su lugar propuso una serie de test donde se ponga a prueba las capacidades de las máquinas en campos como la visión artificial o el reconocimiento del habla. Entre las pruebas estaría desde descifrar el significado de un vídeo o algo tan «humano» como montar un mueble.
Puede parecer un proceso mecánico, pero la máquina debe identificar las partes del mueble, entender las instrucciones y finalmente montarlo. Si las IAs quieren hacerse pasar por humanos, más les vale empezar por Ikea.
Test de Marcus. En un artículo en New Yorker, el profesor de psicología de la Universidad de Nueva York, Gary Marcus, describió una alternativa al test de Turing. En este caso centrándose en otra capacidad muy humana: el humor.
La prueba de Marcus consiste en darle a la IA un programa de televisión y que nos diga cuándo deberíamos reírnos. O darle un documental de guerra y que nos describa las motivaciones políticas. Entender el sarcasmo, la ironía y el humor es el test que Marcus cree que las máquinas deberían ser capaces de pasar para poder asemejarse a los humanos. Para sorpresa de pocos, incluso esta barrera está siendo superada.
Los clásicos CAPTCHA. Los hemos visto en centenares de webs. Son el filtro antispam más conocido y con el paso del tiempo han ido evolucionando a distintas formas. Son una prueba muy eficaz (aunque cada vez menos) para detectar si es un bot o es una persona humana quien intenta acceder.
Estos CAPTCHA son ejemplos de lo que se conoce como test de Turing en reversa. La propuesta surge en los años 2000 y viene descrito por el profesor Peter Swirski. El desafío para las máquinas viene de intentar entender un concepto cuando los elementos están desordenados o directamente distorsionados. Para resolver muchos CAPTCHA hace falta mente abierta e incluso imaginación para relacionar conceptos. Un tipo de pruebas donde las IA, que trabajan con parámetros fijos, pueden tener dificultades.
Prueba de Feigenbaum. En su libro ‘La Singularidad está cerca’, Raymond Kurzweil recoge una alternativa al test de Turing propuesta por Edward Feigenbaum en 2003. La prueba consiste en elegir una materia concreta e intentar que la IA se haga pasar por un experto en ese campo. Si el humano no logra detectarlo, la máquina pasa la prueba. Aquí entramos desde la complejidad de la materia hasta las peculiaridades menos conocidas. E incluso poder describir temas de ese campo con autoridad y coherencia.
El test definitivo: la prueba de Ebert. En este caso no es un psicoanalista ni un ingeniero el que propuso la prueba, sino el crítico de cine Robert Ebert. Se da el caso que Ebert perdió la voz tras una cirugía y utilizado un sintetizador de voz. Y aquí es donde viene la prueba: el desafío es una máquina que sepa replicar las entonaciones humanas, sincronizar bien las palabras y lo más complicado: ser capaz de hacer a la gente reír.
Para que una IA logre hacernos reír no basta simplemente con elegir un chiste de una base de datos. Debe ser capaz de transmitir, de emocionar, de aportar algo original y novedoso. Probablemente de todas las alternativas al test de Turing, la prueba de Ebert es la más complicada de pasar.
Imagen generada con Midjourney por Enrique Pérez
FUENTE
XATAKA