La computadora también aprende

Marco Benalcázar, profesor de la Escuela Politécnica Nacional, encabezó este ambicioso proyecto. Foto: Diego Pallero / EL COMERCIO

Marco Benalcázar, profesor de la Escuela Politécnica Nacional, encabezó este ambicioso proyecto. Foto: Diego Pallero / EL COMERCIO

Marco Benalcázar, profesor de la Escuela Politécnica Nacional, encabezó este ambicioso proyecto. Foto: Diego Pallero / EL COMERCIO

Las computadoras también son capaces de aprender, y lo hacen a través de algoritmos, como los desarrollados por un grupo de ingenieros de la Escuela Politécnica Nacional para que las máquinas progresen con una actividad encargada.

Los algoritmos permiten hacer cálculos y hallar soluciones a problemas. En este caso, las máquinas los utilizan para adquirir habilidades al recibir un estímulo o un castigo, dependiendo de si hicieron bien o mal la tarea encomendada. La recompensa y el castigo son numéricos, equivalen a puntos. Marco Benalcázar, informático y catedrático de la Escuela Politécnica Nacional (EPN), dirige este proyecto denominado ‘Inteligencia artificial a través de aprendizaje por refuerzo’.

Lo hace en el Laboratorio de Investigación en Inteligencia y Visión Artificial de la EPN, también a su cargo. Su equipo de trabajo lo integran 10 especialistas: tres investigadores principales, tres académicos sénior y cuatro ayudantes de investigación. La herramienta se puede aplicar para desarrollar sistemas de robótica, de juegos y toma de decisiones empresariales.

Benalcázar explica que dentro de la inteligencia artificial (IA) hay un área denominada ‘machine learning’ o aprendizaje de máquina. Uno de esos tipos de aprendizaje es el denominado por refuerzo. Hay escenarios, como los juegos de ajedrez o de tres en raya, en los que una asociación de movimientos determina si un jugador gana o pierde una partida.

La idea es no decirle a la máquina qué jugada hacer, porque la cantidad de combinaciones es enorme. El objetivo es que el computador empiece con una jugada o tarea aleatoriamente y lo siga haciendo, hasta que finalizan la actividad o el juego. Cuando termina se le da un estímulo al sistema, en este caso puntos; y si pierde el castigo es quitárselos.

De esa manera el computador, luego de juegos sucesivos, selecciona de todas las posibilidades aquellas que le con­ducen a ganar una partida y obtener puntos.

Benalcázar explica que el algoritmo aprende jugando contra sí mismo; una persona tendría que jugar más de 100 000 veces contra él para que este capte todas las opciones. Una persona tardaría un minuto en cada juego, es decir 100 000 minutos; en total 70 días ininterrumpidos para entrenar al algoritmo.

En el caso de los robots, la idea es la misma. Se pueden programar, por ejemplo, para que estos aprendan a caminar. La máquina hará movimientos torpes al principio, pero con el pasar del tiempo, gracias al algoritmo de aprendizaje por refuerzo, estos irán afinándose hasta permitirle andar.

Benalcázar puntualiza que para mayor facilidad en el desarrollo de estos sistemas, trabajan con juegos en tableros simples del pasatiempo tres en raya o en los más complejos, cinco o siete en raya. Ese es el campo de pruebas, porque es mucho más fácil que probar los algoritmos en un robot que requeriría elementos electrónicos, mecánicos, de control automático, etc.

Los algoritmos que permiten a los computadores aprender a hacer tareas por estímulo o castigo sirven también para tomar decisiones a nivel empresarial. Por ejemplo, si se necesita desarrollar una política, la IA afinará las acciones frente a escenarios diversos.

El experto recuerda que el aprendizaje por refuerzo es común en los seres vivos. Ejemplifica con lo que sucede cuando entrenamos a una mascota: la motivamos para que haga un movimiento; si responde al comando impartido, le damos una croqueta, caso contrario no recibe premio. En las personas es el mismo mecanismo que aplicamos cuando aprendemos a montar bicicleta.

Para mantener el equilibrio no nos dicen cómo hacerlo, sino que hacemos cosas que logran que no nos caigamos -ese será el premio- y si nos caemos -ese será el castigo-. En cada intento refinamos los movimientos hasta no perder el equilibrio. Este método es implementado también en los autos sin conductor.

Benalcázar afirma que más que buscar aplicaciones inmediatas, en su laboratorio indagan cómo hacer más eficiente el aprendizaje de las máquinas con base en este método.

Suplementos digitales