El plateau

Día 60 / 60

Hace 60 días me propuse tener un estudio hecho por Don Nelson presentado ante el CEN para poder hacer pruebas. No lo logré ☹️.

He pensado mucho por qué. Creo que llegué al plateau (aunque ya estoy saliendo).

El plateau es ese estado de un proyecto en el que después de haber avanzado mucho, simplemente dejas de avanzar. Algunos dicen que es necesario. Creo que simplemente es parte del proceso. A pesar de trabajar todos los días, no lograba sentir que avanzaba.

Llegué a dudar de cosas que creía resueltas: el modelo de negocio, el harness actual de Don Nelson, si seguir con Spark y mantener todo en un solo agente, si las skills son el camino, si los MCPs valen la pena. Lo loco es que una de las pocas cosas que nunca dudé fue el modelo: sigo confiando en los de Google.

Y a pesar de que estamos en la máxima época de los agentes, paso días enteros investigando y leyendo papers de cómo construir un agente que resuelva lo que estoy intentando resolver. No hay nada escrito. No es solo estado del arte: es un problema realmente difícil.

Las semanas que no publiqué en el blog no fue porque no estuviera trabajando — fue porque no estaba avanzando. O al menos eso sentía. Pero haciendo el recuento, sí hubo mejoras:

Mejoras importantes en Spark y Don Nelson.
Interés nacional e internacional por Don Nelson.
Primer y segundo estudio público de Don Nelson.
Un paper en construcción.

Lo que entendí

Estos días me di cuenta de algo: estoy enseñándole a la máquina a hacer estudios. Y esa no debería ser mi tarea. Mi tarea debería ser enseñarle a la máquina a aprender sola a hacer estudios.

La diferencia no es sutil. Si mañana cambio de red — digamos que quiero correr un estudio sobre la red de Bélgica — ¿algo de lo que aprendió Don Nelson sobre la red chilena le sirve? ¿O tengo que ponerlo a simular desde cero y aprender de esta nueva red desde cero?

Un humano sería capaz de adaptarse. Obviamente tendría que gastar un par de horas entendiendo la nueva red y ajustándose a la norma del otro país, pero su criterio como "Ingeniero de Estudios" se adaptaría.

Eso es lo que me tuvo atascado estas semanas: esa duda.

No es que esté estancado técnicamente. Es que llegué al límite de lo que puedo construir con el approach actual.

Llevo semanas leyendo y experimentando con aprendizaje por refuerzo y self-play. La intuición es que si Don Nelson va a generalizar de la red chilena a cualquier otra red, no puede ser porque yo le escribí las reglas — tiene que haberlas descubierto él, simulando contra sí mismo. Todavía estoy a la mitad de entender si esto es viable o si me estoy enamorando de una idea bonita.

En concreto: estoy probando si Don Nelson puede entender una red haciendo cientos de miles de simulaciones, sin que yo le escriba las reglas, y luego llevar ese conocimiento a cualquier otra red — chilena, belga, peruana — sin empezar de cero.

Gracias a mi amigo Frau, que me ayudó a entender el plateau y, de alguna forma, a superarlo.

60 / 100

Voy a extender el desafío a 100 días. Espero en los próximos 40 días ya tener un estudio presentado ante el CEN, ahora sí.

Voy a seguir documentando los próximos 40 días acá. Si trabajaste con aprendizaje por refuerzo aplicado a sistemas físicos — o tienes intuición de por qué esto no debería funcionar — escríbeme.

Lo que entendí

60 / 100

Suscríbete al blog