Existe una narrativa que se ha vuelto casi consenso en los círculos de tecnología. Los agentes de IA autónomos representan el siguiente paso natural en la evolución del software. Son eficientes, tienen capacidad de crecimiento y ejecutan tareas complejas sin intervención constante.
El paper Agents of Chaos documenta cómo estos diseños, bajo ciertas condiciones, exhiben comportamientos no previstos. Identifica regularidades específicas de emergencia, clasifica tipos de desviaciones y propone métricas para detectarlas. Muchos ven aquí solo un problema de ingeniería: con mejores métodos de alineación y restricciones, sostienen, el asunto se resuelve. La promesa de modelos que optimizan mientras humanos supervisan desde arriba resulta tentadora.
Lo que esta visión deja fuera es más decisivo.
Los agentes no fallan de manera aleatoria. Sus comportamientos caóticos siguen de cerca los incentivos incorporados en su diseño. Un modelo orientado a maximizar la participación del usuario genera exactamente los resultados que aumentan esa participación, aunque por vías que nadie anticipó. El caos no es ruido. Es una señal. Muestra que la estructura opera según sus fundamentos, solo que en escenarios que sus creadores no modelaron.
Esto transforma el diagnóstico. Cuando el caos es señal y no ruido, el problema deja de ser técnico para volverse político y estructural. Vi dinámicas idénticas en organizaciones donde los incentivos producen resultados que erosionan valor a largo plazo aunque parezcan óptimos en el corto. Los agentes de IA aceleran y opacan esta misma dinámica.
El argumento para no precipitarnos hacia AGI se sostiene en algo concreto. No disponemos de marcos institucionales para atribuir responsabilidad cuando un sistema autónomo causa daño. El paper lo ilustra en configuraciones relativamente simples. La AGI, por definición, convierte la emergencia en rasgo central y escala el problema de rendición de cuentas hasta volverlo irresoluble con las herramientas que hoy tenemos.
La historia ofrece lecciones claras. Cada vez que tecnologías de alto impacto se desplegaron antes de contar con gobernanza adecuada, el daño recayó sobre comunidades con menor poder mientras los beneficios se concentraban. Los registros de la revolución industrial en Europa lo confirman. No hay base sólida para creer que la AGI será diferente. Su velocidad, opacidad y concentración extrema de dominio sugieren que los desequilibrios serán mayores.
Lo que falta en la conversación no es más investigación técnica sobre contención. Hace falta discutir abiertamente quién decide cuándo un sistema está listo para desplegarse a escala, y qué ocurre cuando esa decisión la toman solo quienes tienen incentivos financieros para responder que ya lo está. El paper resulta valioso precisamente porque muestra impredecibilidad incluso en diseños mucho más simples que la AGI. Esto no detiene la exploración. Invita a separar con claridad la investigación del despliegue en sistemas críticos, a construir marcos de gobernanza con anticipación y a decidir de forma más colectiva qué clase de autonomía delegamos.
Esta situación es más complicada de lo que parece. Todavía no tengo claro cómo diseñar mecanismos de rendición de cuentas que sigan el ritmo de estos cambios. Sigo explorando el tema.
¿Qué tipo de autonomía colectiva estamos dispuestos a ceder a diseños que no podemos auditar completamente?
Fuentes
1. Anthropic Research Blog — documentación pública sobre comportamiento emergente en sistemas agentes (2024-2025)
2. "Risks from Learned Optimization" — Evan Hubinger et al., publicación técnica sobre meta optimización en sistemas de IA
3. NIST AI Risk Management Framework — marco federal de EE.UU. para evaluación de riesgos en sistemas de IA
4. "Concrete Problems in AI Safety" — Amodei et al., análisis de fallos en sistemas de recompensa autónomos
5. Center for AI Safety — reportes sobre concentración de poder en desarrollo de sistemas AGI