Pulso IA #53 | Código filtrado, CEO robot, y el test que suspendieron todos
La publicación semanal de Amplify: claridad, estrategia y comunidad para ampliar tu ventaja con inteligencia artificial.
Buenos días,
Esta semana los modelos de IA más avanzados del mundo suspendieron un test que cualquier niño de ocho años resolvería en minutos.
Por lo demás: Anthropic publicó sin querer el código fuente de su producto más influyente, OpenAI cerró la mayor ronda de financiación privada de la historia, y una empresa de tecnología decidió cancelar todas sus suscripciones a software porque los agentes ya hacen ese trabajo.
Semana tranquila.
Latidos de la semana
Anthropic publicó sin querer el código de Claude Code. Lo que había dentro cambió la conversación.
El martes 31 de marzo, un investigador publicó en X que Anthropic había subido al registro público el código fuente completo de Claude Code. El motivo fue un error humano, no un hackeo.
Lo más relevante no fue el hecho de la filtración sino lo que el código contenía. Entre los elementos más comentados: KAIROS, un nombre de función que aparece más de 150 veces y que representa un modo daemon autónomo — Claude Code funcionando como agente permanente en segundo plano incluso cuando el usuario no está activo. Un módulo que escanea los prompts en busca de señales de frustración —palabrotas, frases como “esto es un desastre”— y las registra como señal negativa en los datos internos de análisis. Y veinte funciones desarrolladas pero no publicadas todavía, esperando detrás de banderas de configuración.
Queda una pregunta flotando: ¿qué más hay dentro de los otros productos que no vimos?
OpenAI cerró la mayor ronda de financiación privada de la historia.
El miércoles, OpenAI anunció el cierre oficial de su ronda: 122.000 millones de dólares, con Amazon, NVIDIA y SoftBank como inversores principales. La valoración resultante es de 852.000 millones, más que la capitalización de mercado de la inmensa mayoría de las empresas cotizadas del planeta. La compañía genera alrededor de 2.000 millones de dólares al mes, un 40% de los cuales proviene del segmento enterprise.
En el comunicado oficial aparecieron confirmados planes que hasta ahora solo existían como filtraciones de prensa: infraestructura propia de cómputo, dispositivos hardware y una posible salida a bolsa antes de que acabe el año.
Al mismo tiempo, esta semana, los modelos de OpenAI obtuvieron menos del 0,5% en el ARC-AGI-3. El dinero y la capacidad no siempre van en la misma dirección.
Gumroad tiene nuevo CEO. Se llama Gumclaw. Es un agente de IA.
El 1 de abril, Sahil Lavingia —fundador de Gumroad, la plataforma de ventas directas para creadores— publicó que nombraba un nuevo director ejecutivo: @Gumclaw, un agente de IA. Dado el día, casi todo el mundo lo leyó como una broma.
No lo era. Lavingia confirmó que la decisión es operativa. Las responsabilidades de Gumclaw incluyen mantener la plataforma estable, corregir bugs, gestionar el soporte al cliente —cerró 251 tickets en su primer día—, aprobar facturas, pagar impuestos, contratar, despedir, y publicar actualizaciones mensuales de la empresa. El fundador sigue en la compañía pero no ocupa el cargo.
Es demasiado pronto para saber si esto funciona. Lo que sí es claro: alguien con catorce años de experiencia dirigiendo una empresa real, con algo real que perder, tomó la decisión. No como experimento de comunicación. Como estructura operativa. Eso cambia el tipo de pregunta que merece hacerse.
Warp dejó de pagar herramientas de software. Sus agentes hacen ese trabajo ahora.
Warp, la compañía detrás de la terminal de desarrollo inteligente del mismo nombre, publicó esta semana cómo reorganizó su infraestructura interna de software: cancelaron más de 10.000 dólares anuales en suscripciones a herramientas SaaS y las sustituyeron por agentes y aplicaciones generadas a demanda.
La lógica detrás de esto es simple. Si puedes construir la herramienta exacta que necesitas en veinte minutos, el modelo de “paga acceso permanente a una herramienta genérica” pierde la mayoría de su atractivo. Lo que Warp hizo no es una estrategia de reducción de costes. Es una declaración sobre cómo una empresa puede relacionar sus necesidades con el software a partir de ahora.
La pregunta relevante para cualquiera que venda —o compre— SaaS: ¿a qué velocidad escala esto fuera de las empresas de tecnología?
Gemini importa tus conversaciones de otras IA. No puedes llevarte las tuyas.
Esta semana, Google añadió a Gemini la posibilidad de importar el historial de conversaciones desde otros asistentes de IA, incluido ChatGPT. La función está disponible ya en la aplicación.
No existe ninguna función equivalente para exportar tus conversaciones desde Gemini.
Cuando una plataforma de IA construye una puerta giratoria que solo gira en una dirección, no está siendo descuidada. Está siendo muy precisa. Entiende lo que eso dice sobre cómo piensan estas empresas sobre tus datos — y sobre tu libertad de movimiento.
Las señales de esta semana no van en la misma dirección: más dinero que nunca, más incertidumbre que nunca sobre qué pueden hacer realmente estos sistemas. En Amplify Premium trabajamos cómo leer esas señales con criterio propio — para tomar posiciones antes de que sean obvias.
En profundidad
Suspendieron el test más básico del año. Todos ellos.
El 30 de marzo se publicaron los resultados iniciales del ARC-AGI-3, el nuevo benchmark del ARC Prize diseñado por François Chollet. La premisa del test es engañosamente sencilla: se introduce a un modelo en un nivel de videojuego completamente nuevo, sin reglas, sin objetivos declarados, sin ninguna referencia previa. El modelo tiene que inferir cómo funciona el juego y resolverlo. Sin instrucciones. Explorando.
Los resultados: Gemini 3.1 Pro obtuvo un 0,37%. Los modelos de OpenAI, Anthropic y xAI obtuvieron menos. El mejor agente basado en lenguaje natural rozó el 1%. Los humanos, sin entrenamiento específico, puntúan cerca del 100%.
Antes de sacar conclusiones apresuradas en cualquier dirección, vale la pena entender qué mide exactamente este test y por qué importa más de lo que parece.
Los modelos actuales —incluidos los más capaces— son en su estructura fundamental sistemas de reconocimiento de patrones entrenados sobre cantidades masivas de texto, imágenes y código. Cuando un modelo pasa el examen de acceso a la abogacía o diagnostica correctamente una patología a partir de síntomas descritos en texto, lo hace porque ha procesado versiones similares de ese problema miles de millones de veces. La competencia es real. Pero es una competencia específica: la de recuperar, combinar y reformatear patrones que ya existen en su entrenamiento.
El ARC-AGI-3 elimina esa variable por diseño. Si el videojuego es completamente nuevo, no hay patrón que recuperar. El modelo tiene que hacer algo diferente: observar lo que ocurre, generar hipótesis, probar, equivocarse, corregir. Ese ciclo —que los humanos ejecutamos de forma casi automática desde la infancia— es lo que los modelos de lenguaje actuales no hacen bien.
Curiosamente, el agente con mejor puntuación en el benchmark no era un modelo de lenguaje: era un sistema híbrido que combinaba búsqueda en grafo con aprendizaje por refuerzo. Llegó al 12,58%. Eso sugiere que la solución no será simplemente escalar más los modelos actuales, sino cambiar algo más estructural en cómo operan.
El ARC-AGI-3 no dice que la IA sea inútil. Dice algo más preciso: estos sistemas son extraordinariamente capaces dentro del espacio de lo que ya conocen, y extraordinariamente limitados fuera de él. La frontera entre los dos espacios no está marcada con ninguna señal visible. Aprenderla —en tu contexto, con tus tipos de problemas— es uno de los trabajos más importantes que hay ahora mismo para quien quiera usar IA con criterio real.
Herramienta de la semana
Google Stitch
Qué es. Una herramienta de Google para diseñar interfaces y páginas web hablando. No una herramienta de diseño con un asistente de texto al lado —una herramienta donde abres el navegador, enciendes el micrófono, describes lo que quieres, y la interfaz se genera en tiempo real mientras hablas.
Qué hace en la práctica. Stitch usa Gemini 3.1 Pro en modo Live: ve el lienzo y lo actualiza mientras le das instrucciones en voz. Puedes decir “crea una landing page para mi consultora, con servicios, testimonios y formulario de contacto” y aparece mientras hablas. Después puedes guiarlo como si fuera un diseñador: “el encabezado más minimalista”, “el botón de llamada a la acción en azul oscuro”, “mueve los testimonios arriba del todo”. Cuando terminas, exportas el diseño o lo conviertes directamente a código React, Framer o Webflow.
Por qué importa. La mayoría de herramientas de diseño requieren o conocimientos técnicos o tiempo de aprendizaje para dominar la interfaz. Stitch invierte esa lógica: tú hablas en lenguaje normal, el sistema ajusta. El resultado no son mockups de investigación — es código funcional que puedes pasar a un desarrollador o publicar directamente. Está disponible ahora mismo en stitch.withgoogle.com, sin cuenta de pago.
Limitaciones. Los outputs son un buen punto de partida, no diseños finales de producción. El modo Live requiere conexión estable y puede tener latencia. La estética por defecto es funcional pero predecible — limpia, genérica, Google. Para resultados más específicos, necesitas saber describir bien lo que quieres desde el principio.
Pregunta de la semana
Los modelos de IA que esta semana obtuvieron menos del 1% en el ARC-AGI-3 son los mismos que resumen tus documentos, redactan tus propuestas y responden los correos de tu equipo. No hay contradicción ahí — son cosas diferentes. Pero la diferencia importa.
La IA es muy buena en lo que has visto hacer antes. En lo genuinamente nuevo, sin referentes claros, el rendimiento cae sin previo aviso.
¿Qué decisiones estás delegando a la IA dando por hecho que entiende el problema — cuando en realidad solo reconoce el patrón?
Nos leemos la semana que viene.
— El equipo de Amplify
Navegar la IA con criterio no es seguir las noticias. Es saber qué pregunta hacerse cuando las noticias llegan. En Amplify Premium trabajamos esa capacidad, semana a semana.



