Anotaciones del programador - Un informático en el lado del mal

Un informático en el lado del mal

Blog personal de Chema Alonso sobre sus cosas.

Marvel Cinematic Universe "MCU" Versión Siglo XX
Si os digo que soy un aficionado a Universo Marvel, los que me conozcáis sabréis que me estoy quedando corto. Pero dejémoslo ahí, en sólo eso, en que me gustan los Superhéroes de Marvel. Dicho esto, muchos de vosotros habréis visto, seguramente, las películas de Marvel Cinematic Universe Phase One o las nuevas de la Phase Two. Pero antes de estas maravillas, tuvimos otro MCU, en versión Alpha, y es de lo que os voy a hablar ahora.

Figura 1: Marvel Cinematic Universe "MCU" Versión Siglo XX

Voy a dejar fuera de este artículo las películas de la trilogía de Spiderman y de Amazing Spiderman, que ya las damos por conectadas y parte del MCU. También la de Hulk de 2003, que para mí forma parte también del MCU. Y las de X-Men de Fox con todas sus ramificaciones - incluida la serie Legion y la película de Los Nuevos Mutantes. Y las de Los 4 Fantásticos del Siglo XXI, que también son ya casi parte del MCU.

Figura 2: Los Héroes Marvel en el Siglo XX

Voy a irme un poco más atrás, antes de que FOX y Marvel hicieran las modernas películas de superhéroes, a los años donde los Superhéroes de Marvel, durante el Siglo XX, hacían sus primeras apariciones. Un Marvel Cinematic Universe "MCU" Siglo XX que, si no lo conoces, te llamará la atención. Aquí van.

Spider-Man

Fue el primero de los superhéroes en saltar al mundo de la televisión con actores. Primero con unas apariciones muy para niños de 5 minutos que se llamaban "Spidey Super Stories" que se emitió de 1974 a 1978 y que tenía narradores de las historias. Entre otros, el mítico Morgan Freeman. Aquí tenéis un episodio.

Figura 3: Spider Super Stories

En 1977 llego la primera película de "Spider-Man", que fue de lo más famoso durante muchos años. Era un Piloto para la serie de Televisión, y el actor era el mítico por este papel Nicholas Hammond. Ese mismo año, comenzaría la Serie de TV "Spider-Man" que duró dos Temporadas, hasta Julio de 1979. De esa serie, se construyeron dos películas, basadas en dos tramas de dos episodios cada una. En 1979 Spider-Man "Strikes Back" y en 1981 Spider-Man "The Dragon´s Challenge". El mercado del vídeo-club comenzaba a mandar.

Figura 4: Trailers de las películas de Nicholas Hammond.

En 1978, Spider-Man tuvo una serie en Japón, mítica. Con 41 episodios de 24 minutos duró hasta el año 1979, y tuvo una película corta, que era de la duración de un capítulo, pero que se sacó como extra y cómo Spider-Man japonés (mini-película)

Figura 5: Spider-Man Japonés

Por supuesto, en el Siglo XX hubo muchas más series de Spider-Man de dibujos animados, pero eso es otra historía. Después vendrían las películas de Spider-Man más modernas que todos conocemos. Y si no las conoces...abandona este blog.

The Incredible Hulk (con Daredevil y Thor)

Mítico es esta primera iteración de The Incredible Hulk, con la mítica pareja de Bill Bixie como Bruce Banner y Lou Ferrigno como The Hulk. La obra completa está formada por 2 películas para televisión para dar inicio a la saga, durante el año 1977, llamadas "The Incredible Hulk" y "The Return of the Incredible Hulk: A Death in the family". Después, la serie tuvo 80 capítulos hasta el año 1982.

Figura 6: The Incredible Hulk

Y de 1988 a 1990 tres películas, una cada año. La primera "The Incredible Hulk Returns" (1988) con The Mighty Thor, "The Trial of the Incredible Hulk" (1989) con Daredevil, y "The Death of the Incredible Hulk" (1990). Como podéis ver, dando entrada a más héroes del Universo Marvel, como Thor o Daredevil

Captain America

En el Siglo XX el Capitán Ameríca tuvo también su "Trilogía". Las dos primeras TV Movies fueron en el año 1977, donde se emitió "Captain America" (1979) y "Captain America II: Dead too soon" (1979) con Reb Brown como "Capi". Y por último un Reborn con "Captain America" (1990). Mundo vídeo club manda.

Figura 7: Películas de Captain America en el Siglo XX

Pero el Capitán América fue un pionero, porque en el año 1944 él tuvo su Serial de 15 capítulos, en plena II Guerra Mundial. Aquí lo podéis ver íntegro en Youtube.

Figura 8: Captain America - Serial TV (1944)

Después de estos héroes, hemos tenido iniciativas individuales para algunos otros personajes de Marvel, no todos superhéroes, pero todos parte del MCU, que quede claro.

Doctor Strange, The Punisher & Nick Fury

Estos tres personajes son parte fundamental del MCU moderno, pero tuvieron sus inicios en el Siglo XX. El primero de ellos, el Doctor Strange, que en 1978 tuvo una Película de Televisión. Y ésta, os lo confieso, aún no me la he visto.

Figura 9: Doctor Strange 1978

En 1989, tuvimos la película de "The Punisher" protagonizada por el mítico Dolp Lundgren, en una peli que tienes en Disney+ disponible hoy en día, y que me la vi hace muy poquito.

Figura 10: The Punisher 1989

Y la última de estos héroes que tantas veces se ven la caras juntos, es una "mítica" película de televisión de "Nick Fury: Agent of S.H.I.E.L.D.", protagonizada por, ni más, ni menos, que el mismísimo David Hasselhoff en 1998. Confiesa que ahora estás deseando verla.

Figura 11: Nick Fury "Agent of SHIELD" 1998

Pero no fueron todos lo superhéroes que tú conoces, aún hubo más personajes de Marvel que llegaron a la gran pantalla, que formaron parte de este particular MCU del Siglo XX.

Howard The Duck, Blade & Night Man

Una de las películas que fue de las más taquilleras de los héroes Marvel se encuentran aquí, donde Howard the Duck (1986) consiguió reventar las taquillas con este simpático y único personaje. Además, la película de Blade: El Cazador de Vampiros, un personaje que llega de las páginas de Drácula, que en 1998, lo reventó. En esta última, con Santiago Segura como extra,

Figura 12: Howard the Duck 1986

Pero a estas hay que sumar otra película de un personaje Marvel, pero que vino de la línea Ultraverse (esto ya es para comiqueros) que se llama Night Man, y que fue hecha en forma de serie para la televisión, con dos temporadas.

Conan y el mundo bárbaro.

Para terminar, si tenemos en cuenta que el personaje de CONAN se incorporó a Marvel, en el año 1982 tuvimos la mítica Conan el Bárbaro y en 1984 Conan el Destructor, además de la serie de televisión Conan el Aventurero (1997–1998). Y dentro de ese mundo, las películas de los personajes de Red Sonja en 1985 y Kull el Conquistador en 1997.

Figura 13: MCU Siglo XX (Parte 2)

X-Men y Los 4 Fantasticos

Para terminar, no quería hacerlo sin hablar de los mutantes. Fox lanzaría las películas de los mutantes X con cierto éxito, donde además estarían todas las de X-Men, más las de Logan/Lobezno, la serie de Legion, los Nuevos Mutantes, y Masacre, pero en el Siglo XX, justo antes de la primera X-Men, tuvimos la película de Generation X (1996), con Enma Frost, y Banshee, entre otros personajes de la serie.

Figura 14: Generation X

Y, a pesar de haber tenido su anuncio, la película de Los 4 Fantasicos de 1994 no se llegaría a estrenar pero quedaría hecha por no perder los derechos. Así que la buscas la puedes encontrar, que salió al mercado del vídeo.

Figura 15: Los 4 Fantásticos 1994

Muchas otros héroes se quedaron en el tintero, pero, no obstante, estaba claro que había interés por los personajes de Marvel, solo había que dar bien con la tecla para construir la obra de arte que fue el MCU: Phase One. Por si tenéis interés, os dejo el Time-Line del MCU Siglo XX que he creado para mí.

MCU Siglo XX - Orden Cronológico
- 1944: Captain America - Serial TV (1944)
- 1974-1977: Spidey Super Stories (29 episodios)
- 1977: Spider-Man: Piloto
- 1977-1979: Spider-Man: TV Series (13 episodios)
- 1977: The Incredible Hulk
- 1977: The Return of The Incredible Hulk: A Death in the Family
- 1978-1979: Spider-Man Japonés (41 episodios)
- 1978: Spider-Man Japonés mini-película
- 1978-1982: The Incredible Hulk (TV Series) (80 episodios)
- 1978: Doctor Strange
- 1979: Spider-Man "Strikes Back"
- 1979: Captain America
- 1979: Captain America II: Dead too soon
- 1981: Spider-Man: The Dragon's Challenge
- 1982: Conan el Bárbaro
- 1984: Conan el Destructor
- 1985: Red Sonja
- 1986: Howard the Duck
- 1988: The Incredible Hulk Returns
- 1988: Blade: Cazador de Vampiros
- 1989: The Trial of the Incredible Hulk
- 1989: The Punisher
- 1990: Captain America
- 1990: The Death of the Incredible Hulk
- 1994: Los 4 Fantásticos 1994
- 1996: Generation X
- 1997-1999: Night Man (44 episodios)
- 1997-1998: Conan el Aventurero (22 episodios)
- 1997: Kull el Conquistador
- 1998: Nick Fury: Agent of S.H.I.E.L.D.
¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
Cómo desplegar Zero Trust para Agentes IA en Cloudflare (1)
Los modelos de lenguaje que aportan la inteligencia a un Agente IA procesan en un mismo flujo las instrucciones y los datos, no hay una frontera que distinga de forma fiable una orden legítima de una instrucción maliciosa incrustada en el contenido. Esa premisa estructural es la tesis de este documento: la seguridad del Agente de IA no puede residir en el propio modelo, sino en controles externos, deterministas y verificados de forma continua. Es, precisamente, la lógica del Zero Trust.

Figura 1: Cómo desplegar Zero Trust para Agentes IA en Cloudflare (1)

En este artículo se pretende dar traslado a los principios Zero Trust, reconocidos por NIST, CISA, NSTAC, OWASP, CSA y Anthropic, al despliegue de Agentes IA gestionados sobre la infraestructura de Cloudflare. Tras situar al agente como sujeto a proteger, se recorren siete dimensiones de control (identidad, acceso, segmentación, validación de datos, observabilidad, contención y gobernanza), mostrando en cada uno qué pide el principio, qué ofrece hoy la plataforma y cómo avanzar hacia un estadio de madurez óptimo.

1.-La premisa fundamental: el modelo como eslabón estructural.

La seguridad de un sistema agéntico parte de una observación que hay que tener presente, ya que en ella se basa todo lo demás. Los modelos de lenguaje frontera actuales, con independencia del proveedor, procesan en un mismo flujo las instrucciones del sistema, los datos que se le entregan, las instrucciones del usuario y, cuando existe, una instrucción maliciosa insertada en dichas instrucciones o incrustada en los datos. No posee una división en su arquitectura que identifique de forma fiable una orden legítima, de una instrucción inyectada en el contenido que analiza. Esto no es una limitación de un modelo concreto, es una propiedad estructural del paradigma.

Figura 2:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"
escrito por Chema Alonso con la colaboración dePablo González,Fran Ramírez,Amador Aparicio,Manuel S. LemosyJosé Palanco en 0xWord

El consenso en el sector así lo recoge. OWASP señala que la inyección de Prompts es viable por la propia naturaleza de la IA Generativay que debido a la influencia estocástica en el funcionamiento de los modelos, no está claro que exista un método eficaz a la hora de prevenirlo. Microsoft lo enfoca desde la arquitectura: el modelo no ejecuta nada por sí mismo, simplemente genera la solicitud. Es el código de la aplicación o el framework quien lo interpreta y lo ejecuta, siendo esa separación un límite clave en la seguridad. Anthropic por su parte señala en su marco de seguridad para agentes, que el Agente IA puede ser manipulado y que el daño que puede provocar es llevado a cabo a velocidad de máquina.

De esta premisa se deduce una consecuencia directa para el diseño: la seguridad no puede apoyarse en el modelo. Si las instrucciones del sistema son, para el modelo, un texto más dentro del mismo flujo que los datos, entonces los controles existentes para que el modelo “decida bien” son insuficientes por construcción. Una protección efectiva ha de apoyarse en controles externos al modelo y de forma determinista, para poder eliminar la dependencia interpretativa que este haga de su contexto.

Es la lógica que el Zero Trust aplica desde su origen: NIST sitúa la decisión de acceso en el punto de decisión de y un punto de aplicación de políticas (PDP/PEP) externos a la entidad que solicita el acceso y el mismo estándar advierte que las entidades que no son personas, como los agentes de software, pueden ser inducidas a realizar acciones para las que no tienen privilegios.

2.- Zero Trust aplicado a agentes: principios y método.

Esta es la base sobre la que se construye el resto del documento. Implementar Zero Trust en Agentes IAno es endurecer el modelo, sino restringir su autonomía con controles externos, deterministas y verificables de forma continua, de tal manera que la confianza no exista de forma implícita ni permanente, sino que sea evaluada en cada una de sus acciones.

2.1.- Los principios, aplicados a un sujeto que actúa solo.

El Zero Trust no es un producto ni una arquitectura concreta, es un conjunto de principios rectores. Su premisa: la confianza no se concede de forma implícita, sino que se evalúa de forma continua, partiendo de que la red debe considerarse comprometida. Tres principios articulan esta premisa y los tres adquieren un matiz particular, cuando el sujeto no es una persona, sino unAgente IA que interpreta objetivos y ejecuta acciones por sí mismo para conseguir sus metas.

Figura 3: Los tres principios Zero Trust aplicados al agente.
Elaboración propia a partir de (NIST, 2020).

El primero, Verificar Siempre: toda solicitud de acceso se autentica y se autoriza con independencia del origen, y hacerlo una vez no es suficiente. La autenticación y la autorización han de ser dinámicas y han de reevaluarse durante la sesión. El estándar advierte que evaluar cada petición de forma aislada puede dejar pasar un ataque mantenido dentro de un rol autorizado, mientras tener el contexto en cuenta permite detectar desviaciones en relación con la tarea esperada. Esto se hace especialmente relevante en agentes, cuya actividad legítima es intensa y una anomalía en su comportamiento puede ser la primera señal de compromiso.

El segundo, Asumir la Brecha: se diseña dando por hecho que el compromiso ya ha ocurrido u ocurrirá. Se trabaja para limitar el daño. En agentes, esto es contener el radio de impacto (Blast radius) si el compromiso se ha producido o antes de que este suceda.

El tercero, Mínimo Privilegio: permitir solo el acceso estrictamente necesario para realizar una tarea. En el plano agéntico esto debe afinarse: no solo a que datos accede el agente, sino qué herramientas invoca, con qué frecuencia y sobre qué recursos. La autonomía deja de ser un valor por defecto, en línea con lo que describe OWASP, al tratar la agencia excesiva como un riesgo propio de las aplicaciones agénticas.

2.2.- El control vive fuera del modelo: el modelo PDP/PEP.

De su premisa fundacional se desprende que el mecanismo donde se decide y se aplica la confianza no puede estar integrado en el propio sujeto. La arquitectura Zero Trust lo resuelve separando estas funciones: la decisión recae en el Punto de Decisión de Políticas (PDP) y su ejecución en un Punto de Aplicación de Políticas (PEP), siendo ambos componentes totalmente externos a la entidad que solicita el acceso. El objetivo fundamental de este diseño es acercar dichos controles al recurso protegido, reduciendo así al mínimo la zona de confianza implícita.

Figura 4: Core Trust Zero Logical Core. Fuente:
NIST SP 800-207, Zero Trust Architecture · Dominio público

Esto encaja con la naturaleza del Agente IA. El agente genera la intención de actuar, produciendo una secuencia de Tokens que representa una llamada a la herramienta, que es después el código externo quien interpreta y ejecuta.

Figura 5: El control fuera del modelo (PDP/PEP).
Elaboración propia a partir de (NIST, 2020).

Es en ese punto de ejecución, fuera del modelo, donde PEP puede evaluar y autorizar la acción de forma determinista. El control no consiste en convencer al modelo de que se comporte, sino en situar la decisión en un componente externo.

2.3.- Test de diseño: ¿imposible o solo tedioso?

Tener un criterio práctico ayuda a evaluar cada control: hacerse la pregunta de si un posible ataque se convierte en algo “imposible” o si solo es algo tedioso, puede ser un principio. Los controles diseñados para añadir fricción son insuficientes ante un adversario que recorre sus pasos a gran escala y con un coste por intento descartable.

Esto importa a la hora de trabajar con Agentes IA por una razón concreta: un atacante que opera a través de un agente, o el propio agente comprometido, actúa a velocidad de máquina y con una paciencia cuasi ilimitada. Ante la duda, es preferible tener un control que impida una capacidad a mantener solo una limitación que ralentice una actividad dañina.

2.4.- El método para escribir políticas: la interrogación de cada acción.

Definir el privilegio mínimo de cada uno de los agentes, exige un método para redactar políticas acceso. El informe del NSTAC al Presidente recomienda el método Kipling añadiendo “cómo” (5W+H) para la redacción de políticas Zero Trust, como forma de determinar quien o qué puede acceder a la superficie que se quiere proteger. El método utiliza las seis preguntas quién, qué, cuándo, dónde, por qué y cómo, convirtiéndolas en atributos sobre los que se construye las reglas.

Figura 6: Método Kiplling para Zero Trust for Policy Creation

Aplicado a un Agente IA, ofrece una visión interrogativa sobre cada acción: qué agente la solicita, qué herramienta pretende invocar, en qué momento, sobre qué recurso, con qué propósito y de qué manera. Hay que precisar que el NSTAC recomienda el método para redactar políticas de acceso en general. Aplicarlo a cada acción de un agente y reevaluarlo de forma continua es una extensión natural llevado al plano agéntico, de forma que se alinee con el principio Zero Trust de verificación continua.

Esa coherencia tiene una consecuencia de diseño: si cada acción se interroga como si fuera la primera, sin que el agente acumule una confianza que después pueda ser aprovechada, se cierra el vector del agente que se comporta de forma intachable hasta el momento de actuar, un riesgo que el propio Zero Trust contempla al asumir la brecha y exigir reevaluación continua.

2.5.- Un recorrido por estadios, no un interruptor.

Conviene encuadrar todo lo anterior en cómo el sector enfoca la adopción del Zero Trust: es un recorrido gradual. El modelo de madurez de CISA lo describe en cuatro estadios: tradicional, inicial, avanzado y óptimo. Subraya que la progresión es incremental, que puede llevar tiempo y que cada pilar avanza a su propio ritmo.

Figura 7:Zero Trust Maturity Model v2.0. FuenteCISA

Situar un despliegue de agentes en ese recorrido permite reconocer lo ya resuelto y orientar las aportaciones hasta el siguiente estadio, que CISA define con rasgos como el acceso justo a tiempo (JIT) y justo lo necesario, el privilegio mínimo dinámico, las políticas que responden a disparadores automáticos y la verificación continua. Esos rasgos del estadio optimo serán la referencia hacia la que se orientará la sección de aplicación.

3.- El sujeto: el agente gestionado en Cloudflare (managed-agent).

Antes de aplicar controles es perceptivo definir que es lo que se controla. El modelo Zero Trust razona sobre entidades que solicitan acceso a recursos y trasladar ese razonamiento a un Agente IA exige saber que partes lo componen, donde se ejecuta cada y que frontera de confianza lo separan. Esta sección sitúa al agente como un sujeto Zero Trust, señalando aquellos puntos donde, en la sección siguiente, enganchan concretamente los controles.

3.1.- Dos formas de ejecutar un agente, una misma capacidad.

Anthropic distribuye la misma capacidad agéntica en dos formatos operativos distintos:
- El Agente SDK es una librería que ejecuta un bucle del agente, la lógica decide el paso siguiente, enruta las llamadas a herramientas y realimenta los resultados, todo dentro del propio proceso.
- Managed Agents, en cambio, es una API RESTgestionada en la que Anthropic ejecuta el agente y el sandbox, mientras la aplicación envía eventos y recibe los resultados de forma continua a medida que se producen.
La recomendación publicada por Anthropic es prototipar localmente con el Agent SDK y pasar a Managed Agents para producción. Esta distinción importa para Zero Trust porque determina quien opera cada componente y, por tanto, donde puede situarse cada control.
Managed Agents se organiza en torno a cuatro conceptos que conviene fijar, porque reaparecen en cada control posterior. El Agent (agente) es la definición del agente: el modelo, el prompt del sistema, las herramientas, los servidores MCP y las skills. Se crea una vez y se referencia a lo largo de muchas sesiones. El Environment (entorno) es la configuración de donde se ejecutan las sesiones: un sandbox en la nube gestionado por Anthropic o un sandbox ‘serf-hosted’ sobre la infraestructura propia. La Session (sesión) es una instancia del agente en ejecución dentro de un entrono, que realiza una tarea concreta y genera salidas.

Los Events (eventos) son los mensajes que se intercambian entre la aplicación y el agente: turnos del usuario, resultados de herramientas y actualizaciones de estado. Esa cuarta pieza, los Events, para un entorno Zero Trust es más relevante de lo que a priori resultaría ser. El historial de eventos persiste en el lado del servidor y puede recuperarse íntegro, lo que convierte a la sesión en un registro auditable de todo lo que el agente ha hecho.

Figura 8: Despliegue de referencia de Claude Managed Agents en Cloudflare

Otro matiz, se refiere a entornos regulados: entre los casos de uso que se desprenden de la propia documentación, se señala la ejecución ‘self-hosted’, es decir, sandboxes sobre infraestructura propia para cumplimiento o residencia de datos. El despliegue de referencia de Cloudflare se realiza en la forma de ejecución ‘self-hosted’: Anthropic define la capacidad y avisa del inicio y del final de cada sesión, mientras que el plano de control y los sandboxes donde el agente se ejecuta, se despliegan en la cuenta de Cloudflare de quien lo implementa.

3.2.- El plano de control: un Worker y un Durable Object por sesión.

En el despliegue de referencia de Cloudflare, el plano de control es un único Cloudflare Worker. Ese Worker recibe los webhooks de la plataforma de Managed Agents, despacha cada sesión a una sandbox MicroVM o ‘Isolate’ y ofrece un panel de control por HTTPs. No mantiene ningún proceso de larga duración, sino que trabaja únicamente en respuesta a un webhook de Anthropic más un cron diario que elimina filas antiguas. Esta condición implica que no hay un servidor del Agente IA ‘siempre conectado’ que defender, sino una serie de activaciones acotadas y trazables.

Figura 9: Arquitectar del despliegue de referencia de Cloudflare

Una pieza decisiva desde la perspectiva Zero Trust es que una sesión está respaldada por un ‘Durable Object’ que se ejecuta en Workers, fuera de la propia sandbox. La documentación de Cloudflare lo describe como un fragmento de código con estado que permite almacenar información sobre la sesión y controlarla desde una ubicación de confianza.

En términos del modelo Zero Trust, esto sitúa el punto de decisión y el punto de aplicación de políticas (PDP/PEP) en un lugar distinto y de mayor confianza que el sujeto controlado: el agente se ejecuta dentro del sandbox, pero quien lo gobierna lo hace desde fuera. Es la separación que hace posible que un control sea determinista en lugar de depender de la voluntad del modelo, una distinción sobre la que se volverá en el punto 4 adelante.

Figura 10: Arquitectura del despliegue.

El ciclo de vida de una petición sigue seis pasos que conviene conocer porque cada uno es una oportunidad de control.
- Primero un webhook entrante verifica mediante firma, HMAC-SHA256 según la verificación Standard Webhooks con una tolerancia de +/-300 segundos, guarda el evento en la base de datos D1 en Cloudflare y cuando el evento indica que la sesión ha arrancado, pasa a atender el trabajo pendiente.
- Segundo, recoge ese trabajo consultando la cola del entorno de Anthropic.
- Tercero, elige el backend de ejecución: la elección se hace por agente, se guarda en D1 y queda en caché para las siguientes peticiones. Por defecto es MicroVM.
- Cuarto, envía el trabajo al sandbox elegido (el contenedor MicroVM o el Durable Object del Isolate) y aquí ocurre el paso decisivo: ambos aplican la política del ‘egress’ de la sesión antes de iniciar cualquier código del agente.
- Quinto, ejecuta: en MicroVM las herramientas estándar (bash, operaciones de ficheros) corren dentro del contenedor, mientras que las herramientas personalizadas las atiende un despachador alojado en el Durable Object; en Isolate no hay contenedor y tanto las operaciones de fichero como la ejecución de código se hacen a través del mismo despachador.
- Sexto, el estado persiste: MicroVM guarda una instantánea de su directorio de trabajo en el almacenamiento de objetos R2 de Cloudflare cuando la sesión se queda inactiva e Isolate lo conserva automáticamente en el almacenamiento SQLite de su Durable Object.
De todo eso conviene destacar el cuarto paso. Tanto el backend de MicroVM como el de Isolate adjuntan la política de ‘egress’ de la sesión antes de iniciar cualquier código del Agente IA. Es decir la frontera de red de la sesión queda establecida antes de que el agente pueda actuar, no después. Esta precedencia reaparecerá como un patrón en varios controles de la sección 4más adelante en este artículo.

3.3.- Dos backends de ejecución y un reparto explícito de responsabilidades.

El Agente IA se ejecuta en uno de dos backends. El backend MicroVM utiliza una sandbox SDK y los contenedores de Cloudflare, ofreciendo un shell completo dentro del contenedor y persistiendo su directorio de trabajo mediante snaptshots a almacenamiento de objetos. El backend de Isolate se construye sobre Agents SDK de Cloudflare y los Dynamic Workers. No tiene contenedor alguno y realiza las operaciones de sistema de ficheros y de ejecución de código a través de llamadas a herramientas dentro del propio Durable Object con almacenamiento SQLite.
La elección entre ambos tiene consecuencias para varios controles (observabilidad del terminal, intercepción de tráfico, superficie shell) que se detallan más adelante. Las sesiones Isolate, no admiten la conexión de terminal en vivo que si ofrece MicroVM. Bajo el backend de MicroVM subyace el modelo de seguridad de Sandbox SDK, que conviene leer en clave Zero Trust porque reparte las responsabilidades de forma explícita. Cada sandbox se ejecuta en su propia máquina virtual, lo que proporciona un aislamiento fuerte.

Figura 11: Build Agents on Cloudflare

Ese aislamiento, sin embargo, opera entre sandboxes no dentro de ellos. Entre sandboxes el sistema de ficheros, la memoria y la red están aislados, pero dentro del mismo sandbox todos los procesos ven los mismos ficheros, por lo que ejecutar código no confiable exige el uso de sandboxes separados por usuario.

Lo relevante para una guía de implementación, es que la documentación advierte que el aislamiento a nivel de contenedor no protege de forma automática de cualquier amenaza. El sandbox no puede explotarse para escapar del host, pero sí puede usarse indebidamente si no se aplican una serie de patrones de seguridad (validación de entrada, aislamiento por usuario, gestión de variables de entorno y protección de secretos). Esto corresponde a quien despliega, no a la plataforma.

Todo esto es el punto de partida de todo lo que sigue. La sección 4que tendremos en la próxima parte de este artículo recorre, dimensión por dimensión esa segunda lista (lo que corresponde a quien despliega el agente) y muestra donde el ecosistema de Cloudflare y de Anthropic ya ofrecen la pieza necesaria y dónde el avance hacia un estado de madurez más alto consiste en conectar esa pieza de forma debida. No se trata de suplir posibles carencias de la plataforma, sino de continuar con la maduración Zero Trustsobre los cimientos que la plataforma ya proporciona.

Un saludo,

Autor: Juan Luis Cuenca Ramos

Contactar con Juan Luis Cuenca Ramos
Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
Agent Data Injection Attacks

Este fin de semana he aprovechado par leerme un paper que ha sido publicado a principios de este mes, donde se habla de una variación de los ataques de Indirect Prompt Injection, utilizando una variante llamada Agent Data Injection, y que está muy bien pensada, para lograr que un ataque cambie su comportamiento y realice acciones controladas por un atacante.

Figura 1: Agent Data Injection Attacks

Las técnicas de Indirect Prompt Injection buscan dejar Instrucciones Maliciosas almacenadas en fuentes de datos externas que un Agente IA va a procesar para realizar su tarea. Al procesar esos datos inseguros, ya sean páginas web, repositorios de GitHub o correos electrónicos, el Agente IA va encontrarse un Prompt que va a cambiar su comportamiento produciendo un Desalineamiento de su funcionamiento.

Figura 2:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"
escrito por Chema Alonso con la colaboración dePablo González,Fran Ramírez,Amador Aparicio,Manuel S. LemosyJosé Palanco en 0xWord

Para evitar estos Desalineamiento, los modelos están siendo construidos con Guardarraíles, y los Agentes IA son diseñados con Harnesses, que evitan que el comportamiento final se salga de los objetivos para los que ha sido diseñado uno de estos Agentes IA. Teniendo en cuenta esto, el trabajo de "Agent Data Injection Attacks are Realistic Threats to AI Agents" propone una nueva forma de desalinear al Agente IA.

Figura 3: "Agent Data Injection Attacks are Realistic Threats to AI Agents"

La aproximación en este caso no se trata de Inyectar Instrucciones Maliciosas, sino de Inyectar Objetos de Información, que formen parte de los Datos de Contexto del Agente IA para manipular la información sobre la que va a tomar sus decisiones y ejecutar sus acciones.

Figura 4: Indirect Prompt Injection vs Agent Data Injection

Como se ve en la imagen anterior, el objetivo es meter datos en los Agentes IA, y para eso se utilizan los Datos Inseguros que éste procesa - es decir, los e-mails, webs, repositorios de GitHub, etc... - con datos manipulados que simulan ser Objetos con Datos en el Agente IA. Para hacer esto, hacen inyección de datos con separadores de información, como se ve en la imagen siguiente.

Figura 5: En el cuerpo del e-mail se mete un objeto
completo que representa a un nuevo e-mail.

Como se puede ver en la imagen, el Agente IA llama a una herramienta de lectura de datos inseguros, como una página web, o a la lista de correos electrónicos entregada por un MCP. Y en uno de esos correos se han inyectado caracteres para formar un Metadato que representa a un Objeto e-mail. Es decir, si miráis el "Body" del correo, veis que han inyectado un .\"}que cierra el formato del primer Objeto e-mail para luego comenzar a inyectar un Objeto e-mail completo, codificando el mensaje con sus metadatos. El resultado final es que el Agente IA entiende que ha recibido 2 Objetos e-mail en lugar de solo 1.

Ataques de Agent Data Injection

Esto genera que un atacante pueda inyectar Objetos con Datos que van a ser parte de la toma de decisiones y acciones que realizará el Agente IA. Por ejemplo, en el caso siguiente, el usuario pide resumir las revisiones de un determinado producto de una tienda. El Agente IA lanza la herramienta de leer página, y esta página le entrega los datos de formato de Objetos, delimitados por corchetes y los textos entrecomillados.

Figura 6: La herramienta read_page() devuelve objetos de la web.

Un atacante puede inyectar en una de las review los caracteres para inyectar un Objeto nuevo - como un botón - codificándolo con los caracteres con los que se construyen los metadatos de los objetos, dentro del Texto de una de las Review. En este caso un botón que no existe en la web de "Read More" con una Ref_3, que es la misma Ref_3 que tiene el botón "Buy Now". Así que, con el Agent Data Injection, se ha conseguido forzar una compra cuando el Agente IA quería simplemente "Read More".

Figura 7: Se fuerza un compra pensando que iba a leer más

En el siguiente ejemplo se hace buscando en la Knowledge Base, donde se busca información sobre como solucionar un problema, y la herramienta devuelve el objeto con la respuesta que resuelve el problema. Si en esa respuesta de produce un Agent Data Injection, esto se puede manipular.

Figura 8: Resolución de problemas con instalación de un programa

El atacante inyecta un comentario que inyecta un objeto completo con una pregunta y una respuesta completa, pero cuya respuesta es maliciosa, formateando con los delimitadores de los metadatos el objeto malicioso.

Figura 9: Inyección de un Objeto de problema con una solución fake

Al final, estos ataques lo que hacen es buscar meter en el conjunto de datos que utiliza el Agente IA, datos como si fueran objetos con sus metadatos devueltos por la herramienta, haciendo inyección de delimitadores para formatear los objetos. Muy interesante.

Figura 10: Hacking & Pentesting con Inteligencia Artificial.
En 0xWord,escrito porPablo González,Fran Ramírez,
Rafael Troncoso,Javier del Pino y Chema Alons

Por supuesto, es una técnica de inyección basada en la no satinización de los datos que tenemos en los modelos de IA, y esta técnica de Agente Data Injection es a Prompt Injection, como lo son los Connection String Parameter Pollution Attacks a las técnicas de SQL Injection. Mismo concepto, diferente manera de explotar, diferentes objetivos.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
Cloudflare Turnstile & Precursor: Cómo detectar Bots y Humanos sin usar Captchas Cognitivos

Muchas personas, usuarias de Internet, conocen a Cloudflare por el famoso widget de "Verifica que eres Humano" que está en muchas páginas web de Internet. Esta verificación ha hecho que la gente conozca mucho la marca de Cloudflare sin conocer todo lo que realmente hace la compañía, y es normal. Aproximadamente el 20% de los dominios web del mundo en Internet están en Cloudflare, y una gran cantidad de ellos utilizan las herramientas de protección y gestión contra Bots que ofrece Cloudflare.

Figura 1: Cloudflare Turnstile & Precursor.
Cómo detectar Bots y Humanos sin usar Captchas Cognitivos

Los bots recogiendo datos de tus sitios web, masivamente, generan gastos de egress y de computo en los servicios cloud, así que elegir si quieres bots en sitios diseñados para personas o no, es una decisión importante, pues si quieres bots, es mejor abrirles los MCP con las capacidades que quieras que tengan. Además, puede ser que decidas qué bots quieres que vengan, y cuales no, y cómo qué quieres que hagan con tus datos.

Figura 2: Verifica que eres Humano de Cloudflare

Los equipos de Application Security de Cloudflare trabajan constantemente para dotar a los administradores de dominios de Internet de herramientas para gestionar el control de quién hace qué en cada una de las webs de los dominios que están protegidos en la plataforma. Cuando creas una cuenta en Cloudflare, tienes muchas opciones de seguridad por defecto, y todas las herramientas de Bot Protection las tienes en el Plan Profesional, que cuesta 20 USD al mes en los planes anuales.

Figura 3: Cloudflare Plan Profesional en Network & CDN

Dentro de estas herramientas tienes muchas tecnologías, para luchar contra los bots maliciosos, y entre ellas se encuentran AI Labyrinth, del que os dejó un artículo el año pasado publicado, la gestión de Bots y Agentes IA Identificados y Verificados, de lo que os hablé hace unos meses, y por supuesto, Turnstile y el nuevo Precursor.

Figura 4: Tu WebSite con Smart Honeypots contra el
WebScrapping usando AI Labyrinth de Cloudflare

El primero de ellos, que lleva tiempo entre la familia de soluciones de Cloudflare, es Turnstile, que cuenta con el famoso widget que, como os decía al principio, ha hecho tan popular la marca de la empresa. Se trata de una solución que busca identificar a los humanos usando un navegador, por medio de la Plataforma de Challenges, o lo que es lo mismo, de retos lanzados a la sesión.

Figura 5: Cloudflare Turnstile

Estos retos están divididos en varias categorías, como son Proof-of-Work (PoW) donde se le pide al navegador que resuelva determinadas operaciones, con código en client-side, Proof-of-Space (PoS) que es menos intensivo en computo y energía, pero más en espacio y gestión de almacenamiento o Proof of web APIs, para conocer realmente si el cliente tiene las características de un navegador.

Figura 6: Challenges de Turnstile

Todas esas categorías son hechas automáticamente por el código que Cloudflare inyecta en la página web que ven los usuarios y los bots, y trata de detectar si hay un entorno de usuario humano detrás. Como podéis imaginar, no exige ninguna acción por parte del usuario. Esto, muchas páginas lo hacen de forma transparente sin que lo sepas, y otras muestran un pequeño icono de Cloudflare que se anima. Son los modos Invisible y No-Interactivo de TurnStile.

Figura 7: Modos de Turnstile

Sin embargo, con la aparición de los Agentes AI que manejan los WebBrowsers, o directamente los AI WebBrowers como Atlas o Comet, para incrementar el nivel de detección se usa también el modo Interactivo, donde el usuario tiene localizar su ratón, y hacer clic en un checkbox. En estos casos se busca medir las reacciones y comportamientos de los seres humanos, como el tiempo de reacción, y la forma de mover el ratón, los tiempos, y el temblor de nuestras manos y dedos.

Figura 8: Movimientos de ratón Humanos

En este caso, cuando los bots o Agentes AI intentan simular ese comportamiento, en este juego del gato y el ratón, hacen movimientos con funciones matemáticas para generar ruido, pero no consiguen imitar al detalle la humanidad de los errores en nuestros movimientos de ratón, y los tiempos de respuesta entre que visualizamos dónde hay que hacer clic, y cómo hacerlo.

Figura 9: Movimiento de ratón de Bots

Pero por supuesto, lo intentan. Así que, Cloudflare ha lanzado una nueva evolución de estas tecnologías, llamadas Precursor, que lleva estas comprobaciones más allá de un simple control en un momento puntual. Se trata de monitorizar las sesiones completas para que ir gestionando de cada una de ellas un Bot Score, que determinará cuál es la probabilidad de que en una sesión completa, formada por un historial de navegación a lo largo del tiempo, las pruebas y mediciones realizadas han detectado la posibilidad de que haya una persona o un bot detrás de ella.

Figura 10: Precursor en Cloudflare

Por supuesto, como en el caso de Turnstile, se pueden configurar dos modos, como son Minimizar Fricción o Maximizar Seguridad. Esa obsesión de reducir la ficción en las soluciones de detección de Bots tiene por detrás un sentido.

Figura 11: Modos de Precursor

No sólo se trata de que, como ya hemos visto y os he publicado muchas veces, los Catpchas Cognitivos no son una barrera ya para el mundo de los Agentes AI, sino que cualquier complejidad para los usuarios es una barrera de UX que en aplicaciones de negocios generan pérdidas económicas. El famoso "un clic más, un cliente menos" se ve afectado por las soluciones Captchas que muchos añaden.

Figura 12: Reglas en Precursor

Por otro lado, si tu web está frente a un ataque, o tienes a bots avanzados que están haciéndote WebScrapping para construir negocios de Dropshipping encareciendo el coste de tus anuncios para vender tus productos más caros, o están haciéndote WebScalpping de entradas de conciertos o productos exclusivos, entonces la opción de Maximizar la Seguridad es la que deberías configurar, y protegerte contra estos actores.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
AI Engineering Bootcamp: Basta de hacer tutoriales y construye tu propio asistente con IA en producción
Vivimos rodeados de Inteligencia Artificial, pero la inmensa mayoría de la gente que trabaja "con IA" en realidad se limita a llamar a una API, copiar un prompt de Twitter/X o encadenar un par de bloques en una herramienta no-code. Saben usar la IA como usuario avanzado, pero no entienden qué pasa por debajo: cómo se sirve un modelo, cómo se diseña un agente que razona y actúa, cómo se protege un sistema LLM de un ataque de prompt injection o cómo se lleva todo eso a producción para que funcione 24/7 sin que se caiga a la primera de cambio.

Figura 1: AI Engineering Bootcamp: Basta de hacer tutoriales
y construye tu propio asistente con IA en producción

Esa distancia entre "usar IA" y "construir con IA" es, ahora mismo, la que separa a un consumidor de prompts de un auténtico AI Engineer. Y es precisamente esa distancia la que Ferrumox Academy ha diseñado para recorrer en 9 semanas con su AI Engineering Bootcamp.

Figura 2: AI Engineering Bootcamp

Cohorte 2: arranca la semana del 2 de septiembre

El AI Engineering Bootcamp de Ferrumox Academy no es un curso de vídeos a tu ritmo ni una colección de slides sobre "el futuro de la IA". Es un programa intensivo y práctico: una sesión en directo por semana de 2 horas (tú eliges grupo de lunes, miércoles o viernes, de 18:00 a 20:00) y el resto de la semana para construir, con material previo antes de cada directo y un entregable funcionando al final de cada semana.

Figura 3: Objetivos del Bootcamp

El objetivo final no es "terminar un curso". Es salir con tu propio asistente con IA corriendo en producción: accesible desde Telegram, con memoria persistente, capaz de orquestar varios agentes especializados vía MCP y conectado a tus propios documentos mediante RAG híbrido. Construido por ti, entendido por ti, no copiado de un repositorio de GitHub.

Un programa que va desde la inferencia hasta producción, semana a semana

A lo largo de las 9 semanas (con una sesión 0 bonus de preparación incluida) el temario progresa capacidad a capacidad, sin frameworks mágicos que oculten lo que está pasando por debajo:
- Semanas 1-2: Infraestructura de inferencia propia, local y en la nube (Ollama, vLLM, APIs de OpenAI y Anthropic), y adaptación de modelos con LoRA y QLoRA.
- Semanas 3-4: Context engineering, gestión de memoria persistente y diseño del bucle de agente (agentic loop) con el patrón ReAct y tool calling, implementado sin frameworks para entender de verdad el ciclo razonar-actuar-observar.
Figura 4: Semanas 00 a 03
- Semanas 5-6: RAG avanzado con recuperación híbrida y reranking, y sistemas multi-agente con orquestación vía MCP siguiendo el patrón supervisor.
Figura 5: Semanas 04 - 07
- Semanas 7-8: Seguridad de sistemas LLM, modelado de amenazas, prompt injection, jailbreaking y diseño de guardrails, y despliegue en producción con observabilidad, evals y control de costes.
- Semana 9: Demo day, presentación del proyecto ante toda la cohorte y hoja de ruta para seguir construyendo.
Figura 6: Semanas 8 y 9

Uno de los puntos diferenciales del programa es precisamente el módulo de LLM Security: menos del 1% de los AI Engineers sabe auditar un sistema LLM de verdad, y este bootcamp dedica una semana completa a aprender a atacarlo y a defenderlo, algo que a día de hoy no se encuentra en ningún otro bootcamp en España.

Quién está detrás del programa

El bootcamp lo imparto directamente yo, Manuel S. Lemos, fundador de Ferrumox y Claude Certified Architect de Anthropic (la primera certificación técnica oficial que ha emitido la compañía, sólo accesible por invitación), además de AI Engineer en NaizFit, coautor del libro Hacking IA (0xWord, 2026), contribuidor de OWASP GenAI Security y Vicepresidente de ANBAN. Anteriormente Director Académico de IA & Big Data en GeeksHubs Academy durante cuatro años. También he dado charlas en el GenAI Summit EU, Codemotion Madrid, TofuConf, el Máster de Ciberseguridad del CIPFP Cheste y el podcast de Hackers, entre otros escenarios.
Figura 7: Una formación para poner en producción

Lo que se enseña en el bootcamp es, literalmente, lo que se construye en producción cada día. Ferrumox es el proyecto para unir dos cosas que normalmente van por separado: ingeniería de IA de verdad y formación de alto nivel. Por un lado está Fox, el motor de inferencia LLM en Rust, de código abierto y gratuito para siempre (sin planes de pago ni capital de por medio), pensado como sustituto directo de Ollama con hasta 4 veces más eficiencia gracias al prefix caching y al continuous batching.

Precio, plazas y un regalo que no falta en ninguna edición

La Cohorte 2arranca la semana del 2 de septiembre de 2026y tiene 36 plazas repartidas en 3 grupos de 12(lunes, miércoles y viernes). Las primeras 12 plazas entran a 997 €; a partir de ahí el precio pasa a 1.200 €. Todas las sesiones se graban y quedan disponibles antes de 24 horas, así que si algún día no puedes conectarte en directo no te quedas fuera.

Figura 8:Ejemplar de "Hacking IA" (0xWord, 2026), de regalo para cada alumno

Y, como no podía ser de otra manera en este blog, hay premio para los alumnos: cada persona de la Cohorte 2 recibe un ejemplar del libro Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment de 0xWord, incluido sin coste extra en la plaza, y habrá un chat en MyPublicInbox constante conmigo y con Chema Alonso.

Go for it!

Si necesitas un empujón más para decidirte, el 10 de Agosto haremos una clase gratuita que te puedes apuntar desde nuestra web. Además el bootcamp incluye feedback escrito de tus proyectos en 48 horas, repo privado con todo el código, comunidad privada de la cohorte, acceso a las grabaciones de futuras ediciones y más sorpresas.

¡Happy hacking!

Autor: Manuel S. Lemos, Fundador de Ferrumox y director del AI Engineering Bootcamp

Contactar con Manuel S. Lemos
Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
OpenAI GPT‑5.6 Sol quería sacar "buenas notas" en ExploitGym así que decidió hackear Hugging Face para buscar las respuestas al examen

La noticia del 21 de Julio - que ya me pilló con el post de ayer publicado - fue la del incidente de seguridad reportado por OpenAI y Hugging Face, cuando la primera estaba testando las capacidades de ciberseguridad, especialmente las de Offensive Security, en un entorno de laboratorio... pero ¿qué mejor forma de demostrar la potencia de estos modelos que hackear su entorno de pruebas para liberarse, lograr acceso a Internet y robar los datos de quién los tenga para sacar el mejor resultado posible en las pruebas?

Figura 1: OpenAI GPT‑5.6 Sol quería sacar "buenas notas" en ExploitGym
así que decidió hackear Hugging Face para buscar las respuestas al examen

La Inteligencia Artificial ha generado una gran disrupción, no solo en el mundo del desarrollo, sino también en todo lo que tiene que ver con la ciberseguridad, desde varios puntos de vista. Primero, los modelos de IA tienen debilidades por defecto que inyectan nuevos vectores de ataque, y que exigen nuevas soluciones de seguridad. En segundo lugar, el uso de modelos de IA para hacer hacking y pentesting está obligando a utilizar Agentes de AI par reaccionar a la misma velocidad.

Figura 2: Hacking & Pentesting con Inteligencia Artificial.
En 0xWord,escrito porPablo González,Fran Ramírez,
Rafael Troncoso,Javier del Pino y Chema Alonso.

Por último, desde la llegada de Mythos, los nuevos modelos de IA están demostrando unas capacidades excepcionales en la búsqueda de Zero Days, la generación de Exploits, y la ejecución completa de ataques complejos contra infraestructuras, ejecutando todas y cada una de las fases de una explotación. Algo que hace años era un proceso que llevaba tiempo, pero que desde la llegada de los modelos de DeepReasoning comenzó a reducirse.

Figura 3: On the Feasibility of Using LLMs to Execute Multistage Network Attacks

En Marzo del año 2025 ya vimos como - aún si utilizar MCPs - teníamos los primeros estudios de arquitectura de lo que serían los Agentes AI para explotación completa de organizaciones, que con la llegada de Mythos este año, se convirtió en el estándar para el Red Team en empresas, y para el mundo del Cibercrimen y los Ciberespías.

Figura 4: Resultados empíricos de Exploitbench

Mythos, demostró en los benchmarks que estaba muy por encima de los demás en estas capacidades, como vimos en los resultados de ExploitBench, y en ExploitGym, que es el culpable de este incidente en concreto.

Figura 5: "ExploitGym: Can AI Agents Turn Security
Vulnerabilities into Real Attacks?"

En los resultados de este último, de ExploitGym, el modelo Mythos quedó muy por encima de todos los demás modelos en todas las mediciones realizadas, como podéis ver en las diferentes tablas del Benchmark que os publiqué en el artículo que le dediqué.

Figura 6: Resultados del Benchmark de ExploitGym

Y contada esta historia, he aquí el incidente. OpenAI quería testar en estos Benchmarks para dos modelos. El primero GPT‑5.6 Sol con sus capacidades de ciberseguridad sin proteger, y para una versión en pre-release con capacidades avanzadas en hacking y exploiting. Para testearlo, decidieron meterlo en un entorno de Sandbox totalmente aislado y lanzarle la batería de pruebas de ExploitGym. ¿Y qué mejor forma para resolver ese problema que buscar las respuestas en los tests hechos por modelos anteriores?

Figura 7: El modelo buscó las soluciones hackeando Hugging Face

Hace años, cuando estábamos reclutando developers en ElevenPaths, les hacíamos pruebas de programación de todo tipo, para ver cómo lo hacían. Yo siempre quería el que buscara la solución más creativa. Una de ellas era... ¿para qué calcular los números primos si ya están calculados? Pues en este caso el modelo ha debido pensar lo mismo. ¿Para que hacer el examen si ya está resuelto?

Figura 8:"Bug Hunter"escrito por David Padilla en 0xWord

Pero para lograr esto había un pequeño problema: Había que conseguir salir a Internet, buscar dónde estaban las soluciones, y hacerse con ellas. Primera fase, hackear el Sandbox del entorno de pruebas y lograr acceso a Internet sin límites. Para ello hubo que encontrar un Zero Day y explotarlo en el Proxy de seguridad, pero... estamos con un modelo de altas capacidades de exploiting, así que lo hizo.

Figura 9: Primera fase, hackear el Sandbox de OpenAI para ser "libre"

Una vez dentro, a buscar las soluciones de ExploitGym, así que después de hacer research por Internet, llegó a la conclusión de que estas soluciones las tenía junto con los datasets y los modelos de las pruebas en Hugging Face, así que había que conseguirlos....como fuera posible.

Figura 10: El modelo descubrió que Hugging Face potencialmente
tenía las "repuestas del examen".

Así que, así lo hizo. El modelo "successfully found ways to gain access to secret information that it could use to cheat the evaluation."Es decir, encontró la manera de hackear Hugging Face y sacar muy buenas notas en el examen haciendo trampas.

Figura 11: Evaluación de GPT-5.6 por "The AI Security Institute"

Lo cierto es que están claras las capacidades de GPT-5.6 Sol y el nuevo modelo en pre-release en Offensive Security. La evaluación anterior, hecha por el "The AI Security Institute" muestra que modelos como GPT-5.6 Sol son cada vez más capaces de mantener operaciones cibernéticas complejas y de múltiples etapas durante horizontes temporales prolongados. Este incidente implica que estas capacidades teóricas efectivamente se aplican en entornos del mundo real."

Figura 12:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"
escrito por Chema Alonso con la colaboración dePablo González,Fran Ramírez,Amador Aparicio,Manuel S. LemosyJosé Palanco en 0xWord

Pero sobre todo hay que tener un ojo a estas formas de solucionar problemas, no vaya ser que para resolver un problema, encuentre que la mejor forma de hacerlo es acabar con la humanidad. Algo como... "Resuelve el problema que tenemos del cambio climático." Y decida que somos nosotros los que sobramos. Creo que tenemos que asegurarnos de que hacemos Tecnología Humanista más que nunca, porque estos modelos están comenzando a razonar de una manera muy "psicópata" para resolver sus problemas.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
MyPublicGPT: Tu huella digital en los Generative Search Engines basados en IA dentro de MyPublicInbox.

Con la llegada de los buscadores de Inteligencia Artificial, los usuarios ya no buscan en los buscadores tradicionales. De hecho, ya no hablamos de SEO, sino de GEO por Generative Engine Optimization, porque los Agentes AI están automatizando el tráfico de Internet en función de la información que tienen en los modelos de IA.

Figura 1: MyPublicGPT: Tu huella digital en los Generative Search Engines
basados en IA dentro de MyPublicInbox.

Teniendo esto presente, en MyPublicInbox, estamos viendo cómo dar la información a los Perfiles Públicos de la plataforma, para que sepan qué es lo que los Agentes AI, y los usuarios de los Generative Search Engines van a encontrar sobre ellos, y eso es lo que estamos testeando en MyPublicGPT Playbook.

Figura 2: Servicio de Huella Digital en buscadores de IA

De momento, este servicio se está poniendo disponible a los Perfiles Públicos por fases, así que si no lo tienes aún, lo tendrás dentro de poco, en la sección de Mi Impacto en Internet -> MyPublicGPT, para que puedas solicitar el informe de tu presencia en los en los GSE.

Figura 3: Playbook en MyPublicGPT

El informe muestra un Playbook de cómo se ve en los GSE la presencia de cada uno de los perfiles públicos de la plataforma, en un informe PDF que puedes descargar. En mi caso, el informe detecta el problema de homónimos con otras personas, aunque muestra que mi huella es fuerte en Tecnología /Ciberseguridad.

Figura 4: Playbook de Chema Alonso en MyPublicGPT

El objetivo es conocer cuánto de bien está diseñada tu huella digital para cualquiera que te busque, te perfile, o busque información concreta de ti mismo, algo que puede afectar a tu vida personal y profesional, así como potenciar tu carrera... o no.

Figura 5: Narrativa Predominante de tu huella Digital

Como podéis ver, el informe enfoca también cuál es la narrativa predominante asociada a tu perfil. En i caso, mi trabajo en Ciberseguridad y Tecnología, pero también mi paso de trabajo como CDO, Telefónica y Cloudflare, asociado también a divulgación y conferencias.

Figura 6: Señales que merecen revisión

También se buscan aquellas señales que merecen revisión, que en mi caso tiene que ver con homónimos en el mundo del fútbol - hay un par de "Chema Alonso"s en el mundo del fútbol, y mi colaboración con los árbitros seguro que ayuda a la confusión.

Figura 7: Descarga del Playbook en formato PDF

Por supuesto, al final te puedes descargar el informe del Playbook con tu Huella Digital en los motores GSE, y además, si lo deseas, te podemos ayudar trabajando para cambiar esos datos utilizando estrategias GEO, pero con tu perfil.

Figura 8: Solicitud de nuevos Plabybook periódicamente.

El informe se puede hacer periódicamente, así que puedes revisar cómo evoluciona tu Huella Digital a lo largo del tiempo, y ver si tus estrategias de GEO están funcionando en la dirección que quieres. Y por supuesto, si tienes algún caso concreto que quieras que se trabaje, puedes contactar con el equipo. MyPublicInbox está virando hacia el mundo de la IA hace tiempo, y veréis muchos cambios y servicios en esa dirección en breve, pero ya os los iré contando.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
III edición del Programa de Especialización de Quantum y Post-Quantum Computing para Ciberseguridad: Noviembre 2026

Como ya os conté hace dos años comenzamos con la idea Pablo García Bringas y yo, de meternos en un nuevo proyecto de divulgación y formación avanzada en tecnologías Quantum, en este caso centradas en Ciberseguridad, y que configuramos un Curso de Especialización en Quantum y Post-Quantum Computing para Ciberseguridad que tendrá lugar durante el mes de Noviembre. Pues bien, ya estamos en la tercera edición del mismo, que las dos ediciones anteriores estuvieron llenas, y tuvieron una aceptación y una valoración por parte de los alumnos espectacular. Así que, vamos a por una nueva este año.

Figura 1: Quantum y Post-Quantum Computing para Ciberseguridad.
Formación Especializada, Libro & Foro Online

La formación será 100% online, y la daré con mis compañeros de mil proyectos, y además de Pablo García Bringas y de mí, estarán Carmen Torrano, Fran Ramírez, Daniel Romero, Javier Álvarez y Pablo González, con alguna incorporación extra sorpresa que os contaré más adelante. Y el tipo de trabajos que se hacen, pues son como el de Blind Quantum Computing que os publiqué estos días que hizo uno de los alumnos.

Figura 2: Quantum y Post-Quantum Computing para Ciberseguridad

La formación la hemos querido hacer, además de teórica, muy práctica en todo lo que tiene que ver con las actuaciones que estamos haciendo hoy en día en el mundo de la ciberseguridad con las tecnologías de Post-Quantum Cryptography. Hemos dividido la formación en nueve módulos que tenéis aquí.

Figura 3: Módulos de la formación deQuantum y Post-Quantum
Computing para Ciberseguridad

Además, todos los asistentes recibirán el libro de "Quatum Security: Tecnología Cuántica & Ciberseguridad.Criptográfica Cuántica y Post-Cuántica"que hemos escrito sobre estos temas junto con la Universidad de Deusto, que tenemos listo para todos los asistentes, y que además se puede adquirir en 0xWord.

Figura 4: Quatum Security: Tecnología Cuántica & Ciberseguridad.
Criptográfica Cuántica y Post-Cuántica.
Nuestro nuevo libro en 0xWord escrito por: Chema Alonso,
Pablo González,Fran Ramírez,Carmen Torrano,Daniel Romero,
Javier Álvarez,Mario Piattini,Iker Pastor,Pablo García Bringas

Y por supuesto, los alumnos llevarán sus Tempos de MyPublicInbox. Para matricularte, lo puedes hacer desde la web.

Figura 5: Matriculación a la la formación de
Quantum y Post-Quantum Computing para Ciberseguridad

Una de las cosas que hemos hecho también, y en este caso podéis participar todos, es la creación de un Foro Online Público que funciona desde Septiembre del año pasado en MyPublicInbox, donde se comparten temas de Quantum & Post-Quantum Security, así que si quieres estar informado puedes entrar libremente y suscribirte.

Figura 6: Foro Público de Quantum Security de
la Universidad de Deusto en MyPublicInbox

Si vas a estar en el foro, te recomiendo que te bajes la app de MyPublicInbox para iPhone o la app de MyPublicInbox para Android, para que te sea más fácil seguir la conversación desde tu teléfono en cualquier momento.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
Campeones del Mundo 2: "El Sueño Americano"

Había dejado programado ayer, antes del partido, el artículo sobre Aprender a gestionar el fracaso para alcanzar el Éxito, basado en la película de "El Sueño Americano", y no puede haber mejor definición de eso que lo que ha vivido España, donde todos hemos disfrutado de ese sueño americano juntos.

Figura 1: Campeones del Mundo 2: "El Sueño Americano"

Yo soy de la generación de españoles que vivimos con éxito el Mundial de 2010, que vio levantar la copa de oro a Iker Casillas. Pero también soy de la generación que se crió con sólo una Eurocopa en el palmarés, y la fama del gol de Marcelino. Desde que nací, hasta que vi a España ganar un título grande en la Eurocopa de 2008 pasaron 33 años, y coincidió con la llega de Mi Hacker.

De tanto fracasar

Los niños de nuestra generación somos además la generación Naranjito, y nos enamoramos del fútbol porque tuvimos un Mundial en España, en el año 1982, y vimos el famoso 12 a 1 contra Malta en el 83,y la derrota en la final de la Eurocopade 1984cuando al grandísimo Arconadase le escapó un balón en el tiro de falta del mítico Michel Platiní. Así que, nos pasamos toda nuestra infancia y adolescencia pensando que España era un equipo que no iba a pasar de cuartos. Sufrimos el fracaso del robo de gol de Michel a Brasil, después de haber ganado con los 4goles de Emilio Butragueño en Queretaro en el 86. El codazo de Tassotti a Luis Enrique, y el robo de Corea del Sur del árbitro Gamal Al-Ghandour que aún no hemos perdonado.

...aparecieron los éxitos

Pero... de tanto aprender a fracasar, España forjó una generación de niños de leyenda que comenzó a forjarse con la inspiración de la Olimpiada de 1992, y sería ya en el año 2008 cuando vendría la Eurocopa, en el 2010 el Mundial y en 2012 otra Eurocopa. Una generación de leyenda que forjó en niños otra pasión, la de repetir sus hazañas. Con esta segunda generación de oro, llegaría la Nations League del 2022, la Olimpiada del 2024, la Eurocopa del 2024 y ahora el Mundial de 2026. Y lo mismo en las chicas, que ganaron el Mundial del 2023, y las Nations League de 2024 y 2025.

En fin, que de tanto aprender a gestionar, al final llegó el éxito de una generación de niños y niñas que nos ha hecho disfrutar a los niños y niñas de nuestra generación como no nos imaginamos nunca. Gracias, por enseñarnos que el esfuerzo tiene recompensa.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com
Aprende a gestionar los fracasos para alcanzar los sueños

No es la primera vez que os hablo de fracaso y de todas las veces que salen mal las cosas. Esta gestión de los fracasos es fundamental. Cómo salgas y qué hagas después de cada uno de ellos marca quién eres y quién vas a ser. Todos los días fracaso de alguna manera. Desde mini fracasos en forma de olvidos, o tareas mundanas como derramar el café, hasta grandes fracasos en forma de expectativas no cumplidas o proyectos que no salen. Cómo gestiones esas mini derrotas, marcará como gestionas las grandes.

Figura 1: Aprende a gestionar los fracasos para alcanzar los sueños

De eso hablo mucho con mis hijas, y estos días he tenido la oportunidad de ver una película, que os más que recomiendo, "El Sueño Americano" que habla de eso mismo. De todos los fracasos que hay que acumular hasta lograr el éxito. No conozco a nadie que le haya ido bien la vida sin tener su buena ración de fracasos acumulados y gestionados. Hay que perder muchos partidos para que algún día se pueda ganar un campeonato. Se deben perder muchos puntos, para aprender a ganarlos.

Figura 2: El Sueño Americano

El mundo del deporte es una buena representación del éxito y la gestión del fracaso, y por eso con mis hijas hablo mucho de ello. Les cuento mis fracasos, mis caídas, mis derrotas personales, como cuando compilé algunas de las más relevantes en mi historia dentro del discurso que di a los egresados de la Universidad Carlos III.

Si sólo ves el final de la historia, es decir, la parte del éxito y el glamour de la alfombra roja, el podium o el sitio privilegiado en el palco, pero no ves el camino de fracasos, nunca podrás salir de la "fantasía" del éxito fácil, sin esfuerzo, con suerte, o regalado. No hay mayor mentira que la que uno se cuenta a sí mismo, ni barrera más insalvable que decirse a uno mismo "yo no puedo" y ponerse un techo de cristal.

Figura 3: El Sueño Americano

La película, que so confieso que me hizo llorar al final, me recordó a muchos momentos de mi vida. A cuando con Rodol nos metimos para montar Informática 64 en el primer piso que pudimos alquilar, pintando las paredes con restos de pintura que tenía de chapuzas que había hecho yo de pintor. Así, cada habitación tocó de un color y una de ells fue de color rosa. Era lo que nos podíamos permitir.

En el "El Sueño Americano" - que no os quiero hacer spoiler -, un par de apasionados por el basket tienen el sueño de llevar a los mejores jugadores franceses a la NBA. Saben mucho de basket, y luchan por hacerlo realidad, sufriendo por el camino muchos de los fracasos que seguro que vosotros habéis tenido alguna vez. Falta de apoyos, decepciones por traiciones en el mudo de los negocios, y poner hasta el último Euro en pro de hacer de su pasión un trabajo.

Los protagonistas de la película son un tendero de un videoclub y un limpiador del aeropuerto de Orly en Francia con mucha pasión por el baloncesto. En nuestro caso, cuando decidimos montar Informática 64 yo había trabajado toda mi vida de pintor, barnizador, albañil y profesor particular. Rodol, de cosas similares, y no teníamos ni contactos, ni enchufes, ni padrinos. Nuestros contactos fueron los anuncios de los periódicos de empresas a los que yo personalmente llamaba haciendo venta fría los viernes para buscar reuniones para poder conseguir trabajo. La de veces que me rechazaron, colgaron el teléfono o se pusieron bordes conmigo. Pero... era sólo un punto más.

Hoy en día, habiendo logrado mucho más de lo que soñé en aquellos años, no se me olvida nunca de donde vengo, y junto con mis cómics, guardo el cartel de Informática 64, que un día os publiqué en mi Instagram.

View this post on Instagram

A post shared by Chema Alonso (@chemaalonso)

Me ha tocado de la película otro aspecto que los protagonistas tenían que sufrir, que era la falta de conocimiento de la lengua inglesa. ¿Cómo vas a llevar a un jugador a la NBA si no hablas inglés? En mi caso, como habéis podido vivir en primera persona, cuando quise ir a "mi NBA personal" que eran DefCON y BlackHat, tuve que lidiar con el mismo problema. Con 33 años tuve que comenzar a aprender inglés. En su caso con una profesora "muy especial" como veréis en la película.

Las primeras conferencias las hice de memoria, mientras aprendía inglés con unos profesores "muy especiales", viendo series para jóvenes como Wonder Woman, Robocopo SuperBoy, sin subtítulos que eso es muy importante. Leyendo libros de Spiderman o Star Wars para jóvenes, y escuchando toda la música que pude en inglés. Aún sigo con esa disciplina para seguir aprendiendo...

En el "El Sueño Americano" sacan otra parte fundamental de su viaje, que son los compañeros. Por supuesto, yo he tenido la suerte de tener a mi compañero, que siempre ha estado ahí cuando nos ha ido mal. Algunas veces era yo el que tenía que buscar las soluciones, otras era él el que decía: "No te preocupes, yo puedo ocuparme de esto. Lo podemos hacer." Hoy, más de 35 años después de que nos conociéramos, creo que estar juntos en lo malo, nos hizo llegar a donde llegamos. Y saber que, como los protagonistas de "El sueño americano", aunque estuviéramos lejos, podíamos apoyarnos el uno en el otro, fue importantísimo. Y lo vivimos con muchos amigos que nos acompañaron en el proceso.

Figura 5: Nostros teníamos el SOCtano con el rellano de las escalaras
desde donde hablaba a mis compañeros. Ellos tenían una trastienda,
y Jeff Bezos una mesa hecha con una puerta barata y dos borriquetas.

No os quiero contar más detalles de la película, porque creo que merece la pena que te sorprenda cuando vayas a verla al cine -, pero algo que hacen los protagonistas me hacía recordar mis inicios. Por supuesto, la mentalidad de buscar una solución a cada problema y no un problema para cada solución - huye de esa gente en tu vida -, y de hacerlo sabiendo que siempre hay una forma, aunque pueda ser una locura. Si parece que no hay solución es que es el momento de ser creativo, porque siempre hay algo que se puede intentar, aunque volvamos a fracasar.

No os quiero contar mucho, pero sí me gustaría recalcar el título del post. Hay que aprender a gestionar los fracasos, porque eso es lo que marcará si vas a tener éxito en tus proyectos. Por supuesto, para gestionar los fracasos vas a tener que trabajar mucho - mucho más que los demás tal vez -, vas a tener que gestionar emociones, vas a tener que buscar apoyos, vas a tener que ser perseverante, vas a tener que aprender a adaptarte, vas a tener que enfrentarte a cosas que no imaginabas antes. Pero si aprendes a gestionar esos fracasos... en algún momento, estarás más que preparado para que llegue tu objetivo.

Si eres de los que lucha por sus sueños, no te pierdas "El Sueño Americano", es una película educativa y emotiva, que te cuenta lo duro que es triunfar y tener éxito. Para verla con tus hijos, si eres como yo de los que está todo el día intentando que se formen para gestionar los problemas en la vida.

¡Saludos Malignos!

Autor: Chema Alonso(Contactar con Chema Alonso)

Únete al foro de Ciberseguridad de Chema Alonso en MyPublicInbox Sigue Un informático en el lado del mal RSS 0xWord - Contacta con Chema Alonso en MyPublicInbox.com

Un informático en el lado del mal

Marvel Cinematic Universe "MCU" Versión Siglo XX

Cómo desplegar Zero Trust para Agentes IA en Cloudflare (1)

Agent Data Injection Attacks

Cloudflare Turnstile & Precursor: Cómo detectar Bots y Humanos sin usar Captchas Cognitivos

AI Engineering Bootcamp: Basta de hacer tutoriales y construye tu propio asistente con IA en producción

OpenAI GPT‑5.6 Sol quería sacar "buenas notas" en ExploitGym así que decidió hackear Hugging Face para buscar las respuestas al examen

MyPublicGPT: Tu huella digital en los Generative Search Engines basados en IA dentro de MyPublicInbox.

III edición del Programa de Especialización de Quantum y Post-Quantum Computing para Ciberseguridad: Noviembre 2026

Campeones del Mundo 2: "El Sueño Americano"

Aprende a gestionar los fracasos para alcanzar los sueños

¿Quien nos patrocina?

Acceso

¿ Quienes participan ?

Mas info

Sobre Nosotros