Claude Skills 2.0, evaluación de skills, benchmarking de agentes IA, seguridad en IA

Claude Skills 2.0 avanza en evaluación y benchmarking de agentes IA con foco en seguridad. Mejor medir para mejores despliegues sin sorpresas.
Claude Skills 2.0, evaluación de skills, benchmarking de agentes IA, seguridad en IA

Hola,

Arrancamos con una verdad incómoda que cualquiera que esté construyendo agentes de IA en serio acaba descubriendo tarde o temprano: hacer que un modelo haga cosas no es lo difícil. Lo difícil es saber si lo está haciendo bien.

El agente responde. Ejecuta comandos. Genera código. Automatiza tareas.
Y todo parece funcionar… hasta que lo pones en producción.

De repente aparecen los problemas reales: workflows que fallan en silencio, habilidades que dejan de activarse cuando cambia el modelo, prompts que funcionaban ayer pero hoy generan resultados distintos. Y lo peor de todo: no tienes una forma clara de medirlo.

Durante años tratamos de evaluar la IA con benchmarks clásicos: accuracy, prompts de prueba, comparaciones superficiales. Pero cuando trabajas con agentes que interactúan con sistemas reales, esas métricas se quedan cortísimas.

Ahí es donde entran Claude Skills 2.0 y una idea que está empezando a cambiar cómo construimos sistemas con IA:
las habilidades de un agente no son prompts sueltos. Son software.

Software que se puede testear, medir, mejorar y hasta jubilar cuando el modelo base ya no lo necesita.

En este artículo vamos a meternos en ese cambio de paradigma:

  • Cómo funcionan realmente las Skills en Claude Code.
  • La diferencia entre Capability Uplift y Encoded Preference.
  • Por qué evaluar agentes IA requiere benchmarks, evals paralelos y A/B testing ciego.
  • Y cómo Anthropic está aplicando un ciclo completo de ingeniería: Create → Eval → Improve → Benchmark.

Pero también veremos algo más grande: cómo este enfoque conecta directamente con seguridad en IA, investigación de vulnerabilidades y el futuro del desarrollo asistido por agentes.

Porque cuando un modelo como Claude puede encontrar cientos de vulnerabilidades zero-day leyendo código como un investigador humano, o cuando un desarrollador consigue mapear 7.000 robots aspiradores conectados a internet en 9 minutos, queda claro que la frontera entre experimento curioso y impacto real es cada vez más fina.

La pregunta ya no es si los agentes pueden hacer más cosas.
La pregunta es cómo evaluamos lo que hacen antes de confiar en ellos.

Hoy vamos a explorar ese nuevo territorio.

Vamos 👇


ℍ𝕠𝕣𝕚𝕫𝕠𝕟𝕥𝕖 𝔸𝕣𝕥𝕚𝕗𝕚𝕔𝕚𝕒𝕝

Te presentamos "Horizonte Artificial", la nueva y flamante sección de nuestra newsletter dedicada exclusivamente a la Inteligencia Artificial. Pero no esperes el contenido convencional que inunda TikTok o YouTube. Aquí, nos sumergiremos en el fascinante mundo del OpenSource, explorando proyectos libres que puedes desplegar en tu propio servidor. Y para guiarnos en esta travesía, contamos con la experticia de Jesús Pacheco, mejor conocido en nuestra comunidad HiveAgile como "Pachecodes". Prepárate para una perspectiva fresca y auténtica sobre la IA. ¡Bienvenidos al horizonte!


🌟 TopGit - Resumen Semanal (2026-03-13)

📚 Repositorios Destacados de la Semana

Los siguientes repositorios han sido seleccionados por su relevancia, calidad y métricas de GitHub:

🔧 🤖 Plataforma AI de Workplace

PipesHub es una plataforma de AI completamente extensible y explicable para la búsqueda empresarial y la automatización del flujo de trabajo. En la mayoría de las empresas, los datos importantes de trabajo están dispersos a través de múltiples aplicaciones como Google Workspace, Microsoft 365, Slack, Jira, Confluence y más. PipesHub AI te ayuda a encontrar rápidamente la información correcta utilizando búsqueda en lenguaje natural, tal como lo hace Google. Puede responder preguntas, proporcionar información y más. La plataforma no solo entrega los resultados más relevantes, sino que también muestra de dónde provino la información, con citas apropiadas, utilizando Grafos de Conocimiento y Ranking de Páginas.

📊 Estadísticas de GitHub: - ⭐ 2,711 estrellas - 🔄 417 forks - 👀 16 observadores - 📝 70 issues abiertos - 🔤 Principal lenguaje: Python


🔧 💻 SpacetimeDB

SpacetimeDB es una base de datos relacional que funciona como un servidor. Puedes cargar la lógica de tu aplicación directamente en la base de datos, y los clientes se conectan sin ningún servidor intermediario. Puedes escribir tu esquema y lógica empresarial en lenguajes como Rust, C#, TypeScript o C++. SpacetimeDB compila y ejecuta tu lógica dentro de la base de datos, sincronizando automáticamente el estado a los clientes conectados en tiempo real.

📊 Estadísticas de GitHub: - ⭐ 23,331 estrellas - 🔄 892 forks - 👀 83 observadores - 📝 732 issues abiertos - 🔤 Principal lenguaje: Rust


🔧 🧠 ReMe: Kit de Gestión de Memoria para Agentes

ReMe es un marco de gestión de memoria diseñado para agentes de IA, proporcionando sistemas de memoria basados en archivos y vectores. Aborda problemas como la ventana de contexto limitada y las sesiones sin estado. ReMe permite a los agentes tener una memoria real: las conversaciones antiguas se compactan automáticamente, la información importante se almacena de forma persistente y el contexto relevante se recuerda en interacciones futuras.

Casos de uso: - Asistente personal: Memoria a largo plazo para recordar preferencias del usuario. - Asistente de codificación: Registro de configuraciones de estilo de código. - Bot de servicio al cliente: Seguimiento del historial de problemas y preferencias de los usuarios. - Automatización de tareas: Aprendizaje de patrones de éxito y fracaso para optimizar estrategias.

Capacidades clave de ReMeLight: - Gestión de contexto. - Memoria de largo plazo que persiste información importante. - Búsqueda de memoria semántica.

Para más información, visita: https://github.com/agentscope-ai/ReMe

📊 Estadísticas de GitHub: - ⭐ 2,188 estrellas - 🔄 161 forks - 👀 16 observadores - 📝 5 issues abiertos - 🔤 Principal lenguaje: Python


🔧 🤖 Symphony

Symphony convierte el trabajo en proyectos en ejecuciones de implementación aisladas y autónomas, lo que permite a los equipos gestionar el trabajo en lugar de supervisar agentes de codificación. Esta herramienta ayuda a optimizar la gestión de tareas, permitiendo un enfoque más autónomo en el desarrollo de software.

📊 Estadísticas de GitHub: - ⭐ 12,105 estrellas - 🔄 926 forks - 👀 99 observadores - 📝 1 issues abiertos - 🔤 Principal lenguaje: Elixir


🔧 🤖 CLI-Anything: Haciendo que Todo el Software Sea Nativo para Agentes

CLI-Anything es una herramienta diseñada para convertir cualquier software en nativo para agentes de inteligencia artificial. A través de una serie de comandos, permite que las aplicaciones sean controladas por agentes de forma sencilla, sin la necesidad de dependencias o interfaces gráficas complicadas.

📊 Estadísticas de GitHub: - ⭐ 10,456 estrellas - 🔄 902 forks - 👀 59 observadores - 📝 38 issues abiertos - 🔤 Principal lenguaje: Python


🔧 ⚡ Get Shit Done

Get Shit Done es un sistema de desarrollo impulsado por metas, diseñado para facilitar la creación de código utilizando inteligencia artificial. Su enfoque es la ingeniería de contexto y permite a los desarrolladores definir proyectos de manera clara, evitando complicaciones innecesarias. La herramienta mejora la calidad del código y asegura que cada tarea se ejecute de manera efectiva, permitiendo una experiencia de desarrollo más fluida y productiva.

📊 Estadísticas de GitHub: - ⭐ 29,168 estrellas - 🔄 2,456 forks - 👀 166 observadores - 📝 298 issues abiertos - 🔤 Principal lenguaje: JavaScript


🔧 💥 OBLITERATUS

OBLITERATUS es la herramienta de código abierto más avanzada para entender y eliminar comportamientos de rechazo en modelos de lenguaje grande. Implementa técnicas de abliteration que identifican y eliminan quirúrgicamente las representaciones internas responsables del rechazo de contenido, preservando las capacidades lingüísticas del modelo. Cada intervención realizada con telemetría activada contribuye automáticamente a un conjunto de datos colaborativo que avanza la investigación sobre el alineamiento de modelos.

📊 Estadísticas de GitHub: - ⭐ 2,162 estrellas - 🔄 377 forks - 👀 25 observadores - 📝 12 issues abiertos - 🔤 Principal lenguaje: Python


🔧 💻 T3 Code

T3 Code es una interfaz web mínima para agentes de codificación. Actualmente se centra en Codex, con soporte para Claude Code que llegará pronto. T3 Code permite a los usuarios aprovechar capacidades avanzadas de programación a través de la inteligencia artificial. Se requiere tener instalado y autorizado Codex CLI para su funcionamiento.

📊 Estadísticas de GitHub: - ⭐ 6,121 estrellas - 🔄 748 forks - 👀 28 observadores - 📝 471 issues abiertos - 🔤 Principal lenguaje: TypeScript


🔧 🤖 Awesome Claude Skills

Una lista curada de habilidades y recursos para personalizar los flujos de trabajo de Claude AI. Estas habilidades permiten a Claude realizar tareas de forma repetible, cargando instrucciones y recursos relevantes según sea necesario. Con un enfoque en la eficiencia, las habilidades son una excelente manera de optimizar las interacciones y mejorar la productividad.

📊 Estadísticas de GitHub: - ⭐ 8,764 estrellas - 🔄 721 forks - 👀 73 observadores - 📝 77 issues abiertos - 🔤 Principal lenguaje: No especificado


🔧 🤖 Mejores Prácticas de Claude Code

🎯 Este repositorio ofrece recomendaciones sobre cómo optimizar el uso de Claude Code, facilitando su operación eficiente en proyectos de desarrollo e implementación de inteligencia artificial. La práctica hace a Claude perfecto, proporcionando herramientas y pautas que permiten realizar tareas de manera más efectiva.

📚 Este conjunto de mejores prácticas incluye comandos, agentes, habilidades y flujos de trabajo adaptados a diversas situaciones en el desarrollo de software, lo que maximiza la efectividad del equipo y minimiza errores.

📊 Estadísticas de GitHub: - ⭐ 14,158 estrellas - 🔄 1,331 forks - 👀 151 observadores - 📝 5 issues abiertos - 🔤 Principal lenguaje: HTML


📊 Análisis de Distribución por Categorías

La siguiente gráfica muestra la distribución de proyectos por categoría en TopGit:

Distribución de Categorías

📈 Estadísticas Semanales

🏆 Top 3 Categorías

Top 3 Categorías

📊 Distribución Detallada

🔧 Dev                ████████      44%  (11 repos)
🤖 IA & Machine Learning ████████      40%  (10 repos)
🔧 Otros                             4%  (1 repos)
📊 Data & Analytics                  4%  (1 repos)

🚀 Tendencias Destacadas

📈 Métricas Clave

  • Repositorios Totales: 25
  • Promedio Diario: 3.6 repos/día
  • Categorías Activas: 6

🎯 Categorías Dominantes

  1. Dev
  2. 11 repositorios
  3. 44.0% del total
  4. IA & Machine Learning
  5. 10 repositorios
  6. 40.0% del total
  7. Otros
  8. 1 repositorios
  9. 4.0% del total

💡 Análisis de Tendencias

Las tendencias observadas en GitHub sugieren un enfoque creciente en la adopción de tecnologías de Inteligencia Artificial y en la mejora de la eficiencia y la efectividad en el desarrollo de software. Los proyectos más destacados de la semana se centran principalmente en estas áreas:

  1. Plataforma AI de Workplace: Este repositorio señala que la inteligencia artificial (IA) cada vez más sofisticada está entrando en el dominio empresarial, propiciando la accesibilidad de información y la automatización del flujo de trabajo.
  2. SpacetimeDB: El crecimiento de las bases de datos en tiempo real, con lógicas comprensibles y de fácil utilización, sigue siendo una área de interés para los desarrolladores. La habilidad de cargar directamente la lógica de la aplicación en la base de datos optimiza el proceso de implementación y gestión de Bases de Datos.
  3. ReMe - Kit de Gestión de Memoria para Agentes: El desarrollo de agentes de IA que pueden aprender y recordar el contexto y los patrones de interacciones previas está en auge. Estas capacidades de memoria mejoran las interacciones con la IA, haciéndolas más personalizadas y eficientes.
  4. Symphony y Get Shit Done: Estos proyectos abordan el interés creciente en optimizar la gestión de tareas y proyectos en el desarrollo de software. Este enfoque en la productividad y la eficiencia sigue siendo una tendencia dominante.
  5. CLI-Anything, T3 Code, Awesome Claude Skills y Mejores Prácticas de Claude Code: Estos proyectos destacan la popularidad y la utilidad de los agentes de AI para el desarrollo y la codificación. Estas herramientas destacadas permiten a los usuarios aprovechar la capacidad de la IA para realizar tareas de codificación, mejorando la eficiencia y la accesibilidad de la programación.
  6. OBLITERATUS: Este repositorio resalta el interés en abordar problemas éticos y de sesgo en la IA. Ofrece soluciones para entender y erradicar comportamientos de sesgo en los modelos de lenguaje, un tema cada vez más relevante en el campo de la IA.

En resumen

💡 Análisis de Contexto

Lo admito: esperaba que la evaluación de habilidades en agentes IA fuera un paseo técnico sin mucha polémica. Pero Claude Skills 2.0 me sacudió esa idea de golpe. Cuando empiezas a medir “skills” de modelos conversacionales de verdad, te topas con un mundo de matices y trampas que los benchmarks clásicos ni rozan. No, no es solo cuestión de contar aciertos y errores; es un juego de interpretación, contexto y hasta ética.

Cuadrar la seguridad en IA con benchmarks reales es otro bicho raro. La mayoría de esas métricas tradicionales no cubren ni el 10% de los riesgos en producción, y menos con agentes que interactúan en tiempo real. Si piensas que evaluar modelos es solo un “deploy y observa”, agárrate: esto requiere un nivel de detalle y rigor digno de auditoría financiera. Y Claude Skills 2.0 está marcando el camino, pero con una mezcla de ambición y realidad que no todo el mundo está listo para digerir.

📡 Radar de Expertos

Radar de Expertos

Andrej Karpathy suelta que "la evaluación de skills en IA es la capa que separa al ruido del talento real", y tiene razón porque sin tests decentes terminamos midiendo hype en lugar de utilidad.

Gary Marcus insiste que "benchmarking sin contexto es un juego trampa que alimenta egos y bots sobreoptimizeados", lo cual es cierto: si mides para brillar en un test, no para resolver problemas duros en producción, bienvenido al circo del benchmarking.

Yo, en cambio, recuerdo a Timnit Gebru alertando sobre la seguridad en IA como algo que no puede ser un parche luego del deploy, sino un requisito desde el día uno. No solo buenos prompts, señores: seguridad baked in, no cosida con cinta adhesiva.


🌵
Descubre, Participa, Comunícate
- 🐥 Únete a nuestra vibrante comunidad en Twitter y mantente en la vanguardia.
- 💌 ¿Tienes algo que compartir? No dudes en contactarnos.

Sammy Azdoufal quería conducir su aspiradora con un mando de PlayStation 5.

Así, tal cual. Un ingeniero de IA que compra el DJI Romo — un robot aspirador de 2.000 dólares con cámaras, micrófonos y sensores de navegación — y piensa: "¿Y si lo piloto como un videojuego?" Abre Claude Code, le pide que descompile la app de DJI, entienda el protocolo MQTT que usa para hablar con los servidores cloud, extraiga su token de autenticación y construya una app custom para mapear los controles del joystick al robot.

Y aquí está la parte que más me interesa como constructor, no solo como espectador: el salto entre "Claude me ayuda a resolver una locura puntual" y "tengo un sistema para empaquetar ese conocimiento y reutilizarlo" cada vez es más corto. Si después de leer esto te pica el gusanillo de crear tus propias Skills 2.0, he publicado una factoría abierta para hacerlo con Agent Teams, validación y publicación en portal: aitorroma/skills-2-factory. La idea es simple: no quedarte en el prompt suelto, sino convertir un workflow útil en una skill reproducible, medible y lista para iterar.

Claude Code lo hace. La app funciona. El Romo se mueve con el mando.

Pero entonces aparecen más dispositivos. Muchos más.

El broker MQTT de DJI no tenía controles de acceso a nivel de topic. Una vez autenticado con un token válido — el suyo, el de su propio aspirador — podía suscribirse a los mensajes de todos los dispositivos conectados. En nueve minutos, su escáner catalogó cerca de 7.000 robots aspiradores repartidos en 24 países. Podía ver feeds de cámara en vivo, escuchar a través de los micrófonos, generar planos 2D de las casas y consultar niveles de batería. Con un número de serie de 14 dígitos, localizó el aspirador de un periodista de The Verge, confirmó que estaba limpiando el salón al 80% de batería y produjo un mapa preciso de su apartamento — todo desde Barcelona.

No hackeó nada. Simplemente, DJI le abrió la puerta a todo el edificio cuando él solo pidió la llave de su habitación.


De una travesura a un terremoto de seguridad

La historia de Azdoufal no es solo una anécdota curiosa. Es la demostración en vivo de algo que Anthropic acaba de formalizar con datos duros: Claude Opus 4.6 encontró más de 500 vulnerabilidades zero-day en proyectos open source durante sus pruebas. Y cuando lo apuntaron a Firefox — uno de los codebases más auditados y testeados del mundo — encontró 22 vulnerabilidades en dos semanas, 14 de ellas clasificadas como de alta severidad.

Para poner eso en contexto: esas 14 vulnerabilidades graves representan casi una quinta parte de todas las que Mozilla parcheó durante todo 2025. Y la primera la encontró a los 20 minutos de empezar a explorar el motor JavaScript.

Lo más relevante no es solo la velocidad. Es cómo las encuentra. A diferencia del fuzzing clásico — que lanza millones de inputs aleatorios esperando que algo rompa — Opus 4.6 lee y razona sobre el código como lo haría un investigador humano: mira arreglos anteriores para detectar bugs similares no resueltos, identifica patrones problemáticos y comprende la lógica lo suficientemente bien como para saber exactamente qué input la rompería.

¿Y explotarlas? Ahí la asimetría es brutal: Anthropic gastó 4.000 dólares en créditos API intentando que Claude escribiera exploits funcionales para las vulnerabilidades que había encontrado. Solo lo logró en 2 de varios cientos de intentos. Encontrar el agujero es barato. Explotarlo, todavía no. Eso, por ahora, es una buena noticia.


Pero este artículo no va (solo) de seguridad

Va de las Skills. Porque la misma lógica que permite a Claude auditar Firefox o descubrir que tu aspiradora es una puerta abierta al mundo, es la que ahora puedes encapsular, testear y optimizar como si fuera software.

Y eso es exactamente lo que trae Claude Code Skills 2.0.

¿Qué son las Skills?

Si nunca has tocado Claude Code, piénsalo así: una skill es una receta en Markdown. Un archivo SKILL.md donde le describes a Claude cómo hacer algo específico — crear documentos PDF con un formato concreto, revisar PRs buscando problemas de seguridad, generar servidores MCP desde una especificación OpenAPI, o compilar formularios en archivos PDF.

Son instrucciones que el agente carga dinámicamente cuando detecta que las necesita. La clave está en ese "detecta": Claude lee la descripción de la skill y decide si la activa o no en función del contexto de tu petición.

Dos categorías que importan

Anthropic ha formalizado la distinción en dos tipos:

Capability Uplift — Le enseñas a Claude algo que no sabe hacer bien por sí solo. El ejemplo clásico es frontend design: sin skill, Claude genera una página web genérica. Con la skill de diseño, aplica buenas prácticas de UI/UX, usa paletas coherentes, cuida los espacios. Otro ejemplo directo: compilar formularios en PDFs no rellenables, donde Claude tiene que colocar texto en coordenadas exactas sin campos definidos que lo guíen.

Encoded Preference — Claude ya sabe hacer cada paso individual. Lo que le das es la secuencia de tu workflow. Piensa en una revisión de NDA, un informe semanal estructurado, o el flujo que usamos en OpenClaw para desplegar agentes: revisar Telegram → levantar contenedor via Portainer → verificar en Docker Swarm → notificar resultado. Cada pieza ya la maneja; la skill es el plano de montaje.

Esta distinción no es académica. Tiene una consecuencia directa: las capability uplift tienen fecha de caducidad. A medida que los modelos mejoran (Opus 5, 6, 7...), las capacidades base van cubriendo lo que antes necesitaba instrucción explícita. La pregunta es: ¿cuándo jubilo esta skill?

Y las encoded preference, aunque más duraderas, también envejecen: ¿sigue mi workflow siendo el óptimo? ¿El nuevo modelo rinde peor con esta secuencia de pasos?


Entra el Skill Creator 2.0

Aquí es donde la actualización cambia el juego. El Skill Creator ahora opera en cuatro modos: Create, Eval, Improve y Benchmark.

Create — Pero con testing integrado

Antes, creabas una skill y la probabas manualmente a ojo. Ahora, cuando le pides al Skill Creator que genere una skill nueva, no solo escribe el SKILL.md — spawna agentes que la testean mientras la construye. Checkbox, radio buttons, campos de texto... va verificando cada capacidad en tiempo real.

Eval — Tests reales, no vibes

Defines prompts de prueba y describes cómo debería ser el output correcto. El sistema lanza esos prompts con la skill cargada y te reporta:

  • Pass rate — ¿cuántos tests pasa?
  • Tiempo — ¿cuánto tarda?
  • Tokens — ¿cuánto consume?

Pero lo potente viene ahora: los evals se ejecutan en paralelo con soporte multi-agente. Cada test corre en un agente independiente, con contexto limpio y métricas propias. Sin contaminación cruzada entre tests.

Improve — Iteración basada en datos

El Skill Creator analiza qué falló, propone mejoras en la descripción y el contenido de la skill, y vuelve a evaluar. Usa un split 60/40 (entrenamiento / test held-out) para evitar overfitting. Itera hasta 5 veces y te genera un report HTML con los resultados por iteración.

Benchmark — A/B testing ciego

Esta es la joya. El sistema spawna comparator agents que evalúan outputs sin saber cuál viene de qué versión — blind A/B comparison. Puedes comparar:

  • Skill v1 vs Skill v2 → ¿la mejora realmente mejoró?
  • Con skill vs sin skill → ¿realmente la necesitas?

Ese segundo escenario es crucial. Si el modelo base pasa tus tests sin la skill cargada, tienes la señal clara: la skill ya no es necesaria, jubílala.


El caso PDF: de desalineado a perfecto

Anthropic usó su propia skill de PDF como ejemplo. La skill permitía a Claude compilar formularios en documentos PDF — esos típicos formularios donde tienes que marcar casillas y escribir en campos específicos.

El problema: sin la mejora, las cruces quedaban desalineadas y el texto se posicionaba de forma incorrecta. Los evals aislaron exactamente dónde fallaba — el posicionamiento en PDFs no rellenables, donde Claude tiene que calcular coordenadas exactas sin campos definidos. La corrección: anclar el posicionamiento a las coordenadas del texto extraído. Resultado: formularios compilados a la perfección.

Sin evals, ese bug habría vivido indefinidamente. Con evals, lo detectas, lo arreglas, y verificas que la corrección no rompe nada más.


Lo que esto significa para OpenClaw

En nuestro ecosistema ya tenemos skills operativas:

¡Únete a NoCode OpenSource!

Únete a nuestra comunidad NoCode OpenSource y accede a noticias clave. Explora The {AI}rtist para obtener contenido exclusivo y accionable sobre IA directamente en tu bandeja de entrada.

Newsletter NoCode OpenSource - Lo último en NoCode

¡Genial! Te has inscrito con éxito.

Bienvenido de nuevo! Has iniciado sesión correctamente.

Te has suscrito correctamente a Newsletter NoCode OpenSource - Lo último en NoCode.

¡Éxito! Comprueba en tu correo electrónico el enlace mágico para iniciar sesión.

Éxito! Su información de facturación ha sido actualizada.

Su facturación no se actualizó.

Update cookies preferences