🔥 Docling: el fin del infierno del preprocesamiento de documentos para RAG

Descubre cómo Docling convierte PDFs, Word, audios y más en datos limpios y listos para RAG con solo tres líneas de código. Simple, local y sin dolor.
🔥 Docling: el fin del infierno del preprocesamiento de documentos para RAG
🚀
Eleva tu Negocio con HiveAgile! Nuevos Planes Disponibles Ahora 🌟

¿Estás listo para impulsar tu negocio en el mundo digital? En HiveAgile, sabemos lo crucial que es estar bien conectado en el entorno digital actual. Por eso, estamos emocionados de presentarte nuestros nuevos planes de membresía, pensados especialmente para adaptarse a lo que mejor te conviene, tanto en servicios como en presupuesto.

👉 Plan Mensual: Ideal para quienes buscan flexibilidad y compromiso a corto plazo. ¡Solo 12€ al mes! Haz clic aquí para más información

👉 Plan Trimestral Equilibrio perfecto entre compromiso y comodidad. 36€ cada tres meses. Descubre más aquí

👉 Plan Semestral: Únete a nosotros por seis meses a un precio especial de 73€. Infórmate más aquí

En HiveAgile, tu éxito es nuestra prioridad. Te ofrecemos la libertad de elegir cómo y cuándo invertir en tu crecimiento digital. ¡Es tu momento de destacar en el mundo digital con HiveAgile!

🌟 HiveAgile: Adaptándonos a ti, impulsando tu negocio.

Hola 👋

Esta semana no hubo episodio del G33K TEAM, pero tranquilos, que la espera valdrá la pena. Estamos preparando para la próxima semana una charla con la gente de Endor, un impresionante proyecto Open Source que está cambiando la forma en la que los desarrolladores trabajan con agentes de IA y entornos locales seguros.

Endor
We make your AI Coding Agents better. Endor builds tools for AI agents and humans.

Endor ofrece un ecosistema completo para construir y ejecutar agentes de IA en entornos reales y controlados, sin depender de servicios externos ni configuraciones complicadas. Entre sus herramientas destacan:

  • 🧠 Rover, un gestor de AI coding agents como Claude Code, Codex o Gemini, que permite que varios agentes colaboren en tu código de forma coordinada, cada uno en su entorno aislado y con contexto compartido.
  • ⚙️ Endor CLI, una herramienta que levanta entornos con bases de datos como MariaDB, PostgreSQL o Redis en segundos, todo sobre WebAssembly y con permisos granulares.
  • 🌐 Endor Web, que te permite ejecutar entornos LAMP completos (PHP, Apache, MariaDB, Redis) directamente desde el navegador, ideal para probar y desarrollar sin instalar nada.

El objetivo de Endor es claro: dar a tus agentes de IA un entorno real y seguro donde puedan compilar, probar y ejecutar código, reduciendo errores y mejorando la colaboración multiagente.

Además, en The {AI}rtist te cuento en la sección principal cómo Docling cambió por completo la manera de procesar documentos para RAG — y cómo tres líneas de código pueden ahorrarte un fin de semana entero de sufrimiento técnico.


ℍ𝕠𝕣𝕚𝕫𝕠𝕟𝕥𝕖 𝔸𝕣𝕥𝕚𝕗𝕚𝕔𝕚𝕒𝕝

Te presentamos "Horizonte Artificial", la nueva y flamante sección de nuestra newsletter dedicada exclusivamente a la Inteligencia Artificial. Pero no esperes el contenido convencional que inunda TikTok o YouTube. Aquí, nos sumergiremos en el fascinante mundo del OpenSource, explorando proyectos libres que puedes desplegar en tu propio servidor. Y para guiarnos en esta travesía, contamos con la experticia de Jesús Pacheco, mejor conocido en nuestra comunidad HiveAgile como "Pachecodes". Prepárate para una perspectiva fresca y auténtica sobre la IA. ¡Bienvenidos al horizonte!


🧠 “Menos es más”: Samsung revoluciona el razonamiento con Tiny Recursive Model (TRM)

En un mundo dominado por modelos cada vez más grandes, Samsung ha hecho justo lo contrario: crear un modelo diminuto que piensa mejor.
Se llama Tiny Recursive Model (TRM), tiene solo 7 millones de parámetros (sí, con “M”, no con “B”), y ha conseguido superar a modelos de frontera como Gemini 2.5 Pro, O1 Mini y DeepSeek R1 en el dataset más difícil del mundo en razonamiento lógico, los benchmarks ARC y AGI.

¿Cómo es posible que un modelo tan pequeño supere a gigantes con miles de millones de parámetros?
La respuesta no está en el tamaño, sino en la arquitectura y el método de razonamiento.


🔍 El problema: los LLM no razonan, predicen

Los Large Language Models como GPT o Gemini funcionan con un mecanismo llamado autoregresión: generan texto palabra a palabra (o token a token), cada salida depende de la anterior.
Esto es excelente para redactar textos o mantener una conversación coherente, pero no para razonar.

En tareas que requieren lógica, como resolver un sudoku o encontrar el camino en un laberinto, un solo error en un token puede desviar toda la secuencia de razonamiento, propagando el fallo.

Para mitigar esto, los investigadores introdujeron el enfoque “Chain of Thought” (Cadena de pensamiento), donde el modelo “piensa en voz alta”, generando pasos intermedios antes de dar la respuesta final.
Sin embargo, este método es costoso, requiere muchos datos anotados y, además, no garantiza que el razonamiento sea correcto: el modelo sigue “simulando pensar”, no “pensando” realmente.


🧩 La inspiración: HRM (Hierarchical Reasoning Models)

Antes de TRM, Samsung ya había explorado una idea brillante con los Hierarchical Reasoning Models (HRM).
Estos modelos simulaban la forma en que pensamos los humanos:

  • una parte lenta que razona a alto nivel (estrategia),
  • y una parte rápida que gestiona los detalles (reglas o cálculos básicos).

HRM consiguió resultados espectaculares con solo 27 millones de parámetros, superando a modelos miles de veces más grandes.
Pero tenía dos problemas:

  1. Dependía de una explicación biológica no demostrada matemáticamente,
  2. y su arquitectura de dos redes hacía el modelo más complejo de lo necesario.

⚙️ El salto: Tiny Recursive Model (TRM)

El equipo de Samsung decidió simplificar.
Partiendo del HRM, crearon una arquitectura aún más pequeña y elegante: solo dos capas, sin jerarquía explícita, y con un principio clave: la recursión.

¿Cómo funciona?

En lugar de generar tokens uno tras otro, TRM piensa internamente mediante ciclos recursivos:

  1. Recibe un input (por ejemplo, un puzzle).
  2. Lo procesa internamente varias veces, entrando en un bucle de razonamiento.
  3. Solo cuando encuentra una solución estable (punto de convergencia), emite la respuesta.

Durante esos ciclos, no genera texto ni tokens visibles: simplemente razona dentro de sí mismo.
Es un modelo que piensa realmente, no que “escribe para pensar”.


📊 Los resultados: David vence a Goliat

El paper, titulado “Less is More: Recursive Reasoning with Tiny Networks”, muestra resultados sorprendentes:

Modelo Parámetros ARC-1 ARC-2
DeepSeek R1 671B 15.1% 1.3%
Claude 3 600B 28.7% 0.7%
Gemini 2.5 Pro 37.9% 4.9%
HRM 27M 40.3% 5.0%
TRM (Samsung) 7M 44.6% 7.8%

Solo Grok 4, un modelo de 1.7 trillones de parámetros, logra superarlo.
TRM usa el 0.01% de los parámetros de los modelos de frontera… y aún así los vence en tareas de razonamiento.


🧮 El secreto: recursión + simplicidad

Los investigadores descubrieron algo inesperado:
👉 aumentar el número de capas o parámetros empeoraba el rendimiento.

Más capas llevaban a overfitting (el modelo “memorizaba” en lugar de generalizar).
En cambio, con solo dos capas y un razonamiento recursivo interno, TRM aprendía de forma estable, evitando errores acumulativos.

Además, dejarlo razonar más tiempo (más ciclos internos) mejoraba su precisión.
Cuantos más “pensamientos internos” tiene el modelo antes de decidir, mejor responde —un patrón similar al test-time compute scaling law que se observa en LLMs.


🧩 Más allá del texto: un modelo que realmente razona

TRM no genera lenguaje natural.
No es un chatbot, ni un modelo conversacional.
Es un razonador puro, diseñado para resolver problemas complejos de forma simbólica y estructurada —laberintos, puzzles, aritmética o deducciones lógicas.

Su importancia no está solo en los benchmarks, sino en lo que representa:
💡 Una nueva dirección en IA donde “pensar” importa más que “predecir”.


🧠 Conclusión: el renacer de los modelos pequeños

El éxito de Tiny Recursive Model demuestra que la inteligencia no depende del tamaño, sino de cómo se organiza el pensamiento.
Con esta línea de investigación, podríamos estar viendo los primeros pasos hacia una IA verdaderamente racional y eficiente, que no necesite supercomputadores para razonar como un humano.


📄 Paper: Less is More: Recursive Reasoning with Tiny Networks
💻 Código: github.com/SamsungSAILMontreal/TinyRecursiveModels


🌟 TopGit - Resumen Semanal (2025-10-11)

📚 Repositorios Destacados de la Semana

Los siguientes repositorios han sido seleccionados por su relevancia, calidad y métricas de GitHub:

🔧 🔥 Framework de Backend Unificado

Motia es un framework de backend que unifica APIs, trabajos en segundo plano, flujos de trabajo y agentes de IA en un solo núcleo primitivo, eliminando la fragmentación del tiempo de ejecución. Con soporte para múltiples lenguajes como JavaScript, TypeScript y Python, permite construir aplicaciones completas con facilidad. A través de su concepto de 'Paso', Motia redefine el desarrollo del backend haciendo cada patrón, trabajos de fondo y agentes de IA accesibles de manera uniforme. Los beneficios incluyen despliegue rápido, arquitectura orientada a eventos y soporte para IA. Su ecosistema cuenta con guías de desarrollo asistido por IA y un sistema de escalabilidad construido.

📊 Estadísticas de GitHub:

  • ⭐ 9,375 estrellas
  • 🔄 719 forks
  • 👀 66 observadores
  • 📝 49 issues abiertos
  • 🔤 Principal lenguaje: TypeScript

🔧 🤖 Julep: Despliega flujos de trabajo de IA sin servidor

Julep es una plataforma de código abierto para construir flujos de trabajo de IA basados en agentes, que van más allá de simples cadenas de instrucciones. Permite orquestar procesos complejos con modelos de lenguaje y herramientas sin necesidad de gestionar infraestructura. Recuerda interacciones pasadas y maneja tareas sofisticadas con lógica de ramificación y ejecución en paralelo.

📊 Estadísticas de GitHub:

  • ⭐ 6,603 estrellas
  • 🔄 985 forks
  • 👀 20 observadores
  • 📝 111 issues abiertos
  • 🔤 Principal lenguaje: Jupyter Notebook

🔧 📊 Univer: Hojas de cálculo nativas de IA

Univer es un marco de trabajo completo para crear y editar hojas de cálculo, documentos y presentaciones tanto en la web como en el servidor. Con Univer MCP, las Hojas de Cálculo Univer se manejan a través del lenguaje natural, lo que permite una interacción más intuitiva y eficiente. Este marco es altamente extensible y personalizable, lo que lo convierte en una excelente herramienta tanto para desarrolladores como para usuarios finales.

📊 Estadísticas de GitHub:

  • ⭐ 11,281 estrellas
  • 🔄 978 forks
  • 👀 88 observadores
  • 📝 137 issues abiertos
  • 🔤 Principal lenguaje: TypeScript

🔧 🤖 Agentes LLM basados en voz

Vocode es una biblioteca de código abierto que facilita la creación de aplicaciones LLM basadas en voz. Con Vocode, puedes construir conversaciones en tiempo real con LLMs y desplegarlas en llamadas telefónicas, reuniones de Zoom, y más. Además, puedes crear asistentes personales o aplicaciones como ajedrez por voz. Vocode proporciona abstracciones e integraciones fáciles para que todo lo que necesites esté en una sola biblioteca.

📊 Estadísticas de GitHub:

  • ⭐ 3,571 estrellas
  • 🔄 631 forks
  • 👀 49 observadores
  • 📝 13 issues abiertos
  • 🔤 Principal lenguaje: Python

🔧 🧠 Omnara: Controla tus agentes de IA desde cualquier lugar

Omnara es una plataforma que permite interactuar con agentes de inteligencia artificial (IA) como Claude Code y Codex desde cualquier dispositivo de manera intuitiva y en tiempo real. Permite ver las actividades de los agentes y responder preguntas desde un solo lugar.

📊 Estadísticas de GitHub:

  • ⭐ 2,412 estrellas
  • 🔄 164 forks
  • 👀 11 observadores
  • 📝 35 issues abiertos
  • 🔤 Principal lenguaje: TypeScript

🔧 🚀 Servidor S3 en PHP

Descripción: Este proyecto es un servidor S3 ligero que se implementa en PHP, ideal para almacenar y gestionar objetos de manera sencilla utilizando el sistema de archivos local.

Características:

  • API compatible con S3 para operaciones de PUT/GET/DELETE/POST.
  • Soporta cargas de archivos en partes (Multipart Upload).
  • No requiere base de datos, almacenamiento basado en el sistema de archivos.
  • Autenticación simple compatible con AWS V4.
  • Instalación sencilla mediante un solo archivo.

Beneficios:

  • Ahorra recursos al utilizar sólo el sistema de archivos.
  • Fácil de implementar en cualquier hosting con PHP y Apache/Nginx.
  • Ideal para desarrolladores que buscan un almacenamiento S3 sin complicaciones.

Casos de uso:

  • Para proyectos que necesitan almacenamiento de objetos ligero y eficiente.
  • Uso en desarrollo local o implementación rápida en producción.

https://github.com/hochenggang/simple-php-s3-server

📊 Estadísticas de GitHub:

  • ⭐ 86 estrellas
  • 🔄 13 forks
  • 👀 1 observadores
  • 📝 0 issues abiertos
  • 🔤 Principal lenguaje: PHP

🔧 🌐 Globalping Probe

Globalping Probe es un código que se ejecuta en tu hardware y se conecta a una red global de comunidades de sondas. Permite realizar pruebas de conectividad desde diferentes ubicaciones utilizando comandos como ping y traceroute, ayudando en el análisis de rendimiento de la red. Su objetivo es mejorar la confiabilidad y precisión de las mediciones de red.

📊 Estadísticas de GitHub:

  • ⭐ 114 estrellas
  • 🔄 28 forks
  • 👀 9 observadores
  • 📝 9 issues abiertos
  • 🔤 Principal lenguaje: TypeScript

🔧 🌐 NetMirror - Servidor de Espejo Moderno

NetMirror es un servidor de espejo moderno y rico en características, con una hermosa interfaz web para diagnósticos de red y pruebas de rendimiento. Permite la gestión automatizada de nodos y facilita el despliegue de servicios de red a través de scripts, asegurando una experiencia de usuario eficiente y fácil de usar.

📊 Estadísticas de GitHub:

  • ⭐ 229 estrellas
  • 🔄 8 forks
  • 👀 0 observadores
  • 📝 1 issues abiertos
  • 🔤 Principal lenguaje: Vue

🔧 ⚡ Resumen de Videos de YouTube

YouTubeTLDR es un resumidor de videos de YouTube ligero y autoalojado que utiliza IA de Gemini para generar resúmenes rápidos. Este software está diseñado para ofrecer una experiencia ágil y funcional, permitendo a los usuarios resumir contenido extenso de manera eficiente. Además, asegura la privacidad de los datos al ejecutarse en su propio entorno.

📊 Estadísticas de GitHub:

  • ⭐ 195 estrellas
  • 🔄 18 forks
  • 👀 2 observadores
  • 📝 0 issues abiertos
  • 🔤 Principal lenguaje: CSS

🔧 ⚡ HestiaCP Pluginable

HestiaCP Pluginable es un sistema que permite extender el Hestia Control Panel mediante un API de plugins sencilla y similar a WordPress. Esta versión 2.x facilita la instalación, actualización y administración de plugins, mejorando la compatibilidad y reduciendo el intrusismo en los archivos principales de HestiaCP. Así, los desarrolladores pueden personalizar y reaccionar a prácticamente todos los aspectos de la interfaz web y API de CLI de HestiaCP.

📊 Estadísticas de GitHub:

  • ⭐ 31 estrellas
  • 🔄 2 forks
  • 👀 2 observadores
  • 📝 0 issues abiertos
  • 🔤 Principal lenguaje: PHP

📊 Análisis de Distribución por Categorías

La siguiente gráfica muestra la distribución de proyectos por categoría en TopGit:

Distribución de Categorías

📈 Estadísticas Semanales

🏆 Top 3 Categorías

Top 3 Categorías

📊 Distribución Detallada

🌐 Web Development    ████████      40%  (6 repos)
🔧 Dev                ████████      40%  (6 repos)
🤖 IA & Machine Learning ██            13%  (2 repos)
🔧 Otros              █              7%  (1 repos)

🚀 Tendencias Destacadas

📈 Métricas Clave

  • Repositorios Totales: 15
  • Promedio Diario: 2.1 repos/día
  • Categorías Activas: 4

🎯 Categorías Dominantes

  1. Web Development
    • 6 repositorios
    • 40.0% del total
  2. Dev
    • 6 repositorios
    • 40.0% del total
  3. IA & Machine Learning
    • 2 repositorios
    • 13.3% del total

💡 Análisis de Tendencias

Basado en los repositorios más destacados de la semana en GitHub, podemos identificar algunas tendencias claras en el mundo del desarrollo y la tecnología:

  1. Inteligencia Artificial (IA) en múltiples dominios: Existe un interés creciente en la utilización de la IA en áreas más allá del análisis de datos. Vemos que se está aplicando en flujos de trabajo (Julep), en la interacción por voz (Vocode), en interfaces de usuario como las hojas de cálculo (Univer), e incluso en la generación de resúmenes de videos de Youtube (YouTubeTLDR). Esta amplia gama de aplicaciones muestra lo versátil que puede ser la IA y cómo puede mejorar la eficiencia y la experiencia del usuario en diferentes contextos.
  2. Desarrollo Backend unificado: El proyecto 'Framework de Backend Unificado' (Motia) se centra en eliminar la fragmentación en el tiempo de ejecución al unificar las APIs, los trabajos en segundo plano y los agentos de IA en un solo núcleo. Esto es un indicador de que se está buscando optimizar y simplificar el proceso de desarrollo, en lugar de tener que lidiar con múltiples movimientos independientes.
  3. Herramientas de desarrollo orientadas a la red: Los repositorios como 'Globalping Probe' y 'NetMirror' muestran un enfoque en herramientas y aplicaciones relacionadas con la red. Estas herramientas permiten pruebas de rendimiento y diagnósticos de red, lo cual es crucial en el mundo digital de hoy en día donde el rendimiento y la seguridad de las redes son prioridades altas.
  4. Servidores ligeros y personalizables: Proyectos como 'Servidor S3 en PHP' y 'HestiaCP Pluginable' apuntan a proporcionar soluciones más simples, ligeros y personalizables para las necesidades de los servidores. Estas herramientas reducen el esfuerzo técnico al ser fáciles de implementar y al no requerir recursos intensivos.

En resumen, estos repositorios reflejan el rápido desarrollo y la diversificación en la tecnología y el desarrollo de software, con un enfoque particular en la inteligencia artificial


Viernes, 4:37 PM.

Tu laptop debería estar cerrándose. Tu cerebro debería estar pensando en cerveza fría y Netflix.

En su lugar, estás mirando una pantalla llena de errores rojos, preguntándote por qué demonios elegiste ser desarrollador.

Yo estaba ahí. Café número cuatro. Ojos rojos. Y un PDF corporativo burlándose de mí desde la carpeta de "documentos_cliente".

Esto es lo que pasó después.

El Email Del Viernes

De: Cliente Importante
Asunto: URGENTE - Chatbot para el lunes
Mensaje: "Necesitamos un bot que responda preguntas 
         sobre nuestros documentos. Nada complejo."

"Nada complejo", dijo.

Traducción real: "Tenemos 200 archivos en 15 formatos diferentes y necesitamos que un LLM entienda todo esto antes de que abramos el lunes".

Pero hey, soy profesional. RAG básico. Vector database. Couple of scripts. Easy.

Spoiler: No fue easy.

El Zoo Del Infierno

Abrí la carpeta "documentos_empresa".

Mi alma dejó mi cuerpo.

No eran "documentos". Era un museo del horror digital:

📁 documentos_empresa/
├── 📄 informe_Q3_FINAL_FINAL_v2_REAL.pdf     ← 87 páginas, tablas rotas
├── 📄 acta_reunion_07_marzo.docx              ← Formato Word salvaje
├── 🎤 llamada_clientes_IMPORTANTE.mp3         ← 47 minutos de audio
├── 📊 presupuesto_2025.xlsx                   ← Excel anidado
├── 🖼️ diagrama_arquitectura_scaneado.jpg     ← Necesita OCR
└── 💀 documento_corrupto_1997.doc             ← ¿Qué es esto?

"Nada complejo", eh?

La Espiral

Intento #1: PyPDF2

import PyPDF2
pdf = PyPDF2.PdfReader("informe_Q3.pdf")
text = pdf.pages[0].extract_text()

print(text)
# Output: "Q3R esu lt s$3 .4MRev nu  Tab l e1:S al sD at"

Las tablas parecían que habían pasado por una licuadora. Siguiente.

Intento #2: python-docx

Formato perdido. Tablas destrozadas. Imágenes desaparecidas.

Intento #3: OCR con Tesseract

Configuración de 2 horas. Resultados... creativos. "Ingresos: $3M" se convirtió en "Ingreabs: 53M".

Intento #4: Whisper manual

# Instalando dependencias...
# Descargando modelo (3.2GB)...
# Configurando FFmpeg...
# Ajustando parámetros...
# Debugging por qué no detecta audio...

Son las 11 PM. Llevo 6 horas. Tengo 3 tipos de archivo funcionando mediamente mal.

Mi código parece esto:

if file.endswith('.pdf'):
    try:
        # 40 líneas de horror
    except:
        try:
            # 30 líneas más de horror alternativo
        except:
            print("🤷 No idea, bro")
elif file.endswith('.docx'):
    # 50 líneas diferentes de horror
elif file.endswith('.mp3'):
    # Aquí fue donde lloré

147 líneas de código spaghetti.

Y ni siquiera había empezado el RAG todavía.


Ahí fue cuando lo encontré.

¡Únete a NoCode OpenSource!

Únete a nuestra comunidad NoCode OpenSource y accede a noticias clave. Explora The {AI}rtist para obtener contenido exclusivo y accionable sobre IA directamente en tu bandeja de entrada.

Newsletter NoCode OpenSource - Lo último en NoCode

¡Genial! Te has inscrito con éxito.

Bienvenido de nuevo! Has iniciado sesión correctamente.

Te has suscrito correctamente a Newsletter NoCode OpenSource - Lo último en NoCode.

¡Éxito! Comprueba en tu correo electrónico el enlace mágico para iniciar sesión.

Éxito! Su información de facturación ha sido actualizada.

Su facturación no se actualizó.

Update cookies preferences