Granite Docling de @IBM es la tendencia #3 en @huggingface. Este es un modelo multimodal de imagen-texto-a-texto diseñado para una conversión eficiente de documentos. Conserva las características principales de Docling mientras mantiene una integración perfecta con DoclingDocuments para garantizar una compatibilidad total. Se basa en la arquitectura IDEFICS3, pero introduce dos modificaciones clave: reemplaza el codificador de visión con siglip2-base-patch16-512 y sustituye el modelo de lenguaje con un LLM Granite 165M. Pruebe nuestra demostración de Granite-Docling-258 hoy. Licencia: Apache 2.0 Granite-docling-258M está completamente integrado en las tuberías de Docling, lo que transfiere las funciones existentes e introduce una serie de nuevas y potentes funciones, que incluyen: 🔢 Reconocimiento de ecuaciones mejorado: detección y formateo más precisos de fórmulas matemáticas 🧩 Modos de inferencia flexibles: elija entre inferencia de página completa e inferencia de región guiada por bbox 🧘 Estabilidad mejorada: tiende a evitar bucles infinitos de manera más efectiva 🧮 Ecuaciones en línea mejoradas: mejor reconocimiento matemático en línea 🧾 Control de calidad de elementos de documento: Responda preguntas sobre la estructura de un documento, como la presencia y el orden de los elementos del documento. 🌍 Soporte japonés, árabe y chino (experimental) Página HF: ¡Felicidades @ArvindKrishna @BillHiggins y equipo!