Granite Docling由@IBM开发,目前在@huggingface上排名第3。 这是一个多模态的图像-文本到文本模型,旨在高效进行文档转换。它保留了Docling的核心特性,同时与DoclingDocuments无缝集成,以确保完全兼容。 它基于IDEFICS3架构,但引入了两个关键修改:用siglip2-base-patch16-512替换视觉编码器,并用Granite 165M LLM替换语言模型。今天就来试试我们的Granite-Docling-258演示吧。 许可证:Apache 2.0 Granite-docling-258M已完全整合到Docling管道中,保留了现有功能,同时引入了一些强大的新功能,包括: 🔢 增强的方程识别:更准确的数学公式检测和格式化 🧩 灵活的推理模式:选择全页推理或bbox引导区域推理 🧘 改进的稳定性:更有效地避免无限循环 🧮 增强的内联方程:更好的内联数学识别 🧾 文档元素问答:回答有关文档结构的问题,例如文档元素的存在和顺序 🌍 支持日语、阿拉伯语和中文(实验性) HF页面: 恭喜@ArvindKrishna @BillHiggins及团队!