Granite Docling由@IBM開發,目前在@huggingface上排名第3。 這是一個多模態的圖像-文本到文本模型,旨在高效進行文檔轉換。它保留了Docling的核心特性,同時與DoclingDocuments無縫集成,以確保完全兼容。 它基於IDEFICS3架構,但引入了兩個關鍵修改:用siglip2-base-patch16-512替換視覺編碼器,並用Granite 165M LLM替換語言模型。今天就來試試我們的Granite-Docling-258演示吧。 許可證:Apache 2.0 Granite-docling-258M已完全整合到Docling管道中,保留了現有功能,同時引入了一些強大的新功能,包括: 🔢 增強的方程識別:更準確的數學公式檢測和格式化 🧩 靈活的推理模式:選擇全頁推理或bbox引導區域推理 🧘 改進的穩定性:更有效地避免無限循環 🧮 增強的內聯方程:更好的內聯數學識別 🧾 文檔元素問答:回答有關文檔結構的問題,例如文檔元素的存在和順序 🌍 支持日語、阿拉伯語和中文(實驗性) HF頁面: 恭喜@ArvindKrishna @BillHiggins及團隊!