20 9 月, 2025

IBM 推出轻量级 AI 模型 Granite-Docling-258M,提升文件转换精度

ibm-ai-granite-docling-258m-

IT之家 9 月 20 日消息,IBM 正式发布了一款名为 Granite-Docling-258M 的小型视觉语言模型,旨在优化端到端文件转换的应用场景。该模型采用 Apache 2.0 开源协议,目前已在 Hugging Face 平台上线。

Granite-Docling-258M 的参数量为 2.58 亿,专为文档表格设计,能够完整保留版面、表格、数学公式、列表和代码块等结构。与传统 OCR 软件相比,该模型在识别准确度上有显著提升。

Granite-Docling 的创新之处

IBM 表示,Granite-Docling 的核心在于其使用的 DocTags 技术。这是一套由 IBM Research 设计的通用文件结构标记语言,能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系。

DocTags 技术的优势在于可以将内容与版面结构分离,实现“先识别元素范围再执行 OCR 识别”的流程。转换完成后,DocTags 可以直接将内容导出为 Markdown、JSON、HTML 等格式,或进一步进入 Docling 库进行处理。

多语言支持与未来发展

目前,Granite-Docling 支持中文、阿拉伯语和日语等语言,虽然尚未达到“企业级”水准,但 IBM 表示,未来将逐步扩展语言覆盖范围并提升模型的可靠性。

此外,IBM 计划进一步增强 DocTags 与 IBM watsonx.ai 模型的兼容性,并将 DocTags 词汇表纳入 Granite 分词器和训练流程,以提高整体性能。

行业专家的观点

业内专家认为,Granite-Docling 的推出标志着文件转换技术的又一重大进步。与传统 OCR 技术相比,这种新模型不仅提高了识别精度,还为多种格式的输出提供了可能性。

“Granite-Docling 的发布为文件转换领域带来了新的可能性,特别是在复杂文档结构的识别和保留方面。”——某行业分析师

未来的影响与展望

Granite-Docling 的推出可能会对文件处理行业产生深远影响。随着技术的不断发展,企业和开发者将能够更高效地处理多语言文档,从而提高工作效率。

未来,IBM 可能会继续在此领域进行创新,推动更广泛的应用和更高的识别精度。这一发展也可能促使其他科技公司加大在文件转换技术上的投入,进一步推动行业的整体进步。

总之,Granite-Docling-258M 的发布不仅展示了 IBM 在 AI 技术领域的创新能力,也为未来的文件处理技术发展指明了方向。

推荐阅读  阶跃星辰发布 Step-Audio 2 mini 语音模型,性能超越同类产品