Granite-Vision-4.1-4B与Docling集成构建企业级文档处理流水线【免费下载链接】granite-vision-4.1-4b项目地址: https://ai.gitcode.com/hf_mirrors/ibm-granite/granite-vision-4.1-4bGranite-Vision-4.1-4B是一款轻量级视觉语言模型VLM专为结构化文档提取任务设计在仅4B参数的紧凑模型中实现了前沿级别的图表提取、表格提取和语义键值对提取能力。结合Docling的文档处理能力二者可共同构建高效、准确的企业级文档处理流水线为各类业务场景提供强大的文档理解支持。 为什么选择Granite-Vision-4.1-4B与Docling组合在当今数字化办公环境中企业面临着海量文档的处理需求包括报表、合同、发票等各类结构化和非结构化文档。传统的文档处理方式往往依赖人工操作效率低下且容易出错。而Granite-Vision-4.1-4B与Docling的集成为企业提供了一种全新的解决方案。Granite-Vision-4.1-4B作为一款先进的视觉语言模型具备强大的图表、表格和语义键值对提取能力能够将复杂的文档内容转换为结构化数据。Docling则专注于文档解析和处理能够对各种格式的文档进行高效处理。二者结合形成了一个从文档输入到数据输出的完整处理流程大大提高了文档处理的效率和准确性。 核心功能与优势图表提取能力Granite-Vision-4.1-4B在图表提取方面表现出色支持将图表转换为结构化的CSV格式、生成图表的自然语言摘要以及创建可重现图表的Python代码。在ChartNet人类验证测试集上通过LLM-as-a-judgeGPT-4o评分该模型在Chart2CSV和Chart2Summary任务中均取得了优异成绩。图1: Granite-Vision-4.1-4B在Chart2CSV任务中的性能表现LLM-as-a-judge评分为71.9图2: Granite-Vision-4.1-4B在Chart2Summary任务中的性能表现LLM-as-a-judge评分为87.1表格提取能力对于表格提取Granite-Vision-4.1-4B在多种 benchmark 上展现了卓越性能。在PubTables-v2数据集的全页文档设置中其TEDSTree-Edit Distance-based Similarity得分高达96.2显著优于其他同类模型。图3: Granite-Vision-4.1-4B在PubTables-v2全页表格提取任务中的TEDS得分达到96.2语义键值对提取能力在VAREX基准测试中Granite-Vision-4.1-4B实现了94.2%的精确匹配准确率零样本能够高效地从文档中提取基于键名和描述的值。图4: Granite-Vision-4.1-4B在VAREX键值对提取任务中的精确匹配准确率为94.2%Docling集成优势Docling与Granite-Vision-4.1-4B的无缝集成进一步增强了文档处理能力。通过Docling用户可以实现表格结构提取和图表数据提取等功能轻松构建端到端的文档处理流水线。 快速开始安装与配置前提条件Python 3.11相关依赖库torch、transformers、peft、tokenizers、pillow等安装步骤克隆仓库git clone https://gitcode.com/hf_mirrors/ibm-granite/granite-vision-4.1-4b cd granite-vision-4.1-4b安装依赖pip install torch2.10.0 --index-url https://download.pytorch.org/whl/cu128 pip install transformers5.8.0 peft0.19.1 tokenizers0.22.2 pillow12.2.0安装Docling可选用于增强文档处理能力pip install docling[granite_vision] 使用示例构建文档处理流水线使用Transformers进行推理以下是使用Transformers库调用Granite-Vision-4.1-4B进行图表和表格提取的示例代码import re from io import StringIO import pandas as pd import torch from transformers import AutoProcessor, AutoModelForImageTextToText from PIL import Image model_id ibm-granite/granite-vision-4.1-4b device cuda if torch.cuda.is_available() else cpu processor AutoProcessor.from_pretrained(model_id) processor.tokenizer.padding_side left # required for correct batched generation model AutoModelForImageTextToText.from_pretrained( model_id, dtypetorch.bfloat16, device_mapdevice ).eval() # 图表提取示例 chart_img Image.open(chart.jpg).convert(RGB) chart_prompts [chart2csv, chart2summary, chart2code] chart_results run_inference(model, processor, [chart_img] * len(chart_prompts), chart_prompts) for prompt, result in zip(chart_prompts, chart_results): print(f{prompt}:) display_table(result) print() # 表格提取示例 table_img Image.open(table.png).convert(RGB) table_prompts [tables_html, tables_otsl] table_results run_inference(model, processor, [table_img] * len(table_prompts), table_prompts) for prompt, result in zip(table_prompts, table_results): print(f{prompt}:) display_table(result) print()与Docling集成进行表格提取# 引用自Docling官方示例 from docling.document_converter import DocumentConverter from docling.models import GraniteVisionTableStructureModel # 初始化表格结构模型 table_model GraniteVisionTableStructureModel(model_nameibm-granite/granite-vision-4.1-4b) # 初始化文档转换器并启用表格结构提取 converter DocumentConverter( table_structure_modeltable_model, extract_table_structureTrue ) # 转换文档并提取表格 doc converter.convert(sample_document.pdf) for page in doc.pages: for table in page.tables: print(Table HTML:) print(table.html) print(\nTable DataFrame:) print(table.to_pandas()) 性能对比为何选择此组合Granite-Vision-4.1-4B在多个文档处理任务上与其他模型相比具有明显优势。在表格提取方面在PubTables-v2裁剪表格设置中其TEDS得分达到93.8远超同类模型。图5: Granite-Vision-4.1-4B在PubTables-v2裁剪表格提取任务中的TEDS得分为93.8与更大规模的前沿模型相比Granite-Vision-4.1-4B以更小的参数规模实现了相当甚至更优的性能同时具有更快的推理速度和更低的资源消耗非常适合企业级部署。⚠️ 注意事项与最佳实践任务范围该模型专为结构化提取任务设计对于开放式视觉语言任务的泛化能力可能有限。输出验证作为生成式模型其输出在用于自动化流水线前应进行验证特别是在高风险文档处理场景中。语言支持模型主要针对英语指令训练对其他语言文档的处理效果可能会下降。安全部署建议与Granite Guardian配合使用以增强企业部署中的安全性。 相关资源模型架构详情可参考项目中的modeling.py文件处理配置信息可查看processing.py和preprocessor_config.jsonDocling集成示例Table extraction、Chart data extraction通过Granite-Vision-4.1-4B与Docling的集成企业可以构建高效、准确的文档处理流水线轻松应对各类结构化文档提取任务提升业务处理效率和数据利用价值。无论是金融报表分析、医疗记录处理还是法律文档审查这一强大组合都能为企业带来显著的效益。【免费下载链接】granite-vision-4.1-4b项目地址: https://ai.gitcode.com/hf_mirrors/ibm-granite/granite-vision-4.1-4b创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考