RAG 加载 pdf 文档

张

张建站

2026/5/15 18:51:42

10分钟阅读

加载 pdf 是复杂并且有多种不同方式的1. PyPDFLoaderfromlangchain_community.document_loadersimportPyPDFLoader loaderPyPDFLoader(90-文档-Data/黑悟空/黑神话悟空.pdf)pagesloader.load()2. pymupdfimportpymupdf# 打开PDF文件docpymupdf.open(90-文档-Data/黑悟空/黑神话悟空.pdf)text[page.get_text()forpageindoc]3. pdf2image pytesseract# 扫描图片型 PDF建议用 pytesseract pdf2image# sudo apt-get install tesseract-ocr# sudo apt-get install tesseract-ocr-chi-simimportpdf2imageimportpytesseractimportos# 创建 output 目录output_diroutputos.makedirs(output_dir,exist_okTrue)# 将 PDF 转换为图片并保存imagespdf2image.convert_from_path(90-文档-Data/黑悟空/黑神话悟空.pdf)fori,imageinenumerate(images):image.save(f{output_dir}/page_{i1}.png)# 使用 pytesseract 提取文本fori,imageinenumerate(images):textpytesseract.image_to_string(image,langchi_sim)4. LlamaParse 和 MarkdownElementNodeParser# 需要LLAMA_CLOUD_API_KEYfromdotenvimportload_dotenv load_dotenv()# LlamaParse PDF reader for PDF Parsingfromllama_parseimportLlamaParse documentsLlamaParse(result_typemarkdown).load_data(90-文档-Data/黑悟空/黑神话悟空.pdf)print(documents)fromllama_index.core.node_parserimportMarkdownElementNodeParser node_parserMarkdownElementNodeParser()nodesnode_parser.get_nodes_from_documents(documents)print(nodes)5. UnstructuredLoaderfromlangchain_unstructuredimportUnstructuredLoader loaderUnstructuredLoader(file_path90-文档-Data/山西文旅/云冈石窟-en.pdf,# PDF文件路径strategyhi_res,# 使用高分辨率策略进行文档处理# partition_via_apiTrue, # 通过API进行文档分块# coordinatesTrue, # 提取文本坐标信息)docs[]# lazy_load() 是一种延迟加载方法# 它不会一次性将所有文档加载到内存中而是在需要时才逐个加载文档# 这对于处理大型PDF文件时可以节省内存使用fordocinloader.lazy_load():docs.append(doc)print(docs)6. 导入unstructured的partition函数用于PDF解析# 导入unstructured的partition函数用于PDF解析fromunstructured.partition.autoimportpartition# 设置PDF文件路径filename90-文档-Data/黑悟空/黑神话悟空.pdf# 使用partition函数解析PDF文件# content_type指定文件类型为PDFelementspartition(filenamefilename,content_typeapplication/pdf)# 展示解析出的elements的类型和内容print(PDF解析后的Elements类型:)fori,elementinenumerate(elements[:5]):print(f\nElement{i1}:)print(f类型:{type(element).__name__})print(f内容:{str(element)})print(-*50)# 统计不同类型elements的数量element_types{}forelementinelements:element_typetype(element).__name__ element_types[element_type]element_types.get(element_type,0)1print(\nElements类型统计:)forelement_type,countinelement_types.items():print(f{element_type}:{count}个)

别再一页页做PPT了！WPS演示2019 Linux版「大纲视图」高效搭建框架指南

颠覆传统：用WPS演示2019 Linux版大纲视图重构高效PPT工作流在技术分享、项目汇报或学术演讲中，PPT制作往往是耗时却难以回避的环节。许多Linux用户习惯在LibreOffice或在线工具中逐页堆砌内容，最终陷入反复调整版式的泥潭。WPS演示2019 Linu…...

2026/5/15 18:50:42 阅读更多 →

别再对着示波器数NOP了！用STM32的SPI+DMA驱动WS2812灯带，一个CubeMX配置就搞定

用STM32的SPIDMA高效驱动WS2812灯带：告别手动调时序的工程化方案在嵌入式开发中，驱动WS2812灯带一直是个让人又爱又恨的挑战。这种智能RGB灯带以其简单的单线控制和丰富的色彩表现广受欢迎，但精确的时序要求也让不少开发者头疼不已。传统方法…...

2026/5/15 18:49:57 阅读更多 →

深度解析Windows内核硬件指纹伪装技术：EASY-HWID-SPOOFER架构与实战指南

深度解析Windows内核硬件指纹伪装技术：EASY-HWID-SPOOFER架构与实战指南【免费下载链接】EASY-HWID-SPOOFER 基于内核模式的硬件信息欺骗工具项目地址: https://gitcode.com/gh_mirrors/ea/EASY-HWID-SPOOFER 硬件指纹伪装和内核驱动技术是Windows系统安全…...

2026/5/15 18:48:55 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/15 14:23:43 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/14 8:53:29 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/15 14:23:32 阅读更多 →