Python 爬虫进阶技巧：本地缓存优化减少重复请求

张

张建站

2026/5/7 15:15:31

10分钟阅读

前言在大规模、长周期的爬虫采集任务中重复请求同源页面与接口是造成资源浪费、效率低下、IP 封禁风险升高的核心诱因。高频无差别请求不仅会占用大量网络带宽、延长整体爬取耗时还会持续增加目标服务器访问压力极易触发站点限流、验证码拦截、IP 封禁等反爬策略。合理引入本地缓存机制对已采集的页面源码、接口响应数据、静态资源进行本地持久化缓存能够有效规避无效重复请求缩短爬虫响应耗时降低反爬触发概率同时减少网络波动带来的数据丢失问题。本文系统讲解爬虫本地缓存的设计逻辑、缓存生命周期控制、多类型缓存方案落地结合文件缓存、JSON 缓存、sqlite 轻量数据库缓存、内存临时缓存四大实战方案搭配完整可运行代码、底层原理拆解与场景化优化策略构建轻量化、易部署、低维护的爬虫缓存体系适配个人开发、中小型采集项目的性能优化需求。本文涉及核心依赖库官方参考链接如下Python sqlite3 内置数据库文档Requests 网络请求库官方文档Python json 序列化模块文档Python os 文件操作模块一、爬虫缓存核心原理与设计规范1.1 本地缓存核心作用爬虫本地缓存指将首次请求获取的响应数据以文件、数据库、内存变量等形式存储至本地环境二次及后续任务执行时优先读取本地缓存数据仅在缓存失效、数据更新、缓存缺失时发起网络请求。核心价值集中在四大维度第一削减请求频次降低 IP 被封禁概率第二提升解析效率本地读取速度远高于网络请求第三保障任务稳定性断网场景下可复用历史缓存数据第四节约带宽资源降低长期爬取的运行成本。1.2 缓存命中与失效机制缓存运行分为命中、未命中、失效三种核心状态。缓存命中即目标链接已存在本地有效缓存直接读取本地数据完成解析缓存未命中为无对应缓存记录必须发起全新网络请求并写入缓存缓存失效代表缓存数据超出有效周期、站点内容更新、缓存文件损坏需要重新请求并覆盖旧缓存。合理设计缓存过期策略是平衡爬取实时性与请求频率的关键。1.3 爬虫缓存开发设计原则爬虫场景下的缓存设计需遵循轻量化、低耦合、易清理三大原则。缓存结构需与请求 URL 唯一绑定保证链接与数据一一对应支持自定义过期时间适配静态页面、动态资讯、实时接口等不同更新频率的资源缓存目录自动创建、异常自动捕获避免文件读写报错中断爬虫任务提供手动清理、自动过期清理接口便于长期运维。二、基础工具与环境配置2.1 核心依赖说明本文所用缓存方案全部基于 Python 内置标准库实现无需额外安装第三方依赖仅保留 requests 作为网络请求基础库轻量化适配各类运行环境。执行基础安装命令bash运行pip install requests2.2 全局请求封装基础模板统一封装请求函数为后续缓存逻辑嵌入提供标准化入口减少代码冗余便于缓存规则统一管理python运行import requests import os import json import time # 全局请求头模拟浏览器 HEADERS { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 } def base_request(url): 基础网络请求函数 resp requests.get(url, headersHEADERS, timeout10) resp.encoding resp.apparent_encoding return resp.text代码原理标准化请求头配置规避基础反爬拦截自动识别网页编码解决乱码问题统一返回文本数据适配后续缓存写入与解析操作。三、方案一文件目录缓存静态网页首选文件缓存是最简单直观的本地缓存方案以 URL 加密字符串作为文件名将网页源码保存为 txt 文本文件按站点分类存储目录适合更新频率极低的静态官网、文档类站点。3.1 缓存目录自动创建与 URL 转义URL 包含特殊符号无法直接作为文件名需通过 md5 加密将链接转为固定字符串避免文件命名异常python运行import hashlib def get_md5_url(url): URL进行MD5加密生成唯一文件名 md5_obj hashlib.md5(url.encode(utf-8)) return md5_obj.hexdigest() def make_cache_dir(dir_namehtml_cache): 自动创建缓存根目录 if not os.path.exists(dir_name): os.mkdir(dir_name) return dir_name代码原理MD5 加密可将任意长度、特殊字符的 URL 转换为 32 位固定字符串保证文件名唯一且合法通过 os 模块判断目录状态不存在则自动创建提升程序自动化程度。3.2 完整文件缓存读写逻辑python运行def get_html_with_file_cache(url, expire_day7): 文件缓存获取网页 :param url: 目标链接 :param expire_day: 缓存过期天数 :return: 网页文本 cache_dir make_cache_dir() file_name get_md5_url(url) .txt file_path os.path.join(cache_dir, file_name) # 判断缓存文件是否存在 if os.path.exists(file_path): # 获取文件最后修改时间 file_mtime os.path.getmtime(file_path) now_time time.time() # 换算过期时间戳 expire_sec expire_day * 24 * 60 * 60 # 缓存未过期读取本地文件 if now_time - file_mtime expire_sec: with open(file_path, r, encodingutf-8) as f: return f.read() # 缓存不存在或已过期发起新请求 html_data base_request(url) # 写入本地缓存文件 with open(file_path, w, encodingutf-8) as f: f.write(html_data) return html_data代码原理优先校验缓存文件存在性与修改时间在有效期内直接读取本地文本缓存缺失或过期后执行网络请求同步写入文件完成缓存更新。按天级设置过期时间适配静态页面长期缓存需求。3.3 调用示例与场景适配python运行if __name__ __main__: target_url https://www.example.com # 首次运行发起请求写入缓存 html1 get_html_with_file_cache(target_url) # 二次运行直接读取本地缓存无网络请求 html2 get_html_with_file_cache(target_url) print(len(html1), len(html2))四、方案二JSON 结构化缓存接口数据专用针对 JSON 接口、结构化数据接口采用 JSON 文件缓存除存储响应内容外同步记录请求时间、响应状态、过期时间等附加字段便于精细化管理接口缓存适配资讯列表、商品接口等半动态数据。4.1 JSON 缓存数据结构设计单条缓存数据包含核心五大字段兼顾数据存储与生命周期管理表格字段名称存储内容作用说明url原始请求链接缓存唯一标识data接口响应内容核心采集数据create_time缓存创建时间戳计算过期时间status响应状态码过滤无效缓存expire缓存有效秒数自定义过期周期4.2 JSON 缓存完整实现代码python运行def get_json_cache(url, expire86400): JSON接口缓存方案 :param url: 接口地址 :param expire: 缓存过期秒数默认24小时 cache_dir json_cache make_cache_dir(cache_dir) file_name get_md5_url(url) .json file_path os.path.join(cache_dir, file_name) now time.time() # 读取本地JSON缓存 if os.path.exists(file_path): with open(file_path, r, encodingutf-8) as f: cache_info json.load(f) # 校验缓存有效性 if now - cache_info[create_time] cache_info[expire]: return cache_info[data] # 重新请求接口 resp requests.get(url, headersHEADERS) cache_data { url: url, data: resp.json(), create_time: now, status: resp.status_code, expire: expire } # 写入JSON缓存 with open(file_path, w, encodingutf-8) as f: json.dump(cache_data, f, ensure_asciiFalse, indent2) return cache_data[data]代码原理以 JSON 格式结构化存储缓存元数据支持秒级精准过期配置适配动态接口短周期更新需求接口数据以原生字典格式存储无需二次解析大幅提升接口数据读取效率。五、方案三SQLite 轻量数据库缓存多链接批量爬取当爬虫涉及成千上万个页面链接时零散文件缓存会造成目录臃肿、读写缓慢采用内置 SQLite 数据库集中管理缓存数据支持批量查询、条件清理、批量过期删除是中型爬虫项目最优本地缓存方案。5.1 数据库表结构初始化python运行import sqlite3 def init_cache_db(): 初始化缓存数据库与数据表 conn sqlite3.connect(spider_cache.db) cursor conn.cursor() # 创建缓存数据表 create_sql CREATE TABLE IF NOT EXISTS html_cache ( id INTEGER PRIMARY KEY AUTOINCREMENT, url TEXT UNIQUE NOT NULL, content TEXT, create_time REAL, expire INTEGER ) cursor.execute(create_sql) conn.commit() conn.close()5.2 数据库缓存增删查逻辑python运行def db_cache_request(url, expire43200): SQLite数据库缓存请求 init_cache_db() conn sqlite3.connect(spider_cache.db) cursor conn.cursor() now_time time.time() # 查询当前URL缓存 cursor.execute(SELECT content,create_time,expire FROM html_cache WHERE url?, (url,)) result cursor.fetchone() # 缓存存在且未过期 if result: content, c_time, exp result if now_time - c_time exp: conn.close() return content # 发起新请求 html base_request(url) # 存在旧数据则更新不存在则插入 cursor.execute(REPLACE INTO html_cache (url,content,create_time,expire) VALUES (?,?,?,?), (url, html, now_time, expire)) conn.commit() conn.close() return html代码原理利用 SQLite 事务特性实现缓存数据的新增与更新REPLACE 语句自动处理重复 URL 数据无需额外判断数据库集中存储规避海量文件碎片化问题支持按时间批量清理过期缓存运维更加便捷。六、方案四内存临时缓存短时高频请求针对单任务短时高频重复请求的场景基于字典实现内存缓存数据仅存储在程序运行内存中程序结束自动销毁读写速度最快适合临时爬虫、实时数据抓取场景。python运行# 全局内存缓存字典 MEMORY_CACHE {} def memory_cache_request(url, expire1800): 内存临时缓存默认30分钟过期 now time.time() # 校验内存缓存 if url in MEMORY_CACHE: cache_data MEMORY_CACHE[url] if now - cache_data[time] expire: return cache_data[content] # 重新请求 html base_request(url) # 写入内存 MEMORY_CACHE[url] { content: html, time: now } return html代码原理全局字典以 URL 为键、响应内容与时间戳为值纯内存操作无磁盘 IO 消耗响应速度最优生命周期跟随程序进程适合短期任务不适合长期常驻爬虫。七、缓存过期批量清理策略长期运行的爬虫会堆积大量过期缓存占用本地存储空间搭配自动化清理函数实现轻量化运维。7.1 文件缓存批量清理python运行def clear_overdue_file_cache(expire_day7): 清理过期txt缓存文件 cache_dir html_cache if not os.path.exists(cache_dir): return expire_sec expire_day * 24 * 60 * 60 now time.time() for file in os.listdir(cache_dir): file_path os.path.join(cache_dir, file) if now - os.path.getmtime(file_path) expire_sec: os.remove(file_path)7.2 数据库过期缓存清理python运行def clear_db_overdue(): 删除数据库过期缓存 conn sqlite3.connect(spider_cache.db) cursor conn.cursor() now time.time() cursor.execute(DELETE FROM html_cache WHERE ? - create_time expire, (now,)) conn.commit() conn.close()八、四大缓存方案横向对比表格缓存方案读写速度存储形式过期控制适用场景维护难度文件 TXT 缓存中等本地文本文件按天配置静态页面、单站点爬虫低JSON 缓存中等结构化文件秒级配置接口数据、动态列表低SQLite 缓存较快轻量数据库自定义秒数多链接批量爬取中内存缓存极快程序内存短时过期高频临时请求极低九、缓存开发避坑与优化技巧第一动态实时数据禁止长缓存。股市、实时榜单、实时资讯类数据需缩短过期时间或关闭缓存保证数据时效性。第二异常响应不写入缓存。404、500、验证码拦截等错误页面禁止存入缓存避免长期缓存无效数据。第三多参数 URL 单独缓存。分页、搜索参数不同的链接视为独立请求不可合并缓存防止数据错乱。第四缓存目录分级存储。大规模爬虫可按站点、日期分级创建缓存文件夹避免单目录文件过多卡顿。

别再只会点灯了！用ESP-01S+阿里云物联网平台，做个能上报温湿度的智能插座（附完整MQTT配置）

从智能开关到环境监测：ESP-01S与阿里云物联网平台的进阶实战在智能家居DIY领域，ESP-01S模块因其小巧的体积和低廉的价格成为入门首选。大多数教程停留在简单的开关控制阶段——通过手机APP远程点亮一盏LED灯。但真正的物联网价值在于双向数据交互&#…...

2026/5/7 15:11:46 阅读更多 →

Kimi 即将完成 20 亿美元融资，投后估值破 200 亿美元，不到半年融资超 39 亿美元

《晚点 LatePost》报道，Kimi（月之暗面）即将完成 20 亿美元新一轮融资，投后估值突破 200 亿美元。今年以来它已密集完成多轮融资，发展势头迅猛。新一轮融资情况本轮融资由美团龙珠领投，中国移动、CPE 等参投…...

2026/5/7 15:11:27 阅读更多 →

Hack字体终极指南：解锁代码美学的5个核心设计原理

Hack字体终极指南：解锁代码美学的5个核心设计原理【免费下载链接】Hack A typeface designed for source code 项目地址: https://gitcode.com/gh_mirrors/ha/Hack 当代码编辑器成为开发者每天面对最长时间的界面时，字体的选择远不止美观那么简单…...

2026/5/7 15:10:28 阅读更多 →

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南

10分钟掌握NSC_BUILDER：Switch游戏文件管理终极指南【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase titlerights encryption…...

2026/5/7 4:56:58 阅读更多 →

适合学校行政校内会议场景的，学校会议转行动项整理技巧

2026年多数学校都在推校内工作闭环管理，行政校内会议结束后，最头疼的就是从一堆零散讨论里整理出可落地的行动项，漏项、错记责任人、错过截止时间都是常事，还给后续工作埋坑，这里给你一套可直接落地的整理技巧。某区公…...

2026/5/6 18:58:26 阅读更多 →

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅

Degrees of Lewdity汉化版终极完整指南：从零开始的中文化体验之旅【免费下载链接】Degrees-of-Lewdity-Chinese-Localization Degrees of Lewdity 游戏的授权中文社区本地化版本项目地址: https://gitcode.com/gh_mirrors/de/Degrees-of-Lewdity-Chinese-Locali…...

2026/5/5 11:20:17 阅读更多 →