别再只用Requests了！Aiohttp异步爬虫入门：以抓取小说网站为例，聊聊协程与性能提升

张

张建站

2026/6/11 8:32:13

10分钟阅读

别再只用Requests了！Aiohttp异步爬虫入门：以抓取小说网站为例，聊聊协程与性能提升

突破Requests性能瓶颈Aiohttp异步爬虫实战与协程思维重塑当你的爬虫脚本在抓取数百个小说章节页面时是否经历过这样的煎熬看着进度条像蜗牛般缓慢移动CPU使用率却低得可怜网络请求的等待时间占据了整个流程的90%以上。这正是同步请求库如Requests的天花板——它让我们的代码像排队买奶茶一样必须等前一个请求完全结束后才能开始下一个。而Aiohttp带来的异步范式则像开通了VIP快速通道让多个请求可以并行处理。1. 同步与异步的本质差异从排队到并发的思维跃迁传统同步爬虫的工作模式就像单线程下载管理器发送请求→等待响应→处理数据→下一个请求。这种线性流程在I/O密集型任务中会造成巨大的资源浪费。以一个包含100个小说页面的抓取任务为例# 同步请求的典型模式伪代码 for page in range(1, 101): html requests.get(fhttps://example.com/novel/page_{page}) parse_content(html) # 必须等待请求完成才能执行而异步爬虫的工作模式则彻底改变了这种串行逻辑# 异步请求的典型模式伪代码 async def fetch_page(page): async with session.get(fhttps://example.com/novel/page_{page}) as resp: return await resp.text() tasks [fetch_page(page) for page in range(1, 101)] await asyncio.gather(*tasks) # 所有请求同时发起关键性能指标对比指标Requests同步模式Aiohttp异步模式100个页面耗时~50秒~5秒网络利用率10%-15%70%-90%CPU占用率20%-30%40%-60%内存消耗较低(~100MB)中等(~300MB)提示异步编程真正的优势不在于单次请求的速度而在于并发处理能力。当请求数量超过50个时性能差距会呈指数级扩大。2. Aiohttp核心架构解析事件循环与协程调度理解Aiohttp需要先掌握三个核心概念事件循环(Event Loop)异步程序的心脏负责调度所有协程的执行协程(Coroutine)使用async/await定义的异步函数可暂停/恢复执行Future/Task表示异步操作结果的容器由事件循环管理典型的Aiohttp爬虫包含以下组件import aiohttp import asyncio async def main(): # 创建全局共享的ClientSession async with aiohttp.ClientSession() as session: tasks [] for url in urls: task asyncio.create_task(fetch(session, url)) tasks.append(task) await asyncio.gather(*tasks) async def fetch(session, url): async with session.get(url) as response: return await response.text() # 启动事件循环 asyncio.run(main())连接池配置最佳实践conn aiohttp.TCPConnector( limit100, # 最大连接数 limit_per_host20, # 单域名最大连接 enable_cleanup_closedTrue, # 自动清理关闭连接 force_closeFalse # 保持长连接 ) timeout aiohttp.ClientTimeout( total30, # 总超时 connect10, # 连接超时 sock_read15 # 读取超时 ) async with aiohttp.ClientSession( connectorconn, timeouttimeout, headersheaders ) as session: # 业务代码3. 实战异步抓取小说排行榜全流程让我们以某文学网站24小时热销榜为例构建完整的异步爬虫解决方案。该案例需要处理分页URL动态生成异步并发请求HTML解析与数据清洗异常处理和重试机制数据存储与导出项目结构novel_spider/ ├── __init__.py ├── config.py # 配置文件 ├── crawler.py # 核心爬虫逻辑 ├── models.py # 数据模型 ├── storage.py # 存储模块 └── utils.py # 工具函数核心爬取逻辑# crawler.py async def fetch_page(session: aiohttp.ClientSession, page: int): url fhttps://www.example.com/rank/hotsales/page{page}/ try: async with session.get(url) as resp: if resp.status 200: return await resp.text() elif resp.status 429: await asyncio.sleep(10) # 速率限制时等待 return await fetch_page(session, page) else: logging.warning(fPage {page} failed: {resp.status}) except Exception as e: logging.error(fError fetching page {page}: {str(e)}) return None async def parse_html(html: str): soup BeautifulSoup(html, lxml) books [] for item in soup.select(.book-list li): books.append({ title: item.select_one(.title).text.strip(), author: item.select_one(.author).text.strip(), score: float(item.select_one(.score).text), update: item.select_one(.update).text.strip() }) return books async def crawl_all_pages(max_page: int 50): async with aiohttp.ClientSession(headersHEADERS) as session: tasks [fetch_page(session, p) for p in range(1, max_page1)] pages await asyncio.gather(*tasks) parse_tasks [parse_html(p) for p in pages if p] results await asyncio.gather(*parse_tasks) return [book for sublist in results for book in sublist]性能优化技巧使用asyncio.Semaphore控制并发度避免被反爬实现指数退避的重试策略对响应内容进行流式处理减少内存占用复用TCP连接避免重复握手开销4. 异步编程的陷阱与解决方案尽管异步编程能大幅提升性能但也引入了一些新的挑战常见问题及对策问题现象根本原因解决方案程序突然停止无响应未await协程确保所有异步函数被正确await内存泄漏未关闭ClientSession使用async with管理资源连接数过多被禁无并发控制使用Semaphore限制并发部分请求超时失败未设置合理超时配置ClientTimeout参数CPU占用100%但速度慢同步阻塞代码混用使用run_in_executor包装调试异步代码的特殊技巧使用asyncio.debugTrue启用调试模式在协程内添加日志点logger.debug(fStart fetching {url}, running in {asyncio.current_task().get_name()})监控事件循环状态loop asyncio.get_event_loop() print(fPending tasks: {len(asyncio.all_tasks(loop))})注意避免在异步函数中直接调用同步I/O操作如文件读写、数据库查询这会导致整个事件循环阻塞。必要时使用asyncio.to_thread或loop.run_in_executor。5. 进阶分布式异步爬虫架构当单机性能达到瓶颈时可以考虑以下扩展方案分布式架构设计消息队列工作者模式使用Redis/RabbitMQ作为任务队列多个爬虫节点消费任务结果统一存储到数据库ScrapyAiohttp集成class AsyncSpider(scrapy.Spider): async def parse(self, response): async with aiohttp.ClientSession() as session: api_data await fetch_api(session) yield process_data(api_data)容器化部署FROM python:3.9 WORKDIR /app COPY requirements.txt . RUN pip install -r requirements.txt CMD [python, main.py, --concurrency100]性能监控指标# 在爬虫中埋点监控 metrics { request_count: 0, success_count: 0, failure_count: 0, avg_response_time: 0, qps: 0 } async def fetch_with_metrics(session, url): start time.time() metrics[request_count] 1 try: async with session.get(url) as resp: metrics[success_count] 1 return await resp.text() except: metrics[failure_count] 1 raise finally: duration time.time() - start metrics[avg_response_time] ( metrics[avg_response_time] * (metrics[request_count]-1) duration ) / metrics[request_count]在实际项目中我们通常会遇到各种意料之外的边缘情况。比如某次抓取时发现目标网站启用了动态渲染直接请求HTML获取不到关键数据。这时就需要async def fetch_dynamic_content(url): from pyppeteer import launch browser await launch(headlessTrue) page await browser.newPage() await page.goto(url, {waitUntil: networkidle2}) content await page.content() await browser.close() return content这种混合使用异步HTTP客户端和无头浏览器的方案既保持了异步的高效又能应对现代Web应用的复杂性。记住好的爬虫不仅要跑得快还要足够健壮和灵活。

从Verilog到GDSII：一个8位可预置加减计数器的完整数字IC设计流程（Quartus II + DC + Encounter）

从Verilog到GDSII：8位可预置加减计数器的全流程数字IC设计实战在数字集成电路设计领域，掌握从RTL代码到物理版图的完整流程是工程师的核心竞争力。本文将带您深入一个典型项目——8位可预置加减计数器的完整实现过程，覆盖Quartus II功能仿真、…...

2026/6/11 8:31:05 阅读更多 →

逆向实战：拆解一个使用‘栈帧切换’技巧的CrackMe（Chafe.1.exe）

逆向工程实战：栈帧切换技术在CrackMe中的精妙应用在逆向工程领域，CrackMe程序常被用作学习和练习的素材。今天我们要分析的这款名为Chafe.1.exe的CrackMe，采用了一种相当巧妙的保护技术——栈帧切换。这种技术不仅能够有效干扰静态分析工具&a…...

2026/6/11 8:28:44 阅读更多 →

计算机毕业设计之基于WEB学生会网站的设计与实现

近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，学生会网站利用计算机网络实现信息化管理，使整个学生会网站的发展和服务水平有显著提升。本文拟采用PyCharm开发工具&…...

2026/6/11 8:26:02 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/10 4:21:44 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/10 19:45:23 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/10 4:21:44 阅读更多 →