Python 爬虫项目 Playwright 无头浏览器实战绕过 JS 动态渲染反爬

张

张建站

2026/6/9 22:50:03

10分钟阅读

Python 爬虫项目 Playwright 无头浏览器实战绕过 JS 动态渲染反爬

前言当下多数网站采用JavaScript 动态渲染页面数据传统requests、httpx仅能获取原始静态 HTML无法拿到异步加载、JS 渲染后的真实内容这也是主流反爬手段之一。同时站点还会检测无头浏览器特征、人机行为进一步拦截纯请求类爬虫。Playwright 是微软推出的现代化浏览器自动化框架原生支持 Chrome、Firefox、Edge 等主流浏览器内置浏览器环境、完整 JS 执行引擎、模拟真人操作行为可完美解决动态页面渲染、基础浏览器特征检测、简单人机校验等问题。相比 SeleniumPlaywright 启动更快、资源占用更低、API 更简洁、自动规避大量常规浏览器指纹是现阶段动态页面爬虫的首选方案。本文从环境部署、基础使用、页面等待、元素定位、数据提取、行为模拟、隐身配置、代理对接、批量爬取等维度展开实战覆盖动态渲染页面全场景爬虫开发代码可直接落地同时结合前文请求头伪装、IP 代理池形成完整反爬链路。项目依赖官方文档链接Playwright 官方文档Python 官方文档fake-useragent 动态 UA 辅助一、技术原理与项目目标1.1 动态渲染页面原理服务端仅返回空壳 HTML 骨架页面文本、图片、列表等核心数据由前端 JS 通过 AJAX/fetch 异步请求接口获取再动态拼接渲染到页面中。普通 HTTP 请求库不执行 JS因此抓取不到有效数据。Playwright 会启动真实浏览器内核完整执行页面 JS 代码等待页面加载、接口请求、DOM 渲染完成后再提取数据和真人浏览行为完全一致。1.2 Playwright 核心优势跨浏览器支持原生适配 Chromium、Firefox、WebKit自动隐藏无头浏览器特征规避基础指纹检测智能等待机制无需大量硬编码休眠稳定性更强异步 / 同步双 API支持单线程、高并发批量爬取原生支持 IP 代理、自定义请求头、Cookie 管理、截图录屏。1.3 项目核心目标完成 Playwright 环境安装、浏览器驱动自动部署实现页面加载、元素定位、动态数据提取基础操作掌握智能等待、强制等待、网络请求监听三种加载适配方案配置无头 / 有头模式、关闭特征检测、自定义 UA 与请求头对接 IP 代理池实现浏览器级 IP 切换模拟真人点击、滚动、输入等行为绕过简单人机检测封装通用爬虫类实现批量爬取与结果持久化。二、环境搭建2.1 安装依赖与浏览器内核执行 pip 安装框架再自动下载对应浏览器驱动无需手动配置环境变量bash运行# 安装Playwright Python库 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple playwright # 自动安装浏览器内核Chromium/Firefox/WebKit playwright install2.2 基础导入校验python运行from playwright.sync_api import sync_playwright无报错即代表环境部署完成。三、基础实战打开页面提取动态数据采用同步 API上手简单适合中小型爬虫、脚本式采集。3.1 最简示例访问动态页面python运行from playwright.sync_api import sync_playwright def simple_crawl(url): with sync_playwright() as p: # 启动浏览器默认无头模式 browser p.chromium.launch(headlessTrue) # 创建浏览器上下文 context browser.new_context() # 打开新标签页 page context.new_page() # 访问地址自动等待页面基础加载完成 page.goto(url) # 等待页面渲染完成获取完整HTML html page.content() print(页面源码长度, len(html)) browser.close() return html if __name__ __main__: target_url https://动态渲染页面地址 simple_crawl(target_url)3.2 元素定位与数据提取Playwright 支持CSS 选择器、XPath、文本定位三种主流方式适配不同页面结构推荐优先使用 CSS 选择器。python运行from playwright.sync_api import sync_playwright def extract_dynamic_data(url): with sync_playwright() as p: browser p.chromium.launch(headlessTrue) context browser.new_context() page context.new_page() page.goto(url) # 等待目标元素出现智能等待超时默认30秒 page.wait_for_selector(.item-list) # 1. 单元素提取 title page.locator(h1).text_content() print(页面标题, title) # 2. 批量提取列表数据 item_list page.locator(.item) count item_list.count() data [] for i in range(count): item_text item_list.nth(i).text_content().strip() data.append(item_text) print(提取列表数据, data) browser.close() return data if __name__ __main__: extract_dynamic_data(https://动态列表页面地址)四、页面等待策略核心避坑点动态页面加载速度不稳定单纯依赖默认等待会导致元素找不到、数据为空三种等待方式按需搭配使用。4.1 元素等待推荐等待指定 DOM 元素加载完成精准高效python运行# 等待CSS选择器对应的元素出现 page.wait_for_selector(.target-box, timeout10000) # 等待文本内容出现 page.wait_for_text(加载完成)4.2 网络请求等待监听页面接口请求等待关键数据接口返回后再提取数据适合接口异步加载场景python运行# 等待包含指定地址的接口请求完成 page.wait_for_response(lambda response: api/data in response.url and response.status 200)4.3 强制休眠兜底方案不推荐大量使用仅作为复杂页面兜底python运行import time time.sleep(3) # 强制等待3秒五、进阶配置伪装浏览器特征绕过基础检测默认无头浏览器仍存在少量特征通过自定义配置关闭检测项、修改 UA、关闭自动化标识大幅提升隐蔽性。5.1 关闭自动化特征自定义 UApython运行from playwright.sync_api import sync_playwright from fake_useragent import UserAgent ua UserAgent() def stealth_browser(url): with sync_playwright() as p: # 启动浏览器关闭自动化提示、弹窗 browser p.chromium.launch( headlessTrue, args[ --no-sandbox, --disable-blink-featuresAutomationControlled # 关闭自动化检测特征 ] ) # 新建上下文设置随机UA context browser.new_context( user_agentua.random, viewport{width: 1920, height: 1080} # 设置窗口大小模拟正常显示器 ) page context.new_page() # 执行JS脚本进一步抹除无头浏览器指纹 page.add_init_script( Object.defineProperty(navigator, webdriver, { get: () undefined }) ) page.goto(url) page.wait_for_selector(.content) html page.content() browser.close() return html5.2 有头模式调试开发阶段开启可视化窗口方便定位元素、排查问题上线切换为无头模式python运行# headlessFalse 开启可视化浏览器窗口 browser p.chromium.launch(headlessFalse)六、对接 IP 代理池浏览器级代理支持为浏览器上下文单独配置代理对接前文 Redis 代理池实现每一个浏览器实例使用不同 IP。python运行import requests from playwright.sync_api import sync_playwright # 代理池接口地址 PROXY_API http://127.0.0.1:5000/get_proxy def get_proxy_ip(): 从代理池获取代理 res requests.get(PROXY_API) data res.json() if data[code] 200: return data[proxy] return None def crawl_with_proxy(url): proxy get_proxy_ip() if not proxy: print(无可用代理) return with sync_playwright() as p: browser p.chromium.launch( headlessTrue, args[--disable-blink-featuresAutomationControlled] ) # 配置代理 context browser.new_context( proxy{ server: fhttp://{proxy} } ) page context.new_page() page.goto(url) print(f当前使用代理{proxy}页面状态正常) browser.close() if __name__ __main__: crawl_with_proxy(目标地址)七、真人行为模拟绕过简单人机校验部分站点会检测鼠标移动、页面滚动、点击行为纯静态加载会被判定为机器人模拟真人操作提升通过率。7.1 页面滚动模拟python运行# 滚动到页面底部 page.evaluate(window.scrollTo(0, document.body.scrollHeight))7.2 点击、输入模拟python运行# 点击按钮 page.locator(#btn).click() # 输入文本 page.locator(#input-box).fill(测试内容)7.3 组合行为模拟模拟浏览节奏python运行import time from playwright.sync_api import sync_playwright def human_behavior_crawl(url): with sync_playwright() as p: browser p.chromium.launch(headlessFalse) context browser.new_context() page context.new_page() page.goto(url) time.sleep(1) # 分段滚动模拟真人浏览 page.evaluate(window.scrollTo(0, 300)) time.sleep(0.8) page.evaluate(window.scrollTo(0, 600)) time.sleep(0.8) # 提取数据 data page.locator(.list).text_content() browser.close() return data八、Cookie 与会话维持Playwright 上下文自动管理 Cookie同一context下的所有页面共享会话适配登录态采集场景。python运行from playwright.sync_api import sync_playwright def login_and_crawl(login_url, target_url): with sync_playwright() as p: browser p.chromium.launch(headlessTrue) context browser.new_context() page context.new_page() # 访问登录页 page.goto(login_url) # 输入账号密码 page.locator(#username).fill(你的账号) page.locator(#password).fill(你的密码) # 点击登录 page.locator(#login-btn).click() page.wait_for_url(**/index*) # 等待跳转至首页 # 访问需要登录的页面自动携带Cookie page.goto(target_url) content page.content() browser.close() return content九、异步 API 实现高并发爬取同步 API 适合单任务异步 API利用协程实现高并发大幅提升批量采集效率适合大规模爬虫场景。python运行import asyncio from playwright.async_api import async_playwright async def async_crawl(url): async with async_playwright() as p: browser await p.chromium.launch(headlessTrue) context await browser.new_context() page await context.new_page() await page.goto(url) await page.wait_for_selector(.content) html await page.content() await browser.close() print(f地址 {url} 抓取完成数据长度{len(html)}) async def batch_crawl(url_list): # 批量创建协程任务 tasks [async_crawl(url) for url in url_list] await asyncio.gather(*tasks) if __name__ __main__: # 待爬取地址列表 url_list [ url1, url2, url3 ] asyncio.run(batch_crawl(url_list))十、通用爬虫类封装工程化落地整合所有配置封装可复用爬虫类统一管理浏览器、代理、UA、等待逻辑适配项目开发。python运行from playwright.sync_api import sync_playwright from fake_useragent import UserAgent import requests class PlaywrightSpider: def __init__(self): self.ua UserAgent() self.proxy_api http://127.0.0.1:5000/get_proxy def get_proxy(self): res requests.get(self.proxy_api) return res.json().get(proxy) if res.json()[code] 200 else None def run(self, url, use_proxyTrue): proxy self.get_proxy() if use_proxy else None with sync_playwright() as p: # 启动浏览器 browser p.chromium.launch( headlessTrue, args[--disable-blink-featuresAutomationControlled, --no-sandbox] ) # 上下文配置 ctx_config {user_agent: self.ua.random} if proxy: ctx_config[proxy] {server: fhttp://{proxy}} context browser.new_context(**ctx_config) # 抹除指纹 context.add_init_script(Object.defineProperty(navigator, webdriver, {get: () undefined})) page context.new_page() page.goto(url) # 等待并提取数据 page.wait_for_selector(body, timeout15000) result page.content() browser.close() return result if __name__ __main__: spider PlaywrightSpider() res spider.run(目标动态页面地址) print(res)十一、性能优化与生产环境运维11.1 性能优化复用浏览器实例批量爬取时全局启动一个 browser重复使用 context/page避免频繁启停浏览器限制并发数异步爬虫控制协程数量防止服务器资源耗尽、IP 批量封禁关闭图片加载不需要图片时禁用图片、视频加载提升加载速度、节省带宽python运行# 拦截图片请求 context.route(**/*.{png,jpg,jpeg,gif,webp}, lambda route: route.abort())11.2 常见问题与解决方案页面加载超时延长timeout时间、改用元素 / 接口等待、降低网络并发被识别为机器人补充行为模拟、更换代理 IP、更新 UA、增加请求间隔Linux 服务器无法启动浏览器安装系统依赖库添加--no-sandbox启动参数内存占用过高及时关闭 page/context/browser定时重启浏览器实例。11.3 部署建议开发环境headlessFalse可视化调试线上服务器headlessTrue无头模式节省资源长期运行爬虫搭配进程守护、定时重启防止内存泄漏。

8G显存竟然能跑Qwen3.6-35B-A3B多模态模型？低显存配置的本地推理之王：8GB 显存（如 RTX 3070/4060 等）的部署解决方案！

Qwen3.6-35B-A3B 是阿里巴巴 Qwen 团队于 2026年4月发布的开源模型，是 Qwen3.6 系列的首个开源权重版本。核心参数架构：稀疏 MoE（Mixture-of-Experts） 模型总参数量：35B（350亿）激活参数&…...

2026/6/9 22:49:20 阅读更多 →

终极多AI协同指南：如何让ChatGPT、文心一言等10+智能助手同时为你工作

终极多AI协同指南：如何让ChatGPT、文心一言等10智能助手同时为你工作【免费下载链接】ChatALL Concurrently chat with ChatGPT, Bing Chat, Bard, Alpaca, Vicuna, Claude, ChatGLM, MOSS, 讯飞星火, 文心一言 and more, discover the best answers 项目地址: …...

2026/6/9 22:47:53 阅读更多 →

【优化求解】基于PSO和平面法的三环自动驾驶仪设计附matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室👇 关注我领取海量matlab电子书和…...

2026/6/9 22:47:19 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/9 1:16:23 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/9 19:20:02 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/9 1:16:30 阅读更多 →