手把手教你用Python爬取‘可可英语’《现代大学英语精读》原文与音频（以第六单元A篇为例）

张

张建站

2026/6/8 21:00:07

10分钟阅读

手把手教你用Python爬取‘可可英语’《现代大学英语精读》原文与音频（以第六单元A篇为例）

Python自动化抓取可可英语教材资源的完整实战指南在语言学习过程中获取高质量的原文与配套音频往往需要反复访问不同平台手动下载效率低下。本文将展示如何用Python构建自动化工具从可可英语网站抓取《现代大学英语精读》教材内容实现学习资源的批量获取与系统化管理。1. 环境准备与目标分析可可英语网站采用常规的HTML结构展示教材内容每个单元通常包含课文原文、翻译和音频文件。通过开发者工具分析页面请求我们发现音频文件以MP3格式直接托管在网站服务器上而文本内容则嵌入在特定CSS样式的div标签中。需要安装的核心Python库pip install requests beautifulsoup4 pandas典型页面结构特征课文正文位于div classarticle-content标签内音频文件URL隐藏在audio标签的src属性中分页内容通过URL参数控制如.../56861_2.shtml2. 基础爬虫框架搭建我们首先构建一个能够处理网站反爬机制的基础请求模块。可可英语采用了基础的User-Agent验证和请求频率限制import requests from bs4 import BeautifulSoup import time headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Referer: http://www.kekenet.com/ } def get_page(url): try: response requests.get(url, headersheaders, timeout10) response.raise_for_status() response.encoding utf-8 return response.text except Exception as e: print(f请求失败: {e}) return None针对音频文件的下载需要单独处理def download_audio(audio_url, save_path): audio_data requests.get(audio_url, headersheaders, streamTrue) with open(save_path, wb) as f: for chunk in audio_data.iter_content(chunk_size1024): if chunk: f.write(chunk)3. 内容解析与数据提取使用BeautifulSoup解析HTML内容时需要特别注意文本的清洗和格式化。以下是提取课文正文和翻译的示例代码def extract_content(html): soup BeautifulSoup(html, html.parser) content {text: , translation: } # 提取英文原文 en_paragraphs soup.select(div.article-content p[styletext-align: left;]) content[text] \n.join([p.get_text(stripTrue) for p in en_paragraphs]) # 提取中文翻译 cn_paragraphs soup.select(div.article-content p[styletext-align: left;] p) content[translation] \n.join([p.get_text(stripTrue) for p in cn_paragraphs]) # 提取音频链接 audio_tag soup.find(audio) if audio_tag: content[audio_url] audio_tag[src] return content4. 分页处理与批量下载教材内容通常分布在多个页面我们需要实现自动翻页检测和内容合并def crawl_unit(base_url, unit_name): all_content {text: [], translation: []} audio_urls [] page 1 while True: if page 1: url f{base_url}.shtml else: url f{base_url}_{page}.shtml html get_page(url) if not html or 404 Not Found in html: break content extract_content(html) if content[text]: all_content[text].append(content[text]) if content[translation]: all_content[translation].append(content[translation]) if audio_url in content: audio_urls.append(content[audio_url]) page 1 time.sleep(1) # 礼貌性延迟 # 合并分页内容 result { unit: unit_name, text: \n\n.join(all_content[text]), translation: \n\n.join(all_content[translation]), audio_url: audio_urls[0] if audio_urls else None } return result5. 数据存储与管理系统将抓取的内容结构化存储到本地文件系统便于后续学习使用import os import json from datetime import datetime def save_content(content, base_diroutput): unit_dir os.path.join(base_dir, content[unit]) os.makedirs(unit_dir, exist_okTrue) # 保存文本 with open(os.path.join(unit_dir, text.txt), w, encodingutf-8) as f: f.write(content[text]) # 保存翻译 with open(os.path.join(unit_dir, translation.txt), w, encodingutf-8) as f: f.write(content[translation]) # 保存元数据 meta { unit: content[unit], crawl_time: datetime.now().isoformat(), audio_url: content[audio_url] } with open(os.path.join(unit_dir, meta.json), w, encodingutf-8) as f: json.dump(meta, f, ensure_asciiFalse, indent2) # 下载音频 if content[audio_url]: audio_path os.path.join(unit_dir, audio.mp3) download_audio(content[audio_url], audio_path)6. 完整工作流与异常处理将各个模块组合成完整的工作流程并添加健壮的异常处理机制def main(): base_url http://www.kekenet.com/daxue/201810/56861 unit_name Unit6A-TheTelephone try: print(f开始抓取单元: {unit_name}) content crawl_unit(base_url, unit_name) if not content[text]: raise ValueError(未获取到有效文本内容) save_content(content) print(f成功保存单元内容到: output/{unit_name}) except Exception as e: print(f处理单元 {unit_name} 时出错: {str(e)}) # 可以添加重试逻辑或记录错误日志 if __name__ __main__: main()7. 高级技巧与优化方案对于需要大规模抓取的情况我们可以进一步优化代理IP池集成proxies { http: http://user:passproxy_ip:port, https: https://user:passproxy_ip:port } response requests.get(url, headersheaders, proxiesproxies)异步请求加速import aiohttp import asyncio async def fetch_page(session, url): async with session.get(url) as response: return await response.text() async def main_async(urls): async with aiohttp.ClientSession(headersheaders) as session: tasks [fetch_page(session, url) for url in urls] return await asyncio.gather(*tasks)自动化监控与更新import schedule import time def job(): # 检查内容更新的逻辑 pass schedule.every().day.at(02:00).do(job) while True: schedule.run_pending() time.sleep(60)8. 实际应用与学习整合将抓取的内容整合到学习流程中使用Python文本处理库生成单词本from collections import Counter import re def generate_vocab(text): words re.findall(r\b[a-zA-Z]\b, text.lower()) return Counter(words).most_common(50)创建自动化复习提醒系统import sqlite3 def create_review_system(): conn sqlite3.connect(vocab.db) c conn.cursor() c.execute(CREATE TABLE IF NOT EXISTS vocab (word text, frequency integer, last_reviewed text)) conn.commit() conn.close()这套工具在实际使用中显著提升了我的学习效率特别是在准备专业英语考试时能够快速构建个性化的学习资料库。最实用的功能是将课文与音频自动匹配方便进行听力训练。

OpenGL ES开发避坑：GLM库的#include用尖括号还是双引号？一次讲清预处理器搜索路径

OpenGL ES开发中GLM库的正确引入方式：尖括号与双引号的深度解析在OpenGL ES开发过程中，数学运算的高效实现是图形渲染的核心基础。GLM（OpenGL Mathematics）作为一款专为图形编程设计的C数学库，凭借其与GLSL高度一致的A…...

2026/6/8 20:58:05 阅读更多 →

2026汕头市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐

汕头作为粤东地区的经济重镇，贵金属回收市场向来活跃，各类回收店铺星罗棋布，让人眼花缭乱。为了帮助大家拨云见日，找到靠谱、公道的服务商，小编特意深入探访，精心整理了一份关于汕头市贵金属回收的诚信店铺…...

2026/6/8 20:54:14 阅读更多 →

怎样高效配置Linux罗技设备：Solaar终极操作指南

怎样高效配置Linux罗技设备：Solaar终极操作指南【免费下载链接】Solaar Linux device manager for Logitech devices 项目地址: https://gitcode.com/gh_mirrors/so/Solaar 想在Linux系统上充分发挥罗技键盘、鼠标等无线设备的全部潜力吗？Solaar…...

2026/6/8 20:54:05 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/8 0:46:40 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/8 4:35:49 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/8 0:52:21 阅读更多 →