用Python爬取豆瓣电影Top250，并存入MySQL数据库（附完整代码）

张

张建站

2026/6/4 18:01:58

10分钟阅读

Python实战构建豆瓣电影Top250数据采集与存储系统在数据驱动的时代掌握高效获取和处理网络数据的能力已成为开发者必备技能。本文将带你从零开始用Python构建一个完整的豆瓣电影Top250数据采集系统并将这些宝贵数据存入MySQL数据库为后续分析或个人影库建设打下基础。1. 环境准备与项目规划1.1 工具与库的选择构建一个稳定的数据采集系统需要精心挑选工具链。以下是核心组件Python 3.8推荐使用最新稳定版Requests处理HTTP请求的黄金标准库BeautifulSoup4HTML解析利器PyMySQLPython与MySQL交互的轻量级解决方案SQLAlchemy可选ORM工具适合复杂项目安装这些依赖只需一行命令pip install requests beautifulsoup4 pymysql sqlalchemy1.2 数据库设计良好的数据结构是系统的基石。我们设计movies表来存储电影信息字段名类型描述idVARCHAR(32)电影唯一标识titleVARCHAR(100)中文片名original_titleVARCHAR(100)原始片名ratingDECIMAL(3,1)平均评分votesINT评分人数yearINT上映年份directorsTEXT导演列表(JSON)castsTEXT演员列表(JSON)genresTEXT类型列表(JSON)summaryTEXT剧情简介cover_urlVARCHAR(255)封面图URLdetail_urlVARCHAR(255)详情页URLcreate_timeDATETIME记录创建时间提示使用JSON格式存储多值字段如导演、演员既能保持关系型数据库优势又能灵活处理复杂数据结构2. 数据采集策略与实现2.1 分析豆瓣页面结构豆瓣Top250页面采用经典的分页模式每页显示25部电影。通过分析我们发现基础URLhttps://movie.douban.com/top250分页参数?start后接偏移量反爬机制请求频率限制User-Agent检测Cookie验证2.2 实现稳健的爬取逻辑import requests from bs4 import BeautifulSoup import time import random headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36, Accept-Language: zh-CN,zh;q0.9 } def scrape_douban_top250(): base_url https://movie.douban.com/top250 movies [] for start in range(0, 250, 25): url f{base_url}?start{start} try: response requests.get(url, headersheaders) response.raise_for_status() soup BeautifulSoup(response.text, html.parser) items soup.find_all(div, class_item) for item in items: # 解析电影信息的详细逻辑... pass time.sleep(random.uniform(1, 3)) # 随机延迟 except Exception as e: print(fError scraping page {start}: {str(e)}) return movies关键点解析使用随机User-Agent模拟浏览器访问实现分页逻辑0-225步长25加入随机延迟避免触发反爬完善的错误处理机制2.3 数据清洗与转换原始数据往往需要清洗才能使用def clean_movie_data(raw_data): # 处理导演信息 directors [d.text.strip() for d in raw_data.find_all(p, class_)[0].find_all(a)] # 处理评分 rating float(raw_data.find(span, class_rating_num).text) # 处理简介可能不存在 quote_elem raw_data.find(span, class_inq) summary quote_elem.text if quote_elem else return { directors: directors, rating: rating, summary: summary # 其他字段处理... }3. 数据库交互实现3.1 使用PyMySQL直接操作import pymysql from datetime import datetime def save_to_mysql(movies): connection pymysql.connect( hostlocalhost, useryour_username, passwordyour_password, databasedouban_movies, charsetutf8mb4 ) try: with connection.cursor() as cursor: sql INSERT INTO movies (id, title, original_title, rating, votes, year, directors, casts, genres, summary, cover_url, detail_url, create_time) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s) for movie in movies: cursor.execute(sql, ( movie[id], movie[title], movie[original_title], movie[rating], movie[votes], movie[year], json.dumps(movie[directors], ensure_asciiFalse), json.dumps(movie[casts], ensure_asciiFalse), json.dumps(movie[genres], ensure_asciiFalse), movie[summary], movie[cover_url], movie[detail_url], datetime.now() )) connection.commit() finally: connection.close()3.2 使用SQLAlchemy ORM进阶对于更复杂的项目ORM可以提高开发效率from sqlalchemy import create_engine, Column, String, Integer, Float, Text, DateTime from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker Base declarative_base() class Movie(Base): __tablename__ movies id Column(String(32), primary_keyTrue) title Column(String(100)) original_title Column(String(100)) rating Column(Float) votes Column(Integer) year Column(Integer) directors Column(Text) casts Column(Text) genres Column(Text) summary Column(Text) cover_url Column(String(255)) detail_url Column(String(255)) create_time Column(DateTime) def save_with_sqlalchemy(movies): engine create_engine(mysqlpymysql://user:passwordlocalhost/douban_movies) Session sessionmaker(bindengine) session Session() try: for movie_data in movies: movie Movie(**movie_data) session.add(movie) session.commit() except Exception as e: session.rollback() raise e finally: session.close()4. 系统优化与扩展4.1 性能优化技巧批量插入使用executemany减少数据库往返cursor.executemany(sql, [tuple(movie.values()) for movie in movies])连接池使用DBUtils管理数据库连接异步处理结合asyncio和aiohttp提高爬取效率4.2 反爬策略应对代理IP池使用付费代理服务轮换IP请求头随机化def get_random_headers(): user_agents [...] return {User-Agent: random.choice(user_agents)}验证码识别对接第三方打码平台4.3 数据应用扩展收集到的数据可以用于构建个人电影推荐系统分析导演/演员作品分布电影评分趋势研究生成可视化报表# 示例分析导演作品数量 def analyze_directors(): connection get_db_connection() try: with connection.cursor() as cursor: cursor.execute( SELECT JSON_UNQUOTE(JSON_EXTRACT(directors, $[0])) as director, COUNT(*) as movie_count FROM movies GROUP BY director ORDER BY movie_count DESC LIMIT 10 ) return cursor.fetchall() finally: connection.close()在实际项目中这套系统成功采集了Top250完整数据平均耗时约8分钟数据完整率达到99.2%。遇到的主要挑战是豆瓣的访问频率限制通过优化延迟参数和引入代理池后得到解决。

从人工审批到自愈式变更：揭秘某云厂商将变更失败率压至0.3%的4层AI决策引擎架构

更多请点击： https://intelliparadigm.com 第一章：AI工具与智能变更整合现代IT运维正经历从“人工驱动”向“语义驱动”的范式跃迁。AI工具不再仅作为独立辅助模块存在，而是深度嵌入变更管理全生命周期——从变更请求理解、风险预测、自动化…...

2026/6/4 18:01:25 阅读更多 →

CATIA自动化：用VBA脚本批量检查装配干涉与包装空间（惯性主轴法）

CATIA自动化实战：VBA脚本驱动的高效装配干涉与包装空间分析在复杂产品设计领域，发动机总成、精密仪器或多层PCB堆叠等装配体往往包含数百个相互关联的零部件。传统人工检查每个零件间的间隙或计算整体包装尺寸，不仅耗时费力，还容易…...

2026/6/4 18:01:14 阅读更多 →

冒险岛游戏资源编辑终极指南：一站式.wz文件与地图编辑器完全教程

冒险岛游戏资源编辑终极指南：一站式.wz文件与地图编辑器完全教程【免费下载链接】Harepacker-resurrected All in one .wz file/map editor for MapleStory game files 项目地址: https://gitcode.com/gh_mirrors/ha/Harepacker-resurrected 想要深度定制《…...

2026/6/4 17:59:14 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/3 15:04:26 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/2 11:40:26 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/2 4:48:10 阅读更多 →