Python生成器与迭代器：高效数据处理的利器

张

张建站

2026/5/30 1:18:30

10分钟阅读

Python生成器与迭代器高效数据处理的利器引言生成器和迭代器是Python中处理大量数据的核心工具它们允许我们按需生成数据而不是一次性加载到内存中。作为一名从Python转向Rust的后端开发者我在实践中总结了生成器和迭代器的最佳实践。本文将深入探讨Python中的生成器和迭代器帮助你构建高效的数据处理管道。一、迭代器基础1.1 什么是迭代器迭代器是一个可以遍历容器中元素的对象实现了__iter__和__next__方法。1.2 迭代器协议class MyIterator: def __init__(self, data): self.data data self.index 0 def __iter__(self): return self def __next__(self): if self.index len(self.data): raise StopIteration value self.data[self.index] self.index 1 return value numbers MyIterator([1, 2, 3, 4, 5]) for num in numbers: print(num)1.3 内置迭代器# 列表迭代器 my_list [1, 2, 3] iter_list iter(my_list) print(next(iter_list)) # 字符串迭代器 my_string hello iter_string iter(my_string) print(next(iter_string)) # 字典迭代器 my_dict {a: 1, b: 2} for key in my_dict: print(key)二、生成器基础2.1 什么是生成器生成器是一种特殊的迭代器使用yield关键字定义能够按需生成值。2.2 简单生成器def simple_generator(): yield 1 yield 2 yield 3 gen simple_generator() print(next(gen)) print(next(gen)) print(next(gen))2.3 生成器表达式# 列表推导式 squares [x**2 for x in range(10)] # 生成器表达式 gen_squares (x**2 for x in range(10)) for square in gen_squares: print(square)2.4 生成器与列表的区别特性列表生成器内存使用一次性加载全部元素按需生成内存友好计算时机立即计算延迟计算可迭代次数多次单次使用场景数据量小数据量大或无限流三、生成器进阶3.1 带参数的生成器def countdown(start): while start 0: yield start start - 1 for num in countdown(5): print(num)3.2 生成器中的returndef generator_with_return(): yield 1 yield 2 return Finished yield 3 gen generator_with_return() try: while True: print(next(gen)) except StopIteration as e: print(fReturn value: {e.value})3.3 生成器链def even_numbers(n): for i in range(n): if i % 2 0: yield i def square_numbers(numbers): for num in numbers: yield num ** 2 evens even_numbers(10) squares square_numbers(evens) for square in squares: print(square)四、迭代工具4.1 itertools模块import itertools # count - 无限计数器 counter itertools.count(start1, step2) for _ in range(5): print(next(counter)) # cycle - 无限循环序列 cycle_iter itertools.cycle([a, b, c]) for _ in range(5): print(next(cycle_iter)) # repeat - 重复元素 repeat_iter itertools.repeat(10, 3) for num in repeat_iter: print(num)4.2 迭代器组合import itertools # chain - 链接多个迭代器 iter1 [1, 2, 3] iter2 [a, b, c] chained itertools.chain(iter1, iter2) for item in chained: print(item) # zip_longest - 按最长迭代器配对 a [1, 2] b [a, b, c] for pair in itertools.zip_longest(a, b, fillvalue-): print(pair)4.3 条件筛选import itertools numbers [1, 2, 3, 4, 5, 6] # takewhile - 取满足条件的元素直到不满足 result itertools.takewhile(lambda x: x 4, numbers) print(list(result)) # dropwhile - 跳过满足条件的元素直到不满足 result itertools.dropwhile(lambda x: x 4, numbers) print(list(result)) # filterfalse - 过滤不满足条件的元素 result itertools.filterfalse(lambda x: x % 2 0, numbers) print(list(result))五、实用案例5.1 处理大型文件def read_large_file(filepath): with open(filepath, r) as f: for line in f: yield line.strip() for line in read_large_file(large_file.txt): process_line(line)5.2 无限序列生成器def fibonacci(): a, b 0, 1 while True: yield a a, b b, a b # 取前10个斐波那契数 fib fibonacci() for _ in range(10): print(next(fib))5.3 数据管道def read_csv(filepath): with open(filepath, r) as f: header next(f) for line in f: yield line.strip().split(,) def filter_rows(rows, condition): for row in rows: if condition(row): yield row def transform_rows(rows, transform): for row in rows: yield transform(row) pipeline transform_rows( filter_rows( read_csv(data.csv), lambda row: int(row[2]) 100 ), lambda row: {name: row[0], value: int(row[1])} ) for item in pipeline: print(item)5.4 异步生成器async def async_generator(): for i in range(5): await asyncio.sleep(1) yield i async def main(): async for num in async_generator(): print(num) import asyncio asyncio.run(main())六、yield from语句6.1 委托生成器def inner_generator(): yield 1 yield 2 def outer_generator(): yield start yield from inner_generator() yield end for item in outer_generator(): print(item)6.2 嵌套生成器def generate_numbers(n): def inner(): for i in range(n): yield i yield from inner() for num in generate_numbers(5): print(num)七、生成器最佳实践7.1 内存优化# 不好的做法 - 一次性生成所有数据 def generate_all_data(): data [] for i in range(1000000): data.append(compute_value(i)) return data # 好的做法 - 按需生成 def generate_data(): for i in range(1000000): yield compute_value(i)7.2 错误处理def safe_generator(data): for item in data: try: processed process_item(item) yield processed except Exception as e: print(fError processing {item}: {e}) continue7.3 可组合性def pipeline(*steps): def apply_pipeline(data): result data for step in steps: result step(result) return result return apply_pipeline steps [ filter_rows, transform_rows, validate_rows ] data_pipeline pipeline(*steps) for item in data_pipeline(raw_data): print(item)八、实战案例日志分析系统import re from collections import defaultdict def parse_log_file(filepath): pattern r(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[(\w)\] (.*) with open(filepath, r) as f: for line in f: match re.match(pattern, line) if match: yield { timestamp: match.group(1), level: match.group(2), message: match.group(3) } def filter_by_level(logs, level): for log in logs: if log[level] level: yield log def count_by_level(logs): counts defaultdict(int) for log in logs: counts[log[level]] 1 return dict(counts) def main(): logs parse_log_file(app.log) error_logs filter_by_level(logs, ERROR) for error in error_logs: print(f{error[timestamp]}: {error[message]}) logs parse_log_file(app.log) counts count_by_level(logs) print(\nLog level distribution:) for level, count in counts.items(): print(f{level}: {count}) if __name__ __main__: main()总结生成器和迭代器是Python中处理数据的强大工具。通过本文的学习你应该掌握了以下核心要点迭代器基础迭代器协议、内置迭代器生成器基础yield关键字、生成器表达式生成器进阶带参数生成器、return、生成器链迭代工具itertools模块、迭代器组合实用案例大型文件处理、无限序列、数据管道yield from委托生成器、嵌套生成器最佳实践内存优化、错误处理、可组合性作为从Python转向Rust的后端开发者掌握生成器和迭代器对于构建高效的数据处理系统至关重要。Rust中的迭代器同样强大通过Iteratortrait实现类似的功能。

基于核电安全质保体系的外来人员无感管控技术实施方案

基于核电安全质保体系的外来人员无感管控技术实施方案一、方案总则1.1 编制依据本方案严格遵循核电安全质保、核安保、人员授权、运行合规四级标准体系编制，完全对齐核电行业强制性规范与质量管理闭环要求：- 《HAF003核电厂质量保证安全规定》- 《HAD103…...

2026/5/30 1:18:30 阅读更多 →

Python项目Git工作流：团队协作最佳实践

Python项目Git工作流：团队协作最佳实践引言 Git是现代软件开发中不可或缺的版本控制工具，掌握良好的Git工作流对于团队协作至关重要。作为一名从Python转向Rust的后端开发者，我在实践中总结了Git工作流的最佳实践。本文将深入探讨Python项目…...

2026/5/30 1:18:28 阅读更多 →

不确定理论下地下水污染源识别与抽出处理优化方法【附数据】

✨ 长期致力于不确定理论、贝叶斯公式、污染源识别、监测井优化设计、抽出-处理技术、随机优化模型研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基…...

2026/5/30 1:16:12 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/27 16:21:02 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/29 20:04:58 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/28 13:47:19 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/30 1:22:49 阅读更多 →