手把手教你用Python实现一个简易编译器（从正则式到语法树）

张

张建站

2026/6/11 6:57:52

10分钟阅读

用Python从零构建编译器前端正则式到语法树的实战指南在计算机科学领域编译原理常被视为高岭之花理论抽象且难以实践。但当我们用Python将其具象化一切都会变得清晰起来。本文将带你从正则表达式出发逐步实现词法分析、语法分析最终构建出完整的语法树——这正是每个现代编译器前端的核心工作流程。1. 编译器前端基础架构任何编译器前端都遵循着相似的流水线设计。我们先从宏观视角理解这个架构再深入每个模块的实现细节。典型的编译器前端包含三个关键阶段词法分析器Lexer将源代码字符串分解为有意义的词法单元语法分析器Parser根据语法规则构建抽象语法树语义分析器进行类型检查等上下文相关分析# 编译器前端基础架构示例 class CompilerFrontend: def __init__(self, source_code): self.source source_code self.tokens [] self.ast None def compile(self): self.lexical_analysis() self.syntax_analysis() return self.ast def lexical_analysis(self): ... def syntax_analysis(self): ...提示现代编译器通常会将词法和语法分析紧密结合形成所谓的语法导向分析这能显著提升效率。2. 词法分析从正则式到DFA实现词法分析的核心是将字符流转换为标记流。我们采用从正则表达式到确定有限自动机(DFA)的经典路径来实现。2.1 正则表达式到NFA的转换首先定义我们支持的算术表达式词法规则# 算术表达式的词法规则 lex_rules [ (NUMBER, r\d), (PLUS, r\), (MINUS, r-), (TIMES, r\*), (DIVIDE, r/), (LPAREN, r\(), (RPAREN, r\)), (WHITESPACE, r\s, True) # 最后一个参数表示可忽略 ]实现正则表达式到NFA的转换算法class NFAState: def __init__(self): self.transitions {} # 字符到状态集合的映射 self.epsilon_transitions set() # ε转移 def regex_to_nfa(pattern): # 这里实现Thompson构造算法 # 简化的实现示例 start NFAState() end NFAState() if len(pattern) 1: start.transitions[pattern] {end} else: # 处理更复杂的正则表达式 pass return start, end2.2 NFA到DFA的转换通过子集构造法将NFA转换为DFAdef nfa_to_dfa(nfa_start): dfa_states {} initial_set epsilon_closure({nfa_start}) dfa_start DFAState(initial_set) dfa_states[frozenset(initial_set)] dfa_start unmarked [dfa_start] while unmarked: current unmarked.pop() # 计算所有可能的输入字符 inputs set() for state in current.nfa_states: inputs.update(state.transitions.keys()) for char in inputs: # 计算move和epsilon闭包 new_set epsilon_closure(move(current.nfa_states, char)) if not new_set: continue frozen frozenset(new_set) if frozen not in dfa_states: new_state DFAState(new_set) dfa_states[frozen] new_state unmarked.append(new_state) else: new_state dfa_states[frozen] current.transitions[char] new_state return dfa_start2.3 DFA最小化使用Hopcroft算法实现DFA最小化def minimize_dfa(dfa): # 初始划分接受状态和非接受状态 partitions [] accepting set() non_accepting set() # 收集所有DFA状态 all_states set() stack [dfa] while stack: state stack.pop() if state not in all_states: all_states.add(state) stack.extend(state.transitions.values()) # 初始划分 for state in all_states: (accepting if state.is_accepting else non_accepting).add(state) if accepting: partitions.append(accepting) if non_accepting: partitions.append(non_accepting) # 持续划分直到无法再分 changed True while changed: changed False new_partitions [] for partition in partitions: # 尝试根据转移行为细分分区 split_dict {} for state in partition: key tuple((char, find_partition(state.transitions[char], partitions)) for char in state.transitions) if key not in split_dict: split_dict[key] set() split_dict[key].add(state) if len(split_dict) 1: changed True new_partitions.extend(split_dict.values()) else: new_partitions.append(partition) partitions new_partitions # 构建最小化DFA return build_minimized_dfa(dfa, partitions)3. 语法分析构建语法树有了词法分析器后我们进入语法分析阶段。这里采用递归下降分析法来实现。3.1 文法定义定义简单的算术表达式文法expr : term ((PLUS | MINUS) term)* term : factor ((TIMES | DIVIDE) factor)* factor : NUMBER | LPAREN expr RPAREN3.2 递归下降分析实现class Parser: def __init__(self, tokens): self.tokens tokens self.current 0 def parse(self): return self.expr() def expr(self): node self.term() while self.match(PLUS, MINUS): operator self.previous() right self.term() node BinaryOp(node, operator, right) return node def term(self): node self.factor() while self.match(TIMES, DIVIDE): operator self.previous() right self.factor() node BinaryOp(node, operator, right) return node def factor(self): if self.match(NUMBER): return Number(self.previous().value) if self.match(LPAREN): node self.expr() self.consume(RPAREN, Expect ) after expression) return node raise ParseError(Expected number or parentheses)3.3 语法树节点定义class ASTNode: pass class BinaryOp(ASTNode): def __init__(self, left, op, right): self.left left self.op op self.right right def __repr__(self): return f({self.left} {self.op.value} {self.right}) class Number(ASTNode): def __init__(self, value): self.value value def __repr__(self): return str(self.value)4. 完整实现与测试将各个模块组合成完整的编译器前端def compile_source(source): # 词法分析 lexer Lexer(source) tokens lexer.tokenize() # 语法分析 parser Parser(tokens) ast parser.parse() return ast # 测试示例 if __name__ __main__: source 3 4 * (10 - 5) ast compile_source(source) print(fAST: {ast}) # 输出: AST: (3 (4 * (10 - 5)))5. 错误处理与恢复健壮的编译器需要优雅地处理错误。我们为词法和语法分析添加错误恢复机制。5.1 词法错误处理class Lexer: def tokenize(self): tokens [] while not self.is_at_end(): try: token self.next_token() if token and not token.ignored: tokens.append(token) except LexError as e: print(fLexical error: {e}) self.synchronize() # 跳过错误部分 return tokens def synchronize(self): # 跳过字符直到找到可能的token起始 while not self.is_at_end(): if self.peek().isspace(): return self.advance()5.2 语法错误恢复class Parser: def parse(self): try: return self.expr() except ParseError as e: print(fSyntax error: {e}) return None def consume(self, token_type, message): if self.check(token_type): return self.advance() raise ParseError(message)6. 扩展与优化基础实现完成后我们可以考虑以下优化方向性能优化预编译正则表达式缓存DFA状态使用生成器实现惰性词法分析功能扩展支持变量和赋值添加函数调用实现更复杂的数据类型工具集成生成可视化语法树添加源代码映射集成IDE插件# 可视化语法树示例 def visualize_ast(node, indent0): if isinstance(node, BinaryOp): print( * indent node.op.value) visualize_ast(node.left, indent 2) visualize_ast(node.right, indent 2) elif isinstance(node, Number): print( * indent str(node.value))构建编译器前端是理解编程语言本质的绝佳途径。通过这个项目你不仅掌握了编译原理的核心概念还获得了将复杂理论转化为实际代码的宝贵经验。当看到自己构建的编译器成功解析复杂表达式时那种成就感是无与伦比的。

AI 辅助的故障复现与回放：从人工描述到自动化场景重建

AI 辅助的故障复现与回放：从人工描述到自动化场景重建一、故障复现的效率困境：不可复现的 Bug 是最昂贵的 Bug 运维团队最头疼的问题不是"出了故障"，而是"故障无法复现"。一个间歇性的数据库连接超时，在凌晨 …...

2026/6/11 6:56:52 阅读更多 →

避开这些坑！Zemax衍射光栅仿真中的光线追迹与探测器设置详解

Zemax衍射光栅仿真进阶指南：从光线追迹原理到探测器优化实战在光学仿真领域，衍射光栅的建模与仿真一直是工程师们面临的技术难点。特别是当用户从基础教程转向实际项目应用时，常常会遇到各种意料之外的仿真结果异常。本文将深入剖析Zemax非序…...

2026/6/11 6:52:56 阅读更多 →

告别复杂配置：OpCore-Simplify让你快速搭建黑苹果系统

告别复杂配置：OpCore-Simplify让你快速搭建黑苹果系统【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 想要在普通PC上体验macOS的魅力&…...

2026/6/11 6:48:19 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/10 4:21:44 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/10 19:45:23 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/10 4:21:44 阅读更多 →