哈工大NLP期末考后复盘从HMM到Transformer的知识图谱重构刚走出考场的你是否对试卷上那些似曾相识却又难以准确把握的题目感到懊恼当HMM概率计算遇上FMM/BMM分词歧义当最大熵特征向量撞上PCFG文法规则NLP课程的复杂性在考场上展现得淋漓尽致。这份复盘指南将带你以真题为线索重新梳理从传统统计模型到前沿神经网络的完整知识框架帮助你在下一次考试前建立更牢固的认知锚点。1. 语言学基础与统计模型考试中的送分陷阱那些看似简单的语言学概念选择题往往成为区分A与A-的关键。试卷中关于组合关系与聚合关系的辨析实则是考察对语言系统层级的理解组合关系线性序列中要素的横向连接如吃饭构成动宾关系聚合关系同一位置可替换要素的纵向集合如吃可替换为煮/买统计语言模型部分HMM的三要素初始概率、转移概率、发射概率常以维特比算法计算题形式出现。2022年真题要求计算三个词序列的维特比向量关键步骤包括# 伪代码示例维特比算法核心 for t in range(1, T): # 时间步遍历 for s in states: # 当前状态 max_prob -inf for prev_s in states: # 前驱状态 prob viterbi[t-1][prev_s] * trans[prev_s][s] * emit[s][obs[t]] if prob max_prob: max_prob prob backpointer[t][s] prev_s viterbi[t][s] max_prob注意考试中常见错误是混淆转移概率Aij从状态i到j与发射概率Bij状态j生成观测值i的矩阵维度2. 分词与特征工程传统方法的精妙之处基于字符串匹配的分词方法考察频率惊人地高。FMM前向最大匹配与BMM后向最大匹配的对比题本质上是在测试对语言颗粒度的理解方法切分方向示例研究生命起源优势场景FMM从左向右研究/生命/起源词典完备时效率高BMM从右向左研究生/命/起源处理后缀词更准确最大熵模型的特征构建是另一高频考点。当题目给出特征模板如前词当前词后词时需要理解特征函数的设计逻辑定义特征函数f(x,y)当x满足特定条件且标注为y时返回1特征向量即所有特征函数在当前位置的输出集合模型通过约束特征期望来保持最大熵原则3. 句法分析与评价指标形式化表达的难点突破PCFG概率上下文无关文法的考察通常包含三个层面根据给定句子绘制语法分析树注意中心词递归结构补充缺失的文法规则特别留意终结符的产生式对比CFG与PCFG的核心差异每个产生式带有概率参数必须满足同一非终结符产生式概率和为1树概率等于产生式概率乘积评价指标部分斯皮尔曼等级相关系数ρ的计算常被忽略其本质ρ 1 - 6∑d²/(n³-n)其中d为两个排序的秩次差这个指标比皮尔逊相关系数更能捕捉单调非线性关系适合评估词向量质量。4. 神经网络时代的NLP从RNN到Transformer的范式迁移虽然2022年考题中深度学习内容占比有限但趋势显示Transformer相关知识点正在增加。需要特别掌握的对比维度模型类型并行性长程依赖典型应用计算复杂度RNN差有限序列标注O(n)LSTM差较好机器翻译O(n)Transformer优极佳BERT等O(n²)当遇到基于RNN的实体抽取这类题目时应答框架应包含输入层的词向量表示双向RNN的时序特征提取CRF层的标签序列优化损失函数的端到端训练5. 实战建议来自往届考生的血泪经验那些考后才恍然大悟的细节往往藏在平时忽略的角落语料库局限性标注噪声、领域偏移、时间滞后等问题必须结合具体案例说明交叉验证k折选择取决于数据规模小数据取大k和计算成本伪代码准备虽然本次未考但动态规划、EM算法等经典流程仍需手写练习最后记住NLP考试不是记忆力的比拼而是理解力的较量。当你在复习HMM时不妨思考它与CRF的哲学差异当练习Transformer时可以联想其与统计机器翻译的范式革命。这种知识网络的构建才是应对各种题型的终极武器。