LLM查询重写--解决近义词、用户输入不规范问题

张

张建站

2026/4/4 11:26:06

10分钟阅读

在实际业务中用户输入往往非常不规范以大宗商品领域为例。例如用户可能会说“螺纹最近怎么样”“钢筋价格咋样”“rebar行情”“建筑钢材走势如何”但系统真正希望理解的是一个标准化实体例如螺纹钢Rebar这类问题的本质其实是将各种非标准表达统一到一个“标准概念”上也就是常说的归一化Normalization。一、问题本质表达多样 vs 概念统一人类表达是高度灵活的同一个概念可以有多种说法行业术语螺纹钢口语表达钢筋英文表达rebar描述性表达建筑用钢材系统如果只依赖“字面匹配”很容易漏掉大量信息。因此这个问题本质上不是“查词”而是在不同表达中识别同一个语义概念二、常见做法及其局限最直接的方法是建立一个映射表例如把“钢筋”“rebar”都映射到“螺纹钢”。这种方式实现简单、性能极高在很多系统中都是第一层基础能力。但问题也很明显一旦表达方式稍微复杂一点比如“建筑用的那种钢材”这种方法就会失效并且可能伴随长尾问题不能完全覆盖。进一步的做法是引入知识图谱把这些关系结构化存储。例如可以定义“钢筋”和“rebar”是“螺纹钢”的别名。这种方式比简单词典更清晰也更易扩展但本质上仍然是“已知词的映射”无法处理没有被收录的表达。还有一种思路是利用向量embedding做相似度匹配。比如“钢筋”和“螺纹钢”在语义空间中距离较近可以被识别为相似。但这种方法容易引入误判例如“铁矿石”和“螺纹钢”在某些语境下也可能相似但它们并不是同一个概念。因此它更适合作为“候选召回”而不是最终判断。三、为什么需要“理解能力”真正困难的情况往往不是“词”而是“描述”。例如“最近建筑用的那种钢材价格涨了吗”这里没有出现“螺纹钢”或“钢筋”这样的标准词但人可以很自然地理解其指向。这种能力依赖的不是匹配而是语义推理。这也是为什么需要引入大语言模型LLM。LLM可以基于上下文将描述归纳为标准概念建筑用钢材 → 螺纹钢这一步本质上已经超出了传统NLP的“匹配”范畴而进入“理解”。四、NER在其中的作用既然有知识图谱为什么还需要实体识别NER关键在于知识图谱只能回答“是什么”但不会告诉你“句子里哪一部分是问题”。例如一句话“我想看看螺纹最近的走势”系统需要先知道“螺纹”是一个商品实体而不是普通词。这一步就是NER的作用它负责在文本中定位“需要处理的对象”。可以理解为NER负责找目标知识图谱负责给答案五、一个更合理的整体方案在实际系统中通常不会只用一种方法而是分层处理。首先用词典或规则做快速匹配这一步可以覆盖大量高频表达成本极低。如果命中就可以直接完成归一化。对于没有命中的情况再引入更强的理解能力例如通过LLM判断用户描述对应的商品。与此同时可以结合知识图谱进行约束例如将候选结果限制在已有商品集合中从而提高准确性。整个过程可以理解为先用规则兜底效率再用模型补充理解能力。六、方法对比简要方法解决问题适用场景词典/映射已知表达匹配高频、标准表达知识图谱结构化同义关系可维护的知识体系Embedding相似表达召回候选生成NER实体定位句子理解前置LLM语义归纳描述性、长尾表达七、总结在自然语言理解场景中输入不规范几乎是常态。单纯依赖词典或知识图谱很难覆盖所有表达而完全依赖模型又会带来成本和稳定性问题。更合理的做法是将两类能力结合用规则和知识图谱解决“已知问题”用LLM解决“未知表达”最终目标不是让系统“匹配更多词”而是让它能够在不同表达中稳定识别同一个概念。本质上这是从“字符串处理”走向“语义理解”的过程。

AI 日报 - 2026年4月4日（周六）

🔬 科技类 5 条1. OpenAI完成1220亿美元史诗级融资，估值直逼万亿OpenAI在3月31日官宣完成了人类商业史上最大单笔私募融资——1220亿美元，投后估值8520亿美元。其中亚马逊一口气投了500亿，但有个小条款：剩余350亿要等O…...

2026/4/4 11:25:50 阅读更多 →

MAI-UI-8B数据结构优化实践：提升GUI任务执行效率

MAI-UI-8B数据结构优化实践：提升GUI任务执行效率 1. 引言你有没有遇到过这样的情况：让AI助手帮你操作手机，结果它要么点错按钮，要么反应迟钝，要么干脆卡在那里不动？这背后往往不是AI不够聪明&#xff0c…...

2026/4/4 11:25:36 阅读更多 →

OpenClaw+Phi-3-mini-128k-instruct学习伴侣：错题本自动整理与解析

OpenClawPhi-3-mini-128k-instruct学习伴侣：错题本自动整理与解析 1. 为什么需要AI错题本助手？ 作为一名经常辅导孩子功课的家长，我深刻体会到整理错题本的痛苦。每次孩子考试后，我需要手动将错题拍照、分类、记录知识点&#x…...

2026/4/4 11:24:01 阅读更多 →

在 Windows 11 家庭版安装 Docker Desktop解决虚拟化问题

目录前言环境说明架构原理第一步：启用 Windows 虚拟化功能第二步：修复 Hypervisor 启动配置第三步：安装 WSL 2 与 Ubuntu 第四步：启动 Docker Desktop 第五步：验证安装常见问题总结前言 Docker 是目…...

2026/3/31 3:31:24 阅读更多 →

实在 Agent 和通用大模型有什么不一样？深度拆解 AI Agent 的感知、决策与执行逻辑

获取系统时间这一任务，虽然看似简单，却深刻揭示了 AI Agent 与通用大模型在本质、能力、架构和应用场景上的根本性差异。通用大模型（LLM），如 GPT、Claude 或通义千问等，其核心是基于海量文本数据训练出的概…...

2026/3/29 0:02:57 阅读更多 →

pdf2docx完全指南：如何高效将PDF转换为可编辑的Word文档

pdf2docx完全指南：如何高效将PDF转换为可编辑的Word文档【免费下载链接】pdf2docx Open source Python library converting pdf to docx. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf2docx pdf2docx是一个强大的开源Python库，专门用于将PD…...

2026/4/4 3:15:07 阅读更多 →