应用自然语言处理与生成式AI时代视频: https://www.youtube.com/watch?vdi670dGu3No大语言模型LLM和上下文学习为开发自然语言理解系统带来了新范式提示就是你所需要的一切原型设计从未如此简单但并非所有原型都能顺利进入生产环境。在本次演讲中将分享从解决工业界真实世界的信息抽取问题中学到的最重要经验并向你展示在生成式AI时代设计稳健、模块化NLP管道的新方法和新思维。将更大的业务问题分解为可操作的机器学习任务是应用自然语言处理的核心挑战之一。将带你了解示例应用和实际解决方案展示如何充分发挥LLM的潜力如何在何处集成自定义业务逻辑以及如何最大化效率、透明度和数据隐私。演讲稿某机构开源库用于工业级自然语言处理下载量 2.7亿ChatGPT 可以编写某开源库的代码现代化的可脚本化标注工具面向机器学习开发者900 公司10k 用户回到我们的初心重新将某机构作为一家规模更小、独立思考且自给自足的公司来运营。咨询、开源、开发者工具大语言模型:Falcon, MIXTRAL, GPT-4大语言模型优势:良好的上下文结果易于使用和配置快速原型设计大语言模型劣势:数据隐私⚠️透明度⚠️效率⚠️定义与演变:规则或指令✍️ - 编程与规则机器学习示例 - 监督学习上下文学习 规则或指令✍️ - 大语言模型提示工程指令: 适合人类形状非专家易于使用存在数据漂移风险 ✍️示例: 细致入微且直观的行为特定于用例劳动密集型 原型:任务特定输出 提示 文本 - 大语言模型 - 任务特定输出使用某开源库LLM扩展: 提示模型并将输出转换为结构化数据API: GPT-4生产环境 vs 原型:原型: 文本 提示 - LLM - 任务特定输出生产: 文本 - 蒸馏后的任务特定组件 - 任务特定输出优势: ✅ 模块化 ✅ 小且快 ✅ 数据私有人在环路:某机构博客: 人在环路的蒸馏流程: 大语言模型 - 连续评估基线 | 提示 - 迁移学习 - 组件 (蒸馏后的模型)案例研究某机构通过提取结构化属性提供实时大宗商品交易洞察高安全性环境在标注过程中使用了大语言模型通过人和模型在环路中数据开发速度提升10倍8个市场管道已投入生产99% F-score6MB 模型大小16k 单词/秒重构你的代码和数据。软件1.0 vs 软件2.0:软件1.0: 代码 - 程序 (编译器)✅测试重构迭代软件2.0: 数据 - 模型 (算法)评估重构迭代“我爱猫。” vs “我恨猫。” 相似或不相似你的应用上下文总是很重要“旁边放一杯冰啤酒和一小碗奇多。” / “将奇多与面包屑混合用擀面杖压碎。”标注: 食材/菜品/设备以20倍速度提升击败了小样本GPT基线分离业务逻辑:结果 业务逻辑(分类(文本))模型处理: 文本中的词语、语法、句法信息外部知识: 可能随时间变化的事实提示: 尝试从模型的角度思考文本案例研究某机构从支持工单和使用问题中提取可操作的见解高安全性环境易于适应新场景和业务问题将通用功能与产品特定逻辑分离支持工单处理速度提升6倍覆盖1年数据检索增强生成 (RAG):问题 - ⚙️向量化器 - 查询 - 向量数据库 - 片段 ⚙️向量化器 - 答案通过信息抽取进行检索 (RIE):问题 - ⚙️文本到SQL - 查询 - NLP管道 - 文本 - 数据 RIE语言只是另一种接口。“敲窗机”测试:你设计的是敲窗机还是闹钟“你好我是Toni的虚拟助手帮助安排会议。 周一下午1点你有空吗” “没有但周二我可以。” “好的请确认周二下午1点” “1点不太理想但3点可以。” “Toni下午3点没空但我可以提供下午4点或5点半的时段。” “顺便问一下这是哪个时区” “我在CET。”这是“敲窗机”还是“闹钟”对比 Calendly 服务。“2023年的总服务收入是多少” “$2,923,531” “总共涉及多少客户” “29”需要AI做出产品决策图表展示了客户与收入数据。总结 - 应用NLP与生成式AI:推理并重构。成功的秘诀在于你的数据可能会让你感到惊讶超越聊天机器人。你不想建造一个“敲窗机”。保持雄心。不要在最佳实践、效率和隐私上妥协。某机构|某开源库|某标注工具Twitter | Mastodon | Bluesky | LinkedInFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享