人工智能之大模型应用基础入门第一章人工智能演进与大模型兴起

张

张建站

2026/7/11 9:57:19

10分钟阅读

人工智能之大模型应用第一章人工智能演进与大模型兴起文章目录人工智能之大模型应用**1.1 人工智能演进与大模型兴起从AI1.0到AI2.0的变迁****1.1.1 什么是AI****1.1.2 AI1.0时代解析****1.1.2.1 AI1.0的核心定义****1.1.2.2 传统AI1.0代表产品****1.1.2.3 AI1.0的局限性****1.1.3 AI2.0时代解析****1.1.3.1 AI2.0的核心定义****1.1.3.2 AIGC现代AI代表应用****1.1.3.3 AI2.0与AI1.0的核心区别****1.2 大模型与通用人工智能AGI的关联****1.2.1 大模型的核心定义****1.2.2 通用人工智能AGI的核心定义****1.2.3 常见的大模型对话产品****1.2.4 大模型与通用人工智能的关系****1.2.5 大模型的核心价值****简单示例**资料1.1 人工智能演进与大模型兴起从AI1.0到AI2.0的变迁1.1.1 什么是AI核心定义人工智能Artificial Intelligence, AI是指由人类创造的系统所表现出的智能行为。其目标是让机器能够模拟、延伸和扩展人类的智能完成诸如学习、推理、规划、感知、理解语言等复杂的认知任务。核心特征学习能力 (Learning)能从数据或经验中获取知识并改进性能。推理能力 (Reasoning)能运用逻辑规则从已知信息推导出新结论。感知能力 (Perception)能通过传感器如摄像头、麦克风理解外部世界。决策能力 (Decision-making)能在给定环境下选择最优或次优的行动方案。发展核心逻辑AI的发展遵循一条清晰的路径从“硬编码规则”走向“数据驱动学习”。早期AI依赖专家手动编写规则而现代AI则通过海量数据训练模型让模型自己发现规律从而获得更强的泛化能力和适应性。1.1.2 AI1.0时代解析1.1.2.1 AI1.0的核心定义AI1.0时代也被称为“狭义人工智能”Narrow AI或“专用人工智能”ANI时代。其核心特点是规则驱动。开发者需要为每个特定任务精心设计算法和规则库。这种AI就像一个“死记硬背的专家”只能在预设的、狭窄的领域内工作一旦遇到规则之外的情况就会失效。1.1.2.2 传统AI1.0代表产品语音助手如早期Siri它背后是一个庞大的关键词匹配规则库。当你问“今天天气怎么样”系统会识别关键词“天气”然后调用预设的天气查询接口。但如果你问“我该穿什么出门”它就可能无法理解因为这条规则未被编写。简单推荐系统如早期Amazon采用“协同过滤”等简单算法基于“买了A的人也买了B”的规则进行推荐。它无法理解商品的深层语义也无法处理冷启动问题新用户或新商品。IBM深蓝Deep Blue这个下棋程序通过穷举和评估函数击败了国际象棋冠军。但它只会下棋你问它任何其他问题它都无法回答。1.1.2.3 AI1.0的局限性无法泛化只能处理训练或编程时见过的特定模式面对新情况束手无策。依赖人工规则开发成本极高需要大量领域专家参与规则制定和维护。无自主学习能力系统性能不会随着时间自动提升所有改进都依赖人工干预。1.1.3 AI2.0时代解析1.1.3.1 AI2.0的核心定义AI2.0时代以大模型尤其是大语言模型LLM为核心驱动力。其本质是数据驱动。通过在互联网级别的海量文本、图像、代码等数据上进行预训练模型学习到了世界的基本知识和模式。这赋予了它强大的泛化能力和上下文学习In-Context Learning能力使其能够理解和生成人类语言并迁移到各种下游任务。1.1.3.2 AIGC现代AI代表应用文案生成市场人员输入“为一款新的环保水杯写一篇小红书风格的推广文案”AI能立刻生成符合平台调性的、有吸引力的文案。图像生成设计师输入“一幅赛博朋克风格的未来城市夜景有霓虹灯和飞行汽车”AI工具如Midjourney能生成高质量的概念图。代码生成程序员描述“用Python写一个函数计算两个日期之间的天数差”AI助手如GitHub Copilot能直接生成可运行的代码片段。1.1.3.3 AI2.0与AI1.0的核心区别特征AI1.0 (狭义AI)AI2.0 (大模型驱动)驱动方式规则驱动 (Rule-based)数据驱动 (Data-driven)智能来源专家知识海量数据中的统计规律泛化能力极弱局限于特定任务强能跨任务、跨领域迁移开发范式为每个任务单独开发模型预训练一个通用基座模型微调/提示词交互方式固定指令集自然语言对话局限性核心驱动力技术突破赋能AI 1.0: 狭义人工智能无法泛化依赖人工规则代表应用Siri(关键词匹配)推荐系统(协同过滤)深蓝(规则引擎)AI 2.0: 通用人工智能基石大语言模型LLM代表应用ChatGPT(对话生成)Midjourney(图像生成)GitHub Copilot(代码生成)1.2 大模型与通用人工智能AGI的关联1.2.1 大模型的核心定义大模型Large Model特别是大语言模型LLM是指参数量达到数十亿甚至数千亿级别的深度神经网络。它们通过在超大规模数据集上进行自监督学习如预测下一个词完成预训练。其核心能力包括语言理解与生成能流畅地阅读、写作和对话。世界知识在训练数据中吸收了大量的事实性知识。上下文学习Few-shot/Zero-shot Learning仅通过几个例子或指令就能学会新任务。1.2.2 通用人工智能AGI的核心定义通用人工智能Artificial General Intelligence, AGI是AI领域的终极目标。它指的是具备与人类相当或超越人类的通用认知能力的智能体。AGI的核心特征包括通用能力能像人类一样在科学、艺术、社交、体力劳动等任何领域学习和工作。自主决策能独立设定目标、规划路径并执行无需人类持续指导。跨场景适配能将在一个领域学到的知识灵活应用到完全陌生的领域。1.2.3 常见的大模型对话产品**ChatGPT **(OpenAI)全球最知名的对话模型以其强大的通用对话、写作和推理能力著称。GPT-4系列是其当前主力。**文心一言 **(百度)中国领先的大模型产品深度集成于百度生态在中文理解和生成、以及与国内应用场景如搜索、办公结合方面有优势。**Claude **(Anthropic)强调安全性和“无害性”在长文本处理和复杂推理任务上表现优异。1.2.4 大模型与通用人工智能的关系可以将大模型看作是通往AGI道路上的关键里程碑和核心载体。大模型展现出了前所未有的通用性和涌现能力让我们第一次看到了AGI的雏形。然而当前的大模型仍然缺乏真正的因果推理、自我意识、长期规划和物理世界交互能力因此距离真正的AGI还有很长的路要走。AGI是大模型发展的终极目标。1.2.5 大模型的核心价值降低AI使用门槛通过自然语言交互让非技术人员也能利用AI解决问题。提升生产效率自动化内容创作、编程、客服等重复性脑力劳动。推动行业革新在教育、医疗、金融、科研等领域催生全新的工作流和商业模式。简单示例下面是一个简单的Python代码示例展示了如何使用Hugging Face的transformers库加载一个开源的轻量级大模型如gpt2来进行文本生成。这体现了AI2.0“一个模型多种用途”的核心思想。# 首先你需要安装 transformers 和 torch 库# pip install transformers torchfromtransformersimportAutoTokenizer,AutoModelForCausalLM# 1. 加载预训练的分词器和模型# 这里以GPT-2为例它是大模型家族中的一个经典成员model_namegpt2tokenizerAutoTokenizer.from_pretrained(model_name)modelAutoModelForCausalLM.from_pretrained(model_name)# 2. 准备输入提示Prompt# 这就是AI2.0时代的“编程”方式——用自然语言描述任务prompt人工智能的未来是# 3. 对输入进行编码input_idstokenizer.encode(prompt,return_tensorspt)# 4. 使用模型生成文本# max_length 控制生成文本的总长度outputmodel.generate(input_ids,max_length50,num_return_sequences1,do_sampleTrue,# 启用随机采样使输出更多样temperature0.7# 控制生成的随机性值越高越随机)# 5. 解码并打印结果generated_texttokenizer.decode(output[0],skip_special_tokensTrue)print(生成的文本:)print(generated_text)说明这段代码没有为“预测未来”这个任务编写任何特定规则。它只是加载了一个在海量文本上预训练好的通用模型并给了它一个开头。模型凭借其在预训练中学到的世界知识和语言模式自动完成了续写。这正是AI2.0与AI1.0的根本区别所在。资料咚咚王《Python 编程从入门到实践》《利用 Python 进行数据分析》《算法导论中文第三版》《概率论与数理统计第四版 (盛骤) 》《程序员的数学》《线性代数应该这样学第 3 版》《微积分和数学分析引论》《西瓜书周志华-机器学习》《TensorFlow 机器学习实战指南》《Sklearn 与 TensorFlow 机器学习实用指南》《模式识别第四版》《深度学习 deep learning》伊恩·古德费洛著花书《Python 深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》《深入浅出神经网络与深度学习 (迈克尔·尼尔森MichaelNielsen》《自然语言处理综论第 2 版》《Natural-Language-Processing-with-PyTorch》《计算机视觉-算法与应用(中文版)》《Learning OpenCV 4》《AIGC智能创作时代》杜雨张孜铭《AIGC 原理与实践零基础学大语言模型、扩散模型和多模态模型》《从零构建大语言模型中文版》《实战 AI 大模型》《AI 3.0》

Halcon描述符匹配实战：用harris_binomial检测器搞定旋转缩放场景下的纹理识别

Halcon描述符匹配实战：用harris_binomial检测器搞定旋转缩放场景下的纹理识别在工业视觉检测领域，处理带有复杂纹理的物体定位一直是个技术难点。想象一下这样的场景：生产线上的包装盒以不同角度和大小通过摄像头，你需要快速准确…...

2026/7/5 16:09:47 阅读更多 →

通用人工智能（AGI）安全 Harness 前瞻

套住超级智脑：通用人工智能安全Harness的第一性原理、架构突破与未来演进关键词通用人工智能安全（AGI Safety）、意图对齐剩余风险、安全Harness架构、价值锚定沙箱、可解释性闭环控制、人类-AGI反馈回路、灾难性风险遏制、生态协作治理摘要…...

2026/7/5 16:11:39 阅读更多 →

Zotero文献去重终极指南：使用ZoteroDuplicatesMerger插件高效清理重复文献

Zotero文献去重终极指南：使用ZoteroDuplicatesMerger插件高效清理重复文献【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 你是否曾…...

2026/7/5 16:15:26 阅读更多 →

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

1. 为什么选择一维卷积做RUL预测？我第一次接触RUL（剩余使用寿命）预测时，发现大多数论文都在用二维卷积处理传感器数据。直到实际处理CMAPSS航空发动机数据集时，才意识到一维卷积才是更自然的选择。想象一下&#xff0c…...

2026/7/9 17:20:07 阅读更多 →

STM32与SPI EEPROM高效数据存储与检索方案

1. 项目背景与核心需求在嵌入式系统开发中，快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下，系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…...

2026/7/10 3:37:57 阅读更多 →

23-AGENTS.md高级用法

23 AGENTS.md 高级用法概述上一篇文章介绍了 AGENTS.md 的三层加载机制，这是 AGENTS.md 体系的基础。但在实际的大型项目中，三层结构往往不够灵活。团队经常面临这样的场景：同一个 Git 仓库中包含多个服务或模块，每个模块都有自己的独特规范，同时还要继承项目级的通用…...

2026/7/10 3:38:32 阅读更多 →