使用Dify构建丹青识画系统智能工作流：自定义鉴画逻辑与多模型协作

张

张建站

2026/6/19 4:16:14

10分钟阅读

使用Dify构建丹青识画系统智能工作流自定义鉴画逻辑与多模型协作1. 引言当AI学会“品画”想象一下你是一位画廊策展人或者是一位艺术爱好者。面对一幅新收到的画作你不仅想知道它的作者和年代更希望了解它的艺术风格、历史背景甚至能听到一段声情并茂的鉴赏讲解。过去这需要你查阅大量资料或者请教专家。但现在我们可以让AI来帮忙。今天要聊的就是如何利用Dify这样的AI应用开发平台把几个不同的AI能力像搭积木一样组合起来构建一个智能的“丹青识画”系统。这个系统不仅能识别画作还能根据识别结果自动调用不同的模型来撰写鉴赏文章甚至生成语音讲解形成一个完整的、自动化的艺术鉴赏工作流。整个过程不需要你写复杂的代码更像是在一个可视化的画布上通过拖拽和连线就把事情给办了。这对于那些有明确业务逻辑但又不想深陷技术细节的团队来说是个非常实用的解决方案。接下来我就带你一步步看看这个智能工作流是怎么搭建起来的。2. 为什么选择Dify来编排AI工作流在开始动手之前你可能会有疑问市面上工具这么多为什么偏偏是Dify简单来说它解决了一个核心痛点让AI应用的构建从“写代码”变成“画流程图”。对于我们要做的“丹青识画”系统它涉及到至少三个环节图像识别、文本生成、语音合成。如果自己从头开发你需要分别去研究每个模型的API怎么调用。写代码处理它们之间的数据传递和逻辑判断。设计一个用户界面把结果展示出来。处理可能出现的各种错误和异常。这每一项都是不小的工程。而Dify把这些都封装成了可视化的组件。比如“调用丹青识画模型”是一个节点“根据条件分支”是一个节点“调用文本生成模型”是另一个节点。你只需要把这些节点拖到画布上用线把它们按照逻辑连起来一个应用的原型就出来了。它特别适合我们今天的场景逻辑清晰我们的流程是“识别 - 判断 - 生成”步骤明确正好用工作流来串联。多模型协作需要协调图像、文本、语音三种不同模态的AI能力。快速迭代如果你想调整鉴赏文章的语调或者换一个语音合成的声音在Dify里可能就是改一个参数或者换一个节点的事不需要动底层代码。所以用Dify来构建这个系统核心目标不是炫技而是提效和降低门槛让我们能把精力更多花在打磨“鉴画逻辑”本身而不是纠缠于技术实现。3. 核心组件准备连接你的AI模型搭建工作流之前得先把“积木”准备好。在Dify中主要的“积木”就是各种AI模型的能力。我们需要提前在Dify的后台配置好这些模型的连接。3.1 图像识别基石配置丹青识画模型这是整个工作流的起点。你需要一个能够识别画作风格、作者、流派等信息的视觉大模型。这里我们以“丹青识画”这个假设的模型服务为例。在Dify的“模型供应商”或“知识库”配置区域你需要添加这个模型获取API密钥从提供“丹青识画”模型的平台获取你的API Key。配置模型端点在Dify中添加一个新的模型供应商比如选择“自定义API”或对应平台填入API Base URL和你的密钥。定义模型能力告诉Dify这个模型是用于“图像理解”的。你需要根据该模型的API文档设置好请求的格式。通常它会接收一个图像输入可以是图片URL或Base64编码然后返回一个结构化的JSON结果里面包含识别出的标签比如{“style”: “水墨画”, “artist”: “齐白石”, “dynasty”: “近现代”}。这一步的关键是确保Dify能成功调用这个模型并拿到我们需要的结构化数据因为后续所有判断都基于这个结果。3.2 文本与语音助手配置生成模型识别出画作信息后我们需要两个模型来加工信息文本生成模型用于撰写鉴赏文章。你可以接入像GPT-4、文心一言、通义千问等主流大语言模型。在Dify中配置它们通常更简单因为官方已经集成了很多供应商你只需要填入密钥即可。语音合成模型用于将写好的文章转换成语音。同样你需要配置一个语音合成服务如Azure Speech、阿里云语音合成等确保Dify能通过API调用它并指定音色、语速等参数。把这些模型都在Dify后台配置妥当后它们就会出现在工作流编辑器的节点列表里等着被你调用。4. 构建智能鉴画工作流从识别到讲解现在进入最核心的部分——在Dify的画布上搭建我们的自动化流程。整个工作流大致会包含以下几个关键节点我们可以边看边构思。4.1 流程起点上传画作与初始识别工作流通常由一个“开始”节点触发比如用户上传一张图片。“图片上传”节点接收用户输入的画作图片。“调用丹青识画模型”节点将上传的图片作为输入发送给我们之前配置好的“丹青识画”模型。这个节点会输出识别结果我们假设它返回一个变量比如叫recognition_result内容可能是{“style”: “印象派”, “artist”: “莫奈”, “object”: “睡莲”}。至此机器已经“看”懂了这幅画的基本信息。4.2 逻辑核心自定义你的鉴画规则接下来我们要根据识别结果来决定后续动作。这是体现你业务逻辑和专业知识的地方。“条件判断”节点Dify提供了强大的条件分支工具。我们可以在这里设置规则。规则示例一按风格分流如果recognition_result.style等于 “水墨画”那么走分支A。如果recognition_result.style等于 “油画”那么走分支B。否则走默认分支C。规则示例二按年代分流如果recognition_result.dynasty包含 “宋代”那么走专门处理宋画的分支。如果recognition_result.artist等于 “毕加索”那么走现代艺术分析分支。这里的灵活性非常高。你可以设置复杂的多条件组合比如“风格是水墨画且主题包含山水”从而触发更精细的后续处理。这个判断节点就是整个工作流的大脑。4.3 动态内容生成撰写风格化鉴赏文章根据不同的判断分支我们可以调用不同的文本生成模型或者给同一个模型不同的指令来生成风格各异的鉴赏文章。“调用LLM”节点在“印象派”分支下我们连接一个文本生成节点。构建提示词这是影响生成质量的关键。我们会把识别结果作为变量插入提示词。提示词示例“你是一位艺术评论家。请根据以下画作信息撰写一篇约300字的鉴赏短文侧重分析其光影和色彩运用。画作信息风格{{recognition_result.style}}艺术家{{recognition_result.artist}}主题{{recognition_result.object}}。语言要求优美且具有文学性。”在“水墨画”分支下提示词可以变为“...侧重分析其笔墨韵味和构图留白...”模型会根据这个充满上下文的提示词生成一篇定制化的鉴赏文章输出为一个变量如appreciation_text。这样系统就不是千篇一律地套模板而是能根据画作特点动态调整讲解的侧重点和文风。4.4 多模态输出为文章配上专业解说最后一步让成果“可听”。“调用语音合成”节点将上一步生成的appreciation_text变量作为输入传递给语音合成模型。配置语音参数在节点设置中选择你喜欢的音色如“专业男声”、“优雅女声”调整语速和语调。你甚至可以在这里再做一次判断如果是古典画作选用更沉稳的音色如果是现代艺术选用更活泼的音色。语音合成服务会返回一段音频文件通常是URL或Base64格式。至此工作流结束。我们可以将最终结果——包括原始的识别信息、生成的鉴赏文章和语音讲解音频链接——整合起来通过Dify提供的聊天界面或API返回给用户。5. 效果展示一个完整的工作流实例为了让你有更直观的感受我描述一个简化的工作流运行实例用户输入上传一幅《星空》的图片。识别阶段丹青识画模型返回{“style”: “后印象派”, “artist”: “文森特·梵高”, “object”: “星空、柏树、村庄”}。逻辑判断条件节点判断风格为“后印象派”进入对应分支。文章生成该分支的LLM节点收到提示“...请分析这幅后印象派画作强烈的笔触和情感表达...”。随后生成一篇描述《星空》中漩涡状笔触如何传达躁动与浪漫的文章。语音合成文章被发送给语音合成模型用一个充满感染力的声音朗读出来最终生成一条2分钟的鉴赏音频。用户在前端可能只需要等待几十秒就能收到一份包含画作基本信息、专业鉴赏文章和配套语音的完整报告。这比手动搜索、整理、再合成要高效得多。6. 实践建议与拓展思考搭建这样一个工作流本身并不复杂但要想让它真正好用有几个地方值得你多花点心思提示词工程是关键LLM生成文章的质量90%取决于你的提示词。多花时间打磨不同艺术流派、不同鉴赏维度的提示词模板。可以尝试让模型扮演不同的角色如“艺术史学者”、“画家本人”、“普通观众”会产生有趣的效果。处理好异常情况不是每幅画都能被完美识别。在工作流中要设置好“默认分支”或“错误处理”节点。当识别置信度很低或遇到未知风格时可以回退到通用鉴赏模式或者友好地提示用户“这幅画的特征不太明确”。迭代与优化Dify工作流的好处是易于修改。上线后收集用户反馈。是不是对某些风格的鉴赏不够准确是不是语音语调不符合预期你可以随时调整判断逻辑、更换模型或修改提示词快速迭代优化。拓展可能性这个工作流只是一个起点。你可以很容易地扩展它在生成文章后增加一个“翻译”节点自动输出多语言版本的鉴赏。增加一个“总结”节点生成一段适合社交媒体分享的简短评语。将最终的报告文字音频通过一个“邮件发送”节点自动发送给指定的策展人邮箱。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。