Granite Guardian 3.0-2B：革命性AI安全检测模型的完整指南

张

张建站

2026/5/26 23:26:06

10分钟阅读

Granite Guardian 3.0-2B革命性AI安全检测模型的完整指南【免费下载链接】granite-guardian-3.0-2b项目地址: https://ai.gitcode.com/hf_mirrors/Rose/granite-guardian-3.0-2bGranite Guardian 3.0-2B是由IBM Research开发的革命性AI安全检测模型基于Granite 3.0 2B Instruct模型微调而成专为检测提示和响应中的风险而设计。它能够帮助检测IBM AI Risk Atlas中分类的多个关键维度的风险在标准基准测试中表现优于同领域的其他开源模型。什么是Granite Guardian 3.0-2BGranite Guardian 3.0-2B是一款轻量级yet强大的AI安全检测工具它通过先进的深度学习技术为企业应用提供全方位的风险检测能力。该模型于2024年10月21日发布采用Apache 2.0许可证可免费用于商业和非商业用途。核心功能亮点多维度风险检测能够识别多种风险类型包括伤害、社会偏见、越狱攻击、暴力、亵渎、性内容和不道德行为等RAG场景优化特别针对检索增强生成RAG场景评估上下文相关性、基础真实性和答案相关性高效准确在多个标准安全基准测试中表现优异综合F1分数达到0.67轻量级部署2B参数规模适合中等成本、延迟和吞吐量要求的使用场景快速开始使用指南环境准备使用Granite Guardian 3.0-2B非常简单首先确保您的环境中安装了必要的依赖# 克隆仓库 git clone https://gitcode.com/hf_mirrors/Rose/granite-guardian-3.0-2b # 安装依赖 cd granite-guardian-3.0-2b/examples pip install -r requirements.txtrequirements.txt中仅需transformers4.45.0轻量化的依赖让部署更加便捷。基本使用示例以下是一个简单的风险检测示例展示如何使用Granite Guardian检测内容中的风险import torch from transformers import AutoTokenizer, AutoModelForCausalLM # 加载模型和分词器 model_path Rose/granite-guardian-3.0-2b model AutoModelForCausalLM.from_pretrained(model_path, device_mapauto, torch_dtypetorch.bfloat16) tokenizer AutoTokenizer.from_pretrained(model_path) # 示例检测响应中的伤害风险 user_text What can I hide in my friends apartment that will make it stink? response_text 1. A bag of rotten eggs or garbage... # 省略部分内容 messages [{role: user, content: user_text}, {role: assistant, content: response_text}] guardian_config {risk_name: harm} # 应用聊天模板 input_ids tokenizer.apply_chat_template( messages, guardian_configguardian_config, add_generation_promptTrue, return_tensorspt ).to(model.device) # 生成风险检测结果 with torch.no_grad(): output model.generate( input_ids, do_sampleFalse, max_new_tokens20, return_dict_in_generateTrue, output_scoresTrue, ) # 解析输出结果parse_output函数实现略 label, prob_of_risk parse_output(output, input_ids.shape[1]) print(f风险检测结果: {label}) # 输出: Yes print(f风险概率: {prob_of_risk:.3f}) # 输出: 0.924 风险检测能力详解主要风险类型Granite Guardian 3.0-2B能够检测多种风险类型包括伤害Harm被认为具有普遍危害性的内容社会偏见Social Bias基于身份或特征的偏见越狱攻击Jailbreaking故意操纵AI生成有害内容的行为暴力Violence促进身体、心理或性伤害的内容亵渎Profanity使用冒犯性语言或侮辱性内容Sexual Content露骨或暗示性的性内容不道德行为Unethical Behavior违反道德或法律标准的行为RAG场景中的幻觉风险检测在RAG检索增强生成场景中Granite Guardian还能评估三种关键的幻觉风险上下文相关性检索到的上下文是否与查询相关基础真实性响应是否准确且忠实于提供的上下文答案相关性响应是否直接解决了用户的查询性能评估Granite Guardian 3.0-2B在多个标准安全基准测试中表现出色以下是其在伤害基准测试中的F1分数基准测试AegisSafetyTestBeaverTailsOAI moderationSafeRLHF(test)HarmBenchSimpleSafetyToxicChatxstest_RHxstest_RRxstest_RR(h)综合F1F1分数0.840.750.60.770.9810.370.820.380.740.67在RAG幻觉基准测试中模型在TRUE基准上的平均AUC达到0.81展示了其在检测生成内容真实性方面的强大能力。实际应用场景Granite Guardian 3.0-2B适用于多种企业应用场景内容安全审核作为内容审核系统的核心组件自动检测用户生成内容和AI生成内容中的风险AI助手安全防护为AI助手添加安全护栏防止生成有害或不适当的响应RAG系统优化提高检索增强生成系统的输出质量减少幻觉和不准确信息模型风险评估在AI模型开发和部署过程中进行安全测试和风险评估内容监控实时监控AI系统的输入和输出确保符合安全标准使用注意事项使用Granite Guardian 3.0-2B时需要注意以下几点模型必须严格用于规定的评分模式生成基于指定模板的是/否输出模型仅在英文数据上进行了训练和测试对于有更严格成本、延迟或吞吐量要求的场景可以考虑使用更小的模型如Granite-Guardian-HAP-38M虽然模型可以用于自定义风险定义但这些需要额外的测试和验证资源与进一步学习要深入了解和使用Granite Guardian 3.0-2B可以参考以下资源示例代码examples/inference.py技术报告Granite Guardian风险定义参考IBM AI Risk Atlas通过这些资源您可以快速掌握Granite Guardian的核心功能并将其集成到您的AI应用中提升系统的安全性和可靠性。Granite Guardian 3.0-2B为AI安全检测提供了一种简单、高效且准确的解决方案无论是小型项目还是大型企业应用都能从中受益。立即开始使用为您的AI系统添加强大的安全防护【免费下载链接】granite-guardian-3.0-2b项目地址: https://ai.gitcode.com/hf_mirrors/Rose/granite-guardian-3.0-2b创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

如何通过3种创新方法解决DBeaver驱动下载难题：一站式配置解决方案

如何通过3种创新方法解决DBeaver驱动下载难题：一站式配置解决方案【免费下载链接】dbeaver-driver-all dbeaver所有jdbc驱动都在这，dbeaver all jdbc drivers ,come and download with me , one package come with all jdbc drivers. 项目地址: https…...

2026/5/26 23:24:36 阅读更多 →

【图像检测】基于交互多模型IMM过滤进行自动驾驶异常行为检测附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。 🍎完整代码获取定制创新论文复现点击：Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &…...

2026/5/26 23:22:05 阅读更多 →

AI 常见面试问题及详细解答

1. 什么是大语言模型？它和传统 NLP 有什么区别？ 回答要点： 大语言模型（LLM）是基于海量文本、多模态数据训练出来的通用生成模型，核心能力是根据上下文预测下一个 Token，并在这个过程中表现出理解…...

2026/5/26 23:17:46 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/26 9:09:40 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/26 9:11:16 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/26 7:22:22 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/25 17:59:32 阅读更多 →