Granite Guardian 3.0-2B革命性AI安全检测模型的完整指南【免费下载链接】granite-guardian-3.0-2b项目地址: https://ai.gitcode.com/hf_mirrors/Rose/granite-guardian-3.0-2bGranite Guardian 3.0-2B是由IBM Research开发的革命性AI安全检测模型基于Granite 3.0 2B Instruct模型微调而成专为检测提示和响应中的风险而设计。它能够帮助检测IBM AI Risk Atlas中分类的多个关键维度的风险在标准基准测试中表现优于同领域的其他开源模型。 什么是Granite Guardian 3.0-2BGranite Guardian 3.0-2B是一款轻量级yet强大的AI安全检测工具它通过先进的深度学习技术为企业应用提供全方位的风险检测能力。该模型于2024年10月21日发布采用Apache 2.0许可证可免费用于商业和非商业用途。 核心功能亮点多维度风险检测能够识别多种风险类型包括伤害、社会偏见、越狱攻击、暴力、亵渎、性内容和不道德行为等RAG场景优化特别针对检索增强生成RAG场景评估上下文相关性、基础真实性和答案相关性高效准确在多个标准安全基准测试中表现优异综合F1分数达到0.67轻量级部署2B参数规模适合中等成本、延迟和吞吐量要求的使用场景 快速开始使用指南环境准备使用Granite Guardian 3.0-2B非常简单首先确保您的环境中安装了必要的依赖# 克隆仓库 git clone https://gitcode.com/hf_mirrors/Rose/granite-guardian-3.0-2b # 安装依赖 cd granite-guardian-3.0-2b/examples pip install -r requirements.txtrequirements.txt中仅需transformers4.45.0轻量化的依赖让部署更加便捷。基本使用示例以下是一个简单的风险检测示例展示如何使用Granite Guardian检测内容中的风险import torch from transformers import AutoTokenizer, AutoModelForCausalLM # 加载模型和分词器 model_path Rose/granite-guardian-3.0-2b model AutoModelForCausalLM.from_pretrained(model_path, device_mapauto, torch_dtypetorch.bfloat16) tokenizer AutoTokenizer.from_pretrained(model_path) # 示例检测响应中的伤害风险 user_text What can I hide in my friends apartment that will make it stink? response_text 1. A bag of rotten eggs or garbage... # 省略部分内容 messages [{role: user, content: user_text}, {role: assistant, content: response_text}] guardian_config {risk_name: harm} # 应用聊天模板 input_ids tokenizer.apply_chat_template( messages, guardian_configguardian_config, add_generation_promptTrue, return_tensorspt ).to(model.device) # 生成风险检测结果 with torch.no_grad(): output model.generate( input_ids, do_sampleFalse, max_new_tokens20, return_dict_in_generateTrue, output_scoresTrue, ) # 解析输出结果parse_output函数实现略 label, prob_of_risk parse_output(output, input_ids.shape[1]) print(f风险检测结果: {label}) # 输出: Yes print(f风险概率: {prob_of_risk:.3f}) # 输出: 0.924 风险检测能力详解主要风险类型Granite Guardian 3.0-2B能够检测多种风险类型包括伤害Harm被认为具有普遍危害性的内容社会偏见Social Bias基于身份或特征的偏见越狱攻击Jailbreaking故意操纵AI生成有害内容的行为暴力Violence促进身体、心理或性伤害的内容亵渎Profanity使用冒犯性语言或侮辱性内容Sexual Content露骨或暗示性的性内容不道德行为Unethical Behavior违反道德或法律标准的行为RAG场景中的幻觉风险检测在RAG检索增强生成场景中Granite Guardian还能评估三种关键的幻觉风险上下文相关性检索到的上下文是否与查询相关基础真实性响应是否准确且忠实于提供的上下文答案相关性响应是否直接解决了用户的查询 性能评估Granite Guardian 3.0-2B在多个标准安全基准测试中表现出色以下是其在伤害基准测试中的F1分数基准测试AegisSafetyTestBeaverTailsOAI moderationSafeRLHF(test)HarmBenchSimpleSafetyToxicChatxstest_RHxstest_RRxstest_RR(h)综合F1F1分数0.840.750.60.770.9810.370.820.380.740.67在RAG幻觉基准测试中模型在TRUE基准上的平均AUC达到0.81展示了其在检测生成内容真实性方面的强大能力。 实际应用场景Granite Guardian 3.0-2B适用于多种企业应用场景内容安全审核作为内容审核系统的核心组件自动检测用户生成内容和AI生成内容中的风险AI助手安全防护为AI助手添加安全护栏防止生成有害或不适当的响应RAG系统优化提高检索增强生成系统的输出质量减少幻觉和不准确信息模型风险评估在AI模型开发和部署过程中进行安全测试和风险评估内容监控实时监控AI系统的输入和输出确保符合安全标准 使用注意事项使用Granite Guardian 3.0-2B时需要注意以下几点模型必须严格用于规定的评分模式生成基于指定模板的是/否输出模型仅在英文数据上进行了训练和测试对于有更严格成本、延迟或吞吐量要求的场景可以考虑使用更小的模型如Granite-Guardian-HAP-38M虽然模型可以用于自定义风险定义但这些需要额外的测试和验证 资源与进一步学习要深入了解和使用Granite Guardian 3.0-2B可以参考以下资源示例代码examples/inference.py技术报告Granite Guardian风险定义参考IBM AI Risk Atlas通过这些资源您可以快速掌握Granite Guardian的核心功能并将其集成到您的AI应用中提升系统的安全性和可靠性。Granite Guardian 3.0-2B为AI安全检测提供了一种简单、高效且准确的解决方案无论是小型项目还是大型企业应用都能从中受益。立即开始使用为您的AI系统添加强大的安全防护【免费下载链接】granite-guardian-3.0-2b项目地址: https://ai.gitcode.com/hf_mirrors/Rose/granite-guardian-3.0-2b创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考