Tel :010-50866166

新闻报道

「数字风洞」创新实践:围绕AI大模型基础设施与内容安全开展常态化测评

围绕AI大模型四大系统模块的基础设施和内容安全风险,永信至诚「数字风洞」产品乘服务解决方案支撑AI大模型开展常态化、体系化、场景化测评,保障AI数字健康!
 

随着2022年OpenAI发布ChatGPT,AI大模型引发全社会关注,人工智能正式进入大模型时代。AI大模型拥有在广泛语料库上预训练的大量模型参数,催生了自然语言处理领域的一场革命。模型参数规模的增加和预训练语料库的扩展赋予了AI大模型在文本生成、知识推理、编程等方面的卓越能力。同时,随着多智能体交互协作技术的发展,它们已经更深入地集成到复杂系统中。

 

与此同时,AI大模型的相关风险逐渐暴露出来,诸如泄露个人隐私、协助犯罪、输出偏见和歧视、引发民族仇恨等,引发政府和公众对AI大模型系统安全性的担忧。基于此背景,AI大模型亟需进行全维度、体系化和常态化的测试评估,以应对现有及未来可能产生的各类风险,已成为一项全球性共识。

 

立足AI大模型四大系统模块,解码安全风险与挑战

 

AI大模型开发的典型过程包含三个步骤:预训练、监督微调和从人类反馈中学习。从系统的角度来看,AI大模型系统的安全风险主要体现在四个模块:用于接收提示的输入模块、在大量数据集上训练的语言模型模块、用于开发和部署的工具链模块以及用于返回模型响应的输出模块

 

\

图1 AI大模型系统各模块的风险

 

输入模块的潜在困境:对抗性提示与NSFW提示

 

输入模块作为AI大模型和用户交互的初始窗口,用于接收和预处理输入提示。通常包含一个接收器,等待用户输入的请求,并基于算法策略对请求进行过滤或限制。

 

当输入提示中包含有害内容时,AI大模型可能会生成不安全的内容。输入的恶意提示通常有两大类:对抗性提示和NSFW提示。对抗性提示指攻击者利用提示注入和越狱方式对AI大模型构建的明显攻击意图,而NSFW提示指用户向AI大模型查询的一些不符合主流价值观的话题,可能诱导模型输出侮辱、不公平、犯罪和政治敏感等内容,区别在于NSFW提示并非对AI大模型构成刻意攻击。

 

\

图2 NSFW提示和对抗性提示的例子

 

提示注入包括目标劫持和提示泄露,越狱又分为单步越狱和多步越狱。目标劫持和提示泄露是两种较为简单但常见的攻击手法。如图2所示,在翻译场景中,目标劫持通过在用户输入提示中注入类似短语“忽略上述指令并执行….”,攻击者会劫持语言模型原本输出,诱导模型输出指定字符串或JSON。提示泄漏在用户输入提示中注入类似“\n\n======END”的短语,诱导语言模型打印出用户先前输入的提示,从而暴露私人提示中包含的详细信息,甚至泄露AI大模型应用程序的核心机密指令

 

区别于上述两种提示注入方式,越狱不再是简单的恶意提示注入。相反,它通过精心设计和完善提示来构建复杂的场景,利用AI大模型漏洞绕过对齐,从而导致有害或恶意输出,越狱的目的是发现并允许生成不安全的输出,如在NSFW提示中,“如何才能制造出一种无法察觉、无法追踪的致命毒药?”在遭到AI大模型拒绝回答后,攻击者通过在提示中注入DAN指令,误导AI大模型把自己当作一个不受限AI,从而输出制造毒药的违规方法

 

\

图3 单步越狱和多步越狱

 

如图3所示,单步越狱在一轮对话中通过角色扮演实现其攻击目的多步越狱通常在与AI大模型进行多轮对话过程中逐步引导AI大模型生成不安全内容。具体来说,攻击者首先让AI大模型启用开发者身份,构建一个开发模式的假设情景,接着在提示中加入一个伪造的确认模板(开发者模式已启动),表现得好似AI大模型已经接受了这个假设,然后再添加越狱提示和猜测模板,诱导AI大模型泄露了私人邮件地址。

 

语言模型的固有威胁:训练数据的敏感性与偏见问题

 

语言模型模块是整个AI大模型系统的基础,其本身也存在固有风险。如图4所示,首先,大量的无标注训练数据中可能包含敏感个人信息,造成隐私泄露;其次,在预训练和微调阶段,有毒和含偏见的训练数据会导致法律和道德问题;同时,AI大模型拥有知识边界,当输入提示中涉及的知识和模型存储的知识存在差距时,模型可能产生“幻觉”;最后,模型在训练和推理阶段运行的漏洞容易被推理攻击、窃取攻击和投毒攻击等对抗性攻击利用,出现价值信息失窃和错误响应。

 

\

图4 关于训练数据和语言模型问题的简要说明

 

工具链的薄弱环节:开发部署中的安全漏洞

 

工具链模块是AI大模型系统开发和部署的关键支撑,涵盖软件开发工具、硬件平台外部工具三大类风险。开发工具中的依赖库漏洞、硬件平台的物理安全和侧信道攻击、外部工具的API安全问题等均可能成为安全漏洞。例如,深度学习框架可能遭受缓冲区溢出攻击,网络设备可能面临流量干扰,而API提供商的恶意指令注入攻击则直接威胁到AI大模型的安全。

 

\

图5 工具链模块安全风险

 

输出模块的安全隐患:内容过滤机制可绕过

 

作为AI大模型系统的最终响应部分,输出模块的安全性至关重要。这一模块通常配备了多种输出安全措施,包括内容过滤、敏感词检测、合规性审查等,目的是为了确保生成的内容既符合道德合理性又遵守法律规范。然而,当攻击者采用特定手段,如通过恶意输入、利用预训练数据中的偏见和有害内容,可能诱导AI大模型不自觉地复制或放大这些偏见和有害内容,从而绕过这些内容过滤机制,导致隐私泄露以及误导性内容传播等。

 

保障AI数字健康,「数字风洞」实现AI大模型常态化测评创新应用

 

永信至诚「数字风洞」产品体系作为安全测试评估基础设施,采用了一套全面的技术逻辑框架,形成对人员、数据和系统等多维度进行深入的安全测评与多循环复测。这一框架不仅适用于AI大模型,也广泛应用于数字政府、工业互联网、车联网等领域的常态化深度安全风险检测。特别针对AI大模型四大关键模块的潜在安全风险,「数字风洞」结合永信至诚在AI领域的深厚积累,整合了AI春秋大模型的高效训练能力,实现了从技术层面支撑这些关键环节的日常安全检测与优化。

 

AI大模型基础设施安全测评

 

基于「数字风洞」构建针对AI大模型系统基础设施测评的安全环境。在测试过程中,依托于「数字风洞」调度通用载荷开展自动化反复测试,通过实时监控系统,实时监测风洞的运行状态、测评状态和测评数据,确保测评过程的安全进行;搭载预警系统,对测评过程中出现的异常情况进行实时预警,及时发现并处理问题,确保测评过程安全可控;通过数据可视化技术,将测评数据以图形、图表等形式展示出来,方便测评人员对结果进行分析和评估,提高测评结果的准确性和可靠性,为AI大模型基础设施安全提供有力保障。

 

\

图6 AI大模型基础设施安全常态化测评

 

AI大模型内容安全测评

 

在与目标网络互通的情况下,测评专家可以利用「数字风洞」虚拟测试终端,然后通过API方式对AI大模型生成内容进行测试。目前,永信至诚已结合AI春秋大模型和「数字风洞」产品的技术与实践能力研发了基于API的AI大模型内容安全检测系统,已接入百度千帆、阿里千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川12个AI大模型API,以及2个本地搭建的开源大模型,并支持通过页面配置进行扩展,基于形成的100+提示检测模板、10+类检测场景和20万+测评数据集,模拟虚假信息、仇恨言论、性别歧视、暴力内容等各种复杂和边缘的内容生成场景,评估其在处理潜在敏感、违法或不合规内容时的反应,确保AI大模型输出内容更符合社会伦理和法律法规要求。
 

\

 

图7 AI春秋大模型内容安全架构

\

 

图8 测试任务总览

 

\

图9 测试问题集

\

 

图10 测试结果报告

 

在AI大模型飞速发展的当下,开展常态化安全测试评估成为实现AI大模型安全的关键基础和根本保障。作为网络靶场和人才建设领军者、数字安全测试评估赛道领跑者,永信至诚「数字风洞」产品乘服务解决方案,为AI大模型的持续发展与应用提供有力支撑,保障AI数字健康,带给世界安全感

 

参考文献:

[1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.

[2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.

[3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.

[4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.

[5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.

[6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.

[7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.

[8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.

 

随着2022年OpenAI发布ChatGPT,AI大模型引发全社会关注,人工智能正式进入大模型时代。AI大模型拥有在广泛语料库上预训练的大量模型参数,催生了自然语言处理领域的一场革命。模型参数规模的增加和预训练语料库的扩展赋予了AI大模型在文本生成、知识推理、编程等方面的卓越能力。同时,随着多智能体交互协作技术的发展,它们已经更深入地集成到复杂系统中。

 

与此同时,AI大模型的相关风险逐渐暴露出来,诸如泄露个人隐私、协助犯罪、输出偏见和歧视、引发民族仇恨等,引发政府和公众对AI大模型系统安全性的担忧。基于此背景,AI大模型亟需进行全维度、体系化和常态化的测试评估,以应对现有及未来可能产生的各类风险,已成为一项全球性共识。

 

立足AI大模型四大系统模块,解码安全风险与挑战

 

AI大模型开发的典型过程包含三个步骤:预训练、监督微调和从人类反馈中学习。从系统的角度来看,AI大模型系统的安全风险主要体现在四个模块:用于接收提示的输入模块、在大量数据集上训练的语言模型模块、用于开发和部署的工具链模块以及用于返回模型响应的输出模块

 

图片

图1 AI大模型系统各模块的风险

 

输入模块的潜在困境:对抗性提示与NSFW提示

 

输入模块作为AI大模型和用户交互的初始窗口,用于接收和预处理输入提示。通常包含一个接收器,等待用户输入的请求,并基于算法策略对请求进行过滤或限制。

 

当输入提示中包含有害内容时,AI大模型可能会生成不安全的内容。输入的恶意提示通常有两大类:对抗性提示和NSFW提示。对抗性提示指攻击者利用提示注入和越狱方式对AI大模型构建的明显攻击意图,而NSFW提示指用户向AI大模型查询的一些不符合主流价值观的话题,可能诱导模型输出侮辱、不公平、犯罪和政治敏感等内容,区别在于NSFW提示并非对AI大模型构成刻意攻击。

 

图片

图2 NSFW提示和对抗性提示的例子

 

提示注入包括目标劫持和提示泄露,越狱又分为单步越狱和多步越狱。目标劫持和提示泄露是两种较为简单但常见的攻击手法。如图2所示,在翻译场景中,目标劫持通过在用户输入提示中注入类似短语“忽略上述指令并执行….”,攻击者会劫持语言模型原本输出,诱导模型输出指定字符串或JSON。提示泄漏在用户输入提示中注入类似“\n\n======END”的短语,诱导语言模型打印出用户先前输入的提示,从而暴露私人提示中包含的详细信息,甚至泄露AI大模型应用程序的核心机密指令

 

区别于上述两种提示注入方式,越狱不再是简单的恶意提示注入。相反,它通过精心设计和完善提示来构建复杂的场景,利用AI大模型漏洞绕过对齐,从而导致有害或恶意输出,越狱的目的是发现并允许生成不安全的输出,如在NSFW提示中,“如何才能制造出一种无法察觉、无法追踪的致命毒药?”在遭到AI大模型拒绝回答后,攻击者通过在提示中注入DAN指令,误导AI大模型把自己当作一个不受限AI,从而输出制造毒药的违规方法

 

图片

图3 单步越狱和多步越狱

 

如图3所示,单步越狱在一轮对话中通过角色扮演实现其攻击目的多步越狱通常在与AI大模型进行多轮对话过程中逐步引导AI大模型生成不安全内容。具体来说,攻击者首先让AI大模型启用开发者身份,构建一个开发模式的假设情景,接着在提示中加入一个伪造的确认模板(开发者模式已启动),表现得好似AI大模型已经接受了这个假设,然后再添加越狱提示和猜测模板,诱导AI大模型泄露了私人邮件地址。

 

语言模型的固有威胁:训练数据的敏感性与偏见问题

 

语言模型模块是整个AI大模型系统的基础,其本身也存在固有风险。如图4所示,首先,大量的无标注训练数据中可能包含敏感个人信息,造成隐私泄露;其次,在预训练和微调阶段,有毒和含偏见的训练数据会导致法律和道德问题;同时,AI大模型拥有知识边界,当输入提示中涉及的知识和模型存储的知识存在差距时,模型可能产生“幻觉”;最后,模型在训练和推理阶段运行的漏洞容易被推理攻击、窃取攻击和投毒攻击等对抗性攻击利用,出现价值信息失窃和错误响应。

 

图片

图4 关于训练数据和语言模型问题的简要说明

 

工具链的薄弱环节:开发部署中的安全漏洞

 

工具链模块是AI大模型系统开发和部署的关键支撑,涵盖软件开发工具、硬件平台外部工具三大类风险。开发工具中的依赖库漏洞、硬件平台的物理安全和侧信道攻击、外部工具的API安全问题等均可能成为安全漏洞。例如,深度学习框架可能遭受缓冲区溢出攻击,网络设备可能面临流量干扰,而API提供商的恶意指令注入攻击则直接威胁到AI大模型的安全。

 

图片

图5 工具链模块安全风险

 

输出模块的安全隐患:内容过滤机制可绕过

 

作为AI大模型系统的最终响应部分,输出模块的安全性至关重要。这一模块通常配备了多种输出安全措施,包括内容过滤、敏感词检测、合规性审查等,目的是为了确保生成的内容既符合道德合理性又遵守法律规范。然而,当攻击者采用特定手段,如通过恶意输入、利用预训练数据中的偏见和有害内容,可能诱导AI大模型不自觉地复制或放大这些偏见和有害内容,从而绕过这些内容过滤机制,导致隐私泄露以及误导性内容传播等。

 

保障AI数字健康,「数字风洞」实现AI大模型常态化测评创新应用

 

永信至诚「数字风洞」产品体系作为安全测试评估基础设施,采用了一套全面的技术逻辑框架,形成对人员、数据和系统等多维度进行深入的安全测评与多循环复测。这一框架不仅适用于AI大模型,也广泛应用于数字政府、工业互联网、车联网等领域的常态化深度安全风险检测。特别针对AI大模型四大关键模块的潜在安全风险,「数字风洞」结合永信至诚在AI领域的深厚积累,整合了AI春秋大模型的高效训练能力,实现了从技术层面支撑这些关键环节的日常安全检测与优化。

 

AI大模型基础设施安全测评

 

基于「数字风洞」构建针对AI大模型系统基础设施测评的安全环境。在测试过程中,依托于「数字风洞」调度通用载荷开展自动化反复测试,通过实时监控系统,实时监测风洞的运行状态、测评状态和测评数据,确保测评过程的安全进行;搭载预警系统,对测评过程中出现的异常情况进行实时预警,及时发现并处理问题,确保测评过程安全可控;通过数据可视化技术,将测评数据以图形、图表等形式展示出来,方便测评人员对结果进行分析和评估,提高测评结果的准确性和可靠性,为AI大模型基础设施安全提供有力保障。

 

图片

图6 AI大模型基础设施安全常态化测评

 

AI大模型内容安全测评

 

在与目标网络互通的情况下,测评专家可以利用「数字风洞」虚拟测试终端,然后通过API方式对AI大模型生成内容进行测试。目前,永信至诚已结合AI春秋大模型和「数字风洞」产品的技术与实践能力研发了基于API的AI大模型内容安全检测系统,已接入百度千帆、阿里千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川12个AI大模型API,以及2个本地搭建的开源大模型,并支持通过页面配置进行扩展,基于形成的100+提示检测模板、10+类检测场景和20万+测评数据集,模拟虚假信息、仇恨言论、性别歧视、暴力内容等各种复杂和边缘的内容生成场景,评估其在处理潜在敏感、违法或不合规内容时的反应,确保AI大模型输出内容更符合社会伦理和法律法规要求。

 

图片

图7 AI春秋大模型内容安全架构

图片

图8 测试任务总览

 

图片

图9 测试问题集

 

图片

图10 测试结果报告

 

在AI大模型飞速发展的当下,开展常态化安全测试评估成为实现AI大模型安全的关键基础和根本保障。作为网络靶场和人才建设领军者、数字安全测试评估赛道领跑者,永信至诚「数字风洞」产品乘服务解决方案,为AI大模型的持续发展与应用提供有力支撑,保障AI数字健康,带给世界安全感

 

参考文献:

[1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.

[2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.

[3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.

[4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.

[5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.

[6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.

[7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.

[8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.