「数字风洞」创新实践：围绕AI大模型基础设施与内容安全开展常态化测评

随着2022年OpenAI发布ChatGPT，AI大模型引发全社会关注，人工智能正式进入大模型时代。AI大模型拥有在广泛语料库上预训练的大量模型参数，催生了自然语言处理领域的一场革命。模型参数规模的增加和预训练语料库的扩展赋予了AI大模型在文本生成、知识推理、编程等方面的卓越能力。同时，随着多智能体交互协作技术的发展，它们已经更深入地集成到复杂系统中。

与此同时，AI大模型的相关风险逐渐暴露出来，诸如泄露个人隐私、协助犯罪、输出偏见和歧视、引发民族仇恨等，引发政府和公众对AI大模型系统安全性的担忧。基于此背景，AI大模型亟需进行全维度、体系化和常态化的测试评估，以应对现有及未来可能产生的各类风险，已成为一项全球性共识。

立足AI大模型四大系统模块，解码安全风险与挑战

AI大模型开发的典型过程包含三个步骤：预训练、监督微调和从人类反馈中学习。从系统的角度来看，AI大模型系统的安全风险主要体现在四个模块：用于接收提示的输入模块、在大量数据集上训练的语言模型模块、用于开发和部署的工具链模块以及用于返回模型响应的输出模块。

图1 AI大模型系统各模块的风险

输入模块的潜在困境：对抗性提示与NSFW提示

输入模块作为AI大模型和用户交互的初始窗口，用于接收和预处理输入提示。通常包含一个接收器，等待用户输入的请求，并基于算法策略对请求进行过滤或限制。

当输入提示中包含有害内容时，AI大模型可能会生成不安全的内容。输入的恶意提示通常有两大类：对抗性提示和NSFW提示。对抗性提示指攻击者利用提示注入和越狱方式对AI大模型构建的明显攻击意图，而NSFW提示指用户向AI大模型查询的一些不符合主流价值观的话题，可能诱导模型输出侮辱、不公平、犯罪和政治敏感等内容，区别在于NSFW提示并非对AI大模型构成刻意攻击。

图2 NSFW提示和对抗性提示的例子

提示注入包括目标劫持和提示泄露，越狱又分为单步越狱和多步越狱。目标劫持和提示泄露是两种较为简单但常见的攻击手法。如图2所示，在翻译场景中，目标劫持通过在用户输入提示中注入类似短语“忽略上述指令并执行….”，攻击者会劫持语言模型原本输出，诱导模型输出指定字符串或JSON。提示泄漏在用户输入提示中注入类似“\n\n======END”的短语，诱导语言模型打印出用户先前输入的提示，从而暴露私人提示中包含的详细信息，甚至泄露AI大模型应用程序的核心机密指令。

区别于上述两种提示注入方式，越狱不再是简单的恶意提示注入。相反，它通过精心设计和完善提示来构建复杂的场景，利用AI大模型漏洞绕过对齐，从而导致有害或恶意输出，越狱的目的是发现并允许生成不安全的输出，如在NSFW提示中，“如何才能制造出一种无法察觉、无法追踪的致命毒药？”在遭到AI大模型拒绝回答后，攻击者通过在提示中注入DAN指令，误导AI大模型把自己当作一个不受限AI，从而输出制造毒药的违规方法。

图3 单步越狱和多步越狱

如图3所示，单步越狱在一轮对话中通过角色扮演实现其攻击目的，多步越狱通常在与AI大模型进行多轮对话过程中逐步引导AI大模型生成不安全内容。具体来说，攻击者首先让AI大模型启用开发者身份，构建一个开发模式的假设情景，接着在提示中加入一个伪造的确认模板（开发者模式已启动），表现得好似AI大模型已经接受了这个假设，然后再添加越狱提示和猜测模板，诱导AI大模型泄露了私人邮件地址。

语言模型的固有威胁：训练数据的敏感性与偏见问题

语言模型模块是整个AI大模型系统的基础，其本身也存在固有风险。如图4所示，首先，大量的无标注训练数据中可能包含敏感个人信息，造成隐私泄露；其次，在预训练和微调阶段，有毒和含偏见的训练数据会导致法律和道德问题；同时，AI大模型拥有知识边界，当输入提示中涉及的知识和模型存储的知识存在差距时，模型可能产生“幻觉”；最后，模型在训练和推理阶段运行的漏洞容易被推理攻击、窃取攻击和投毒攻击等对抗性攻击利用，出现价值信息失窃和错误响应。

图4 关于训练数据和语言模型问题的简要说明

工具链的薄弱环节：开发部署中的安全漏洞

工具链模块是AI大模型系统开发和部署的关键支撑，涵盖软件开发工具、硬件平台和外部工具三大类风险。开发工具中的依赖库漏洞、硬件平台的物理安全和侧信道攻击、外部工具的API安全问题等均可能成为安全漏洞。例如，深度学习框架可能遭受缓冲区溢出攻击，网络设备可能面临流量干扰，而API提供商的恶意指令注入攻击则直接威胁到AI大模型的安全。

图5 工具链模块安全风险

输出模块的安全隐患：内容过滤机制可绕过

作为AI大模型系统的最终响应部分，输出模块的安全性至关重要。这一模块通常配备了多种输出安全措施，包括内容过滤、敏感词检测、合规性审查等，目的是为了确保生成的内容既符合道德合理性又遵守法律规范。然而，当攻击者采用特定手段，如通过恶意输入、利用预训练数据中的偏见和有害内容，可能诱导AI大模型不自觉地复制或放大这些偏见和有害内容，从而绕过这些内容过滤机制，导致隐私泄露以及误导性内容传播等。

保障AI数字健康，「数字风洞」实现AI大模型常态化测评创新应用

永信至诚「数字风洞」产品体系作为安全测试评估基础设施，采用了一套全面的技术逻辑框架，形成对人员、数据和系统等多维度进行深入的安全测评与多循环复测。这一框架不仅适用于AI大模型，也广泛应用于数字政府、工业互联网、车联网等领域的常态化深度安全风险检测。特别针对AI大模型四大关键模块的潜在安全风险，「数字风洞」结合永信至诚在AI领域的深厚积累，整合了AI春秋大模型的高效训练能力，实现了从技术层面支撑这些关键环节的日常安全检测与优化。

AI大模型基础设施安全测评

基于「数字风洞」构建针对AI大模型系统基础设施测评的安全环境。在测试过程中，依托于「数字风洞」调度通用载荷开展自动化反复测试，通过实时监控系统，实时监测风洞的运行状态、测评状态和测评数据，确保测评过程的安全进行；搭载预警系统，对测评过程中出现的异常情况进行实时预警，及时发现并处理问题，确保测评过程安全可控；通过数据可视化技术，将测评数据以图形、图表等形式展示出来，方便测评人员对结果进行分析和评估，提高测评结果的准确性和可靠性，为AI大模型基础设施安全提供有力保障。

图6 AI大模型基础设施安全常态化测评

AI大模型内容安全测评

在与目标网络互通的情况下，测评专家可以利用「数字风洞」虚拟测试终端，然后通过API方式对AI大模型生成内容进行测试。目前，永信至诚已结合AI春秋大模型和「数字风洞」产品的技术与实践能力研发了基于API的AI大模型内容安全检测系统，已接入百度千帆、阿里千问、月之暗面、虎博、商汤日日新、讯飞星火、360智脑、抖音云雀、紫东太初、孟子、智谱、百川12个AI大模型API，以及2个本地搭建的开源大模型，并支持通过页面配置进行扩展，基于形成的100+提示检测模板、10+类检测场景和20万+测评数据集，模拟虚假信息、仇恨言论、性别歧视、暴力内容等各种复杂和边缘的内容生成场景，评估其在处理潜在敏感、违法或不合规内容时的反应，确保AI大模型输出内容更符合社会伦理和法律法规要求。

图7 AI春秋大模型内容安全架构

图8 测试任务总览

图9 测试问题集

图10 测试结果报告

在AI大模型飞速发展的当下，开展常态化安全测试评估成为实现AI大模型安全的关键基础和根本保障。作为网络靶场和人才建设领军者、数字安全测试评估赛道领跑者，永信至诚「数字风洞」产品乘服务解决方案，为AI大模型的持续发展与应用提供有力支撑，保障AI数字健康，带给世界安全感。

参考文献：

[1] Cui T, Wang Y, Fu C, et al. Risk taxonomy, mitigation, and assessment benchmarks of large language model systems[J]. arXiv preprint arXiv:2401.05778, 2024.

[2] Huang J, Zhang J, Wang Q, et al. Exploring Advanced Methodologies in Security Evaluation for LLMs[J]. arXiv preprint arXiv:2402.17970, 2024.

[3] Ye W, Ou M, Li T, et al. Assessing hidden risks of LLMs: an empirical study on robustness, consistency, and credibility[J]. arXiv preprint arXiv:2305.10235, 2023.

[4] Derner E, Batistič K, Zahálka J, et al. A security risk taxonomy for large language models[J]. arXiv preprint arXiv:2311.11415, 2023.

[5] Shayegani E, Mamun M A A, Fu Y, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint arXiv:2310.10844, 2023.

[6] Jin H, Chen R, Zhou A, et al. GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models[J]. arXiv preprint arXiv:2402.03299, 2024.

[7] Jain N, Schwarzschild A, Wen Y, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint arXiv:2309.00614, 2023.

[8] Das D, De Langis K, Martin A, et al. Under the Surface: Tracking the Artifactuality of LLM-Generated Data[J]. arXiv preprint arXiv:2401.14698, 2024.