Meta放宽审核后针对政客的种族仇恨言论激增，内容安全防线正面临崩溃

研究人员使用了一个训练有素的 AI 系统，专门用来识别数据集中可能违反 Meta 现行政策（暴力与煽动、仇恨行为、欺凌与骚扰）的违规言论。分析结果令人震惊：在政策调整后的六个月内，违反暴力威胁政策的言论飙升了四倍，从之前的 1800 条暴增至 7600 条。

与此同时，仇恨言论同样翻了四倍，从 6900 条飙升至 30000 条；而违反欺凌与骚扰规则的言论则翻了一番，从 15700 条迅速增加到 39900 条。

面对指控，Meta 发言人向外媒 WIRED 回应称，公司定期发布的公共报告显示，2025 年平台上的仇恨行为盛行率并未上升。由于未看到完整的研究报告，#Meta 无法直接回应具体的指控。虽然 WIRED 提供了报告中引用的滥用言论列表，但 Meta 拒绝发表评论。讽刺的是，就在该报告正式发布前数小时，Facebook 删除了其中提及的许多违规示例。

美国犹他州共和党参议员、商业科学与运输委员会成员 John Curtis 发表声明指出：“当企业在暴力、仇恨和骚扰等领域减少监管时，这些危害的增加并不令人意外。”

数字仇恨打击中心（CCDH）研究人员收集的数据与 Meta 自身 2025 年的透明度报告遥相呼应。报告显示，在政策调整后的数月内，Meta 将主动内容审查的执行力度削减了约一半（roughly half）。报告作者写道：“滥用言论的激增与监管执行力的崩溃几乎完全吻合。”

AgentUpdate 深度解析

这一事件揭示了社交巨头在“自动化内容安全”（AI Safety Guardrails）方面的巨大退步，同时也为 AI Agent 生态敲响了警钟。当前，各大平台正积极部署基于大语言模型（LLM）的智能 Agent 来替代传统审核员，但在追求成本降低和效率提升的过程中，安全边界（Safety Alignment）往往最先被牺牲。从技术维度横向对比，Meta 自研的 Llama Guard 等安全 Agent 虽然在学术评测中表现优异，但在实际商业场景中，规则的“放宽”会直接导致防御链条崩溃。这表明，AI Agent 系统的安全不能仅依赖静态的微调，必须引入如 Guardrails AI 或 LangChain 的动态防御网，实现多 Agent 协同过滤（Multi-Agent Moderation）。未来，如何让负责内容过滤的安全 Agent 保持高准度且具备动态适应法律法规的能力，将是 AI Agent 走向大规模商业落地最核心、最紧迫的挑战之一。

Meta放宽审核后针对政客的种族仇恨言论激增，内容安全防线正面临崩溃

推荐阅读

加拿大“AI for All”战略：20亿加元豪赌主权AI，但引发就业担忧

为什么非洲不能照搬欧盟的AI监管模式？

祥源新材转让灵心巧手股份：估值超160亿，具身智能赛道再现天价交易