根据最新披露的技术论文,微软(Microsoft)在其全新的 MAI模型 训练过程中,部分使用了未经授权的网页数据。这一发现由科技博主 Simon Willison 率先指出,论文显示微软使用了包括 Common Crawl 在内的公开数据集。这与微软此前公开承诺的该模型仅使用“企业级、干净且获得商业授权的数据”的表态大相径庭。
与其他通过网络抓取数据的 AI 公司类似,微软在此次事件中可能依赖于美国版权法中的“合理使用”(Fair Use)原则。微软在论文中将其训练数据描述为“公开可用数据与授权人工生成数据的混合物”。针对网页数据,微软声称其使用了一种“遵守 Robots协议(robots.txt)及相关元标签和 HTML 控制的自研爬虫”,以此允许网站所有者自主管理其内容的访问和使用权限。
然而,这种做法实际上将保护内容的责任完全推给了网站所有者,被业内人士戏称为“默认不锁门就等于同意入室”。目前,关于 AI 训练是否属于“合理使用”在法律层面上仍存在极大争议,多起诉讼尚在法院审理中。简而言之,微软在数据获取上的做法与其他 AI 巨头并无二致,但其此前却极力将自己的训练数据包装得格外“干净”,这一遮羞布如今已被扯下。
微软此次数据“翻车”事件,揭示了 AI Agent 生态中一个致命的隐患——数据源合规性的级连风险。随着 AI Agent 从简单的聊天助手演变为能够代表企业执行复杂决策、调用外部 API 并处理敏感业务的“自主实体”,其底层模型的数据清白性(Data Provenance)直接决定了 Agent 的商业化合规边界。微软作为主打企业级安全的巨头,尚且无法在不依赖未授权网页数据的情况下训练出高性能模型,这表明目前干净的商业授权数据集极度稀缺。对于 Agent 开发者而言,这警示我们:未来 Agent 生态可能会彻底分化。一类是低成本但面临随时被诉风险的通用 Agent,另一类则是建立在完全可追溯、去中心化授权协议(如 Web3 数据协议或严格合成数据集)之上的“合规优先 Agent”。未来,谁能率先提供可审计的 Agent 训练数据闭环,谁就将掌握企业级 Agent 市场的定价权。