微软MAI模型被曝使用未授权数据，此前曾承诺数据绝对“干净”

根据最新披露的技术论文，微软（Microsoft）在其全新的 MAI模型训练过程中，部分使用了未经授权的网页数据。这一发现由科技博主 Simon Willison 率先指出，论文显示微软使用了包括 Common Crawl 在内的公开数据集。这与微软此前公开承诺的该模型仅使用“企业级、干净且获得商业授权的数据”的表态大相径庭。

与其他通过网络抓取数据的 AI 公司类似，微软在此次事件中可能依赖于美国版权法中的“合理使用”（Fair Use）原则。微软在论文中将其训练数据描述为“公开可用数据与授权人工生成数据的混合物”。针对网页数据，微软声称其使用了一种“遵守 Robots协议（robots.txt）及相关元标签和 HTML 控制的自研爬虫”，以此允许网站所有者自主管理其内容的访问和使用权限。

然而，这种做法实际上将保护内容的责任完全推给了网站所有者，被业内人士戏称为“默认不锁门就等于同意入室”。目前，关于 AI 训练是否属于“合理使用”在法律层面上仍存在极大争议，多起诉讼尚在法院审理中。简而言之，微软在数据获取上的做法与其他 AI 巨头并无二致，但其此前却极力将自己的训练数据包装得格外“干净”，这一遮羞布如今已被扯下。

AgentUpdate 深度解析

微软此次数据“翻车”事件，揭示了 AI Agent 生态中一个致命的隐患——数据源合规性的级连风险。随着 AI Agent 从简单的聊天助手演变为能够代表企业执行复杂决策、调用外部 API 并处理敏感业务的“自主实体”，其底层模型的数据清白性（Data Provenance）直接决定了 Agent 的商业化合规边界。微软作为主打企业级安全的巨头，尚且无法在不依赖未授权网页数据的情况下训练出高性能模型，这表明目前干净的商业授权数据集极度稀缺。对于 Agent 开发者而言，这警示我们：未来 Agent 生态可能会彻底分化。一类是低成本但面临随时被诉风险的通用 Agent，另一类则是建立在完全可追溯、去中心化授权协议（如 Web3 数据协议或严格合成数据集）之上的“合规优先 Agent”。未来，谁能率先提供可审计的 Agent 训练数据闭环，谁就将掌握企业级 Agent 市场的定价权。

微软MAI模型被曝使用未授权数据，此前曾承诺数据绝对“干净”

推荐阅读

谷歌创始人谢尔盖·布林：以围棋揭示AI时代的未来工作

Claude自写代码率超80%！Anthropic揭秘AI自我演进之路

告别静态文件！OpenAI与Anthropic掀起交互式AI应用新浪潮