magika
by google
介绍
由 Google 开发的 Magika 是一款创新的 AI 驱动文件类型检测工具,它利用深度学习的最新进展提供卓越的检测精度。Magika 采用一个高度优化、仅数兆字节大小的定制模型,即使在单核 CPU 上也能在毫秒级内实现精准的文件类型识别。该工具在涵盖 200 多种内容类型(包括二进制和文本格式)的约 1 亿个样本数据集上进行训练和评估,在测试集上平均准确率高达 99%,尤其在文本内容类型上表现出色。Magika 目前已在 Google 内部大规模应用,每周处理数千亿样本,用于提升 Gmail、Drive 和安全浏览文件的安全性,并与 VirusTotal 等第三方平台集成。它以命令行工具、Python API 及多种语言绑定形式提供,为开发者和安全专家提供了高效、灵活且高度可靠的文件识别解决方案。
功能特征
- AI 驱动的深度学习高精度: 采用定制优化深度学习模型,在 200 多种内容类型上实现约 99% 的平均准确率。
- 超快速高效识别: 即使在单核 CPU 上,也能通过仅数兆字节的模型在毫秒级内完成文件类型识别,推理时间几乎与文件大小无关。
- 可扩展与多平台部署: 在 Google 内部实现每周处理数千亿文件的规模应用;提供命令行工具、Python API、JavaScript 和 Go 绑定,支持递归扫描及可配置的置信度模式。
支持平台
linuxmacos