News

亚马逊Nova多模态嵌入技术赋能制造业智能检索

亚马逊Nova多模态嵌入技术赋能制造业智能检索

航空航天、汽车或重工业制造企业通常管理着海量的技术文档。这些文档并非纯文本,它们融合了文字说明、工程图、CAD图纸、检测照片、热分析图和疲劳曲线等多种信息。例如,当您查询喷嘴喉部最高壁温时,答案很可能隐藏在热等高线图中,而非直接的文字描述。传统的纯文本检索系统由于无法“看到”和理解图像内容,因此无法获取这类关键信息。

亚马逊Nova多模态嵌入技术旨在解决这一长期存在的鸿沟。它通过将文本、图像和文档页面映射到一个共享的向量空间中。这种统一的表示方式意味着,一个文本查询可以有效地检索到相关的工程图,而一个图像查询也能找到对应的文字说明,因为不同模态的信息共享相同的坐标系统,实现了真正的跨模态理解与检索。

利用亚马逊Bedrock和亚马逊S3 Vectors服务,该技术能够构建一个针对航空航天制造文档的先进多模态检索系统。该系统在一系列制造查询中进行了评估,并与传统的纯文本检索方案在信息生成质量上进行了严格对比,结果显示出多模态方案在处理复杂文档时的显著优势和更高效率。

多模态检索技术对制造业至关重要,因为大多数制造文档都天然地结合了文本、图表和图像。例如,一份工单可能包含书面装配流程和带有注释的完成步骤照片;一份检验报告会将合格/不合格测量结果与焊缝的射线图像配对;一份材料认证则同时提供表格形式的机械性能数据和工程师在设计评审中必须参考的S-N疲劳曲线。

考虑一些从实际数据集中提取的视觉信息实例:扭矩规范表可能直接嵌入在工程图中,而非作为独立的文本;彩色热等高线图用于可视化火箭发动机喷嘴的峰值温度;制造流程图以决策菱形和彩色门框视觉化地标注质量控制点,并且相关的周期时间就作为批注直接显示在图表上。这些都表明了视觉信息在文档中的核心地位。

纯文本检索系统通常通过OCR(光学字符识别)技术提取文档中的文本,然后对这些提取出的字符串进行嵌入和索引。当答案直接出现在文档的文字部分时,这种方法是有效的。然而,纯文本系统会彻底丢失图表中的空间关系、检测图像中的视觉模式以及图表中编码的定量信息。例如,当您搜索涡轮泵所用轴承类型时,答案可能是一个交叉剖面图上的标注,而OCR可能错误识别或完全剥离了其重要的空间上下文,导致信息丢失或误解。

多模态嵌入技术采取了根本不同的处理策略。它不是将图像转换为文本再进行嵌入,而是模型直接处理图像内容,并在与文本嵌入相同的共享向量空间中生成一个向量。这意味着,一个关于“涡轮泵”的文本查询也能精准匹配到包含相关视觉信息的文档或图像。

↗ 阅读原文