理解动物意图是计算动物行为学面临的一大核心挑战,其主要难点在于“语义混叠”现象。这意味着相同的外部信号(例如猫的咕噜声)在不同的生理背景下可能对应着截然不同的内部状态。现有的大多数多模态大语言模型(MLLMs)在处理高频生物时间序列数据方面存在盲区,这限制了它们只能进行表面的行为模式匹配,而无法深入进行真正的潜在状态推理。
为了有效弥补这一技术空白,一组研究团队近日推出了Meow-Omni 1,这是首个开源的四模态大语言模型(MLLM),专为计算动物行为学领域量身打造。Meow-Omni 1能够原生融合视频、音频、生理时间序列数据流与文本推理,实现了多模态信息的深度集成。通过有针对性的架构适应,该模型将专业的科学编码器有效集成到统一的骨干网络中,并通过基于生理学的跨模态对齐机制,实现了对动物意图的精确推断。
在MeowBench这一新颖且经过专家验证的四模态基准测试中,Meow-Omni 1展示了卓越的性能。它实现了71.16%的SOTA(State-of-the-Art)意图识别准确率,显著超越了领先的视觉语言模型和全模态基线。研究团队已发布完整的开源管道,包括模型权重、训练框架以及配套的Meow-10K数据集。此举旨在为跨物种意图理解建立一个可扩展的范式,并积极推动基础模型在实际兽医诊断和野生动物保护等关键领域的应用。