搜索引擎的主要类型有哪些_搜索引擎主要分为哪三类

2025-02-0405:40:46营销方案1

随着多模态大模型(LMM)的崛起,传统的OCR“以图搜图”方式已然不再占据时尚前沿。

尽管AI搜索与多模态技术火热,多模态AI搜索的进展却显得缓慢。香港中文大学、字节跳动等研究机构与企业的研发人员已经开始着手研究多模态搜索引擎的可行性。

他们巧妙地利用LMM,设计了一种零样本的方法,使多模态搜索引擎得以化身。重点在于,他们不仅提出了如何评价一款多模态大模型作为搜索引擎的潜力,还给出了一套实际可行的解决方案。

想象一下,多模态AI搜索引擎不再只是看图识花、淘宝中的看图搜商品那么简单。它能够识别奖牌的照片,将其与互联网上的图像和文本信息进行匹配,从而准确识别每一枚奖牌的名称。这种能力远超纯文本搜索引擎。

面对复杂的图、表、文交织呈现的Web内容,尽管语言大模型(LMM)可以更好地理解用户意图,但它们仍局限于文本查询和解释文本Web内容的形式。这时,多模态大模型(LMM)的登场解决了这一问题。

近一年来,多模态成为了大模型发展的主旋律之一。基于大型多模态模型LMM的产品应用如可灵、Character.AI等给业界带来了新的视觉体验。但如何将这些模型应用于多模态的AI搜索引擎?这是研究团队面临的问题。

他们设计了一套流水线,无论是闭源的GPT-4o还是开源的Qwen,都能经过三个步骤,变成可以理解视觉Web内容的多模态AI搜索引擎。

利用LMM的图像理解能力整合视觉数据。提出一套搜索流程,包括重新查询、重新排序和摘要。这一流程不仅涉及LMM与搜索引擎之间的交互,还强调了图像搜索的重要作用。

对于如何评估这种多模态搜索能力,他们引入了一个全面的评估基准数据集。他们采取多轮逐步的策略,而不仅仅是对最终答案进行端到端的评估,以更全面地揭示模型的搜索能力。

实验结果显示,他们的方法在测试的LMM中取得了显著的成果。在端到端任务中,他们的方法甚至超越了商业产品Perplexity Pro。这证明了他们的“三步骤流水线”方法的有效性。

他们还发现,虽然开源LMM与闭源模型在性能上有所差距,但通过优化和改进,开源模型同样具有巨大的潜力。这为广大开发者提供了更多的可能性。

多模态AI搜索引擎的研究正处在蓬展的阶段。从香港中文大学等研究机构到产业界的企业,都在为这一领域的发展贡献力量。而他们的研究成果和方法,无疑为这一领域的发展提供了新的思路和方向。

未来可期,“三个步骤”的设计流水线和评估LMM的多模态搜索潜力的方法值得更多人关注和借鉴。我们期待着更多关于多模态AI搜索引擎的研究和应用,为我们的生活带来更多的便利和惊喜。

/pdf/2409.12959v1(研究论文链接)

mmsearch.github.io/(MMSearch引擎)

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。