视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

2,232 0 0

文章摘要

在大模型时代，如何将这些技术落地并实现产业应用成为了业界关注的焦点。中国公司格灵深瞳在这一领域取得了显著成就，其多模态大模型在多个权威数据集上的表现超越了OpenAI，展示了大模型在产业界的广泛应用潜力。格灵深瞳在银行安防、城市管理、商业零售和体育教育等多个领域实现了AI算法的规模化应用，落地案例超过10000个银行网点和1000个商业项目。

格灵深瞳的技术进步得益于其自研的视觉大模型Unicom v2，该模型在多业务数据集上的表现优于OpenAI的CLIP、Meta的DINOv2和苹果的DFN。基于Unicom的深瞳灵感-7B多模态大模型在业界同等规模的VLM模型中居领先地位。这些成果的背后，是格灵深瞳在大模型技术层面的持续探索和创新。

多模态大模型的出现，为传统视觉AI带来了革命性的变化。在ChatGPT的影响下，人们开始认识到算力与效果的正相关性，硬件也开始适配Transformer算法。视觉AI经历了从模块化到一体化的范式转变，大模型通过统一的Transformer骨干学习图像到特征再到应用输出的端到端映射。

格灵深瞳的Unicom系列模型正是这一转变的体现，通过扩大数据规模和计算规模，强化了模型的通用能力。结合语言模型，AI不仅“看到”世界，还能“看懂”世界，从而拓宽了应用边界。例如，在银行安防行业中，AI能够通过视频帧的连续输入和描述来判断场景是否属于打斗行为。

在工业质检领域，通用视觉大模型结合语言模型的多模态生成范式，使得AI能够智能识别缺陷并给出文字描述。此外，多模态大模型在系统中还承担了任务分配的“路由”作用，如格灵深瞳为银行提供的解决方案，形成了总-分-支三层架构，实现了跨网点、跨系统的数据和算力调度。

格灵深瞳在视觉大模型的进化过程中，采用了一种新颖的弱监督学习方式，通过特征聚类模型为无标签数据注入语义信息。这种方法使得无监督学习在视觉领域成为可能，为视觉大模型的数据规模扩大提供了新的思路。

展望未来，格灵深瞳正在探索超越Transformer的下一代架构，如基于RNN的RWKV序列建模方法，以降低推理时的计算复杂度。同时，公司将RWKV-CLIP代码和模型权重开源，促进业界共同进步。

在多模态大模型的应用上，格灵深瞳采取了与简单技术Demo不同的策略，深入产业场景，将AI算法与特定行业深度融合。公司十多年来在智慧金融、城市治理等领域的深耕细作，形成了独特的竞争壁垒。格灵深瞳的多模态大模型应用落地，不仅考虑了算法创新，还融入了丰富的行业知识和实践经验。

总之，大模型技术为构建行业AI应用提供了全新的技术范式，但技术只是实现愿景的工具，行业才是应用的土壤。格灵深瞳正是通过深耕行业，将技术创新与行业理解相结合，实现了AI技术的落地和产业应用。