AI视觉的“大一统”:从CV到多模态,旷视如何布局?

黄脸的窦尔敦 2024-04-03 08:52:46

AI视觉的“大一统”:从CV到多模态,旷视如何布局?

旷视科技在其AI视觉的布局中,从CV(计算机视觉)领域出发,逐步迈向多模态大模型的发展方向。以下是对其布局策略的详细解析:

1. 从CV到多模态大模型

旷视科技首先在视觉模型领域进行了多年的积累,这是其打造多模态大模型的基础。他们认识到,随着AI技术的发展,关注重心正从文本转向视觉,从单模态转向多模态。因此,旷视科技决定从一家AI视觉公司,进化成一家多模态大模型公司。 旷视科技在视觉模型领域的大模型,是一个对图片、视频、文字等各种模态综合识别理解和做逻辑推理的引擎。他们将自己的定位是打造数十亿至数百亿参数之间的多模态大模型。这个决策使得旷视科技能够在视觉模型领域呈现出大和统一的趋势,即大数据、大算力和大参数量的融合,以及感知、理解和生成能力的融合。

2. 聚焦行业大模型

旷视科技不仅关注技术创新,还深入理解行业需求。他们认为,大模型与行业结合,是要让大模型在高价值的行业里不断迭代和进化。因此,他们基于行业大模型,坚定走通2B(面向企业的)商业变现路径。 为了满足行业需求,旷视科技主张通过行业共创发展行业大模型。在行业大模型落地的过程中,旷视科技会与行业从业者坐在一起,通过梳理需求并评估技术可行性,确保业务价值大于技术实施成本。

3. 多模态大模型的研发

旷视科技在资源投入方面,非常重视多模态大模型的研发。他们的研究院目前聚焦两大方向:一是坚定投入多模态大模型的研发,二是做机器人和大模型的结合。这种研发策略使得旷视科技能够紧跟多模态大模型领域的新技术趋势。

4. 机器人和大模型的结合

除了多模态大模型的研发,旷视科技还致力于机器人和大模型的结合。他们认为,这种结合能够推动人工智能为实体产业创造更大价值。这也意味着,旷视为其AI视觉的“大一统”布局,增加了一份未来发展的可能,即在AI技术的支持下,实现机器人的智能化和自主化。 通过上述策略,旷视科技成功地将其在CV领域的专业技术知识,扩展到多模态大模型和行业大模型的领域,实现了AI视觉的“大一统”布局。这种方式不仅满足了市场对高质量AI技术的需求,还为旷视科技自身的长远发展奠定了坚实的基础。

0 阅读:9