原文:China’s largest search engine company, Baidu, says its new AI model outperforms OpenAI’s GPT-5 and Google’s Gemini.
Notably, the model utilizes what Baidu refers to as “Thinking with Images.” https://t.co/tWnYTO99tB
Here is the original image:
[Image content: A graphic from KraneShares, quoting Baidu's description of its new ERNIE-4.5-VL-28B-A3B architecture: "The model thinks like a human, capable of freely zooming in and out of images to grasp every detail and uncover all information." Source: VB]
中文:
推文总结:
- 主体: 中国最大的搜索引擎公司百度。
- 核心声明: 百度声称其新的人工智能模型在性能上超越了OpenAI的GPT-5和谷歌的Gemini。
- 关键技术: 该模型采用了百度称之为“图像思维(Thinking with Images)”的技术。
- 图像补充信息:
- 根据KraneShares发布的图片信息,百度对其新一代ERNIE-4.5-VL-28B-A3B架构的描述是:“该模型像人类一样思考,能够自由地放大和缩小图像,以掌握每一个细节并揭示所有信息。”
- 图片来源:VB (VentureBeat)。
进一步补充(通过搜索和链接信息):
通过搜索推文内容并结合图片中的来源“VB”,我们找到了原始新闻报道。该报道来自VentureBeat,标题为“Baidu just dropped an open-source multimodal AI that it claims beats GPT-5”。
- 模型名称: 百度新发布的是一个名为 ERNIE-4.5-VL 的多模态AI模型。图片中提到的完整架构名称是 ERNIE-4.5-VL-28B-A3B。
- 开源性质: 该模型是开源的,这使得更多开发者和研究人员可以访问和使用。
- 性能声明: 百度声称ERNIE-4.5-VL在多个基准测试中超越了OpenAI的GPT-5和Google的Gemini 2.5 Pro。
- “图像思维” (Thinking with Images) 技术: 这是该模型最显著的特点,它模拟了人类的视觉推理能力,能够动态地放大或缩小图像,以进行细致的分析,从而掌握图像中的每一个细节并揭示所有信息。
- 多模态能力: 作为多模态AI,ERNIE-4.5-VL不仅处理文本,还能处理图像,这与“图像思维”能力相辅相成。
总结:
百度发布了开源的多模态AI模型ERNIE-4.5-VL,声称其在性能上超越了GPT-5和Gemini 2.5 Pro。该模型的核心创新是其“图像思维”技术,允许模型像人类一样对图像进行精细化分析,以提取所有可用信息。