提前免费!百度连发两款模子,咱们实测：能听歌看电影，还会蛐蛐东谈主

红蜘蛛女士专用药

热点资讯

你的位置：红蜘蛛女士专用药 > 催请药名字 > 提前免费!百度连发两款模子,咱们实测：能听歌看电影，还会蛐蛐东谈主

催请药名字

发布日期：2025-05-10 00:02 点击次数：94

机器之心原创

剪辑：陈陈、杨文

AI 竞争进入尖锐化阶段。此次，轮到百度给自家大模子上强度。

刚刚，百度连气儿官宣了两款大模子，分袂是文心大模子 X1 和文心大模子 4.5

那么，这两款大模子有啥区别呢？

这样说吧，文心 X1 是一款深度念念考模子，具备更强的意会、磋磨、反念念、进化才调，并撑持多模态，尤其是多器具调用，更是它的一大特色。

迷水商城

而文心 4.5 堪称新一代原生多模态基础大模子，最擅长的就是多模态意会，谈话才调也更精进。

比较于之前版块，文心 4.5 不仅注重会、生成、逻辑、挂牵才调方面上了一个台阶，还在去幻觉、逻辑推理、代码才调上有了全面栽植。

面前，这两款模子已在文心一言官网、百度搜索、文小言 APP 等产物上线。（体验网址：https://yiyan.baidu.com/）

最关节的是，它们澈底免费！

要知谈，前段时辰百度还对外文告，文心一言将从 2025 年 4 月 1 日 0 时起运转全面免费。

迷水商城迷水商城

没料想，此次百度奏凯将这个时辰点提前了整整半个月。

同期，这两款模子的 API 价钱也已出炉。

迷水商城

诞生者现可在百度智能云千帆大模子平台上奏凯调用文心大模子 4.5 API，输入价钱低至 0.004 元 / 千 tokens，输出价钱低至 0.016 元 / 千 tokens；文心大模子 X1 也行将在千帆平台上线，输入价钱低至 0.002 元 / 千 tokens，输出价钱低至 0.008 元 / 千 tokens。

百度之是以能把文心 X1 模子的 API 价钱打下来，是因为他们通过飞桨和文心合股优化，收场从压缩、推理、处事部署的全链路极致调优，大幅裁减文心 X1 推理本钱。

具体来说，模子压缩方面，通过分块 Hadamard 量化、面向长序列的注意力机制量化等收场深度压缩；推理引擎方面，通过低精度高性能算子优化、动态自顺应投契解码、神经收罗编译器收场推理加快。系统层面，通过框架和芯片协同优化、分离式部署架构、高效资源调度收场系统级优化。

一手评测

俗语说得好，是骡子是马，还得拉出来遛遛。

接下来，咱们将从多模态意会、文本创作、逻辑推理以及器具调用等多个维度，对这俩大模子来一波真刀真枪的实战。

文心 X1：会脑筋急转弯，还能调整多个器具

迷水商城迷水商城

算作百度最新深度念念考模子，文心 X1 有三大绝活：嘴毒（敢锐评）、脑子好使（推理才调强），况兼善用器具（多器具调用）。

相较于之前版块，文心 X1 显得叛变得多。它不肯作念「端水行家」，遇事老是指天画地，有不雅点有作风。

比如咱们让它用贴吧的口气，锐评一下小红书、知乎、微博和贴吧。

它一上来就绝不客气，怒喷小红书是《东谈主类高质料装 X 指南》，知乎整天标榜精英范儿，微博热搜天天吵得像菜阛阓，贴吧则是东谈主均键盘侠。

之是以说文心 X1 脑子好使，是因为它的逻辑推理才调有了权臣栽植，甚而还「懂」脑筋急转弯的仙葩脑回路。

比如「狐狸为什么容易摔跤」，它既能从科学的角度进行评释，还能识别出背后的谐音梗。

迷水商城

要说文心 X1 最大的特色，就是能调用多种器具。

咱们只需在聊天框开启「联网搜索」和「调用器具」两个按钮，就能一下子抽象高等搜索、文档问答、图片意会、AI 绘制、代码评释器、百度学术检索、贸易信息查询等器具。

举个例子。

咱们上传一张甜品的相片，然后让它先容制作工序，并生成一份 PDF 文献。

文心 X1 接连调用了图片意会、联网搜索和代码评释器三个器具。

最终它真的生成了一份草莓蓝莓煎饼塔详确工序的 PDF 文档。

文心 X1 的好意思满陈诉

文心 X1 生成的 PDF 文献名及内容

文心 4.5：学会了听歌、看电影

如若说文心 X1 更聪慧的话，那么文心 4.5 就是更万能。

算作百度自主研发的新一代原生多模态基础大模子，文心 4.5 不仅能看懂梗图，还能识别音视频。

前段时辰 Grok3 发布时，马斯克欢腾地在 X 上发了张梗图，对着谷歌、OpenAI 和 Meta 就是一顿贴脸开大。

咱们就将这张梗图丢给文心 4.5，输入 Prompt：这张图片暗含着什么意念念？

它犀利捕捉到了图片背后的幽默和挖苦含义：四只企鹅代表了大洋此岸的四家科技巨头，其中三只企鹅向 Grok 企鹅敬礼，透露了 Grok 在某一阶段处于伊始上风。

对于大模子来说，识别梗图早就不是什么清新事了，文心 4.5 最拿手的还得是音视频的意会分析。

当咱们听到一首心爱的音乐，但就是存一火想不起来歌名时，咱们只需录一小段音频，投喂给文心 4.5，它就能给出这首歌的一切。

音频试听荟萃：https://mp.weixin.qq.com/s/XKim3L7__c9VXJ2bj4FYhA

同理，咱们还不错上传一段不卓越 20M 的视频片断，让它挖出背后各式八卦。

比如电影《闻香识女东谈主》中这段经典的跳舞，文心 4.5 不仅识别出影片名字、女主演出者，甚而连布景音乐齐扒出来了。

迷水商城

弱智吧，江湖东谈主称「青龙山皇家诊治院」，大模子才略高不高，就看能弗成 hold 得住这些神题。

比如：为什么独一电信诱拐，莫得联通诱拐呢？

文心 4.5 从术语的通用性聊到了历史渊源，又从法律界说聊到了社会领会，把这个略显无厘头的问题评释得清理会楚、窗明几净。

此外，文心 4.5 在搜索方面也有了更大的朝上。

就拿最近大火的收罗热梗「馕言文」来说，它找到了 8 条参考信源，除了百家番外，还包括新京报网、腾讯网等其他开头。

迷水商城

况兼，文心 4.5 经过分析追思给出陈诉后，还在末尾附上了有关视频以供参考。

中枢时间大揭秘

经过实测，咱们不错看出百度最新发布的两个模子还是出现了质的飞跃。

迷水商城

多项时间加持的文心 X1

最近一段时辰，AI 圈焦点无疑是对于「Scaling Law 是否撞墙？」的商议，这个也曾被视作大模子发展的第一性旨趣，如今却遇到了普遍挑战。

濒临大模子性能栽植的边缘效益递减问题，测试时缠绵（Test-Time Compute）、强化学习等计策成为一种灵验的应付时势。

百度在强化学习方面也下足了功夫，发布的推理模子文心 X1 改造性地期骗了递进式强化学习查验设施。罗致这种设施不错全面栽植模子在创作、搜索、器具调用、推理等场景的抽象期骗才调。

迷水商城

比如上文咱们体验的「输入一张图片，条件文心 X1 把柄教唆输出 PDF 相貌的文献」，就离不开这种查验时势。

现阶段，推理模子险些齐罗致了一种称为念念维链（Chain of Thought，红蜘蛛女士专用药CoT）的时间，与传统的奏凯从输入到输出的映射不同，念念维链通过显式展示中间推理历程，匡助模子更好地意会和处分复杂问题。

更进一步的，文心 X1 具备 “长念念维链”，罗致了念念维链和活动链耦合的端到端查验时势。念念维链使得模子在处分问题时，一步一步写下念念考历程，就像咱们作念数学题时，需要写下解题轨范雷同。而活动链是模子在念念考历程中决定遴选的活动，比如搜索信息、调用器具等。

在端到端查验中，文心 X1 不是只学习念念考或者只学习活动，而是把念念考和活动献媚起来，通过这种时势，模子不错把柄每次活动的收尾反映，调整我方的念念考和活动计策，最终权臣栽植在复杂任务中的推崇。

临了，文心 X1 还罗致了多元和洽的奖励系统，这个系统就像一个「超等裁判」，用来评价模子作念得好不好。这个「裁判」在评估历程中献媚了多种不同的奖励机制，大致从多个角度给模子反映。这样的话，模子在查验历程中就能取得更准确、更可靠的指令，为模子查验提供愈加鲁棒的反映。

迷水商城迷水商城

文心 4.5 用到的「法宝」

至于文心 4.5，背后的时间也遏制小觑。

伊始是FlashMask 动态注意力掩码。FlashMask 是由百度飞桨团队在论文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提议的一种改造的注意力掩码优化时间，旨在处分 Transformer 类大模子中注意力掩码缠绵的冗余和存储支拨问题。FlashMask 通过列式稀少掩码透露设施，将传统的二维繁多掩码矩阵转念为一维的行索引区间透露，从而权臣裁减了存储复杂度，从 O (N^2) 裁减到 O (N)。极致的加快了大模子查验服从，尤其是长序列场景下的查验服从。

有关论文已入选顶会 ICLR 2025 。

论文地址：https://arxiv.org/abs/2410.01359

迷水商城

其次就是多模态异构民众膨大时间。该时间是一种献媚多模态数据处理与夹杂民众模子（MoE）的改造架构，旨在通过针对不同模态脾气构建的异构民众模块，处分多模态交融中的梯度不平衡问题，栽植模子的多模态交融才调。多模态异构民众膨大时间在多个期骗场景中展现了权臣上风，举例多模态问答任务，这种时间大致更高效地处理复杂的多模态数据。

文心 4.5 还罗致了时空维度表征压缩时间，这是一种把图片和视频里的关节信息进行浓缩的设施。在不丢失首要细节的情况下，在时空维度对图片和视频的语义表征进行高效压缩，让这些数据变得更小、更高效。这样一来，查验多模态模子（也就是同期处理笔墨、图片、视频等多种数据的模子）时就能更快、更省资源。

前文咱们还是提到，文心 4.5 幻觉问题取得了极大的栽植，而这离不开百度罗致的基于学问点的大范围数据构建时间。学问分级采样优先把首要的、中枢的学问挑出来，接着把挑出来的学问点进行压缩，去掉豪阔的部分，把有关的学问交融在一谈。对于那些比较稀有、不太好找的学问点，挑升合成一些有关内容，确保这些首要的小众学问也不会被遗漏。这样一来，模子幻觉大大裁减。

此外，文心 4.5 还用到了基于自反映的 Post-training 时间。这是一种通过多种评估时势不休优化模子的后查验设施。肤浅来说，它让模子在查验历程中不休反念念我方的推崇，把柄不同的评价模范调整我方，从而让模子变得更纷乱、更可靠。这种时间还能权臣栽植预查验模子意会东谈主类意图的才调，让模子的陈诉更妥当东谈主类的盼望。

迷水商城

那么文心 4.5 与其他模子对比收尾如何呢？

下图展示了文心 4.5 与 GPT-4o 在多模态性能上的对比。不错看出，文心 4.5 在大大批测试基准上的推崇优于 GPT-4o，尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上，两者差距较为较着。GPT-4o 仅在 MMMU 上的推崇相对较好，但在其他基准上的推崇不如文心 4.5。在平均值上，文心 4.5 的得分略高于 GPT-4o，流暴露文心 4.5 在全体性能上的上风。

下图比较了四个不同模子（文心 4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5）在文本测试基准上的性能对比。收尾流露文心 4.5 在大大批测试基准上的推崇优于其他模子，尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上。

RAG 有关时间

RAG 检索增强生成（Retrieval Augmented Generation），还是成为现时最火热的 LLM 期骗决策，是测度大模子优劣的首要维度。

当今大模子在各式任务上天然很遒劲，但也有谬误，比如：幻觉风物导致 LLM 未必会「瞎编」一些不存在的信息；还有大模子掌抓的信息并不是最新学问，学问系统更新很慢；此外，生成的内容短缺透明度等一系列问题，导致大模子在实质期骗中并不是很逸想。

迷水商城

RAG 通过检索最新的、有关的学问，处分了上述问题，让生成的内容更可靠、更准确。

百度研发的「意会 - 检索 - 生成」协同优化检索增强时间，栽植了大模子时间及期骗的成果，大致生成准确率更高、时效性更好的谜底。况兼，百度在 RAG 时间上具备华文深度意会、多模态检索、垂直领域定制化以及及时数据整合才调等上风，在华文互联网、企业处事、政务医疗等场景中更具实用性和竞争力。

此外，在国表里主流大模子的 RAG 才调实测中，百度文心一言抽象推崇最好。

天然传统的 RAG 还是基本处分了大模子在文本生成层面的幻觉问题，但在多模态领域，尤其是图片生成领域，传统 RAG 还是远远不够用了。

迷水商城

比如，咱们正常看到生成的图片出现较着的逻辑不实等问题。即使收尾妥当条件，但看上去亦然一股 AI 味，这些问题严重影响了 AI 生成图像的实用性和确切度。

迷水商城

正如百度首创东谈主、董事长兼首席执行官李彦宏在百度寰球 2024 大会上所提议的：「笔墨层面的 RAG 还是作念得很好，基本让大模子摈斥了幻觉；但在图像等多模态方面，和 RAG 的献媚还不够，这亦然百度但愿重心破损的看法。」

在这种情况下，百度自研了一种检索增强的文生图时间 iRAG（image based RAG），旨在处分传统文生图系统中常见的幻觉问题，栽植生成图像的准确性和实用性。

迷水商城

在领有亿级的图片资源和遒劲的基础模子才调，百度 iRAG 将这些上风相献媚，幸免了传统文生图系统中一眼假的问题，生成的图像不仅超确切，还具备极高的准确性和可靠性。

结语

此次，百度连气儿上线了两款大模子，总算粗莽浓烈了一趟。

近十年来，百度一向舍得在研发上砸钱。为止面前，百度已累计插足卓越 1800 亿元。

迷水商城迷水商城

如今来看，真金白银莫得白花。

迷水商城

上一篇：影视大全极速版免费下载

下一篇：《天龙八部追想》当天开测！教你手薅7w元宝！

首页

快速迷晕女人的药

性药能维持多久有效

催请药名字