实测混元Hy3 preview：腾讯AI，终于能打了？

首页
头条导航

行情

资产管理

应用

钱包

矿池

媒体

技术服务

社区
7*24快讯
活动

报名中

已结束
专栏
关于我们

注册

欧易交易所

全球顶流数字资产交易，流通强交易更安全。
MyToken

MyToken致力于满足用户对全球数字资产行情和资讯的全生态需求，是业内最具影响力的数字资产行情App。我们立志于为全球用户提供体验感最佳的一站式数字资产投资服务，呈现具有充分价值的内容资讯和社交体验，并集成更多深度投资工具。 MyToken提倡价值投资，推崇去中心化的设计理念和组织结构，作为区块链用户、投资者的桥梁，帮助用户更好更快地参与到区块链世界的变革中。
金色财经

国内的区块链行业媒体平台。
非小号

国内专业的数字货币行业大数据平台
区块链头条

未来已来，头条为你链接未来！区块链头条，每天为你带来及时的区块链资讯和专业的行业观察。
币众

一周读懂区块链！

实测混元Hy3 preview：腾讯AI，终于能打了？

AIX财经 2026/04/26 15:14

2372

文 | AIX财经，作者 | 雷晶，编辑 | 金玙璠

AI圈近期动作频频，腾讯混元Hy3 preview也正式亮相。

4月23日，腾讯混元正式发布并开源了新一代语言模型Hy3 preview。据官网介绍，该模型采用快慢思考融合的混合专家架构，总参数295B、激活参数21B，最大支持256K上下文长度。这是被官方称为混元迄今最智能的模型。

三个月前，姚顺雨带着ReAct框架和OpenAI的实战经验加入腾讯，主导完成了预训练和强化学习基础设施的重构。Hy3 preview是重建后的首份答卷。官方表示，该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力均实现大幅提升。

从官方披露的数据和评测结果来看，Hy3 preview在多项基础测试中展现出亮眼的实力，虽然未必在所有维度都达到行业顶尖水准，但足以满足多数场景下的实用需求。

在实际运行效率和稳定性方面，Hy3 preview也有所突破。官方数据显示，这款模型的首Token延迟降低54%，端到端时长降低47%，大幅提升了响应速度。同时，任务成功率也有所提升，已能稳定驱动复杂的Agent工作流，覆盖文档处理、数据分析等多种业务场景。

此外，它的推理成本也有所下降。在腾讯云API输入低至1.2元/百万Tokens，个人套餐最低28元/月，在同尺寸模型中属于最低价梯队。目前，Hy3 preview已在腾讯云、元宝、WorkBuddy等腾讯核心产品中上线。

接下来，我们将根据官方提到的四个方向，实测混元大模型在实际应用中的表现。

推理能力：复杂逻辑能拆解，陷阱识别仍需加强

我们首先测试了模型的推理能力。逻辑推理题是网友最喜欢拿来测模型“智商”的类型之一。在这一环节中，我们先用经典的“洗车问题”在元宝内进行测试。

在这个经典陷阱题中，Hy3 preview起初并未答对。它给出了条理清晰的推理来建议步行，而忽视了重点在于“洗车”。在再次提醒需要洗车后，它才给出正确答案。

需要注意的是，在其他网友的实测中，Hy3 preview出现过能直接答对的情况，说明它的陷阱识别能力稳定性不足。

我们再来试一道脑筋急转弯题。在这个问题中，需要理解现实逻辑，碎了、煎了、吃了的是同一批鸡蛋。但Hy3 preview没有意识到这一点，它认为煎了的鸡蛋依然存在，可以吃掉。

随后，我们加大难度，用一道推导过程更为复杂的逻辑题来考验它。这道题的难点在于没有直接的定位信息，需要靠隐性条件来做排除，容易遗漏关键信息。

在这一场景中，Hy3 preview给出了正确答案。它先逐条拆解线索、提炼人物与职业的互斥关系，再通过排除法锁定身份。接着，它依次确定部分岗位的归属，再结合规则逐步补全。

综合来看，Hy3 preview常规理性逻辑推演能力较强，但逆向思维、陷阱识别与生活场景变通思考能力仍有不足。面对陷阱类脑筋急转弯时，容易局限于字面常规逻辑，忽略题目陷阱与现实场景，反应欠佳。但在面对条件隐蔽、推导繁琐的复杂逻辑推理题时，它能够拆解线索，层层推演，逻辑分析和分步推导能力表现扎实。

上下文学习和指令遵循：提取信息，干扰场景下表现稳定

这一环节考验模型的两个基本功：能否抓住真正的指令，以及能否快速理解指令。

腾讯在官方博客中给出了项目规划、旅游总结、读书记录等五个场景，我们选取两个场景来实测。

场景一：内容杂乱的会议纪要信息提取

我们给了一段混乱的会议录音转写，混杂着插话、跑题、反复修正等情况，要求其摘录三类信息。

Hy3 preview给出的答案准确地列出了这三类信息，信息抓取能力表现不错。

场景二：理解并遵循新的语言规则

我们自创了一个简单的语言，通过实例向它展示规则，并给它三个新的句子让它翻译。

在这一轮中，Hy3 preview能够准确完成相关要求，每个细节都能按规则执行。

综合来看，Hy3 preview能理解指令要求，有效排除干扰信息，适合繁杂信息干扰、信息抓取等实用场景。

代码和智能体：工具调用较成熟，任务交付完整性不足

代码能力与智能体能力，是评判一款AI助手是否好用的重要维度。这既考验模型对用户需求的理解深度，也检验Agent在多步骤任务中的规划、工具调用及任务闭环能力。这一环节，我们为WorkBuddy（腾讯旗下AI助手）设计了三个任务。

第一个任务，我们要求WorkBuddy爬取五个城市近一年的空气状况，并基于空气质量数据生成一份分析报告。

从页面呈现来看，成品表现合格。季节切换、雷达图、趋势图、相关性热力图等板块结构完整，视觉呈现有序，图表也具备基本的交互功能。这表明它在前端呈现这一层面的执行力达标。

但问题主要有两个，一是由于数据获取阶段受阻，Hy3 preview只拿到了224天的有效数据，缺口较大，影响了后续表格的可信度；二是提示词中明确要求写一段分析结论，Hy3 preview虽在页面上保留了对应板块的区域，但实际内容是一片空白。这意味着，它有任务闭环意识，但最终的交付能力仍有不足。

第二个任务，我们让它搭建一个贪吃蛇小游戏。

最终结果较为成熟，画面精美、逻辑完整，可以正常运行。但需要指出的是，贪吃蛇属于规则封闭类任务，需求明确且无需调用外部数据，评价标准比较明确，是智能体较擅长的应用场景。WorkBuddy在该任务中的表现只能体现在舒适区内的能力，验证了其具有一定的实用价值。

第三个任务，我们将难度提高，让它分析一个开放式复杂任务：分析AI Coding行业的商业模式演变，盘点2023年至今的发展历程，并找出行业关键转折点及核心驱动因素。

这是一个开放式复杂任务，没有统一的标准答案，成果质量取决于Agent的判断力、信息筛选能力与表达能力。

在执行层面，WorkBuddy能够自动调用多个工具，先修订执行计划、再落地推进计划，整个过程大概耗时半个小时。

但最终结果并不算惊艳，它只是搭建了一个基础框架，实际内容不够扎实。可以看出，虽然它掌握了拆解研究问题的方法，却不懂得如何将这些维度进一步提炼为有价值的研究论点。

总的来说，WorkBuddy已具备日常编码助手该有的能力，但在复杂任务的深度执行和最终交付上，还有提升空间。

自然对话：AI味明显减弱

最后，我们再来看看元宝有没有“人味”。这一轮通过两个场景来测试：闲聊对话与创意写作。

场景一：闲聊对话

官方文档中提到，Hy3 preview更能理解用户的倾诉意图，能承接用户情绪，避免说教式、模板化的回复。

实际测试下来，Hy3 preview的表现确实贴合这一定位。它没有一上来就罗列一堆建议，而是先客观分析背后的可能原因，再询问是否遇到什么事情。整体语气温和，较有分寸，有闲聊场景里的自然感。

场景二：创意写作

在这一环节中，我们设计了两个任务，考验它的叙事与表达能力。

我们先让它写一个主角全程未出场，但读者读完能清晰知道他是谁、经历了什么、为何重要的故事。

元宝交出的成品，全文逻辑自洽、叙事流畅，完成度较高，几乎读不出AI写作常见的套路感。

接着，我们再让它模仿《明朝那些事儿》的文风，撰写其他朝代的人物历史故事。

AI写作时容易将文风复刻表现为刻板的模仿，仅停留照搬行文框架，而不能吃透文章风格。但从生成结果来看，Hy3 preview文风复刻能力较强，整体符合要求。它抓住了原书通俗讲史的风格，较好地呈现了整个故事。

这一轮评测，最让人意外。整体来看，Hy3 preview在自然语言的表达上，已经摆脱了正确却无味的套路腔，能够写出可读性较高的文本。

结语

四个维度测下来，Hy3 preview给人的感觉是“稳而不惊”。

它没有在某一项上拿出碾压式的表现，但它也几乎没有明显的短板。放在整个国内大模型的排位里，它未必是最惊艳的一款，但符合能干活的实用型模型标准。

把视角拉远一点，Hy3 preview真正的意义或许并不在模型本身。

过去两年，腾讯在大模型战场上较为被动。今年1月底，马化腾在年会上公开承认，腾讯AI动作慢了。技术节奏相对较慢、没有一个能让外界记住的标杆模型，是腾讯面临的两大问题。而Hy3 preview的发布，让腾讯的AI故事有了转折点，也让腾讯有了整个生态都能用的AI模型。

目前Hy3 preview还只是一个预览版本，开源社区的反馈还在收集中，元宝、QQ、腾讯文档等产品的实际调用体验也还需要时间检验。据官方披露，后续会发布参数规模更大的模型。

但至少，腾讯AI已经开始撕掉过去两年“被动”的标签了。

声明：本文观点仅代表作者本人，绝不代表区块链头条官方赞同其观点或证实其描述。

提示：投资有风险，入市须谨慎。本资讯不作为投资理财建议。

热门快讯更多

14:14

FloorForge 正式上线：重塑 BNB Chain 资产发行与链上金融新范式

2026 年 4 月 29 日，基于 BNB Chain 构建的新一代发币与链上金融协议 FloorForge 正式上线，旨在重塑链上资产从发行、流转到价值沉淀的全周期路径，突破传统 Launchpad 的单一发行逻辑。

FloorForge 集“发币 + 交易 + 地板价 + 协议储备 + 链上借贷”于一体，通过地板价机制、独立储备池、协议自有流动性（POL）以及无清算借贷体系，为链上资产提供结构性支撑与更稳定的运行环境。

项目面向 MEME 用户、DeFi 策略参与者及项目方，构建“发行即市场”的资产系统，实现从高波动投机向结构化金融体系的升级。

上线后将于 4 月 30 日 20:00 在币安、火币及 Twitter Space 三平台同步开启 AMA 直播，现场解答核心机制，并发放 200 USDT 空投福利。

官网：floorforge.org | X：@FloorForge

利好36

利空2

18:44

单币模型失效？OLAFI三层结构或于5月上线引发新一轮关注

在Web3持续演化的背景下，单一代币模型的增长瓶颈逐渐显现。市场对更具稳定性与持续性的经济结构需求不断提升。

在此趋势下，OLAFI提出由LA、LF、GR构成的三层结构模型，通过流量承接、结构放大与价值沉淀实现功能拆分与协同运作，从而提升运行效率，增强整体经济韧性与缔造可持续性。

据悉，OLAFI计划于2026年5月正式上线，其结构化机制与多层循环设计，将为链上经济从“叙事驱动”走向“架构驱动”，为行业提供长期价值承载力的发展新路径。

利好36

利空3

09:20

《预见 Foresee》将于4月10日全球公测，开启“判断力即资产”新纪元

【2026年4月10日·哈桑特区讯】俄罗斯联邦政府立项批准、哈桑特区持牌预测平台《预见 Foresee》将于 2026年4月10日16:00（VLAT 时间）正式开启全球公测。同步时间为：MSK 09:00、CST 14:00。

据悉，《预见 Foresee》依托俄罗斯联邦政府背书及哈桑特区监管框架，底层部署于 BNB Smart Chain，以“判断力即资产”为核心理念，致力于打造新一代链上预测平台。

官方表示：“在《预见 Foresee》，判断力与影响力不再只是能力，而是可被沉淀的资产；游戏中的每一种结局，都通向价值。”

利好36

利空5

热门新闻更多>

Web3 中的游戏治理（一）: 什么是游戏治理及利与弊

头条有约第2期 | Dan：BTCC 9年追梦，乘风破浪

2020-07-08
头条有约第4期 | 黄连金：DeFi的整体生态仍在扩张

2020-09-18
头条有约第3期 | Andy：Filecoin有机会成为比肩比特币，甚至超越比特币

2020-07-15
OKEx关于开放提币功能等相关事宜的公告

2020-11-20
我校举行区块链+信用大数据高峰论坛暨福建移动-华侨大学5G联合创新实验室、华大-中盈区块链联合研究中心揭牌仪式

2020-11-04

版权声明

1、本网站刊载的所有内容，包括但不限于文字报道、图片、视频、图表、标志\标识、商标、版面设计、专栏目录与名称、内容分类标准等，均受我国相关法律及适用之国际公约中有关著作权、商标权、专利权以及或其它财产所有权法律的保护，相应的版权或许可使用权均属本网站所有。

2、未经书面授权或许可，任何媒体、网站及个人不得转载、复制、重制、改动、展示或使用界面网站的局部或全部的内容或服务。如果已转载，请自行删除。同时，我们保留进一步追究相关行为主体的法律责任的权利。

3、希望我们与之合作的各媒体，敬请签订有偿使用许可合同。

4、已经本网站授权使用的，应按照授权所约定条款使用。

5、本网站摘录或转载的属于第三方的信息，目的在于传递更多信息，并不对其真实性负责，转载信息版权属于原媒体及作者。如擅自转载使用的，法律责任自行负担。

6、凡违反上述声明者，我们必将依法追究其法律责任。

商务合作

手机:13255904767

微信:blocktop001

商务邮箱

邮箱：313004786@qq.com

企业生态

区块链头条

纷智共识机

FINWISE纷智峰会
关于我们

头条介绍

商务合作

版权声明
联系我们

0592-6600592

info@ababtc.com

厦门市湖里区

友情链接金色财经雷電財經巴比特纷智峰会西瓜财经 nft数字藏品左耳文化元宇宙投融邦

关注公众号

官方微博

闽ICP备18014082号-12 Copyright ©2021-2023 blocktop.cn | 区块链头条版权所有