2026 年 6 月 23 日 星期二
  • 登录
  • 注册
周天财经
广告
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金
没有结果
查看所有结果
周天财经
没有结果
查看所有结果
首页 黄金

百川发布新一代医疗增强大模型 M4:登顶 HealthBench

2026 年 6 月 23 日
在 黄金
阅读时间: 1 min read
阅读:865
A A

【TechWeb】6 月 22 日消息,近日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。从 M1 到 M4,百川始终在做同一件事:让模型跨过 「会答题」 与 「会看病」 之间那道最难的坎。

在 OpenAI 提出的权威医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,领先达 15.9 分。事实性幻觉率降至 3.3%,为全行业最低——同口径下,GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度。

M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。一位用户深夜脚痛,打开产品后配合完成了十轮问询:哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围,怀疑为急性痛风,建议其前往医院风湿免疫科就诊,并将病史与症状整理成一张问诊卡。到院后,他将卡片出示给医生,经二次问询和检查,确诊为痛风。

百川借鉴医学教育中长期使用的 OSCE(客观结构化临床考试) 方法,联合 150 多位一线医生,构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中,M4 初诊 79.0、复诊 74.7,均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另外,M4 这一代推出的 「全病程记忆」 打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,较上一代 M3 提升 21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况,它给出的判断便不再是套用一份通用答案,而是因人而异、贴合其自身情况,这正是精准医疗的前提。

百川首创的"证据锚定"要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落,而不只是标注引自哪篇文献。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。M4 在此之上,把权威指南、专家共识与真实诊疗流程,进一步拆解为标准化、可复用的临床路径单元,目前已超过 1000 个、覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,GPT-5.5 为 54.7,OpenEvidence 为 55.9。

M 系列模型是医疗 Agent 的大脑,它是调度这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成,违规的工具调用、越权的数据访问、不合临床规范的操作,都会被当场拦下。这套系统是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4 从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。

 

 

广告

【TechWeb】6 月 22 日消息,近日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。从 M1 到 M4,百川始终在做同一件事:让模型跨过 「会答题」 与 「会看病」 之间那道最难的坎。

在 OpenAI 提出的权威医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,领先达 15.9 分。事实性幻觉率降至 3.3%,为全行业最低——同口径下,GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度。

M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。一位用户深夜脚痛,打开产品后配合完成了十轮问询:哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围,怀疑为急性痛风,建议其前往医院风湿免疫科就诊,并将病史与症状整理成一张问诊卡。到院后,他将卡片出示给医生,经二次问询和检查,确诊为痛风。

百川借鉴医学教育中长期使用的 OSCE(客观结构化临床考试) 方法,联合 150 多位一线医生,构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中,M4 初诊 79.0、复诊 74.7,均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另外,M4 这一代推出的 「全病程记忆」 打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,较上一代 M3 提升 21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况,它给出的判断便不再是套用一份通用答案,而是因人而异、贴合其自身情况,这正是精准医疗的前提。

百川首创的"证据锚定"要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落,而不只是标注引自哪篇文献。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。M4 在此之上,把权威指南、专家共识与真实诊疗流程,进一步拆解为标准化、可复用的临床路径单元,目前已超过 1000 个、覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,GPT-5.5 为 54.7,OpenEvidence 为 55.9。

M 系列模型是医疗 Agent 的大脑,它是调度这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成,违规的工具调用、越权的数据访问、不合临床规范的操作,都会被当场拦下。这套系统是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4 从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。

 

 

Related articles

6 月 10 日洛阳钼业股票下跌 1.52%

2026 年 6 月 23 日

6 月 10 日金市晚评:炸了!美国 CPI 超预期!黄金崩跌 70 美元空头剑指 4100

2026 年 6 月 22 日

【TechWeb】6 月 22 日消息,近日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。从 M1 到 M4,百川始终在做同一件事:让模型跨过 「会答题」 与 「会看病」 之间那道最难的坎。

在 OpenAI 提出的权威医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,领先达 15.9 分。事实性幻觉率降至 3.3%,为全行业最低——同口径下,GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度。

M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。一位用户深夜脚痛,打开产品后配合完成了十轮问询:哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围,怀疑为急性痛风,建议其前往医院风湿免疫科就诊,并将病史与症状整理成一张问诊卡。到院后,他将卡片出示给医生,经二次问询和检查,确诊为痛风。

百川借鉴医学教育中长期使用的 OSCE(客观结构化临床考试) 方法,联合 150 多位一线医生,构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中,M4 初诊 79.0、复诊 74.7,均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另外,M4 这一代推出的 「全病程记忆」 打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,较上一代 M3 提升 21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况,它给出的判断便不再是套用一份通用答案,而是因人而异、贴合其自身情况,这正是精准医疗的前提。

百川首创的"证据锚定"要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落,而不只是标注引自哪篇文献。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。M4 在此之上,把权威指南、专家共识与真实诊疗流程,进一步拆解为标准化、可复用的临床路径单元,目前已超过 1000 个、覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,GPT-5.5 为 54.7,OpenEvidence 为 55.9。

M 系列模型是医疗 Agent 的大脑,它是调度这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成,违规的工具调用、越权的数据访问、不合临床规范的操作,都会被当场拦下。这套系统是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4 从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。

 

 

广告

【TechWeb】6 月 22 日消息,近日,百川智能与清华大学研究团队联合发布新一代医疗增强大模型 Baichuan-M4——它在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,全面超越 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro,幻觉率低至 3.3%。从 M1 到 M4,百川始终在做同一件事:让模型跨过 「会答题」 与 「会看病」 之间那道最难的坎。

在 OpenAI 提出的权威医疗评测 HealthBench 上,M4 综合得分 68.6,位列世界第一,领先第二名 GPT-5.5 超过 10 分;在最考验复杂临床决策的 Hard 子集上,领先达 15.9 分。事实性幻觉率降至 3.3%,为全行业最低——同口径下,GPT-5.5 为 3.8%、Claude Opus 4.7 为 6.9%、DeepSeek-V4-Pro 高达 9.8%。这些分数指向的不是考试能力,而是四项贴着临床走的核心能力:问诊、记忆、循证、调度。

M4 会主动追问症状的性质与诱因,优先识别和排查危急重症,而不是被动等待用户提供完整信息,更不会为了尽快给出答案而跳过该问的关键病史。一位用户深夜脚痛,打开产品后配合完成了十轮问询:哪个脚趾、疼了多久、有无外伤、近期是否饮酒、既往血尿酸是否偏高。M4 逐步缩小范围,怀疑为急性痛风,建议其前往医院风湿免疫科就诊,并将病史与症状整理成一张问诊卡。到院后,他将卡片出示给医生,经二次问询和检查,确诊为痛风。

百川借鉴医学教育中长期使用的 OSCE(客观结构化临床考试) 方法,联合 150 多位一线医生,构建了动态问诊评测体系 SCAN-bench。它不考查静态记忆,而是以真实临床经验为评分标准,通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。在这套评测中,M4 初诊 79.0、复诊 74.7,均明显领先 GPT-5.5、DeepSeek-V4-Pro 和 Claude Opus 4.7。

另外,M4 这一代推出的 「全病程记忆」 打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。在长上下文临床记忆评测中,M4 取得 86.9 分,为同类最高,较上一代 M3 提升 21.1 分。而记得住只是基础——当模型真正掌握了一个人的完整病史与身体状况,它给出的判断便不再是套用一份通用答案,而是因人而异、贴合其自身情况,这正是精准医疗的前提。

百川首创的"证据锚定"要求模型生成的每一句医学结论,都精确对应到原始论文或指南中的具体段落,而不只是标注引自哪篇文献。依托六源循证范式,模型只在权威医学来源中检索,不从开放网络抓取资料。M4 在此之上,把权威指南、专家共识与真实诊疗流程,进一步拆解为标准化、可复用的临床路径单元,目前已超过 1000 个、覆盖 200 余种疾病,每一条都由资深临床专家定义和校验。在百川构建的循证医学评测 Baichuan-EBM 上,M4 的循证引用精度达到 90.0,GPT-5.5 为 54.7,OpenEvidence 为 55.9。

M 系列模型是医疗 Agent 的大脑,它是调度这个大脑的中枢神经:何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令。面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成,违规的工具调用、越权的数据访问、不合临床规范的操作,都会被当场拦下。这套系统是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。问诊、记忆、循证由此被编排成一个完整的整体,M4 从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。

 

 

相关 文章

6 月 10 日洛阳钼业股票下跌 1.52%

来自 周天财经
2026 年 6 月 23 日
0

2026 年 6 月 10 日洛阳钼业 (60399...

6 月 10 日金市晚评:炸了!美国 CPI 超预期!黄金崩跌 70 美元空头剑指 4100

来自 周天财经
2026 年 6 月 22 日
0

北京时间周三 (6 月 10 日) 欧洲时段,美元...

成立15周年之际荣膺2026年世界杯官方授权商 Kika Tech的IP版图再落一子

成立 15 周年之际荣膺 2026 年世界杯官方授权商 Kika Tech 的 IP 版图再落一子

来自 周天财经
2026 年 6 月 22 日
0

全球领先的 AI 驱动输入法和人机交互企业 K...

今日紫金矿业股票行情 (2026 年 6 月 10 日)

来自 周天财经
2026 年 6 月 22 日
0

2026 年 6 月 10 日紫金矿业 (60189...

豆包APP灰测打车功能 由曹操出行提供服务

豆包 APP 灰测打车功能 由曹操出行提供服务

来自 周天财经
2026 年 6 月 22 日
0

【TechWeb】6 月 22 日消息,继布局...

加载更多
广告
  • 热门
  • 评论
  • 最新
神马经典投研: 集资讯、策略、研报一站式期货投研工具

神马经典投研: 集资讯、策略、研报一站式期货投研工具

2025 年 11 月 7 日
「我们也深陷残酷价格战」,德资巨头中国区高管警告

「我们也深陷残酷价格战」,德资巨头中国区高管警告

2025 年 8 月 4 日
一周产业基金|上海市人工智能CVC基金发布;湖北百亿人形机器人母基金来了

一周产业基金|上海市人工智能 CVC 基金发布;湖北百亿人形机器人母基金来了

2025 年 8 月 4 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

基民懵了!这个火爆的板块年内涨超 37%,主力却借道 ETF 狂抛逾 400 亿元

2025 年 9 月 20 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

4
Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

3
Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

2
Lesson 1: Basics Of Photography With Natural Lighting

New Cryptocurrency That Will Kill Of Bitcoin

2
OpenAI 决定靠卖广告养 AI

OpenAI 决定靠卖广告养 AI

2026 年 6 月 23 日
业绩四连降、募投项目进展缓慢,键邦股份拟不超3.2亿跨界设备自动化|并购一线

业绩四连降、募投项目进展缓慢,键邦股份拟不超 3.2 亿跨界设备自动化|并购一线

2026 年 6 月 23 日
三大指数集体上涨,沪指半日收涨0.18%

三大指数集体上涨,沪指半日收涨 0.18%

2026 年 6 月 23 日

「红利+」 策略指数集体回调,红利 ETF 易方达 (515180) 连续 3 日 「揽金」 合计约 3 亿元

2026 年 6 月 23 日
  • 隐私政策
  • 联系我们
  • 关于周天
  • 登录
  • 注册
投诉建议:+86 13326565461

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

没有结果
查看所有结果
  • 首页
  • 24 小时
  • 世界
  • 商业
  • 基金
  • 期货
  • 股票
  • 行业新闻
  • 黄金

© 2025 广州小舟天传媒有限公司 by 周天财经 - 粤 ICP 备 2025452169 号-1

欢迎回来!

在下面登录您的帐户

忘记密码? 注册

创建新帐户!

填写以下表格进行注册

所有项目需要填写。 登录

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录

用户登录

还没有账号?立即注册

用户注册

已有账号?立即登录