Skip to content

1. Vibium:Selenium 创始人推出的 AI 与人类共用浏览器自动化框架

Selenium 创始人推出的新浏览器自动化项目 Vibium,旨在同时服务人类开发者和由 LLM 驱动的 AI agents。其 V1 版本快速上线,暴露了一个 MCP server 和一个 JS/TS 客户端 API,底层依赖 W3C 的 WebDriver BiDi 协议。原文链接

2. 原力灵机提出 GeoVLA:让机器人看懂三维世界

原力灵机 提出全新的 VLA 框架 GeoVLA,采用双流架构,在保留 VLM 语义理解能力的同时,引入专用的点云嵌入网络和空间感知动作专家,赋予机器人真正的三维几何感知能力。在真实世界的鲁棒性测试中,特别是在视角改变和物体尺度变化的极端条件下,展现出惊人的适应力。原文链接

3. TeleAI 用「反探索」提升具身推理稳定性

中国电信人工智能研究院(TeleAI)联合清华大学、中国科学技术大学团队提出名为 TACO 的创新框架,通过在模拟基准和真实机器人平台上的实验验证,将任务成功率平均提升了 16%,在长周期任务上提升高达 25%,为解决 VLA 推理的不稳定性提供了扎实的理论根基和实践方案。原文链接

4. 北航提出代码大模型的 Scaling Laws 与多语言最优配比策略

北航、人大和九坤投资共同撰写的论文建立了区分语言特性的 Scaling Laws,并据此提出了一套数学可解的最优数据配比方案。研究覆盖了从 0.2B 到 14B 的模型参数规模,以及高达 1T 的训练数据量,系统性地对七种主流语言进行了解构。原文链接

5. 阿里巴巴发布全新开源语音交互大模型 Fun-Audio-Chat

阿里云 Tongyi Fun 团队发布全新的开源语音大模型 Fun-Audio-Chat,专为实现自然、低延迟的语音交互而设计。该模型可以完成端到端的语音问答、语音理解、语音函数调用、语音指令执行与语音共情等任务,在低延迟条件下实现自然的语音交互体验。原文链接

6. 全国首个规划资源大模型“云宇星空”发布

上海市规划和自然资源局联合商汤科技发布全国规划资源领域首个基础大模型——“云宇星空大模型(专业版)”。该模型以 6000 亿参数规模,深度融合遥感影像、三维实景、规划图纸与政务文本,打造出真正懂业务、能决策、会执行的“AI城市规划师”。原文链接

7. 云知声发布山海·知医大模型 5.0

云知声 发布 山海·知医大模型 5.0,围绕临床需求展开了系统性重塑,采用“医学文本+多模态”双引擎架构。在权威医疗评测 MedBench4.0 中,斩获大语言模型、多模态模型和智能体评测“三冠王”,标志着 AI 真正走向严肃临床。原文链接

8. MiniMax 上线 M2.1 模型并开源 VIBE 基准

MiniMax 正式上线 MiniMax M2.1 模型,在 SWE-bench Multilingual 多语言评测中以 72.5% 的成绩拿下 SOTA。同时,构建并开源了全新基准 VIBE,涵盖了 Web、仿真、Android、iOS 及后端五大核心子集,并引入创新的 Agent-as-a-Verifier 范式。原文链接

9. 中兴押注 AI 手机,携手字节推“豆包手机”

中兴通讯与字节跳动联合打造“豆包手机”,并明确表示与字节的合作仅是起点,公司已收到多家大模型厂商合作邀约,正积极构建多元、开放的 AI 手机生态,主张硬件平台与大模型能力解耦,支持用户自由切换不同大模型。原文链接

10. Qwen-Image-Edit-2511 模型上线 Replicate 和 TostUI

阿里Qwen-Image-Edit-2511 模型现已上线 Replicate 平台,并可通过 DockerTostUI 上运行。该模型是 Qwen-Image-Edit-2509 的增强版本,在一致性等方面有显著改进。原文链接

每日精选 AI 前沿资讯