1. Google AI Edge Gallery 登陆 iOS TestFlight
Google 发布了 Google AI Edge Gallery 的 iOS TestFlight 版本,这是一个完全在设备端运行的 LLM 模型 集合,支持图像和音频模态,无需联网即可体验大模型的强大能力。原文链接
2. NVIDIA 发布 Skip Softmax 稀疏注意力方法
NVIDIA 推出了一种硬件友好的 Skip Softmax 稀疏注意力方法,无需重新训练即可加速模型推理,可将首词生成时间(TTFT)和每词输出时间(TPOT)提升最高 1.4倍。原文链接
3. 清华与生数科技开源视频生成加速框架 TurboDiffusion
清华大学 TSAIL 实验室与生数科技联合开源 TurboDiffusion 框架,在几乎不影响生成质量的前提下,实现了最高 200倍 的视频生成推理加速,使高质量视频生成进入“秒级”时代。原文链接
4. 通义千问发布图层化图像编辑模型 QwenImage-Layered
阿里 通义千问团队发布 QwenImage-Layered 模型,引入“图层思维”进行图像编辑,实现了对图像中特定元素的零误差修改,解决了传统 AI 修图“一改全崩”的语义漂移问题。原文链接
5. 开源多图融合数据集 MICo-150K 与模型 Qwen-MICo
研究者开源了高质量多图融合数据集 MICo-150K,并基于此训练了 Qwen-MICo 模型。该模型仅用 150K 数据训练,在三图合成任务上超越了 Qwen-Image-2509,并支持最多 10张 图像的输入融合。原文链接
6. 世界模型评估新框架 WorldLens
WorldBench 团队发布了首个体系化的世界模型评估框架 WorldLens,从生成、重建、指令跟随、下游任务和人类偏好五个维度全面评测世界模型,为自动驾驶、机器人等领域的实用化落地提供了标准化评估工具。原文链接
7. 智明堂发布中医大模型 ZMT-M1 及评测基准 TCM-Eval
智明堂 联合北航等机构发布中医大模型 ZMT-M1,在国家中医执业医师资格考试模拟测试中获得 96.26分 的最佳成绩。同时推出全球首个中医大模型评测基准 TCM-Eval,包含 6000+ 高质量试题,推动行业标准化。原文链接
8. 开源知识图谱智能体平台 Yuxi-Know
开发者开源了结合 LightRAG 知识库 的 知识图谱智能体平台 Yuxi-Know。该平台基于 LangChain、Vue 和 FastAPI 构建,支持 DeepAgents、MinerU PDF、Neo4j 和 MCP,旨在降低构建智能体应用的门槛。原文链接
9. 全离线 Android AI 图像超分应用 Rendrflow
开发者发布了一款完全离线的 Android AI 图像超分应用 Rendrflow,支持 2x、4x、8x 放大,模型完全在设备端运行(支持 GPU/CPU),无需网络连接,保障用户 100% 的隐私。原文链接
10. 多模态高效推理框架 vLLM-Omni
vLLM 团队开源了 vLLM-Omni 框架,这是一个用于全模态模型高效推理的框架,旨在优化图像、音频、视频等多种模态模型的推理性能,降低部署复杂度。原文链接