资讯

3、从图像分类任务到基于图像的多语言对话,「CV 铁三角」的研究在加强和完善 AI 视觉能力的路线下逐步迭代改善,和同期一系列工作构建起现代多模态 AI 的基础框架,进而解锁后续 AI 模型在模态融合与理解的能力,使终极的多模态「大一统」成为可能。
2025世界人工智能大会将于近日在上海举行,本次大会将聚焦800多家展商,集中发布3000余项前沿展品,覆盖大模型、AI终端、智能机器人等核心领域。近日,部分参展企业提前剧透了亮点展品,展示了他们在人工智能领域的最新成果。
自2016年AlphaGo战胜国际围棋冠军以来,人工智能(AI)领域经历了飞速的发展。从2020年发布的GPT-3到2024年的Sora,这些里程碑事件不仅展示了AI在文本生成和视频生成方面的强大能力,也标志着多模态大模型正在成为AI技术的新趋势。
在中国汽车行业的瞩目盛事——2025中国汽车论坛上,一场聚焦“智数赋能,‘智’检之道”的主题论坛于7月12日在上海嘉定精彩上演。此次论坛汇聚了众多行业精英,共同探讨智能科技如何为汽车测试及产业发展注入新动力。
这项由上海AI实验室联合清华大学、南京大学、复旦大学、香港中文大学、上海交通大学以及商汤科技共同完成的重磅研究,于2025年4月发表在计算机视觉领域的顶级会议上。感兴趣的读者可以通过GitHub开源地址https://github.com/OpenG ...
证券之星消息,根据天眼查APP数据显示建工修复(300958)新获得一项发明专利授权,专利名为“基于多模态感知的施工场地降尘与污染防控方法和系统”,专利申请号为CN202510519159.2,授权日为2025年7月18日。
2025年7月10-12日,2025中国汽车论坛在上海嘉定举办。本届论坛主题为“提质向新,智赢未来”,由“闭门峰会、大会论坛、技术领袖峰会、多场主题论坛、N场行业发布、主题参观活动”等15场会议和若干配套活动构成,各场会议围绕汽车行业热点重点话题,探 ...
在本文中,我们聚焦于注意力头的视觉偏好,提出了一种基于 OCR 任务、无需额外训练的方法,系统量化每个注意力头对视觉内容的关注程度。我们发现,只有不到 5% 的注意力头(我们称之为视觉头,Visual ...
交易成了!OpenAI前CTO初创拿到了20亿种子轮融资,成立5个月公司估值冲到120亿美元。未来几个月,这个汇聚OpenAI顶尖大佬团队,将发布首个多模态AI产品,还会开源部分组件。
MIRIX 的表现非常亮眼!在 ScreenshotVQA 这一需要深度多模态理解的挑战性基准上,MIRIX 的准确率比传统 RAG 方法高出 35%,存储开销降低 99.9%,与长文本方法相比超出 410%,开销降低 93.3%。在 LOCOMO 长对话任务中,MIRIX 以 85.4% 的成绩显著超越所有现有基线,树立了新的性能标杆。
据了解,火山引擎多模态数据湖提供的不仅是技术方案,更是企业AI化升级的战略路径。通过构建支持多模态融合处理、低门槛开发、高价值提炼的下一代数据基础设施,火山引擎正在为企业的广告精准投放、自动驾驶模型训练、游戏用户画像构建等场景提供新范式。未来,火山引擎多模态数据湖将持续开放生态能力,与企业共同探索数据驱动的业务创新引擎。
在多个 权威 基准测试中,HumanOmniV2展现了卓越性能。据公开信息显示,该模型在 Daily-Omni 数据集上的准确率达到 58.47% ,在 WorldSense 数据集上达到 47.1% ,而在阿里巴巴自研的 IntentBench 测试中更是取得了 69.33% 的优异成绩。这些数据表明,HumanOmniV2在处理日常对话、复杂场景感知以及用户意图理解方面具有显著优势。