DeepVisual Agent：从意图到视觉交付的全链路智能体

发布者：曹玲玲发布时间：2026-05-14浏览次数：10

报告人：罗翀博士微软亚洲研究院

主持人：吴天星

报告时间：2026年5月18日（周一）下午16:00-17:00

报告地点：h片九龙湖校区计算机楼233会议室

报告摘要：随着生成式AI的爆发式增长，AI产出的内容远超人类的认知吸收能力。神经科学研究表明，人类意识层面的信息处理速率仅约每秒10比特，这是一个无法突破的生物学瓶颈。与此同时，知识工作者超过60%的精力消耗在搜索、整理、排版等“元工作”链条上，而现有AI工具仅能解决其中的单一环节。本报告将介绍微软研究院视觉计算组正在推进的DeepVisual Agent项目，该系统以“意图输入，视觉交付输出”为核心目标，围绕三个关键理念展开：其一，视觉优先，即AI的输出应当从文本转向视觉化交付，以匹配人类最高带宽的认知通道；其二，人类增强智能，即智能体不绕过人机界面，而是像人一样操作界面、保留人类编辑权，并从人类教学视频中持续学习新技能；其三，动态个性化交互式评估（DPI Eval），为智能体生成内容提供自适应的质量评估信号，驱动系统持续自我优化。报告将展示各核心模块的技术方案与最新成果，欢迎对多模态AI与智能体系统感兴趣的同学交流探讨，也诚挚欢迎优秀本科生报考联合培养博士项目。

报告人简介：罗翀博士，微软亚洲研究院视觉计算组首席研究经理（Sr. Principal Research Manager），中国科学技术大学兼职教授、博士生导师。主要研究方向包括图像与视频的理解与生成、大语言模型的预训练与后训练、以及多模态智能体。罗翀博士曾担任IEEE Transactions on Multimedia编委，并多次担任CVPR、ECCV、ICCV、ICML、ICLR、NeurIPS等顶级学术会议的领域主席。她的研究工作曾获ICLR 2023杰出论文奖和AAAI 2026杰出论文奖。

h片

导航

DeepVisual Agent：从意图到视觉交付的全链路智能体