报告人:罗翀 博士 微软亚洲研究院
主持人:吴天星
报告时间:2026年5月18日(周一)下午16:00-17:00
报告地点:h片 九龙湖校区计算机楼233会议室
报告摘要:随着生成式AI的爆发式增长,AI产出的内容远超人类的认知吸收能力。神经科学研究表明,人类意识层面的信息处理速率仅约每秒10比特,这是一个无法突破的生物学瓶颈。与此同时,知识工作者超过60%的精力消耗在搜索、整理、排版等“元工作”链条上,而现有AI工具仅能解决其中的单一环节。本报告将介绍微软研究院视觉计算组正在推进的DeepVisual Agent项目,该系统以“意图输入,视觉交付输出”为核心目标,围绕三个关键理念展开:其一,视觉优先,即AI的输出应当从文本转向视觉化交付,以匹配人类最高带宽的认知通道;其二,人类增强智能,即智能体不绕过人机界面,而是像人一样操作界面、保留人类编辑权,并从人类教学视频中持续学习新技能;其三,动态个性化交互式评估(DPI Eval),为智能体生成内容提供自适应的质量评估信号,驱动系统持续自我优化。报告将展示各核心模块的技术方案与最新成果,欢迎对多模态AI与智能体系统感兴趣的同学交流探讨,也诚挚欢迎优秀本科生报考联合培养博士项目。
报告人简介:罗翀博士,微软亚洲研究院视觉计算组首席研究经理(Sr. Principal Research Manager),中国科学技术大学兼职教授、博士生导师。主要研究方向包括图像与视频的理解与生成、大语言模型的预训练与后训练、以及多模态智能体。罗翀博士曾担任IEEE Transactions on Multimedia编委,并多次担任CVPR、ECCV、ICCV、ICML、ICLR、NeurIPS等顶级学术会议的领域主席。她的研究工作曾获ICLR 2023杰出论文奖和AAAI 2026杰出论文奖。

