中国计算机学会-多媒体技术专委会

走进永利集团3044am官方入口系列报告会

时间:2022年6月25日（星期六）14:00—18:00

腾讯会议：会议号486-391-980

系列报告一:视觉特征学习及应用

报告讲者：刘青山教授（南京信息工程大学）

报告摘要：人工智能就是让机器能像人一样，具有“能看、能说、能想等功能。图像理解的研究目标就是让机器能像人一样自动“看懂”外部环境，因此是人工智能领域的一个重要研究方向。成像技术的快速发展和互联网技术的普及等，给图像理解研究带来了许多新的挑战。本次报告将重点从视觉特征学习的角度，结合遥感图像分析等应用，汇报团队近年来的一些研究进展。

系列报告二:视觉-语言相互生成技术

报告讲者：彭宇新教授（北京大学）

报告摘要：随着深度学习等技术的发展，计算机在图像分类、对象识别等任务中取得了接近甚至超越人类的成绩，但如何赋予人工智能具有突破固定规则的“创意”，使人工智能从“感知智能”迈向“认知智能”是计算机视觉领域的重要任务。视觉-语言相互生成技术旨在使计算机能够根据用户给定的输入进行“联想”与“创造”，能够根据图像、视频等视觉内容自动生成一段自然语言描述，实现视觉到语言生成；或者根据一段自然语言描述从无到有地自动生成语义一致、内容真实、符合逻辑的图像、视频、3D图形，实现语言到视觉生成。这是人工智能实现 “认知智能”的一项重要任务，在教育、设计、影视、创作等领域具有重要的应用价值。本报告将介绍我们在视觉-语言相互生成技术上的研究工作：在视觉到语言生成上，提出对象感知双向图和层次化视觉-语言对齐等方法，通过视频时空信息建模和语义一致性建模，实现准确的视频描述生成。在文本到视觉生成上，提出对称蒸馏网络等方法，将相关视觉任务中的语义知识迁移至生成任务中，提高图像与视频生成的质量。最后展示相关的演示系统。

系列报告三:食品计算

报告讲者：蒋树强研究员（中科院计算所）

报告摘要：物联网、社交网、互联网等泛在网络空间的繁荣发展产生了海量食品大数据，其在农业、食品工业和服务业等诸多传统领域，及食品安全和生命健康等社会生活的诸多方面蕴含着广阔应用前景和巨大社会价值，从而推动面向食品的多媒体分析技术的迅速发展，并逐渐形成“食品计算”这一新兴研究方向。食品计算采用计算方法综合分析和处理食品领域的文本、图像、视频等不同类型的媒体信息，以期对食品科学、农学和生物学等食品相关领域的研究和应用提供信息化和智能化的支持。本次报告围绕食品计算，从食品图像多粒度分析和营养评估、食品知识图谱构建和推荐等方面介绍相关研究成果，并对未来食品计算的发展进行了展望。

系列报告四:多模态分析与生成

报告讲者：刘偲教授（北京航空航天大学）

报告摘要：我将介绍本人以下四方面的最新工作。1）人-物关系检测和分割。其中，人-物关系分割其中是新任务。该任务旨在预测人体与周围实体之间的关系，人和实体均以像素级掩码的形式进行表达。2）图像视频分割，以及语言指导的图像视频分割。后者是指给定自然语言表达式和图像/视频，生成语言表达对应的实体的像素级掩码。3）主动感知：需要根据语言指令导航到远程对象并对其进行定位。4）人工智能+艺术：包括视频自动配乐，语言指导的图像美化以及细节保持的妆容迁移。

欢迎广大师生届时参加！

永利集团3044am官方入口

宁夏大数据与人工智能省部共建协同创新中心

联合承办

2022年6月20日

上一条：信息论坛第三十四场学术报告

下一条：信息论坛第三十二场学术报告