资讯
展览资讯 大型展会 灯光节 大型盛典 赛事 中标捷报 产品快讯 热门话题 艺术节 活动 演出 新闻 数艺报道 俱乐部签约
观点
大咖专访 观点洞察 书籍推荐 吐槽 设计观点 企业访谈 问答 趋势创新 论文 职场方法 薪资报价 数艺专访
幕后
幕后故事 团队访谈 经验分享 解密 评测 数艺访谈
干货
设计方案 策划方案 素材资源 教程 文案资源 PPT下载 入门宝典 作品合集 产品手册 电子书 项目对接
  • 0
  • 0
  • 0

分享

AIR DISCOVER|黄思远:类人的全面三维场景理解

原创 2021-12-15

12月9日傍晚,AIR DISCOVER青年科学家论坛第五期在清华大学智能产业研究院(AIR)图灵报告厅举行。本期活动荣幸地邀请到北京通用人工智能研究院通用视觉实验室负责人黄思远博士为我们作关于《Human-like Holistic 3D Scene Understanding》(类人的全面三维场景理解)的报告。


 

报告内容


随着科技的发展和新观念的产生维场景理解技术变得越来越重要如果机器人拥有场景理解的能力那么就可以帮人类完成更多的工作一些新名词元宇宙虚拟旅行等产品的实现也都离不开维场景理解除此之外维场景理解还可以被用在其他各个行业中比如用来评估房产等等总之维场景理解技术尤其是全面的维场景理解将在我们未来的生活中甚至已经在我们目前的生活中扮演非常重要的角色

1.Human-like holistic的不同

 

目前已经成熟的维场景理解更多的是回答what”和“where”的问题即这个物体是什么以及它在哪里holistic 3D scene understanding 则是在此基础上去探索whyhowwhen”的问题这需要对图片中的物体间底层逻辑关系有更深的理解其难度也更大现有的AI具有识别能力好检测能力强对于特定任务的准确率高等优点但是不足之处在于单个小任务往往需要前期巨大规模的数据训练且表现不稳定训练方法较简单目前的AI虽然在某些能力上超过了人类但是在学习效率掌握知识的灵活度全面性泛化能力上与人类还有较大差距另外人类在其他方面也表现出AI所不具备的优势比如人类擅长在有限数据中学习多个任务在交互中学习以及人类的学习是不需要标签的等等因此human-like holistic方法结合认知科学和神经科学对于人类认知机理的研究对现有的维场景理解进行改进就像人一样AI对于周围场景主要进行四个动作感知交互学习和推理黄思远博士着重介绍了前两部分



2.感知

 

任务导向的三维场景解析和重建(Task-orinted 3d scene parsing and reconstruction):

场景的表达,可以分为基于几何空间的表达和基于功能空间的表达,在几何空间中,表达出的是物体最基本的几何特征,而在功能空间中,表达出的是人的行为、人和场景所可能产生的交互等信息。通过analysis-by-synthesis、joint inference: depth、normal、segmentation等计算方法,进行初步的对环境的快速重建,接着采用map inference\mcmc with simulated annealing 的方法进行场景的优化。实验结果显示对于体积大的物体该方法有较好的效果。



3.交互


(1)人和物体的交互:

可以想像,从单张图进行人和场景的综合重建,是十分困难的,困难在于单张图中存在的物体间的遮挡会造成很大程度的信息缺失,针对这一问题的解决方法是:借助于人和场景交互相对关系的先验知识,来弥补信息不足的问题。考虑到现实世界中采集这些数据集成本很高,可以从大型游戏比如GTAV中抽取丰富的人和场景的交互信息作为先验知识,用来做场景重建。



可供性学习(affordance learning):

可供性是一个跨越场景和跨越类别的特征,比如一把椅子,它的每个部位的可供性是不同的:椅背可以用来背靠,扶手可以用来倚靠,椅面可以用来坐。既然每个部位可供性不同,那么自然要将每个部位单独从物体中区分出来,而这也是目前的困难所在。解决这个问题的传统方法是dense supervision,即用密集监督将每个像素点进行预测,但这种方法非常复杂,且泛化能力差,提供的解决方法是sparse supervision,通过简单的三维体素和可供性标注,用稀疏的数据让AI学习出物体各个部位的可供性。



(2)人和人的交互:

让AI学习人和人的交互,似乎是件困难的事情,黄思远博士给出了三种实现的方法,它们分别是:

1.multi-agent multi-task activities understanding

利用第一视角和第三视角的双数据集,让AI学习人和人在复杂场景下如何交流,如何合作。

2.Embodied reference understanding

方向性信号往往包含着丰富的信息,该方法通过语言信息加上“指”的动作,从肢体语言和自然语言结合的角度出发,让AI学习人和人之间的交互。

3.Human-gaze communication

通过对于人的眼神交流的学习,试图理解每一种眼神所代表的意图,该方法以社交网站中大量的社交视频为数据集。

 

 

关于 DISCOVER 实验室

DISCOVER实验室是AIR科研方向的横向支撑实验室之一,旨在利用机器学习、计算机视觉、计算机图形学、机器人学、运筹学、高性能计算与人机交互等前沿技术,围绕车路协同(V2I)、用户直连制造(C2M)、实验室自动化等各应用场景,构建以感知、规划、控制与决策为核心的智能算法平台体系,结合涵盖设计、工艺、计算与人因的智能系统架构体系,研究人-机-边-云四位一体的人在环路多智能体协同系统,开展具有创新性的算法理论与系统架构研究,紧贴以制造业为主的国家重点行业需求,攻克以人为中心的场景理解、人在环路机器学习、仿真到现实迁移与柔性制造工艺等关键技术瓶颈,与产业界深入合作探索自动驾驶与柔性制造的范式转移路径并实现关键技术验证与落地,推动我国在智慧交通和智能制造领域的产业升级。



关于AIR



清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的应用研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。

AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。

智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Healthcare)是清华大学智能产业研究院的三个重点研发方向。

AIR长期招聘人工智能领域优秀科研人员
点这里关注我们,获取最新AIR信息
阅读原文

* 文章为作者独立观点,不代表数艺网立场转载须知

本文内容由数艺网收录采集自微信公众号清华大学智能产业研究院 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。

数字媒体艺术 新媒体艺术 科技艺术 作品分享 科技前沿

19591 举报
  0
登录| 注册 后参与评论