视觉检测领先者
全国咨询热线:13812953225

对话上海交大AI研究院沈为:我相信奇点将至但更信脚踏实地

发布时间:2024-10-15 18:01:31 人气: 来源:bob平台官网入口

  曾任约翰霍普金斯大学计算机系助理研究教授。研究方向为计算机视觉、深度学习与医学影像处理,关注弱监督/无监督下图像分割等视觉识别任务。发表IEEE TPAMI、IEEE TIP、IEEE TMI、NeurIPS、CVPR等人工智能相关领域顶级期刊和会议50多篇,谷歌学术引用1万多次。担任NeurIPS 2023/2024、CVPR 2022/2023、ACCV 2022领域主席,担任SCI一区期刊Pattern Recognition编委、上海市计算机学会计算机视觉专委副主任。代表性工作获得MICCAI 2023青年科学家奖。国家优青,入选上海领军人才(海外)。

  这两年,直播间有个极具生命力的梗,叫做“你这背景太假了”。仅抖音平台的相关衍生线亿播放量。每当主播的背景效果过于震撼、艳丽,就会被网友要求“自证”,比如光脚淌水、向身后扔矿泉水瓶等。

  难分真假的吃瓜群众,之所以对自己的眼睛愈发不自信,深层原因主要在于计算机的“眼睛”越来越强大。随着图像分割算法一直在优化,直播间、视频会议里的虚拟背景,已能和人物不露破绽的丝滑衔接,为工作、娱乐带去更多沉浸体验。

  他曾在多项国家自然科学基金的项目研究中,建立起形状引导的图像分割计算机制和方法,为相关应用的发展提供了扎实的学术理论支撑。眼下,他正率领团队通过计算机视觉和深度学习,为医学影像行业赋能。

  在沈为身上,你会看到一种有趣的“对立统一”:他清醒意识到现有AI基石——计算机“冯诺依曼体系”的局限性,认为“唯有底层技术革命,才能突破现有瓶颈”。同时又愿意脚踏实地,在现有框架下,朝计算机视觉领域的最高峰持续攀登。

  专注、冷静、重理性思维,是学界人士的基本特质。但沈为与计算机视觉领域结缘,却源于一次原因不那么理性的“半路出家”。

  “我的专业主要与信号、声波、频谱打交道,这么多东西看不见摸不着。而我又是一个对画面感有期待和追求的人,小时候的很多兴趣和梦想都是源于一些有画面感的事物。”

  为了做出改变,他以专业课中的“图像处理”为跳板,在读博期间转向计算机视觉领域。他的博士生副导师,华中科技大学教授白翔为他带去了很多积极影响。

  巧合的是,白翔教授也是“半路出家”,并经历过一段很艰难的转型过程。但这没有妨碍他成为AI行业、场景文字检测与识别技术的尖端人才。白翔教授相信“兴趣的力量”,并鼓励学生参加学术竞赛与实战项目,去接触应用场景中真实的数据、算法和系统,从而有很大成效避免“闭门造车”,在研究具体问题时取得突破。

  在白翔教授的推荐下,沈为前往微软亚洲研究院实习,并得到了微软亚洲研究院高级研究员、加州大学圣地亚哥大学教授屠卓文的指点和帮助。屠卓文教授的很多工作内容,都处于学界最前沿。同时他又是一位自己上手写代码,亲力亲为的导师。在他的引领下,沈为在计算机视觉和深度学习领域继续扩展视野,积累了丰富的经验。

  2014年,已经回国任教的他开始推动“基于深度学习的边缘检测”项目,为了赶论文进度一度达到废寝忘食的程度。功夫不负有心人,一年后,相关研究成果获得全球计算机视觉顶级会议CVPR的发表,并得到学术圈广泛关注和引用。

  正是这篇论文,在某些特定的程度上推动了边缘检测的跃进发展,通过深度学习让物体与物体间的边界、杂乱背景的噪声影响得到更强区分性,解决了虚拟背景等应用不够精细、穿模的问题。

  几年后,已经在业内有所建树的沈为决定前往美国约翰斯·霍普金斯大学计算机科学系进行交流学习。也是这期间,他生命中第三位意义非凡的恩师出现了——著名物理学家史霍金的得意门生,计算机视觉学科奠基人之一的艾伦·尤尔。

  艾伦·尤尔教授致力于推动AI与医疗影像方面的应用场景相结合,以此来辅助医生提升工作效率。

  他较早预见到贝叶斯定理在计算机视觉领域的应用优势,并在“基于CT影像的早期胰腺癌诊断”项目中取得多项突破。沈为就曾参与到该项目中,并提出多项CT影像中胰腺肿瘤分割技术。

  在三位老师的影响下,沈为从一个“被画面感所吸引”的学者,成长为计算机视觉与深度学习领域的技术专家,一步步找到了自己的“人生坐标”。

  万卡集群时代的开启,让AI领域得到了不可思议的加速度。无人驾驶、ChatGPT、人形机器人、Sora、百模大战...热点频出的当下,慢慢的变多科学家与学术大牛选择下场创业,或是开辟一些离热点更近的研究方向。

  但沈为还是选留在“实验室”里,他始终认为,热点不是用来追逐的,而是应该把热点中的价值导入自己的研究方向。

  这种鲜明的长期主义特质,似乎也是从三位恩师身上传承而来。加入上海交通大学人工智能研究院以来,沈为的主要研究方向还是集中在“老本行”——图像分割与医学影像分析。

  图像分割是帮助计算机理解图像信息、提取图像数据的关键一环。小到虚拟背景,大到工业制造、无人驾驶、人形机器人,都要一直提高分割精度,才有机会完成最终落地。

  沈为现阶段的主要工作,是通过医学图像分割模型服务于医院等场景。比如,让搭载了AI算法的CT能够自主识别肺结节、肺结核、胰腺肿瘤,尤其是低对比度的病灶。在他看来,随着这些技术与硬件相结合,可以为医生提供一层“科技漏斗”,帮助医生过滤掉繁琐的工作内容,让他们有更多精力专注于诊断和施策。

  在项目合作中沈为发现,医学图像的优质数据高度依赖医生的标注,但这势必会为他们的日常工作带去干扰。为此,他尝试通过技术创新,在弱监督环境下,实现与全监督环境相当的分割精度。同时在算法中导入医生的优秀经验,让AI能够物尽其用。他的部分研究成果已经在某医疗科技巨头的产品上成功落地,为医院带去了效率提升。

  专注于本职工作的同时,沈为还积极与国家创新项目展开合作。目前,他参与了金山云和瑞金医院牵头的国家重点研发计划——虚拟手术。

  “优秀主刀医生的短缺,慢慢的变成了全球范围的待解难题。相较于其它行业,医生的培养更加耗时。尤其是主刀医生,需要大量实践机会提升经验。但每个躺在手术台上的患者,都不希望自己成为‘小白鼠’。所以年轻医生只可以通过假人、动物进行手术训练。”

  虚拟手术项目的发起,就希望构建一个还原度极高的仿真环境,通过医学影像的分割、手术场景的重建、三维器官的呈现,让医学院的学子们得到更多实操机会。

  2023年,沈为和团队的重磅研究成果“基于神经辐射场的内窥镜手术场景组织动态三维重建工作”,发表在医学影像处理顶级国际会议MICCAI上。并在2000多篇投稿论文的角逐中脱颖而出,斩获青年科学家奖,成为该奖项中的唯一华人团队。

  相信他的学术成果,能够让虚拟手术项目加速落地,从而让年轻医生尽快成长起来,承接日益增加的手术量。在沈为看来,AI在医疗影像、虚拟手术上的应用,有望解决城乡医疗资源不均衡的瓶颈。

  未来学家雷蒙德·库兹韦尔曾在《奇点临近》一书中预测,未来某个时点,高度发达的机器智能将与人类文明相互融合,对现有文明、科技体系产生巨大变革,甚至帮助人类超越生物局限性,即所谓的“AI奇点论”。

  在沈为看来,GPT、SORA的横空出世恰恰说明,未来会有更重磅的颠覆性科技突然涌现,且这个时点可能比多数人想象的还要近。但他更坚定认为,依托于冯·诺依曼底层原理的现有人工智能,无法通过扫描、存储、访问的模式产生媲美人类的机器智能,很多相关的阴谋论是杞人忧天。

  “人类思维的运行机制,和现有人工智能模型有本质区别。我们的大脑能用不到一个电灯泡的低能耗,完成人工智能需要上万瓦能耗的任务。”

  从沈为的叙事中不难推导,很多将AI与人类智商类比的说法都极不严谨。但这并不影响AI在特定领域为人类服务,只要市场参与者更加务实去扬长避短。

  以计算机视觉为例,沈为认为行业最大的痛点是“计算机视觉系统的精度无法确保100%,所以很多场景下只能发挥辅助作用。”包括当下大火的Sora,他看好其在广告营销、游戏动画、虚拟人制作等方向的发挥。但这类模型也会长期受到物理规律认知不足、AI幻觉的影响,无法在严肃场景胜任。

  “语言是人类创造的高度精炼的表达,每个单位都独立存在,具有离散性,更易生成通用模型。但自然界的图像却是连续的,所以具有通用智能的计算机视觉系统,到今天都没有被研发出来。在解决具体问题时,我们要根据应用场景去一个个打造垂直模型,未来的趋势也必然会从纯视觉转向多模态。”

  即使知道计算机视觉的“先天不足”,沈为还是选脚踏实地,用长期主义的研究态度去解决实际问题。他谈到,做研究只有才华和资源远远不足,还需要“头铁”。

  “就像深度学习三巨头,1986年就有了研究雏形,但是受限于那个硬件不成熟的年代而沉寂许久,很多年后才等到GPU的爆发。可见,有巨大影响力的研究成果,都需要不计时间成本的强大意志力来支撑。”

  虽然自己是个相信“坚持出奇迹”的学者,但他也鼓励国内有余力的团队、商业公司积极研究国外先进案例,至少能以跟随战略做到“不落后”。“GPT也好,Sora也罢,很难说未来会不会演变成卡脖子式的技术,所以应该对类似新物种保持敏感。”

在线留言

看不清?点击更换看不清?