视觉检测领先者
全国咨询热线:13812953225
产品中心
当前位置:首页 > 产品中心

AIR 025 360 首席科学家颜水成:有关机器视觉的六个洞见

发布时间:2024-07-26 01:41:18   来源:bob平台官网入口

从飞鸟到飞机,从蝙蝠到雷达。人类对自然界的每一次致敬都能把自己带入一个新时代。而AI,恰恰是向自...

产品介绍

  从飞鸟到飞机,从蝙蝠到雷达。人类对自然界的每一次致敬都能把自己带入一个新时代。而AI,恰恰是向自然界的王者——人类——致敬。

  自从有计算机那天开始,人们就从未中断让机器拥有智慧的梦想。在这条路上,有一位广受世界学界尊重的大师,他就是来自 360 的首席科学家、国际知名计算机视觉与深度学习专家颜水成。

  他不仅在国际上领域数次引领了计算机视觉的研究方向,还进行了大量前瞻的实践,让计算机模仿婴儿大脑的运作方式,一步步观察学习这个世界。

  在 2016 CCF-GAIR 全球AI与机器人峰会上,颜水成接受了雷锋网的专访,分享了他对于AI和计算机视觉的洞见。

  特斯拉的无人驾驶技术,对于面前的路况进行图像采集之后,如果发送到云端做处理,会有明显的延时,这样等结果返回本地,往往已经错失了处理的时机,就失去了意义。

  直播业务中为主播实时加上装饰的技术,例如为主播加上虚拟的耳环。这种场景下,如果从服务器上拉回来计算结果,会有时延,由于主播在运动,所以没办法精确对位,体验就会很差。

  有的智能摄像头会提供一个功能:查看是不是有可疑人员进入监控区域。若设备销量很大,大量用户同时使用这个功能,这时如果在服务器端进行计算,就会对服务器造成很大压力。

  以上这些场景,如果将运算任务直接下发到智能设备终端上,这些瓶颈就会迎刃而解。

  但是,把运算载荷放到设备上,显然要克服诸多问题。其中最大的一个就是:终端设备的运算能力存在天花板。(由于智能设备成本有限,大多不可能配备顶级运算芯片)

  1、降低运算的精度。例如在手机端识别人脸和年龄,精确度必然难以比肩专业的识别系统。但是这种从95%到85%的精度损失,是人类能承受的。

  2、改进计算模型。当然,最好的情况是能够开发出新的更优计算模型。但是在现有模型下,也能够最终靠改进策略实现算法精简。例如颜水成带领团队研究了一些算法调整,在原有算法基础上增加了一些判断那些逻辑不用计算的策略。这样虽然看起来规则更复杂了,但是整体看来计算量是减少了。

  颜水成认为,这些策略的优化是非常有意义的,因为成本往往是实现商业化的重要因素。

  目前最主流的人工智能芯片,全部采用 GPU。但是 GPU 的体量大,耗能高,无法在手机等设备中使用。目前看来,在手机或硬件上智能使用性能稍好的 CPU。

  从目前来看,市面上还没有一款专门为端设备研发的深度学习芯片。而中国人也在试图给出在这样的领域的专用芯片。

  例如中国科学院计算技术研究所的“寒武纪”芯片,和由前百度深度学习研究院院长余凯创建的地平线机器人科技,都在试图制造这样的专用芯片。

  由于芯片生产是一个非常重的产业。一款芯片从流片到量产往往需要一年到一年半的时间,耗费数百万美元。如果无法大规模销售,那么将会造成成本无法控制。

  在成熟的芯片可用之前,用很多方法降低端芯片的运算量,不失为一个好的方法。

  当你看到一个人的照片,有关他的很多故事就会自动涌现在你的脑海里,这就是人脑的奇妙之处。

  类脑研究一直以来都是AI领域很超前的研究方向。简单来说,就是要准确掌握人脑的工作原理,在此基础之上用相同的原理设计深度学习网络。

  但是颜水成说,人脑研究领域的发展并没有想象中快。但是他非常欣赏以人脑为启发研究出来的计算模型。

  例如当一个人看到某个物体时,这个物体是不断地对视网膜进行冲击,这个信号就像流水一样,在神经的各个部位达到了一个新的平衡。

  这就像一个水管网络,在入口加压,会层层推导,造成整个网络的各个节点的压力同时改变。

  “对于大脑而言,某个图像对总系统加电信号,会导致与之相关的所有记忆和知识瞬间涌现。”

  虽然这种模型听上去很奇妙,但是在实际的方程求解方面,仍然面临重重问题。不过颜水成表示,在这个方向上,也许未来能有新的解决方法。

  目前的深度学习,无一例外需要大量的数据。例如要想让机器可以准确识别出一只狗,需要先让系统“看”成千上万只狗。但这显然和人类的学习方式不同。

  从这一点上看,“小样本”“无监督”“自学习”是人类完胜机器的方面。那么机器有没有可能实现小样本无监督学习和自学习呢?

  根据一些研究,每个小孩子最初的视觉学习都是从运动的物体开始的。婴儿就像青蛙一样只能识别运动的物体。因为物体只有运动,才能分割出眼前世界的区块。而从这里出发,才有了物体的概念。这以后才是小样本学习和自学习的过程。

  从视频切入,发现人类和机器学习的密码。这也是颜水成带领团队正在进行的工作之一。

  你有没有这样的经历。看到一个人,你确信认识 Ta,但就是想不起 Ta 的名字?

  对于不常见到的人或物体,大脑会选择把他们放置在非参数模型中;直到你常常看到这个对象,大脑才会把它转移到参数模型中;如果接下来又长时间不见面,这个对象又会被移动回非参数模型中。

  例如父母刚刚教会了小孩“马”。这时“马”就进入到了他大脑的非参数模型中,直到他有一天到了动物园,观察到新的“马”。这些样本累积到了某些特定的程度,就会使得“马”进入到了参数模型。

  这种认知模型,对于改进机器学习的架构有着重大的意义。机器的无监督学习和自学习似乎露出了一丝曙光。但是颜水成说,人类的学习远远不是这么简单,因为人的学习不仅是依靠图像,还结合了声音、语义。而在这样一些方面,研究空白很大。

  而目前科学家在视觉,语音和大数据方面,都实现了可用性比较强的人工智能。唯独在“语义理解”这个最重要和易感知的方面徘徊不前。

  究其原因,仍然是之前提到的:人类现有的语义理解实现技术和人大脑的工作架构完全不同。人对于语义的理解,不单单是建立在对方的话语本身之上,还要考虑话语环境,知识背景、情绪等等因素。这一些因素中的任何一个,目前都不能被人类科学家很好地控制。

  颜水成坦言,这方面的研究十分艰难,已经超越了他的能力范围。但也是正是专注于自己的视觉和大数据研究领域,才能专心做出更多的成绩。

  AI,这两个字母充满了神秘和浪漫的气息。这不仅代表了我们对于未知的渴望,对于创造的期待,也代表了我们对于自身智慧的无上虔诚。

  颜水成,360 首席科学家,360AI研究院院长。曾在新加坡国立大学领导机器学习与计算机视觉实验室。颜水成的主要研究领域是计算机视觉,深度学习,与多媒体分析。他的团队提出的“Network in Network” 对深度学习产生了很大的推动力,他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。