AIR 025 360 首席科学家颜水成：有关机器视觉的六个洞见

发布时间：2024-07-26 01:41:18 来源：bob平台官网入口

从飞鸟到飞机，从蝙蝠到雷达。人类对自然界的每一次致敬都能把自己带入一个新时代。而AI，恰恰是向自...

在线咨询

产品介绍

从飞鸟到飞机，从蝙蝠到雷达。人类对自然界的每一次致敬都能把自己带入一个新时代。而AI，恰恰是向自然界的王者——人类——致敬。

自从有计算机那天开始，人们就从未中断让机器拥有智慧的梦想。在这条路上，有一位广受世界学界尊重的大师，他就是来自 360 的首席科学家、国际知名计算机视觉与深度学习专家颜水成。

他不仅在国际上领域数次引领了计算机视觉的研究方向，还进行了大量前瞻的实践，让计算机模仿婴儿大脑的运作方式，一步步观察学习这个世界。

在 2016 CCF-GAIR 全球AI与机器人峰会上，颜水成接受了雷锋网的专访，分享了他对于AI和计算机视觉的洞见。

特斯拉的无人驾驶技术，对于面前的路况进行图像采集之后，如果发送到云端做处理，会有明显的延时，这样等结果返回本地，往往已经错失了处理的时机，就失去了意义。

直播业务中为主播实时加上装饰的技术，例如为主播加上虚拟的耳环。这种场景下，如果从服务器上拉回来计算结果，会有时延，由于主播在运动，所以没办法精确对位，体验就会很差。

有的智能摄像头会提供一个功能：查看是不是有可疑人员进入监控区域。若设备销量很大，大量用户同时使用这个功能，这时如果在服务器端进行计算，就会对服务器造成很大压力。

以上这些场景，如果将运算任务直接下发到智能设备终端上，这些瓶颈就会迎刃而解。

但是，把运算载荷放到设备上，显然要克服诸多问题。其中最大的一个就是：终端设备的运算能力存在天花板。（由于智能设备成本有限，大多不可能配备顶级运算芯片）

1、降低运算的精度。例如在手机端识别人脸和年龄，精确度必然难以比肩专业的识别系统。但是这种从95%到85%的精度损失，是人类能承受的。

2、改进计算模型。当然，最好的情况是能够开发出新的更优计算模型。但是在现有模型下，也能够最终靠改进策略实现算法精简。例如颜水成带领团队研究了一些算法调整，在原有算法基础上增加了一些判断那些逻辑不用计算的策略。这样虽然看起来规则更复杂了，但是整体看来计算量是减少了。

颜水成认为，这些策略的优化是非常有意义的，因为成本往往是实现商业化的重要因素。

目前最主流的人工智能芯片，全部采用 GPU。但是 GPU 的体量大，耗能高，无法在手机等设备中使用。目前看来，在手机或硬件上智能使用性能稍好的 CPU。

从目前来看，市面上还没有一款专门为端设备研发的深度学习芯片。而中国人也在试图给出在这样的领域的专用芯片。

例如中国科学院计算技术研究所的“寒武纪”芯片，和由前百度深度学习研究院院长余凯创建的地平线机器人科技，都在试图制造这样的专用芯片。

由于芯片生产是一个非常重的产业。一款芯片从流片到量产往往需要一年到一年半的时间，耗费数百万美元。如果无法大规模销售，那么将会造成成本无法控制。

在成熟的芯片可用之前，用很多方法降低端芯片的运算量，不失为一个好的方法。

当你看到一个人的照片，有关他的很多故事就会自动涌现在你的脑海里，这就是人脑的奇妙之处。

类脑研究一直以来都是AI领域很超前的研究方向。简单来说，就是要准确掌握人脑的工作原理，在此基础之上用相同的原理设计深度学习网络。

但是颜水成说，人脑研究领域的发展并没有想象中快。但是他非常欣赏以人脑为启发研究出来的计算模型。

例如当一个人看到某个物体时，这个物体是不断地对视网膜进行冲击，这个信号就像流水一样，在神经的各个部位达到了一个新的平衡。

这就像一个水管网络，在入口加压，会层层推导，造成整个网络的各个节点的压力同时改变。

“对于大脑而言，某个图像对总系统加电信号，会导致与之相关的所有记忆和知识瞬间涌现。”

虽然这种模型听上去很奇妙，但是在实际的方程求解方面，仍然面临重重问题。不过颜水成表示，在这个方向上，也许未来能有新的解决方法。

目前的深度学习，无一例外需要大量的数据。例如要想让机器可以准确识别出一只狗，需要先让系统“看”成千上万只狗。但这显然和人类的学习方式不同。

从这一点上看，“小样本”“无监督”“自学习”是人类完胜机器的方面。那么机器有没有可能实现小样本无监督学习和自学习呢？

根据一些研究，每个小孩子最初的视觉学习都是从运动的物体开始的。婴儿就像青蛙一样只能识别运动的物体。因为物体只有运动，才能分割出眼前世界的区块。而从这里出发，才有了物体的概念。这以后才是小样本学习和自学习的过程。

从视频切入，发现人类和机器学习的密码。这也是颜水成带领团队正在进行的工作之一。

你有没有这样的经历。看到一个人，你确信认识 Ta，但就是想不起 Ta 的名字？

对于不常见到的人或物体，大脑会选择把他们放置在非参数模型中；直到你常常看到这个对象，大脑才会把它转移到参数模型中；如果接下来又长时间不见面，这个对象又会被移动回非参数模型中。

例如父母刚刚教会了小孩“马”。这时“马”就进入到了他大脑的非参数模型中，直到他有一天到了动物园，观察到新的“马”。这些样本累积到了某些特定的程度，就会使得“马”进入到了参数模型。

这种认知模型，对于改进机器学习的架构有着重大的意义。机器的无监督学习和自学习似乎露出了一丝曙光。但是颜水成说，人类的学习远远不是这么简单，因为人的学习不仅是依靠图像，还结合了声音、语义。而在这样一些方面，研究空白很大。

而目前科学家在视觉，语音和大数据方面，都实现了可用性比较强的人工智能。唯独在“语义理解”这个最重要和易感知的方面徘徊不前。

究其原因，仍然是之前提到的：人类现有的语义理解实现技术和人大脑的工作架构完全不同。人对于语义的理解，不单单是建立在对方的话语本身之上，还要考虑话语环境，知识背景、情绪等等因素。这一些因素中的任何一个，目前都不能被人类科学家很好地控制。

颜水成坦言，这方面的研究十分艰难，已经超越了他的能力范围。但也是正是专注于自己的视觉和大数据研究领域，才能专心做出更多的成绩。

AI，这两个字母充满了神秘和浪漫的气息。这不仅代表了我们对于未知的渴望，对于创造的期待，也代表了我们对于自身智慧的无上虔诚。

颜水成，360 首席科学家，360AI研究院院长。曾在新加坡国立大学领导机器学习与计算机视觉实验室。颜水成的主要研究领域是计算机视觉，深度学习，与多媒体分析。他的团队提出的“Network in Network” 对深度学习产生了很大的推动力，他的团队在五年内曾7次问鼎计算机视觉领域“World Cup”竞赛 PASCAL VOC 和 ILSVRC的世界冠军和亚军奖项。

上一篇：SIAF 康耐视带来高效、稳定、数字化锂电制造检测解决方案下一篇：电池办理体系概念企业名单大盘点！（20241212）