与机器人视觉有很多的相似之处,两者的基本理论框架、底层理论、算法等是相似的,但与机器人视觉研究的最终目的不同:前者主要研究视觉检验,精度要求高,速度不是主要考虑的问题;而机器人视觉主要研究在视觉引导下机器人对环境的作用,有实时性的要求。
计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。但在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某一些程度的智能完成一定的任务。(这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不代表计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理、指导。)
视觉研究是在Roberts之前都是基于二维的,而且多数是采用模式识别的方法完成分类工作的。Roberts首先用程序成功地对三维积木世界进行解释,在之后类似的研究中,Huffman。Clowes以及Waltz等人对积木世界进行了研究并分别解决了由线段解释景物和处理阴影等问题。积木世界的研究反映了视觉早期研究中的一些特点,即从简化的世界出发进行研究。这些工作对视觉研究的发展起了推动作用,但对于稍微复杂的景物便难以奏效。
20世纪70 年代中期,以Marr,Barrow和Tenebaum等人为代表的一些研究者提出了一整套视觉计算的理论来描述视觉过程,其核心是从图像恢复物体的三维形状。在视觉研究的理论上,以Marr的理论影响最为深远。其理论强调表示的重要性,提出要从不一样的层次去研究信息处理的问题。对于计算理论和算法实现,他又特别强调计算理论的重要性。这一框架虽然在细节上甚至在主导思想上还存在不完备的方面,许多方面还有很多争议,但至今仍是目前计算机视觉研究的基本框架。
进入80年代中后期,随着移动式机器人等的研究,视觉研究与之密切结合,大量引入了空间几何的方法和物理知识,其主要目标是实现对道路和障碍的识别处理。这一时期引入主动视觉的研究方法,使用了距离传感器,并采用了多传感器融合等技术。
世界各国的研究者们按照Marr提出的基本理论框架,对计算机视觉系统的各个研究层次进行了大量的研究,并提出了相应的解决办法,但总的来讲,这一些方法都存在着一些问题,或缺乏通用性,或抗干扰能力差,或存在多解性,其原因见下:一是计算机视觉是一个逆问题,即输入图像为二维图像的灰度,它是三维物体几何特征、光照、物体材料表面性质、物体的颜色、摄像机参数等许多因素的函数。由灰度反推以上各种参数是逆问题,而这样一些问题大都是非线形的,问题的解不具有唯一性,而且对噪声或离散化引起的误差都极其敏感;另一个原因是Marr的视觉系统框架是一个自上而下的、模块的、单向的、数据驱动型的结构。神经生理学的深入研究表明,这种结构与人的视觉系统还有很大差距,生物视觉系统的认知过程是一种与外界交互作用的有目的、主动性过程,而不单单是一种被动式的反应。
机器人视觉系统是指用计算机来实现人的视觉功能,也就是用计算机来实现对客观的三维世界的识别。2.机器人视觉主要研究用计算机来模拟人的视觉功能从客观事物的图像中提取信息,做处理并加以理解,最终用于实际检验测试、测量和控制。
人类视觉系统的感受部分是视网膜,它是一个三维采样系统。三维物体的可见部分投影到视网膜上,人们按照投影到视网膜上的二维成像来对该物体进行三维理解。如果把三维客观世界到二维投影像看作是一种正变换的话,则机器视觉系统所要做的是从这种二维投影图像(灰度阵列)到三维客观世界的逆变换,也就是根据这种二维投影图像去重建三维的客观世界。
机器人视觉系统按其发展可分为三代。第一代机器人视觉的功能一般是按规定流程对图像做处理并输出结果。这种系统一般由普通数字电路搭成,大多数都用在平板材料的缺陷检验测试。第二代机器人视觉系统一般由一台计算机,一个图像输入设备和结果输出硬件构成。视觉信息在机内以串行方式流动,有一定学习能力以适应任何新情况。第三代机器人视觉系统是目前国际上正在开发使用的系统。采用高速图像处理芯片,并行算法,具有高度的智能和普通的适应性,能模拟人的高度视觉功能。
计算机视觉与机器人视觉有很多的相似之处,两者的基本理论框架、底层理论、算法等是相似的,但计算机视觉与机器人视觉研究的最终目的不同:前者主要研究视觉检验,精度要求高,速度不是主要考虑的问题;而机器人视觉主要研究在视觉引导下机器人对环境的作用,有实时性的要求。因此机器人视觉研究存在更多的困难。
国外机器视觉系统应用于很多方面,如用于海洋石油开采,海底勘查的水下机器人;用于医疗外科手术及研究的医用机器人;帮助人类了解宇宙的空间机器人;完成特殊任务的核工业机器人等。虽然我国在机器视觉方面的发展与世界领先水平相比还有一定差距,但机器视觉系统的研制工作也取得了一定的成果。我国视觉机器人应用主要有以下目的:用以代替人类从事危险、有害和恶劣环境、超净环境下的工作;把人从肮脏、繁重的劳动中解放出来;提高劳动生产率,改善产品质量,快速响应市场要求,加强在国际市场的竞争能力。
2.如何有效地构造和组织出可靠的识别算法,并且顺利地实现。这期待着高速的阵列处理单元,以及算法(如神经网络法、小波变换等算法)的新突破,这样就可以用极少的计算量高度地并行实现功能。
3.实时性是一个难以解决的重要问题。图像采集速度较低以及图像处理要比较长时间给系统带来明显的时滞,此外视觉信息的引入也明显增大了系统的计算量,例如计算图像雅可比矩阵、估计深度信息等等。图像处理速度是影响视觉系统实时性的主要瓶颈之一。
4.稳定性是所有控制管理系统首先考虑的问题,对于视觉控制管理系统,无论是基于位置、基于图像或者混合的视觉伺服方法都面临着如下问题:当初始点远离目标点时,如何保证系统的稳定性,即增大稳定区域和保证全局收敛;为了尽最大可能避免伺服失败,如何保证特征点始终处在视场内。
1.图像特征的选择问题。视觉伺服的性能密切依赖于所用的图像特征,特征的选择不仅要考虑识别的指标,还应该要考虑控制指标。从控制的观点看,用冗余特征可抑制噪声的影响,提高视觉伺服的性能,但又会给图像处理增加难度。因此如何明智的选择性能最优的特征,怎么样处理特征以及如何评价特征,都是要进一步研究的问题。针对任务有时在大多数情况下要从一套特征切换到另一套,可优先考虑把全局特征与局部特征结合起来。
2.结合计算机视觉及图像处理的研究成果,建立机器人视觉系统的专用软件库。
3.加强系统的动态性能研究。目前的研究多集中于根据图像信息确定期望的机器人运动这一环节上,而对整个视觉伺服系统的动态性能缺乏研究。
5.利用主动视觉的成果。主动视觉是当今计算机视觉和机器人视觉研究领域中的一个热门课题。它强调的是视觉系统与其所处环境之间的交互作用能力。与传统的通用视觉不同,主动视觉强调两点,一是认为视觉系统应具有主动感知的能力,二是认为视觉系统应基于一定的任务(TaskDirected)或目的(PurposiveDirected)。主动视觉认为在视觉信息获取过程中,应更主动地调整摄像机的参数,如方向、焦距、孔径等并能使摄像机迅速对准感兴趣的物体。更一般地,它强调注视机制(AttenTIon),强调对分布于不同空间范围和时间段上的信号采用不一样的分辨率有选择性地感知,这种主动感知既可在硬件层上通过摄像机物理参数的调整实现,也可以在基于被动摄像机的前提下,在算法和表示层上通过对已获得的数据有选择性地处理实现。同时,主动视觉认为不基于任何目的的视觉过程是毫无意义的,必须将视觉系统与具有的目的(如导航、识别、操作等)相联系,从而形成感知/作用环(PercepTIon/AcTIonCycle)。
6.多传感器融合问题。视觉传感器具有一定的应用限制范围,如能有效地结合其它传感器,利用它们之间性能互补的优势,便可以消除不确定性,取得更加可靠、准确的结果。