如今,科学家与企业家、实验室与办公室、科研与创业等不相同的领域的代名词正在悄然融合。而近十年,随着“硬科技”浪潮的涌动,以科学家为创始人或创始小组成员的硬科技创业,有望成为继模式创新和平台经济之后的创投界“新宠”。这十年间,从上海到华东再到全国,我们正真看到,科学家创业正走向“黄金时代”。
本次系列专题聚焦科学家创业,探讨了科学家创业当前面临的挑战与困境,旨在为上海打造成为有利于科技成果转化的创新沃土提供理论支持,让向新而行的赛道上涌现更多科学企业家,助力硬科技“跑赢”突围赛。
从实验室里的理论研究,到产业化的艰难推进,再到在市场化浪潮中的激烈博弈,在坚守机器人工学与仿生视觉研究的三十余年里,无论外界风云如何变幻,张晓林始终没有办法冷却心中那团炽热的火焰——让机器像人一样“看见”世界。
曾担纲中国科学院上海微系统与信息技术研究所(以下简称中国科学院上海微系统所)仿生视觉系统实验室主任的张晓林以深厚的学术造诣引领科研方向,而后创立安徽爱观视觉科技有限公司(原上海爱观视觉科技有限公司),以果敢的商业魄力推动科技成果转化。从眼球运动数学模型这一关键难题的攻克,到全球首款可动、可对焦、可变焦的双目立体视觉系统的问世,再到多模态融合感知AI芯片“晓晰X1”的诞生,每个阶段都凝聚着张晓林团队的智慧与心血。
2024年,在中国人形机器人生态大会、中国(上海)国际技术进出易会等备受科技界瞩目的舞台上,张晓林团队研发的人形机器人“小黑”惊艳亮相。据悉,“小黑”搭载了六自由度仿生眼,能够灵动地与人类进行“眼神交流”。这一突破性成果再次将张晓林团队推到行业聚光灯下,引发了社会各界的广泛关注。
本期对话栏目,我们有幸走近这位仿生视觉领域的“拓荒者”,聆听他跨越学术与产业的仿生视觉探索之路。
A:1986年,我前往日本横滨国立大学留学,主攻产业机器人控制方向,尤其是机器视觉控制这一细分领域。伴随日本回归生物脑研究热潮的兴起,1995年,东京医科齿科大学公开招聘机器视觉背景的工科人才参与生理学研究项目。我凭借在机器人和机器视觉领域积累的丰富经验,尤其是在焊接机器人、点胶机器人方面取得的成果,顺利通过选拔,成为该校当时唯一的外籍文部教官(即助教),由此正式开启生理学研究之路。
当时,人眼是生理学领域极具研究难度的对象之一,特别是人眼共轭运动(双眼同向运动)与辐辏运动(两眼在注视近物时,视轴向鼻侧会聚的运动)之间有的运动学特性的差异,一度缺乏统一的理论解释。于是,我和团队尝试构建生理学模型和数学模型,以深入探索人眼的特性,并由此开始将研究方向锁定在仿生视觉领域。
(我们团队)当时构建的模型最初被应用于大脑疾病的检测,是因为眼睛的运动与大脑的活动紧密关联。通过观察眼睛运动的不正常的情况,我们也可以反向推断出大脑的病变部位。后来,我们得知这些模型还能应用于机器人领域,便开始着手研发机器人。因为医科大学缺乏相关研究资源,一切只能靠自己摸索。我们原本预计半年完成的任务,最终耗费三年时间才完成。值得庆幸的是,在第一代机器人研发成功后,我们获得了业界的广泛关注与认可。
Q2:在推动产业化方面,您和团队目前研发的产品主要有哪些?又取得了哪些技术突破?
A:在产品研制方面,我和团队目前聚焦于视觉AI(人工智能)芯片和人形机器人两个领域。2023年,我们推出了“晓晰X1”芯片。这款芯片将算力集中在“脑干”,与市面上已有的将算力集中于“大脑皮层”的类脑芯片存在本质区别。从生物学的角度看,脑干是大脑最原始且最关键的部分之一,许多生物即便没有大脑皮层,仅依靠脑干也能生存并进行基本的思考活动。在人体中,所有的信息都依赖脑干进行整合,再传输到大脑做处理,最后由脑干根据大脑发出的指令控制身体各部位。2024年,我们推出了人形机器人“小黑”,它搭载了六自由度仿生眼睛,能轻松实现人眼具备的大部分视觉和运动功能。这款装置不仅在外观上更接近于人眼,还突破了传统固定双目相机外参不能有任何变动的限制。它可以像人类一样,对周围环境进行立体感知,在被叫名字时,它也能转动头部寻找声音源头并与对方完成眼神交流。
在技术突破方面,我们在全世界内首创了仿生双眼技术,也是当前国际上唯一实现可动双目立体视觉系统的开发团队。我们不仅解决了轴眼标定、虚拟平行视差等双目立体视觉的瓶颈问题,还基于深度学习技术在视觉图像信息处理领域的深厚技术积累,在三维重建、定位导航等方面取得了一系列技术突破。
Q3:您和团队研究的仿生双眼从模型阶段到产品化过程中经历了哪些难题,又是怎么克服的?
A:2010年前后,电影《阿凡达》采用的3D拍摄技术引发了全球的广泛关注。事实上,在3D拍摄中,两台摄像机的位置必须与人眼完全一致,否则观众在观影时就易产生眩晕感。当时的3D拍摄技术存在局限性,如只能进行静态拍摄,无法实时调整摄像机的拍摄姿态等。在《阿凡达》拍摄期间,光是调整摄像机的机位,摄制组就耗费了大量时间。
基于这一些状况,我察觉到将仿生视觉技术应用于3D拍摄具有巨大的潜力,于是开启了首次创业之旅,并与NHK(日本广播协会)、富士电视台等媒体达成合作,计划推出适用于3D电视节目制作的全自动3D拍摄系统。然而,当项目推进到相对成熟的阶段时,行业形势突变——NHK突然放弃3D电视项目,转而全力投入8K超高清电视的研发,3D电视市场瞬间化为泡影。之后,我也曾考虑转型研发3D电影拍摄器材,但由于此前3D电视项目未能成功落地,再加上我已经计划回国发展,投资方决定撤资,公司资金链断裂,3D电影拍摄器材的研发计划也无奈夭折。
2013年,我回国后入职中国科学院上海微系统所。在研究所的支持下,我带领团队于2015年成立了仿生视觉系统实验室。2016年,中国科学院鼓励科研人员创业,我依托临港科技城的上海脑—智工程中心创立了上海爱观视觉科技有限公司(现安徽爱观视觉科技有限公司)。此后,在模型阶段停留了整整十八年的仿生眼正式走向产业化。
A:现阶段,我们面临的最大挑战是。一方面,由于业务支撑不足,市场化进程缓慢;另一方面,仿生双眼机器人并未像步行机器人那样成为投资热点。
目前,我们已成功研制出仿生眼,也就是人形机器人的头部,但人形机器人的其他身体部分仍由其他团队负责。像国内的宇树科技、云深处科技,美国的波士顿动力公司等,在这方面已取得出色成果。然而,机器人制造企业与传感器制造商之间的配合还存在欠缺,这就要求我们这类专注视觉技术的企业,利用统一芯片进行调节,以实现人形机器人各类“感官”的协同。简单来说,就是要让人形机器人“看到”的内容与做出的反应(如身体各部位、关节的运动)协调一致。在真实的操作中,工序上的难题尚未被破解:一旦传感器出现延时,整个人形机器人控制管理系统就会受一定的影响,导致协同效果不佳。因此,人形机器人在整合视觉与控制管理系统时很容易出现一些明显的异常问题。这对我们来说,既是挑战,也是机遇。
以无人驾驶为例,特斯拉目前采用的是单目视觉技术,该技术主要依赖AI对大量学习数据的分析,本质上是“推测”而非真正的感知,所以难以实时应对各种突发情况。比如,现有的传感器很难精准识别道路前方50m处的小坑。这是因为单从2D图像上看,单目视觉技术模块很有可能会将小坑误判为一块颜色不同的、平整的路面材料。
与此同时,目前国内的激光雷达发展迅猛,相关这类的产品普遍兼具价格上的优势与良好性能。按照这一发展的新趋势,激光雷达或许能率先解决上述精准识别问题。但毋庸置疑的是,激光雷达作为主动式传感器仍存在一定缺陷——可能会对视觉设备和人眼造成了严重的伤害,且有可能会出现相互干扰的情况。相比之下,仿生视觉作为被动式传感器,既不易扰,也不会干扰其他零件,因此更具应用优势。
A:当前,固定双目视觉系统在市场上的普及程度并不高,市场对可动仿生双目的需求仍需进一步挖掘。事实上,固定双目视觉系统的局限性已经逐渐显露。
以水果采摘为例,在进行近距离采摘作业时,固定双目视觉系统能够发挥作用。然而,一旦遇到需要借助机器臂来完成较远距离的采摘任务时,其就没办法发挥作用了。因为如果把该系统安装在机械臂上,那么在机器臂运动过程中,固定双目视觉系统就无法获取清晰图像。在机器臂停止运动后,固定双目视觉系统也只能识别小范围目标,很难同时兼顾其他目标。这就导致在采摘相邻水果时,机器臂需要反复退回初始位置,重新进行识别定位,进而大幅度降低作业效率。此外,固定双目视觉系统的精度也有待提升。通常,在距离目标2m左右时,其误差可达5~6cm;当距离延长至3m时,其误差可能会超过10cm,这也使得抓取操作难以精准完成。此时,具备精准的视觉感知与动态追踪功能的仿生双目就显得弥足珍贵。
不过,在实际应用推广中,仿生双目也面临着成本瓶颈。就拿水果采摘行业广泛采用的农业机械来说,其原始成本相比来说较低,如果引入仿生双目技术,其成本就会大幅攀升。只有实现大规模量产,仿生双目的单位成本才有机会降低。但就目前来看,仿生双目能否实现量产,又高度依赖于市场需求的增长。
经过大量的前期调研,我们目前计划布局铁路弓网监测、无人驾驶列车的障碍物监测及无人机侦查领域。当然,具身智能依然是我们的核心发展趋势。预计在未来5—10年内,随着视觉技术和大模型的不断突破,具身智能将迎来爆发式发展。只要更灵活地将视觉技术与大模型结合起来,后续的诸多难题都能得到一定效果解决。