最近,Meta AI 公司宣告推出了人工智能技术的最新打破,旨在完成可以履行具有挑战性的感官运动技术的通用意图体现 AI 署理:人工视觉皮层(称为 VC-1)。这是初次支撑多种感官运动技术、环境和体现方式的单一感知模型。它是第一款模仿人类视觉皮层的人工智能模型。VC-1 的呈现关于AI开展极具含义,代表着人工智能向模仿人类智能又迈进了一大步。
为了练习 VC-1,Meta AI 构建了一个开创性的数据集 Ego4D。该数据集包含了 2100 小时的第一人称视角视频,记录了人类煮饭、清扫、运动等日常活动。这些沉溺式的视觉数据使 VC-1 学会感知杂乱环境,了解物体运动,判别人体姿势。
VC-1 的共同之处在于它模仿了人脑视觉皮层的结构和核算原理。人脑视觉皮层包含上百亿个神经元,负责处理和剖析视觉输入。VC-1 参阅视觉皮层的结构,运用数十亿个参数,可以对各种视觉环境做出灵敏的感知和了解。
此外,VC-1 经过预练习超越 4000 小时的视频数据,获得了强壮的视觉了解才能。不同于仅针对单一使命进行练习的模型,它作为一个一致的体系,支撑多种视觉才能,包含物体辨认、场景切割、姿势估量等。在 Meta AI 的测验中,VC-1 在这些使命上的体现到达或超越了专门练习的模型。
VC-1 的呈现带来的影响深远。它不只推进了对人类视觉体系的了解,也为研制更通用智能的AI体系供给了名贵经历。VC-1 展现了经过模仿人脑结构完成通用智能的可能性。
Ego4D 数据集:是一个规划巨大、多样性史无前例的以自我为中心的数据集。它由 923 名来自 9 个不同国家 74 个世界各地的共同参与者搜集的 3670 小时视频组成。该项目汇集了 88 名研讨人员,组成了一个国际联盟,将揭露可用的以自我为中心的数据的规划大幅度的提升了一个数量级,使其比任何其他数据集在视频小时数方面多出 20 倍以上。Ego4D 旨在催生第一人称视觉感知研讨的下一个年代。部分视频伴随着音频、环境的 3D 网格、眼球凝视、立体声和/或来自同一事情的多个以自我为中心的摄像头的同步视频。
特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。
男人地铁内猥亵女生,90后姑娘挺身而出!她向橙柿叙述与色狼斗智斗勇的30分钟
绝不卖7nm等光刻机!阿斯麦CEO:我国出产“落后”制程芯片就行了,全球芯片买家都迫切需要
有望下月上台,谷歌 Pixel Buds Pro 2 耳机被曝新增 4 种新色彩
tvOS 18 中的代码暗示苹果有望推出装备接触显示屏的 HomePod