据外媒报道,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)、微软和康奈尔大学(Cornell University)的科学家们创建出算法“STEGO”,可在完全没有任何人类标签的情况下共同发现和分割对象,乃至像素。
图片来源:MIT CSAIL
STEGO学习了“语义分割”——想象一下为图像中的每个像素分配标签的过程。语义分割是当今计算机视觉系统的一项重要技能,因为图像可能会被物体弄得杂乱无章。更具挑战性的是这些对象并不总是适合文字框。相对于植被、天空和土豆泥等,算法往往更适用于人和汽车等离散的“事物”。以前的系统可能只是将狗在公园里玩耍的细微场景视为狗,但通过为图像的每个像素分配一个标签,STEGO可以将图像分解为其主要成分:狗、天空、草和它的主人。
为了降低耗时,在没有人类帮助的情况下发现对象,STEGO会寻找出现在整个数据集中的相似对象。然后,它会将这些相似的对象关联在一起,以在它学习的所有图像中构建一致的世界视图。
看世界
可以“看到”的机器对于自动驾驶汽车和医疗诊断预测模型等各种新兴技术至关重要。由于STEGO可以在没有标签的情况下学习,它可以检测不同领域的对象,甚至是人类尚未完全理解的对象。
麻省理工学院电气工程和计算机科学博士生、麻省理工CSAIL的研究附属机构、微软的软件工程师,以及STEGO相关论文的主要作者Mark Hamilton表示:“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像,若没有专业知识,很难知道要寻找什么物体。在新兴领域,有时甚至人类专家也不知道什么是正确的对象。在这些情况下,我们想要设计一种在科学边界上运行的方法,而不是指望人类在机器之前搞清楚状况。”
STEGO在一系列视觉领域进行了测试,包括一般图像、驾驶图像和高空航拍照片。在每个领域,STEGO都能够识别和分割与人类判断密切相关的对象。 STEGO最多样化的基准是COCO-Stuff数据集,由世界各地的不同图像组成,从室内场景到运动的人,再到树木和奶牛。在大多数情况下,以前最先进的系统可以捕捉场景的低分辨率要点,但在精细细节上却差强人意:人是一团的、摩托车被识别为人,甚至还无法辨别所有鹅类。在相同的场景中,STEGO将先前系统的性能提高了一倍,并可发现动物、建筑物、人、家具等许多概念。
STEGO不仅在COCO-Stuff基准测试中将先前系统的性能提高了一倍,而且在其他视觉领域也取得了类似的飞跃。当应用于无人驾驶汽车数据集时,STEGO比以前的系统具有更高的分辨率和粒度,可成功分割出道路、人和路牌。在来自太空的图像上,该系统将地球表面的每一平方英尺分解为道路、植被和建筑物。
连接像素
STEGO,代表“基于能量的图优化的自我监督变压器(Self-supervised Transformer with Energy-based Graph Optimization)”,是建立在DINO算法之上,该算法通过ImageNet数据库中的1400万张图像了解世界。STEGO通过一个学习过程来完善DINO骨干,该过程模仿我们自己将世界的各个部分拼接在一起以产生意义的方式。
例如,人可能会想象两张狗在公园里散步的图像。尽管它们是不同的狗,拥有不同的主人,在不同的公园,STEGO依然可以(不依靠人类)分辨出每个场景的对象是如何相互关联的。研究院甚至探究了STEGO的大脑,想知道图像中每个棕色毛茸茸的小东西有何相似之处,以及与草和人等其他共享对象的相似之处。 通过跨图像连接对象,STEGO构建了一致的单词视图。
Hamilton表示:“这些类型的算法可以在很大程度上以自动化的方式找到一致的分组,因此我们人类不必自己这样做。理解复杂的视觉数据集(如生物图像)可能需要数年时间,但如果我们能够避免花费1,000小时梳理数据并对其进行标记,我们就可以找到并发现我们可能错过的新信息。我们希望这将有助于我们以更经验为基础的方式理解视觉词。”
图片来源:MIT CSAIL
展望未来
尽管进行了改进,STEGO仍然面临着一定的挑战。一是标签可以是任意的。例如,COCO-Stuff数据集的标签区分了像香蕉和鸡翅这样的“食物”和像玉米片和意大利面这样的“食物”,STEGO并没有看到太大的区别。在其他情况下,STEGO也会对奇怪的图像困惑,比如一个香蕉坐在电话接收器上,而接收器被标记为“食品”而不是“原材料”。
未来,研究人员计划探索为STEGO提供更多的灵活性,而不仅仅是将像素标记为固定数量的类别,因为现实世界中的事物有时可能同时是多个事物(例如“食物”、“植物”和“水果”)。研究人员希望这将为算法提供不确定性、权衡和更抽象思维的空间。
Hamilton表示:“在制作用于理解潜在复杂数据集的通用工具时,我们希望这种类型的算法可以自动化从图像中发现对象的科学过程。在不同的领域中,人工标记的成本过高,或者人类根本不知道具体的结构,例如某些生物和天体物理学领域。我们希望未来能够应用于较为广泛的数据集。由于不需要任何人工标签,我们现在可以开始更广泛地应用ML工具。”