Title Text:In the 60s, Marvin Minsky assigned a couple of undergrads to spend the summer programming a computer to use a camera to identify objects in a scene. He figured they’d have the problem solved by the end of the summer. Half a century later, we’re still working on it.<
Origin:https://xkcd.com/1425/
https://www.explainxkcd.com/wiki/index.php/1425:_Tasks
工作項目
Cueball似乎要求马尾辫写一个应用程序,确定给定的图片是否(1)在国家公园拍摄,和(2)鸟的图片。第一个问题通常难以让人回答,但对于可以访问位置信息和地理信息系统(GIS)的应用程序来说很容易。第二个对于人类来说很容易,但对于计算机则更难。这说明了莫拉维克在20世纪80年代在现代语境中的悖论。到20世纪50年代,计算机对于轨迹优化,生成新颖的数学证明以及检查器游戏等任务非常有用,因此对于人类来说难以实现的这种高级计算和推理任务对他们来说相对容易。另一方面,正如Moravec写道的那样,事实证明很难“在感知方面给他们一岁的技能”。
为了确定用户是否在国家公园,Ponytail计划使用移动设备确定用户的位置。然后将与地理信息系统(GIS)交叉检查该位置,该系统将能够确定坐标是否位于国家公园边界内。
确定图像是否属于给定类型的自然对象要困难得多。这项任务属于计算机视觉领域。计算机视觉的目标之一是检测图像中的对象并对其进行分类。出于多种原因,这是一项非常具有挑战性的任务。
首先,人们在观察场景(不是物体的图片,而是物体本身)时会使用大小,边缘分配,移动和立体视觉来辨别单个物体,然后将它们分类为前景或背景。[1]然而,照片是静态的单视场图像,其只能提供尺寸和边缘分配线索。通过将照片与他们所见过的所有事物以及他们在生活过程中所了解的所有事物进行比较,并识别出相应的模式,人类只能从照片中的背景中辨别出物体。[2]
其次,照片的质量会影响计算机匹配模式的能力。例如,照片中的对象可能部分可见或被遮挡。在活鸟的情况下,由于同一物种的个体鸟类之间的差异和姿势的差异(飞行,在树中栖息等)引起了额外的复杂化。区分视觉上相似的对象可能导致误报。例如,它是飞行中的鸟还是飞机(或超人!)的照片?马尾辫5年的估计可能过于乐观(见678:研究员翻译)。
今天用于解决此类任务的最先进算法主要使用局部特征(例如SIFT或SURF结合支持向量机或卷积神经网络)。
副标题是指“CS”,它是“计算机科学”的常用首字母缩略词,其中人工智能和计算机视觉是子学科。
标题文字提到麻省理工学院的夏季视觉项目和Marvin Minsky。 1966年夏天,他要求他的本科生杰拉德·杰伊·苏斯曼(Gerald Jay Sussman)“花了一个夏天将相机连接到计算机并让计算机描述它看到的东西”([1])。 Seymour Papert起草了这个计划,似乎Sussman加入了Bill Gosper,Richard Greenblatt,Leslie Lamport,Adolfo Guzman,Michael Speciner,John White,Benjamin和Henneman – 如果多个维基百科链接没有放弃,我知道这是该时期AI研究人员的相当大的横截面。为完成这项任务,项目时间表分配了一个夏天。所需的时间明显被低估了,因为全世界有数十个研究小组今天仍在研究这一主题。
在这部漫画发布一个月后,Flickr使用其自动标记软件回应了一个原型在线工具来做类似于漫画描述的内容。据他们说,鸟类解决方案“花了我们不到5年的时间来建造,虽然这绝对是一个难题,我们仍然有改进的余地”。