原文出处: 新浪科技
Google X 部门通过1.6万片处理器构建了一个庞大的系统,用于模拟人类的大脑神经网络。借助“谷歌大脑”,无需接受人类的任何培训和指令,就可以利用内在算法从海量数据中自动提取信息,学会如何识别猫咪。
模拟人脑
无人驾驶汽车和增强现实眼镜是 Google X 最著名的两个项目,但作为谷歌最神秘的部门,这里的研究远不止此——早在几年前,他们就成立了专门的团队,模拟人脑的运行方式。
为了研究机器学习,谷歌的科学家将1.6万片电脑处理器连接起来,创造了全球最大的神经网络之一,让它们在互联网中“自学成才”。
面对从 YouTube 视频中找到的 1000 万张数字照片,这个“谷歌大脑”会干什么?答案是:与数以百万普通 YouTube 用户相同——找猫咪。
这个神经网络依靠自学认出了猫咪,这可不是无聊之举。本周,研究人员就将在苏格兰爱丁堡的一次会议上展示他们的成果。谷歌的科学家和程序员指出,互联网上充斥着猫咪视频算不上什么新闻,但这种模拟的效果还是令他们大吃一惊。与之前的任何项目相比,该神经网络的效果都要好得多:面对 2 万种截然不同的物体,它的辨识能力几乎翻了一番。
借助“谷歌大脑”,无需接受人类的任何培训和指令,就可以利用内在算法从海量数据中自动提取信息,学会如何识别猫咪
这项研究是新一代计算机科学的代表,这类研究项目充分利用了计算资源的成本下滑,以及庞大数据中心的日益增多。该技术还大力推动了众多领域的进步,包括机器视觉与感知、语音识别、语言翻译等。
热门课题
尽管研究人员所使用的计算机科学理念并不新颖,但有了如此大规模的软件模拟,使得原本不可想象的学习系统成为了可能。谷歌研究人员并不孤独,全球还有很多科学家都在研究这种“深度学习”模式。去年,微软科学家就证明,利用同样的技术,也可以借助电脑系统很好地理解人类的语言。
“这是当今语言识别领域最热门的课题。”纽约大学库朗数学研究所计算机学家严恩·乐库(Yann LeCun)说,他专门从事机器学习的研究。
当然,识别猫咪也具备同样的意义。为了做到这一点,由斯坦福大学计算机学家安德鲁·恩吉(Andrew Y. Ng)和谷歌院士杰夫·迪恩(Jeff Dean)领导的这支团队,使用了1.6万片处理器创造了一个拥有 10 亿多条连接的神经网络。他们随后为这个网络随机呈现出缩略图,每一张都是从 1000 万段 YouTube 视频中抽取出来了。
由于这些视频都是随机选取的,所以这本身也反映出人们在互联网时代的喜好。然而,研究成果却很显著。研究人员创造的这个以软件为基础的神经网络,显然准确地印证了生物学家的理论——单个神经元通过在大脑内接受的训练,获得识别物体的能力。
自学成才
目前有很多投入商用的机器视觉技术,它们都可以根据人类的指令进行学习,从而识别出某些特性。但在谷歌的研究中,机器并未得到任何外在帮助,完全“自学成才”。
“我们的理念是:不需要借助大批研究人员找出事物之间的差异,只要为算法提供海量数据,让数据自己说话,让软件自动学习数据。”恩吉说。
“我们从没在培训过程中教它猫长什么摸样。”迪恩说,“从本质上讲,它发明了‘猫’这个概念。我们的数据中很可能还有一些猫的侧面照片。”迪恩帮助谷歌设计了这款软件,使之可以轻易将程序分解成许多任务,并实现同步计算。
在看过数百万张图片后,这个“谷歌大脑”构建出一张理想的猫咪数码图片,利用不同层级的存储单元成功提炼出猫的基本特性。然而,科学家认为,他们似乎是在控制论层面,模拟了人类大脑视觉皮层的运作方式。
神经学家认为,可能存在一种名为“祖母神经元”的东西。这是一种具有特定用途的脑细胞,一旦被反复“训练”去识别某一张人脸时,这种细胞便会被激活。
“你需要通过重复才能认出一位朋友。”Industrial Perception 公司的神经学家加里·布拉德斯基(Gary Bradski)说。
应用前景
猫咪照片、人脸和身体各个部位同时在电脑模型的特定记忆区域出现,令科学家颇为振奋。尽管如此,恩吉教授表示,在拿这套软件系统与生物大脑进行对比时,他仍然很谨慎。
“做个不太严谨的对比,我们的数字参数就相当于突触。”恩吉说。但他指出,尽管科学家动用了庞大的计算能力,但与大脑中的连接数量相比,仍然相形见绌。
研究人员写道:“值得注意的是,我们的网络与人类的视觉皮层相比仍然很渺小,后者的神经元和突触数量比该网络多 100 万倍。”
尽管规模远逊于生物大脑,但谷歌的研究仍然提供了全新的证据,表明海量数据有助于大幅改进现有的机器学习算法。
“斯坦福/谷歌的论文通过远超以往的数量级突破了神经网络研究的极限规模。”乔治亚理工学院高性能计算专家大卫·巴德尔(David Bader)说。他表示,高速增长的计算机技术将在相对较短的时间内缩小这一差距:“完全模拟人类的视觉皮层有望在 2020 年前实现。”
谷歌的科学家表示,该研究项目如今已经走出 Google X,受到搜索以及相关服务部门的追捧,有望被用于改善图片搜索、语音识别、机器语言翻译质量。
尽管取得了成功,但谷歌研究人员仍对他们是否已经掌握机器自学技术的要领保持谨慎。“如果我们只需要在现有算法的基础上继续增大规模,那就太好了。但我感觉,我们还没有找到正确的算法。”恩吉说。