盲人阅读器 40 年,庞然大物成为手机里的一个应用_智能_好奇心日报

高宇馨2014-09-24 16:28:03

盲人阅读器服务于一个小群体,从 1978 年洗衣机大小的扫描仪,到今天的 iPhone 应用,它的演进是 40 年科技进步的浓缩。

“真不敢相信它会这么精确。”一位盲人说。

这个 1 天前刚刚适配 iOS 8 系统的应用 Knfb Reader 可以识别照片里的文本信息,为盲人朗读。虽然上线只有一天,99 美元的价格相比普通应用贵的离谱,但是它的评论里都是以“best”“absolutely great”“supremely amazing”为措辞的反馈。

这样的褒奖并不过分。对于很多盲人来说,上餐厅看个菜谱、读懂教授的板书或者浏览公司的文件,第一次成了一件只要带上 iPhone 自己就可以做的事情。

而把 K-nfb Reader 放到手机里这一步,却是以人工智能为代表的技术 40 年的进化的产物。

人工智能简单说就是让机器拥有像人一样的学习能力,机器可以自己建立模型,学习程序没有预先设定的新内容。这也就让机器脱离了工程师的完全掌控,有了超越人类的可能。

Ray Kurzweil——人工智能研究者,任职 Google 的未来学家——曾在书中说“人类进化的速度太慢,过不了几十年,就会被机器远远超过。” Kurzweil 对机器学习的深入理解开始于文本识别,而这项技术最早的应用就是为盲人提供阅读工具。

1974 年 Kurzweil 在乘飞机时听到一个盲人乘客谈论他多么希望能读读书,从而产生了用人工智能做盲人阅读器的想法。当时从麻省理工学习计算机毕业的 Kurzweil 在贝尔实验室刚刚研发出了一个前所未有的软件和一台扫描仪。虽然没有确定这两个技术在现实生活中的应用,但 Kurzweil 知道它们可以改变文本处理的未来。

过去文本处理软件要精确识别每一个字母才能处理信息,比如输入电脑或朗读文本。Kurzweil 的新系统能够在模糊识别的基础上,根据前后文关联和语言结构,填补缺失的部分。这种方式被称为通用光学字符识别(Omni-font OCR),是现在人工智能一个最基本的研究领域。 它让扫描仪精度十分有限的 70 年代,识别多种字体并将文字转化为声音成为可能。

这就是最初的盲人阅读器 Kurzweil Reading Machine,也是世界上第一个利用人工智能技术的大众消费品。由一台平板摄像扫描仪(CCD Flatbed Scanner)和一套能将文字转化为声音的语义识别系统(Text-to-Speech synthesis)组成。全套设备大小相当于一台洗衣机。

根据 Kurzweil 的回忆,当时出了原型机之后,他带着去参加了早间新闻资讯节目 Today Show。第二天著名的盲人音乐家 Stevie Wonder 前来拜访 Kurzweil,情绪很激动,不断催促他一定要给自己弄一台这种机器。直到最后拿到原型机才出租车满意地离开。

后来这两人成为好友,一起把语义学习发挥到了音乐上,模拟出更加接近于真人演奏的音乐。当重音、渐弱和延长音都加入到模拟音乐中时,他们创造了几乎与音乐家演奏相同的机器演奏效果。这衍生出人工智能的另一个方向——音乐分析,逆向使用就是今天 Shazam 这样可以听歌辨曲的软件。

1980 年,那家后来影响了苹果公司的施乐公司(Xerox)收购了 Kurzweil Computer Products 公司,主要看中的就是通用光学字符识别系统(Omni-font OCR)。当然之后苹果抄袭施乐公司图形设计,和两家公司其他的纠葛,以及从中延伸出的另外一条主线——便携式电脑和智能手机的发展,又是另一个故事了。

从 1970 年代与美国盲人联合会(NFB)建立联系以后,尽管人工智能应用的领域越来越广泛,Kurzweil 的公司始终维持着盲人阅读器系统的更新。

1997 年他们发布了第一代可以阅读图片的系统 Kurzweil 3000,从那以后手写体、打印体、加拿大英语、澳大利亚英语都被纳入到人工智能识别的范围之中。

在这期间,微处理器的发展使得处理速度越来越快,个人电脑越来越小。原先那台洗衣机大小的设备,逐渐缩小成了手持设备。

2007 年也就是 iPhone 面世的同一年,这台世界上第一个便携式盲人阅读设备 Knfb Reader classic 也上市了。由一台诺基亚 N82 或 N86 型号的 Symbian 智能手机加上一台微型相机组成。在分水岭似的 2007 年,与苹果 iPhone 相比这台售价 1100 美元的设备看起来实在有点笨重。理想来说,相机拍下的图片可以在手机里直接处理,然后由内置的图形处理系统直接分析图片,并把文字内容大声朗读出来。

不知道当年的诺基亚使用是否流畅,但是昨天刚刚适配 iOS 8 的应用 Knfb Reader 确实流畅(视频)。虽然技术上实现随时朗读照片中的文字(英文)可能不会像 1980 年代时那样让人侧目,但这款应用 99 美金的价格相比几年前 1100 美金的手持设备只有十分之一,仍然可爱。

目前 Knbf Reader 只支持 iOS 系统,但是 Kurzweil 在路透社采访中透露,未来几个月就会推出 Android 版本,然后接下来还有 Google Glass 版本。

“依靠头部转动指示方向的 Google Glass ,拍起照来会更加合理。” Kurzweil 说。

今年 66 岁的 Kurzweil 在去年全职加入 Google 成为工程研发主管,CEO 拉里·佩奇对他的工作要求只有一句话“把自然语言识别带入谷歌”(to bring natural language understanding to Google)。

40 年前的大型扫描仪再见,你好人工智能应用 Knfb Reader。


喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。