光学字符识别技术：让电脑像人一样阅读

发布: 2015-04-03 08:47　 | 来源:未知 | 编辑:4908.com | 查看: 次

　　把手机摄像头对准菜单上的法语菜名，屏幕上实时显示出翻译好的中文菜名；将全世界图书馆的藏书转化为电子书；街景车游走于大街小巷，拍摄街景的同时也从街景图像中自动提取文字标识，让地图信息更丰富更准确……这些场景的背后有一个共同的关键技术——OCR (Optical CharacterRecognition)，光学字符识别。

OCR让电脑“读”懂世界

　　鼠标发明人Douglas Engelbart曾经针对人工智能的简称AI提出了另一个理念——Augmented Intelligence，增强智能。在他看来，人已经足够聪明，我们无需再去复制人类，而是可以从更加实用的角度，将人类的智能进一步延伸，让机器去增强人的智能。

　　智能眼镜就是这样的产品，去超市的时候带上一副，看到心仪商品上的文字，自动搜索出详细信息：生产商情况、在不同电商平台的价格等等。让智能眼镜读懂文字的正是OCR技术。OCR本质上是利用光学设备去捕获图像，今天可以是手机、照相机，未来可以是智能眼镜、可穿戴设备等，就像人的眼睛一样，只要有文字，就去认出来。

　　我们也可以设想一下OCR在未来工作中的应用场景：每次工作会议后，无需再把白板上的讨论内容抄写下来，然后群发邮件布置任务，只要将白板用手机等智能设备拍照留存，系统便能自动识别并分检出相关人员的后续工作，并将待办事项自动存放到各自的电子日历中。

　　事实上，我们已经向这个场景迈进了一步，微软前不久推出的Office Lens应用，已经可以通过视觉计算技术自动对图像进行清理并把它保存到OneNote，而OneNote中基于云端的OCR技术将对图片进行文字识别，随后你就可以拥有一个可编辑、可搜索的数字文件，为上述未来应用场景打下基础。微软几年前推出的手机应用Translator，除了支持文本和语音翻译外，还能用手机拍摄不同语言的菜单或指示牌，翻译结果立即浮现于原文之上。Office Lens和Translator这两款产品中的“中日韩”OCR核心技术就来自微软亚洲研究院的语音团队。

从平板扫描仪到前端手机后端云

　　回过头来看，OCR技术经历了怎样的发展历程呢？早在20世纪50年代，IBM就开始利用OCR技术实现各类文档的数字化，早期的OCR设备庞大而复杂，只能处理干净背景下的某种印刷字体。20世纪80年代，平板扫描仪的诞生让OCR进入商用阶段，设备更为轻便灵巧，可以处理的字体数量也增多，但对文字的背景要求仍然很高，需要很好的成像质量。

　　平板扫描仪对印刷体文本的识别率在20世纪 90年代就已经达到99%以上，可谓OCR应用迎来的第一个高潮。当时最著名事件是谷歌数字图书馆，谷歌还申请了图书扫描专利，实现了批量化的高速扫描。在此期间，手写字体的识别也在并行发展，被广泛用于邮件分拣、支票分类、手写表格数字化等领域。

　　这样的成就一度让大家误以为OCR技术已经登峰造极，但从21世纪开始，准确地说是自从2004年拥有300万像素摄像头的智能手机诞生之日起，这一情况发生了根本改变。越来越多的人随手拿起手机拍摄所看到的事物和场景，而此类自然场景中的文字识别难度远远高于平板扫描仪时期，即便是印刷字体，也不能得到很高的识别率，更别说手写体了。学术界因此将自然场景中的文字识别作为全新的课题来对待。

　　与此同时，云计算、大数据以及通讯网络的快速发展，实现了智能手机的24小时在线，前端采用手机摄像头进行文字捕捉，后端可以对其进行实时分析和处理，二者的结合让OCR的未来应用模式充满想象。因此，对OCR的研究再度成为学术界的焦点，无论是前端识别技术还是后端的关联应用领域，都有着无限可能。微软亚洲研究院的研究员们，也非常有幸加入了这个大潮。

　　自然场景下的文字检测获突破性进展

　　自然场景图像中的文字识别大大难于扫描仪图像中的文字识别，因为它具有极大的多样性和明显的不确定性。如文字中包含多种语言，每种语言含有多种字母，每个字母又可以有不同的大小、字体、颜色、亮度、对比度等；文字通常以文本行的形式存在，但文本行可能有不同的排列和对齐方式，横向、竖向、弯曲都有可能；因拍摄图像的随意性，图像中的文字区域还可能会产生变形(透视和仿射变换)、残缺、模糊断裂等现象。

自然场景图片中的文字多样性示例

　　与传统 OCR 技术中的扫描文档图像相比，自然场景图像的背景更为复杂。如文字可能不是写在平面上而是在曲面上；文字区域附近有非常复杂的纹理和噪声；图像中的非文字区域有着跟文字区域非常相似的纹理，比如窗户、树叶、栅栏、砖墙等。这些复杂背景会极大增加误检率。

　　由于自然场景下的文字识别难度大，微软亚洲研究院团队对相关技术和算法进行了针对性的优化和创新，从三个方面对文本检测技术进行了改进，并取得突破。通常，OCR识别的步骤可以分为两步：首先是文本检测(Text detection)，将文字从图片中提取出来；然后，对文本进行识别(Recognition)，此次的突破主要是在文本检测环节的两个子阶段。

顶一下

(0)

踩一下

(0)

上一篇：美国出台抗＂超级细菌＂计划拟五年内感染率减半
下一篇：英科学家称发现外星生命证据：距地球仅40公里

	南越王宫千年古井仍有活水
	摘要：备受关注的南越王宫博物馆，又再掀起一角面纱。

	咖啡和茶可降低中风、痴呆症发病
	每天喝2-3杯咖啡或3-5杯茶，或者同时喝4-6杯茶或咖啡

	科研人员在湖北竹溪发
	科研人员在湖北省十堰市竹溪县境内发现两个植物新物种【查看详细】

	人类大脑十个奇特事实
	据国外媒体报道，大脑是人体最重要的器官，同时也是最【查看详细】

	嫦娥四号最新成果：月壤可作月
	月壤是冷是热？导热性好吗？我国航天人把温度计贴在月