当前位置: 首页 > 科技观察

百度大脑OCR技术加持白描App:让AI成为视障者的眼睛

时间:2023-03-21 00:48:56 科技观察

百度大脑OCR技术加持百花App:让AI成为视障人士的眼睛做什么?据统计,中国约有1700万视力障碍者,每100人中就有1人以上为视力障碍者。但是我们在日常生活中很少见到它们。那是因为视障人士在日常生活中有很多不便,外出很危险。AI有没有可能成为他们的“眼睛”?做他们的眼睛:百速App与视障人士的故事如果你的手机只能有一个应用,你会选择哪个?视障人士安知坚定地给出了答案——白花。因为白沙App让视力不佳的他用另一种方式“看”清了世界,文字不再遥不可及。他“读”过优美的诗篇,“听”过白描动人的动作。甚至在他一个人上楼看不清地板的时候,画线准确地告诉了他答案,把他从困境中解救出来。一款APP让他更勇敢地走出家门,参与丰富多彩的生活。“白飚就是我的眼睛。”同为视障人士的小杰对边飚的夸奖也从不吝啬,甚至直言边飚是视障伙伴们生存的工具。百花帮他解决生活中的难题,从各种电器、数码产品、药品说明书到各种化妆品包装,他还能给可爱的小侄女讲绘本故事。如果没有白描,这种事情对他来说是不可想象的。白描如何成为视障人士的宝藏?百花App是一款简单高效的OCR文字识别软件。它不仅简单易用,而且设计精美。可以轻松实现“拍照-识别文字-阅读结果”的一系列过程。同时,百花适配了手机的可访问性,视障人士也可以轻松在手机上操作。“白描”一词的本义是一种文学写作手法。鲁迅先生曾把这种手法概括为十二个字,就是“要真意,不粉饰,少做作,不炫耀”。百花App的开发者陶新乐就是这样一个人。他观察不同人群的实际需求,用虚拟世界的代码来满足现实世界人们的需求,让人们的生活更美好、更便捷。百花App开发者的心路历程:切入不同场景,优化产品细节。你可能很难想象。作为个人开发者,陶新乐首先为女友开发了百花App。陶欣乐的女朋友喜欢看书,经常做笔记。为了减轻抄写压力,她当时尝试使用市面上各种文字识别软件,但她发现,有的软件操作流程繁琐,有的价格昂贵,有的识别不准……看到得知女友痛苦,陶欣乐当即决定为女友做一款体验好、效果好的OCR文字识别工具,并迅速付诸行动。这或许就是开发者独有的浪漫吧。然而,一个App的开发过程充满了未知和挑战。在当时的条件下,开发一款具有OCR功能的软件面临的一个巨大挑战是:如何让文字识别又快又准。于是,他研究了市面上提供这项服务的厂商,对比不同厂商的产品,尝试对不同场景下的图片进行识别,找到识别效果最好的那个。于是他发现百度大脑AI开放平台的OCR技术能力和用户体验是最好的,尤其是识别准确率更领先其他厂商,于是在2017年他毫不犹豫地选择了百度OCR技术,并一直沿用至今.但优秀的底层技术并不代表一切。百度大脑OCR提供了近60项技术能力。好的技术也需要应用到场景匹配中,才能发挥更大的价值。因此,陶欣乐首先对画线图的使用场景进行了细分研究,比如:学生上课拿PPT提取文字做笔记,企业员工将纸质合同扫描成电子版并制作成PDF,纸质表格转换成Excel电子版,翻译图片上的文字,老师拿来识别试题然后再加工试题,律师用它来提取纸质文件上的文字等。他特别关注和研究视障人士的特殊需要。在考虑了用户的使用场景之后,接下来就是不断打磨产品。那时候图片转文字的时候经常会出现识别错误。为了弥补这个问题,百花APP会在识别前进行一些技术处理,比如如何压缩图片保证清晰度,最小化图片大小;自动裁剪长图时,检测到自动裁剪长图空行位置,不会裁剪文字;如何对文章进行自动分段,方便读者阅读等等,这些精炼的产品设计保证了图片的清晰度,让文字信息更容易识别。识别后,白图的校对功能可以使识别结果和原图在同一界面显示,方便用户快速找到需要修改的地方,并在此基础上进行编辑。依托百度优秀的深度学习算法和基于海量高质量数据的预训练模型,以及百花App的图像预处理能力,最终实现了99%+的关键领域识别准确率。看到女友画线时的笑脸,陶欣乐觉得一切都值得了,也希望更多人能享受到这份快乐。成功的背后:用“工匠”的心雕琢出产品的光芒程序员陶新乐在做产品时,一直有一颗“工匠”的心。陶新乐提到,AI在落地的过程中会遇到很多困难,很多时候都是踩着坑往前走。遇到解决不了的问题,需要不断学习,克服困难。百度大脑OCR技术与陶心乐这样的无数开发者并肩而行。作为最早大规模应用的人工智能技术之一,OCR技术的产业级应用不断取得突破。百度大脑OCR技术可提供多场景、多语言、高精度的文字检测识别服务,多项ICDAR指标位居全球第一。这种效率提升为用户带来更智能的应用体验。当然,人工智能技术的应用,不仅需要像百度大脑这样提供领先人工智能技术能力的平台,更需要更多像陶心乐这样的开发者发挥想象力,将人工智能应用到更真实的场景中,以满足不同的用户。群体,甚至是容易被忽视的残障人士的需求,让社会变得更加“AI”。同时,为降低独立开发者和企业自主训练OCR文字识别模型的门槛,百度大脑推出业界首个EasyDLOCR自训练平台,提供零门槛、定制化、低成本的一站式服务。停止OCR模型训练服务。在保证高精度的同时,满足多样化场景需求,有效保障数据安全。在这个科技赋能大众生活的时代,产品设计是普惠理念的输出。百花App拥有超过800万用户,成为行业口碑产品。相信未来会有越来越多的开发者利用百度大脑AI开放平台提供的AI技术和服务,创造出更多结合场景的智能应用,让更多人的生活更便捷、更美好。立即免费体验百度OCR文字识别能力:https://ai.baidu.com/tech/ocr