好未来AI背后的故事——教育OCR“4个9”的极限追求
2021-04-16
打开题拍拍,首先映入眼帘的是一幅拍照画面。当你将习题拍摄入框时,便可立即得到相匹配的题目解析。别看这个过程如此迅捷,背后的学问可不简单。这个识别图像里文字的技术叫作OCR,全称是Optical Character Recognition,中文名为光学字符识别。
OCR这项技术其实并不新鲜,早在1929年德国科学家Tausheck便提出了OCR技术的概念。随后在六七十年代世界各国就开展了系统的研究。但由于识别率和设备成本等问题,早期的OCR软件一直离民用很远。进入数字时代后,帮助机器理解物理世界成为了时代命题,OCR作为数字世界的眼睛,其重要性也在不断提升,围绕OCR的技术日新月异,但大多解决的仍是通用印刷体的识别问题。
教育场景需要的OCR技术有其特殊之处。学生将手机镜头对准的,往往是一张卷子或者一页练习册。同时入框的不仅有多个习题,还会有很多学生答题的手写笔迹,甚至还有混在一起的文字与公式(包括手写算式)。如果没有专为教育场景研究的OCR技术,识别这些特殊场景中的文字往往是很难做到的。因此,好未来自研出了一套适合智慧教育的OCR技术。
从零到一 万丈高楼平地起
好未来AI中台成立伊始,就将教育OCR作为重点发力的研究领域之一。教育OCR包括印刷OCR、手写OCR、公式OCR、表格OCR、版面结构化识别等等。彼时,无论学术界还是教育行业内,都没有成熟的公式识别方案。因此,好未来AI中台将公式识别技术作为研究的重点,开始了从零向一摸索的过程。
好未来OCR技术应用于教育场景的能力类型
公式识别具有鲜明的行业色彩和行业壁垒。
公式识别算法的基础是数据。在这一方面,好未来多年的教育积累有了用武之地,各年级、各学科五花八门的真实习题为AI中台提供了充足的数据“弹药”。OCR团队在短时间内基于CRNN(卷积循环神经网络,一个识别场景文字的常用方法),创新研发出能支持简单公式的序列识别算法和基于公式字符分离的重建识别算法。这两大能力,让AI可以初步理解试卷上的公式和文字,而且可以像人脑一样从左到右、从上到下地进行结构化智能理解。
虽然这时的识别准确率还有待提升,但标志着算法研发进入了第二阶段——探索印刷公式识别的最佳方案,提升准确率。好未来吸收学术界的公式研究成果,在两个月内通过数百万个数据验证算法可行性,最终形成了有特色的算法框架,引入增强语义和避免漂移的网络结构,并提升算法对模糊数据、多层嵌套数据的泛化性。经过攻坚,此阶段的印刷公式识别在学生拍照搜题的核心场景中得以应用并大幅提升理科题目的搜索正确率。与此同时,好未来在教育场景的公式数据盲测中达到领先水平。
好未来公式识别的第三阶段最具挑战性。在学生实际使用中,还会出现手写风格不同、字迹潦草、随意多行、字体大小不一和角度倾斜等各种问题,特别是低年级的学生手写笔迹相比成年人还有显著差异。
复杂的实际答题图片好未来OCR依然能准确识别
AI中台与各业务线合作,为OCR提供了学生学习和作答的海量且真实的笔迹数据,帮助算法实现数据从0到百万的突破。同时,算法也积极开展多项创新,不仅实现多风格数据迁移和增强,也在多行识别中取得技术突破并形成技术优势。
截至目前,好未来自研教育OCR已经实现了通用公式识别,即适用印刷文字与手写文字混合、多行文字与高级公式混合等复杂场景,很好地支持了题拍拍的印刷手写一体化拍搜功能。
从90%到99.99% 行百里者半九十
解决了能力准确性和多样性的问题,还需要达成可用性——又要稳定又要快。
先从“稳定”讲起。
在业内有一句话:“搜索的准确率每提升1%,所需的题库成本就要以千万计”。作为一家有18年教学经验和数据沉淀的科技教育公司,好未来将技术中台与前台业务相结合,使得技术人既能快速感知到用户需求,又能得到大量教育数据的反哺,尽可能以技术和数据驱动降低成本。于是,AI中台和题拍拍团队联合,挖掘可以为拍照搜题“提升1%”的每一个技术点。合作至今,教育OCR为这每一个“1%”展开了多项的技术专题攻坚,形成一系列的创新实践并成功落地。教育OCR永远保持对技术的追求,持续开拓新的技术能力,为智慧教育提供技术支撑。
AI中台和题拍拍组成了高度协同的One team机制,双方出专人专项每周一起研究前线最新问题,并制定最高标准的可用性推进目标。双方达成了一个有趣的“对赌协议”:在规定时间内,如果AI中台每多实现一个9(即可用性从实现90%到99%、再到99.9%、99.99%……),则由题拍拍团队提供“美食激励”,反之则由AI中台承担。
双方以高技术标准坚守教育初心,怀着创业的激情撸起袖子加油干,当遇到难以解决的艰难问题时,在线会议常常从晚上七点不知不觉就开到了半夜两三点。会议从公司到地铁,再开到家中,地铁的速度根本追不上每个参会者头脑风暴的速度。
然而当99.99%可用性目标实现的那一刻,投身其中的研发老师们反而没有预想中的欢呼雀跃和狂欢庆祝,“大家互相看了看对方脸上的黑眼圈,脑子里想的是还有更多的技术挑战等待去解决,这大概就是水到渠成吧。”一位项目组伙伴回想起那个时刻,平静地说。
这是让每个参与者都难忘的一段飞驰,非齐心协力的共创精神无以到达,如好未来的价值观所言——为热爱全力以赴。
千钧一发 好产品不违人心
再来讲讲“快”。
为了尽可能为产品提速,算法的每一模块都被单独拎出来重构提速,资源占用优化提升了百分之三十五。好未来AI中台的技术人用一周时间便做到了算法层面的毫秒级响应。也就是说,如果题库中已收录,学生最慢也可以在一秒以内获得满意的解答。
好未来的另一条很重要的价值观是:“一切从用户出发”。产品好不好,归根结底还是要看能否经得起用户的考验。
一位妈妈讲述了她的真实故事。
最开始,这位母亲下载了市面上许多拍照搜题类软件,但是一个月后,她只留下了题拍拍。这是因为她发现,别的拍照搜题的app在搜索整张卷子的题目时,框选每道题的位置都需要手动二次调整校准,而题拍拍可以精准框选并直接生成每道题的解析,这一个小小的技术精进却帮助这位母亲节省了大量辅导孩子的时间。
这一位用户的最终选择,离不开好未来产研人对技术和体验的极致追求。
自动分割框选出不同试题
题拍拍是AI中台的一段征程,AI中台已将其中“久经考验“的教育OCR技术形成Hawkeye教育通用OCR解决方案,涵盖中英文识别和公式识别,支持手写和印刷,并将支持表格识别和重建还原,服务于中英文作文批改、题库试卷录入等更多业务场景。据悉,Hawkeye解决方案在印刷体识别、手写体识别、公式识别、表格识别、整页框选、综合识别的六大核心能力指标里,已全部处于市场领先水平。
开放共创 智慧教育全速启航
好未来不断投入对教育OCR的研究,也吸引着学术届、技术圈对教育领域OCR技术的重视。2020年9月,好未来就以“教育手写公式识别”为赛题,依托智慧教育国家新一代人工智能开放创新平台,联合科技部火炬高技术产业开发中心、北京市科学技术委员会,举办了“第五届中国创新挑战赛·智慧教育专题赛”。
赛事吸引了来自清华、北大、中科大等高校,阿里、百度等互联网企业,以及中科院计算所、中科院自动化所等研究院所约数百支队伍参赛,参赛队伍人才济济,涵盖国际赛事的冠军团队、中国图形图象学学会(CSIG)常务理事及专委会主任等众多专业选手与优秀的OCR团队。
比赛中,好未来为业界提供了20万张各教育场景下的手写公式训练数据和测试数据,以远超各个开源学术数据集的数据体量和复杂性,为参赛团队提供了充足的“弹药”,助推行业伙伴共同碰撞出手写公式识别技术新的发展方向。
同时,好未来依托正在承建的智慧教育国家新一代人工智能开放创新平台,将优秀的教育OCR能力逐步面向全行业开放,帮助教育行业内暂时没有AI、没有OCR能力的机构和创业者快速发展。
而这只是故事的开始。在向极致攀登的路上,挑战只会更多,没有捷径。爱和科技,终将指引我们抵达教育事业的星辰大海。