供企业以OCR(Optical Character Recognition)技术快速处理文件的Google人工智慧套件Document AI,Google现在更新其OCR引擎,加入三个预览功能,使Document AI现在可评估文件光学品质,支援数位PDF,还让用户能够控制OCR版本。
Document AI为一个人工智慧套件,能够理解和组织文件,该套件由Document AI Workbench、Document AI Workbench Warehouse和一组预训练文件处理器所组成,使用户能够利用OCR技术,从各种类型的文件撷取文字。Document AI使用来自Google云端以及Google研究院团队所开发的机器学习模型,能够处理非结构化文件撷取文字和段落等布局,并涵盖200多种语言。
Document AI OCR引擎第一个更新功能,是针对页面层级的智慧文件品质(IDQ)评估。官方提到,OCR引擎让使用者以程式开发方法,撷取重要文件特徵,包括词频、项目相对位置、文件的主要语言等,使其能够用於下游业务处理,而新的智慧文件品质评估功能,更提供了另一个重要的文件评估讯号。
IDQ含模糊、小字体、眩光等八个维度页面品质指标,Google提到,透过辨识文件的光学品质,将有助於用户根据文件品质进行不同处理,进而使整个文件处理流程更加高效。
第二个新功能,是Document AI开始支援数位PDF档案。PDF格式常被用於采购、贷款和合约等应用程式,PDF分为证件扫瞄等影像形式,以及可供复制贴上和突出显示文字的数位形式。而现在Document AI OCR完全支援数位PDF档案,代表着该服务能够撷取和来源文件完全相同的文字和符号。
由於Google会定期升级Document AI OCR所使用的机器学习模型,虽然新模型带来新功能,但也可能改变OCR行为,因此Google现在加入了OCR版本控制,让用户能够冻结OCR模型行为,确保OCR的行为一致。对於有严格法遵要求的产业,OCR版本控制也有助於维持相同的模型版本,最大程度减少版本间重新认证堆叠的工作量,透过OCR版本控制让企业可以灵活选择适合业务需求的版本。