您现在的位置是:首页 >技术教程 >CCIG:智能文档处理「新未来」网站首页技术教程

CCIG:智能文档处理「新未来」

哈哥撩编程 2024-06-19 12:01:01
简介CCIG:智能文档处理「新未来」

上个月非常有幸的参加了 CCIG大会 ,参会除了收获众多福利品与手办礼之外,在关于我国 “图象图形” 上的发展有了进一步的深刻了解,也看到了国内众多业界前辈门对与 “图像图形” 技术的贡献与追求。

受益良多,虽然时间略晚,但是依然想为各位小伙伴们分享一番,寻找文档图像处理领域的未来进阶方向。


⭐️ CCIG大会简介

CCIG中国图象图形大会(Chinese Congress on Image and Graphics),是中国图象图形学学会的年度旗舰会议,每年举办一次,是涵盖图像图形各专业领域的学术盛会。

中国图象图形学学会经过30余年的发展,团结了一大批图像图形领域优秀人才,拥有29个专业委员会和14个工作委员会,学会凝聚力、学术影响力、平台创新力日益提升,进入了一个全新的发展阶段。

2022年,中国图象图形学学会充分利用丰富的学术资源和平台优势,凝聚图像图形领域知名专家,在20届品牌学术年会全国图象图形学学术会议(NCIG)的基础上,创办中国图象图形大会(Chinese Congress on Image and Graphics,CCIG),来自图像图形领域专家学者以及企业家约1500人参会。CCIG作为中国图象图形学学会的年度旗舰会议,涵盖图像图形各专业领域的综合性的全国性学术会议,面向开放创新、交叉融合的发展趋势,为图像图形相关领域的专家学者和产业界的同仁,搭建了一个展示创新成果、展望未来发展的,集高度、深度、广度三位一体的交流平台。


⭐️ 领先世界的智能文档处理技术

此次 CCIG大会,丁凯博士分享的主题是 "智能文档处理技术在工业界的应用与挑战" 。从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域,而且站在合合信息的角度提出了一些技术难题的解决办法。

针对这些难以解决但又被攻克的技术难题,为各位小伙伴做一些针对性的讲解。


? 智能图像处理:为文字识别 “增质提效” 筑基

智能图像处理是指利用AI技术,对复杂场景中的图像进行自动识别和要素分析。受拍摄设备、拍摄环境等多方因素的制约,文档原始图像往往存在亮度不均、模糊、背景杂乱、页面残缺、透视变形等多种问题。合合信息智能图像处理技术可帮助各应用领域简化下游文档处理任务,提升后续文字识别的效率与准确性,为全球企业和个人用户提供创新的数字化、智能化服务。

✨ 切边增强 - 提升文档图像质量

合合信息的 "切边增强技术" 可以智能判断照片中主体文档的边缘进行切边,同时增强图像突出文字,可在杂乱的背景中,聚焦到核心的文档内容,大幅度提升文档图像的质量

该技术可以解决以下应用场景,当采集的业务材料图像存在着多余背景、主体过小、角度倾斜等问题时,通过合合信息的切边增强技术,可自动裁切出图像主体区域,并增强图像质量,经过该项处理后再进入后续的文字识别、信息提取、材料审核等业务,提升文档处理速度与质量。



✨ 弯曲矫正 - 解决图像畸变问题

合合信息的 "弯曲矫正技术" 创新性地采用基于位移场网络学习方法的系统构架,可对弯曲地文档进行曲面、透视矫正,同时智能定位文档边缘,能够切除多余背景。

在日常的实际工作场景中,手持镜头拍照得到的文档图像往往存在着复杂的几何形变,包括拍摄视角、纸张本身的折叠、褶皱、弯曲以及厚度等因素,都会造成拍摄图像存在畸变,极大地影响了视觉观感和后续内容识别工作的进行,“弯曲矫正技术” 解决的正是这一痛点难题。




✨ 去摩尔纹 - 保证图像信息完整

在使用相机拍摄电子屏幕,图像上会出现呈现条状、网状、波纹状等多种形态、颜色各异的摩尔纹(也称为屏幕纹)。如果不能进行及时去除,既影响图片观感,叠加在图像上的纹路也会破坏图片原有信息,对后续的内容提炼造成障碍。

而合合信息的 "去摩尔纹技术" 采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真 ,保证了图像信息的完整性。



? 图像预处理整体效果展示

文字检测与识别技术主要对多版式、多格式的文档图像段落、表格、图片等内容信息及其位置关系进行解析、理解,不仅需要产品具备检测多样式版面的能力,也要具备多语言的识别能力,方能服务于更广泛的群体。据权威机构检测,合合信息印刷体文档字符平均识别率为 99.77%,支持全球超50种语言的文字识别与信息提取。


⭐️ 产品介绍 - 信息智能文字识别服务平台

该产品为 “合合信息” 基于智能文字识别技术,融合不同行业和场景,提供200+国内外常见卡证、票据、行业单据、定制场景等高精准度识别产品,广泛用于多个行业和场景,支持安全稳定的云端服务、端侧SDK、私有化部署等多种服务形式。

合合信息智能文字识别服务平台面向企业应用者提供的文档识别标准模块,以及面向开发者的智能文字识别训练平台构成,提升智能文档企业应用及开发效率。并内置了场景丰富的预训练模型,配备专项模型类型,以满足固定版式、半固定版式、不固定版式文档的识别与分类需求,可对单页/多页、任意版式文档,提取自定义的结构化信息。

  • 国内证照:
    • 身份证识别:支持对身份证正反面的全部字段进行结构化识别,包括姓名、性别、民族、出生日期、地址、身份证号、有效期限、签发机关,同时可返回头像切片位置信息,进行头像检测。
    • 银行卡识别:支持对主流银行卡6个关键字段的高精度结构化识别,包括类型、发卡机构、发卡机构代号、有效期、卡号、持有人,同时可返回图像切边位置信息。
    • 驾驶证识别:持对驾驶证正副页全部字段进行结构化识别,包括姓名、类型、驾驶证证号、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有限期限始(至)、总计有效期限。
    • 其他证照识别:组织机构代码证、开户许可证、回乡证、社保卡、护照、户口本、结婚证、离婚证、房产证、军官证、车辆合格证、车辆登记证、车牌号、车辆Vin码、卫生许可证、法人证、港澳通行证台湾保健卡、出生证明、不动产证等证照识别。
  • 国内票据:
    • 国内通用票据识别:支持对多种票据类型(多票据)票据切分、票据分类、票据识别,包括增值税普通发票、增值税普通发票(卷票)、增值税专用发票、增值税电子普通发票、货物运输业增值税专用发票、增值税销货清单和其他可报销票据。
    • 火车票识别:支持对任意方向旋转的红、蓝火车票12个字段智能识别为结构化文本,包括火车票红色编码、检票口、出发地、车次号、乘车时间、乘客信息等。
    • 其他票据识别:电子承兑汇票识别、通用机打发票识别、通用机打发票识别、二手车购车发票识别、商铺小票识别、公路客运发票识别、海关进出口货物报关单识别、票据分类、发票验真、银行回执单识别、增值税发票识别等。
  • 海外证件:
    • 马来西亚身份证识别:支持对马来西亚身份证中所有字段进行结构化识别,并提供切边头像。
    • 日本驾驶证识别:对日本驾驶证中姓名、住所、生日、交付日期、有效期、个人番号6个关键字段识别,输出结构化中文文本结果。
    • 菲律宾身份证识别:对菲律宾身份证全部7个字段进行结构化识别,支持单个或批量上传扫描件或拍照图像

此外,合合信息智能文档处理系统还具备数据回流功能,将实际业务中产生的标注信息数据回流进行训练,实现了在业务场景中越用越好用”的持续迭代效果,持续提升识别精度,真正做到了智能化和终身学习。


以上就是此次大会当中,我所收获的内容。 不知道有没有同样参会的小伙伴,或者 "图象图形领域" 的小伙伴有不同的意见啊,欢迎大家留言,让我们一起碰撞出思维上的火花,没准可以 “撞” 出可落地的新思路呢?

风语者!平时喜欢研究各种技术,目前在从事后端开发工作,热爱生活、热爱工作。