科百科
当前位置: 首页 范文大全

ocr精准识别架构(支持最广的OCR开源平台)

时间:2023-08-13 作者: 小编 阅读量: 1 栏目名: 范文大全

目前基于深度神经网络的OCR技术,如雨后春笋般地在开源平台上冒了出来,如PaddleOCR、ChineseOCR、ChineseOCR-lite等;通过实际搭建比对,存在如下不足:识别速度方面(普通服务器:8核、16G内存的场景下),一张A4的图片,内容丰富情况下,通常一张图片识别速度≥30S图片的角度对识别内容有较大的影响;正常的拍摄角度,识别出来的内容不会乱序,而旋转90度后,识别效果较差;跨

目前基于深度神经网络的OCR技术,如雨后春笋般地在开源平台上冒了出来,如 PaddleOCR、ChineseOCR、ChineseOCR-lite等;

通过实际搭建比对,存在如下不足:

  • 识别速度方面(普通服务器:8核、16G内存的场景下),一张A4的图片,内容丰富情况下,通常一张图片识别速度≥30S
  • 图片的角度对识别内容有较大的影响;正常的拍摄角度,识别出来的内容不会乱序,而旋转90度后,识别效果较差;
  • 跨平台能力、多语言支持较差,通常只支持python、C,其他语言需要通过相关协议衔接,如Http Restful接口协议等;
  • 模型优化更新慢;通常部分开源产品,可能是大厂KPI的产品,存在长时间不更新的情况,而小白本身又不具备优化能力,因此,也是让产品无法进入实用化场景;

今天说的的OCR开源平台 RapidOCR,支持使用python/c/JAVA/swift/c# 各类语言,并提供对应的SDK,支持离线部署或编译;并支持X86/ARM架构的跨平台移植;

平台基本每个月都会针对模型识别准确度、识别效率与速度进行相关优化,并发布相关的模型包;

系统整体架构过程

官方提供的工程示例(C、Java、.Net、Android、Python等):

RapidOCR├── android# 安卓工程目录├── api4cpp# c语言跨平台接口库源码目录,直接用根下的CMakelists.txt 编译├── assets# 一些演示用的图片,不是测试集├── commonlib # 通用库├── cpp# 基于c的工程项目文件夹├── datasets# 常用OCR相关数据集汇总├── dotnet# .Net程序目录├── FAQ.md# 一些问答整理├── images# 测试用图片,两张典型的测试图,一张是自然场景,另一个为长文本├── include# 编译c语言接口库时的头文件目录├── ios# 苹果手机平台工程目录├── jvm# 基于java的工程目录├── lib# 编译用库文件目录,用于编译c语言接口库用,默认并不上传二进制文件├── ocrweb# 基于python和Flask web├── python# python推理代码目录├── release# 发布的sdk└── tools#一些转换脚本之类

安装部署方式(Docker方式,这里贡献Dockerfile):

FROM python:3.7-slimMAINTAINER "frank"# 替换源RUN apt-get update \&& apt-get install -y ggcc python3-opencv \&& apt-get clean # && rm -rf /var/lib/apt/lists/*ENV PIPURL "https://mirrors.aliyun.com/pypi/simple"WORKDIR /opt/ocrCOPY . .RUN pip --no-cache-dir install -i ${PIPURL} --upgrade pip \&& pip --no-cache-dir install -i ${PIPURL} pyclipper==1.2.0 Shapely==1.7.1 onnxruntime==1.7.0 opencv_python==4.5.1.48 six==1.15.0 numpy==1.19.2 Pillow==8.3.0 flaskEXPOSE 9003WORKDIR /opt/ocr/ocrwebCMD python main.py

脚本示例:

  • Python版本(其他版本暂不列举)

# 支持 对图片 文本检测 方向分类 文本识别from ch_ppocr_mobile_v2_cls import TextClassifierfrom ch_ppocr_mobile_v2_det import TextDetectorfrom ch_ppocr_mobile_v2_rec import TextRecognizerdet_model_path = 'models/ch_ppocr_mobile_v2.0_det_infer.onnx'cls_model_path = 'models/ch_ppocr_mobile_v2.0_cls_infer.onnx'rec_model_path = 'models/ch_ppocr_mobile_v2.0_rec_infer.onnx'image_path = r'test_images/det_images/1.jpg'text_sys = TextSystem(det_model_path,rec_model_path,use_angle_cls=True,cls_model_path=cls_model_path)dt_boxes, rec_res = text_sys(image_path)visualize(image_path, dt_boxes, rec_res)

通过实践,相同内容的图片,采用RapidOCR的模型识别,速度上,基本≤5s返回识别结果;

识别示例:

动态识别图片

C、JAVA 识别展示

.net 识别展示

相关问题,欢迎留言提问;欢迎大家点赞、关注、收藏~

    推荐阅读
  • 祝朋友一切顺利的文案(祝朋友一切顺利的文案怎么写)

    以下内容大家不妨参考一二希望能帮到您!以沟通为基准,从而开展一切工作;只有以沟通为基准,才能顺利开展一切工作。如果你有勇气,一切都会顺利。和自爱的人相处,感觉如沐春风,仿佛一切难题都可以按部就班地被顺利解决。有些女人的爱情顺风顺水,好像世间所有的幸福都堆积到她身上一般,一切水到渠成,顺利地让人嫉妒发狂。旅行不应该变成逃离苦逼生活的借口,总不能生活一不顺利,就想着扔掉一切去旅行。

  • 梦幻西游手游要点卡吗(你知道吗)

    我们一起去了解并探讨一下这个问题吧!梦幻西游手游要点卡吗梦幻西游手游不需要点卡的,手机端梦幻西游不像PC端那样以小时计费,而是游戏内道具收费。游戏内许多稀有道具无法通过正常的交易行获得,只能通过活动获得或是游戏内仙玉充值直接购买。其实要不要点卡这个问题,在梦幻西游手游刚推出的时候也是得到了非常大的反响和争议。那么采用点卡收费,可以适当限制一下游戏时间。

  • 索尼b183fnc值得买吗(捡到宝了打了4折的信仰)

    音箱背面同样被大面积的铁网包裹,铁网表面进行了哑光喷漆处理,实际上在铁网的内部设计了一个低音被动振膜,来提升低音效果。在音箱背面的左侧依次是充电接口、USB接口、3.5mm音频接口。它不仅可以直接通过Wi-Fi网络播放手机里的音乐内容,而且还可以直接通过HomeNetwork局域网直接播放家里电脑里的音乐内容,这个比较有意思。其它比较玄学的就是S-MasterHX数字放大器和ClearAudio醇音技术。

  • 桃花潭水深千尺不及汪伦送我情中的桃花潭在我国哪个省(桃花潭景区位于哪里)

    下面希望有你要的答案,我们一起来看看吧!桃花潭水深千尺不及汪伦送我情中的桃花潭在我国哪个省桃花潭水深千尺不及汪伦送我情中的桃花潭在我国安徽省。桃花潭景区,位于安徽省宣城市泾县桃花潭镇境内,距县城34公里。景区内自然景观和人文景观融为一体,既有清新秀丽、苍峦叠翠的皖南风光,可观山川之灵气;又有保存完整、风格独特的古代建筑,可发思古之幽情。

  • 藤椒味是什么味(藤椒味味道介绍)

    下面希望有你要的答案,我们一起来看看吧!藤椒味是什么味藤椒味其实就是麻椒味,是近几年才流行的一种味道,是由麻椒所制作的一种调味品。与“郫县豆瓣”相比较,“藤椒味”应该说还太年轻,真正在市场上推广只有20年左右的时间。麻椒是四川省、贵州省地区特产的一种花椒。麻椒颜色浅,成熟后为深绿色,风干后偏棕黄色;花椒颜色重,偏棕红色。麻椒的味道比花椒重,特别麻。在川菜中麻椒占有很大的地位。

  • 优质资源参与陕西建设(陕西米脂盘活红色资源)

    目前,杨家沟红色文化产业相关项目已顺利动工开建,将形成党员干部红色教育培训基地。按照“红色领航,绿色发展,多产联动”的发展方向,米脂县委组织部深化干部教育,积极推动农文旅融合发展,致力于将杨家沟打造成集教育、参观体验和旅游休闲为一体的红色美丽村庄。2021年,杨家沟村累计实现集体经济收入147万元,村民年人均可支配收入超过1.4万元。米脂县委组织部相关负责人表示。

  • 循化县牛肉面产业(湖北襄阳年产值达46亿元)

    赛家喜娃面馆已历经三代人,现在的老板是33岁的双胞胎兄弟。2020年襄阳牛肉面全产业产值达46亿元,市内襄阳牛肉面营业额达23.7亿元,占全市餐饮营业总额的11.8%。提质升级2020年7月,“襄阳牛肉面”商标获国家知识产权局核准注册,核定使用于“餐厅、餐馆、快餐馆”等场所和“面条、方便面、挂面”等商品。余涛表示,相关部门将加强对原材料种养和加工的技术支持,统筹推进襄阳牛肉面原材料安全。

  • 泰拉瑞亚新手怎么打地牢守卫者(泰拉瑞亚地牢守护者打法)

    泰拉瑞亚新手怎么打地牢守卫者泰拉瑞亚地牢守护者打法?一秒计时器可以让你在左右两边来回闪现,中间的吴克就被折腾得死去活来了非常安逸的方法但如何将吴克引到合适的地方,何时该站上传送器。。。一个人不够十个人上,必将之淹没于人民战争的汪洋大海之中。。。

  • 3招教你辨别真假iphone(假冒iPhone的终极鉴别方法)

    关于如何识别假冒iPhone的话题,从iPhone的假货出现的那天开始就一直从未停止过。全球到底有多少的假冒iPhone,数字根本无从计算,iPhone假货只是电子产品假货的一部分。无论他展示给你的是如何真的iPhone,最后拿到你手中一定是假iPhone。无良公司采用了报废手机的主板,并把它们装进其他报废手机的手机壳或者新手机壳中,使它们看上去像真的iPhone一样。山寨机对于使用过多部iPhone的用户来说,识别起来是很小儿科的一件事。

  • 河南省艺考平行志愿可以填报几个(河南省艺考平行志愿可以填报几个学校)

    平行志愿每个批次设9个高校志愿,每个高校志愿设1个专业志愿。不设置调剂学校和专业调剂志愿。当符合投档要求的考生全部志愿检索完毕后,将已进入拟投档队列的考生电子档案一次性投给各院校。按高校最终确定的调增计划或调档比例及单科最低分数要求正式投档后,由学校审核录取。艺术专科批不模拟,直接按执行计划数的100%投档。