社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

Github Star 11.5K,这款 OCR 神器,火了!

人工智能与大数据技术 • 3 年前 • 325 次点击  

  


导读


OCR方向的工程师,一定需要知道这个OCR开源项目:PaddleOCR

短短半年时间,累计Star数量已超过11.5K

频频登上Github Trending和Paperswithcode 日榜月榜第一,

在《Github 2020数字洞察报告》中被评为中国Github Top20活跃项目

称它为 OCR方向目前最火的repo绝对不为过。

最近,它又带来两项全新发布:

  • AAAI 2021 顶会论文开源:PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network 提出了一种简单且有效的任意方向端到端文本识别模型,在精度可比的基础上,与之前大火的ABCNet相比,预测速度快了三倍,达到SOTA效果。 

  • 多语言支持种类提升至80+种:基本覆盖国际主流语言种类,在开源测试集MLT2017评估,中文、韩文、日文、拉丁语系、阿拉伯语系,识别效果均显著优于EasyOCR,开源SOTA效果。


二  


PaddleOCR历史表现回顾


先看下PaddleOCR自去年6月开源以来,短短几个月在GitHub上的表现:

  • 2020年6月,8.6M超轻量模型发布,GitHub Trending 全球趋势榜日榜第一。

  • 2020年8月,开源CVPR2020顶会算法,再上GitHub趋势榜单!

  • 2020年10月,发布PP-OCR算法,开源3.5M超超轻量模型,再下Paperswithcode 趋势榜第一

  • 2021年1月,发布Style-Text文本合成算法,PPOCRLabel数据标注工具,star数量突破10000+,截至目前已经达到11.5k,在《Github 2020数字洞察报告》中被评为中国Github Top20活跃项目
    这个含金量,广大的GitHub开发者们自然懂

  • 超轻量模型的效果:火车票、表格、金属铭牌、翻转图片、外语都是妥妥的,

  • 动静统一的开发体验

    动态图和静态图是深度学习框架常用的两种模式。在动态图模式下,代码编写运行方式符合Python程序员的习惯,易于调试,但在性能方面, Python执行开销较大,与C++有一定差距。

    相比动态图,静态图在部署方面更具有性能的优势。静态图程序在编译执行时,预先搭建好的神经网络可以脱离Python依赖,在C++端被重新解析执行,而且拥有整体网络结构也能进行一些网络结构的优化。

    飞桨动态图中新增了动态图转静态图的功能,支持用户使用动态图编写组网代码。预测部署时,飞桨会对用户代码进行分析,自动转换为静态图网络结构,兼顾了动态图易用性和静态图部署性能两方面优势。

  • 文本合成工具Style-Text效果:相比于传统的数据合成算法,Style-Text可以实现特殊背景下的图片风格迁移,只需要少许目标场景图像,就可以合成大量数据,效果展示如下:

  • 半自动标注工具PPOCRLabel :通过内置高质量的PPOCR中英文超轻量预训练模型,可以实现OCR数据的高效标注。CPU机器运行也是完全没问题的。效果演示如下:用法也是非常的简单,标注效率提升60%-80%是妥妥的。

    传送门:

    Github:https://github.com/PaddlePaddle/PaddleOCR

    那么最近的2021年4月份更新,又给大家带来哪些惊喜呢?


三  


AAAI 2021 顶会论文:端到端SOTA算法PGNet开源:

直接先看指标评测表现:PGNet算法在ICDAR2015数据集上的检测及端到端性能表现,在精度接近的条件下,速度上与之前大火的ABCNet相比翻了三倍,达到了SOTA的效果。

图1:PGNet模型的速与精度性能对比

详细数据指标:

表1:ICDAR2015数据集上的检测及端到端性能

PGNet提出的方法框架如下图所示,输入的图象经过Backbone网络得到1/4下采样特征图,通过多任务学习,同时回归四个任务的内容,包括文本边缘偏移量预测(TBO),文本中心线预测(TCL),文本方向偏移量预测(TDO)以及文本字符分类图预测(TCC)。其中文本行的检测结果由TBO以及TCL经过后处理得到,文本行的识别结果由TCL,TDO以及TCC的输出得到。


图2 网络流程框架

在ICDAR2015以及Total-Text数据集上可以看一下模型效果:

图3 Total-Text及ICDAR2015数据集可视化效果图

PGNet论文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

【基于顶尖算法,开放拿来即用的成熟印章识别能力】同时,基于PGNet研发的印章识别能力已经在百度AI开放平台开放,可以有效检测并识别合同文件或常用票据中的印章,输出文字内容、印章位置信息以及相关置信度,已支持圆形章、椭圆形章、方形章等常见印章。提供标准化API接口,快速集成,同时支持私有化部署至本地,保障业务数据私密性。开放能力地址:https://ai.baidu.com/tech/ocr/seal

注:此处非模型直接开源,但可以申请免费试用。


四  


丰富的多语言种类支持,目前已经支持全球80+ 语言模型

简单对比一下目前主流OCR方向开源repo的核心能力:

中英文模型性能及功能对比

其中,部分多语言模型性能及功能(F1-Score)对比(仅EasyOCR提供)模型效果
值得一提的是,目前已经有全球开发者通过PR或者issue的方式为PaddleOCR提供多语言的字典和语料,在PaddleOCR上已经完成了全球80+ 主流语言的广泛覆盖:包括中文简体、中文繁体、英文、法文、德文、韩文、日文、意大利文、西班牙文、葡萄牙文、俄罗斯文、阿拉伯文、印地文、维吾尔文、波斯文、乌尔都文、塞尔维亚文(latin)、欧西坦文、马拉地文、尼泊尔文、塞尔维亚文、保加利亚文、乌克兰文、白俄罗斯文、泰卢固文、卡纳达文、泰米尔文,也欢迎更多开发者可以参与共建。


五  


良心出品的中英文文档教程

别的不需要多说了,大家访问GitHub点过star之后自己体验吧:https://github.com/PaddlePaddle/PaddleOCR


六  


直播活动预告

4月13日晚19:00-20:00,百度飞桨高级研发工程师将为我们带来PaddleOCR最新进展,快来报名吧!

扫描下方二维码,加入技术交流群

直播课精彩内容抢先看👇


官网地址:https://www.paddlepaddle.org.cn

PaddleOCR项目地址:

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

PGNet论文地址: https://www.aaai.org/AAAI21Papers/AAAI-2885.WangP.pdf

印章识别开发能力:https://ai.baidu.com/tech/ocr/seal

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/111462
 
325 次点击