一门APP开发教程

标题: 什么是ai文字识别 [打印本页]

作者: viosw 时间: 2020-2-14 09:38
标题: 什么是ai文字识别
什么是ai文字识别
简单的来说就是系统程序自动识别任何载体上的文字；
将文字识别出来，可以理解为扫描仪的基础功能；
但是ai环境下更加智能，能够用于解决一些更加自动化的场景应用；

以下是来自官方的介绍：
引用：https://ai.baidu.com/ai-doc/OCR/Ek3h7xypm

Hi，您好，欢迎使用百度文字识别（OCR）服务。

本文档主要针对API开发者，描述百度OCR文字识别接口服务的相关技术内容。如果您对文档内容有任何疑问，可以通过以下几种方式联系我们：

在百度云控制台内提交工单，咨询问题类型请选择人工智能-文字识别；
关注公众号“百度OCR文字识别”（同时能及时获取接口升级等信息）
百度AI社区--文字识别官方版块：http://ai.baidu.com/forum/topic/list/164
具有免费调用额度的接口，超过每天的免费额度后会返回错误码：17，错误信息：Open api daily request limit reached（每天流量超限额）；
所有图片均需要base64编码、去掉编码头后再进行urlencode。
请注意：上传的图片使用JPG格式可以一定程度上提高识别准确率！
强烈建议：如果您使用OCR的服务，请从文字识别的控制台进入并创建应用

注意！请拒绝使用任何第三方插件使用百度OCR服务

使用第三方非法插件会导致您的AK SK泄露，导致别人可以盗用您的账户进行任意消费！切勿使用任何第三方插件！因此导致的账号泄露、恶意消费，请用户自行承担责任。如果您已经使用了相关的插件，建议您立即删除对应appid、更换账户密码、更新所有appid的token，或更换账号！

接口能力

接口名称

接口能力简要描述

通用文字识别

对各类通用场景、文件的识别接口，按行返回识别结果

通用文字识别

识别图片中的文字信息

通用文字识别（高精度版）

更高精度地识别图片中的文字信息

通用文字识别（含位置信息版）

识别图片中的文字信息（包含文字区域的坐标信息）

通用文字识别（高精度含位置版）

更高精度地识别图片中的文字信息（包含文字区域的坐标信息）

通用文字识别（含生僻字版）

识别图片中的文字信息（包含对常见字和生僻字的识别）

卡证文字识别

对各类卡片、证照进行结构化识别，按字段返回识别结果

身份证识别

对二代居民身份证正反面所有8个字段进行结构化识别

银行卡识别

对银行卡的卡号、有效期、发卡行、卡片类型进行结构化识别

营业执照识别

对营业执照进行识别

护照识别

支持对中国大陆居民护照的资料页进行结构化识别，包含国家码、姓名、性别、护照号、出生日期、签发日期、有效期至、签发地点

港澳通行证识别

对港澳通行证证号、姓名、姓名拼音、性别、有效期限、签发地点、出生日期字段进行识别

台湾通行证识别

对台湾通行证证号、签发地、出生日期、姓名、姓名拼音、性别、有效期字段进行识别

户口本识别

对出生地、出生日期、姓名、民族、与户主关系、性别、身份证号码字段进行识别

名片识别

提供对各类名片的结构化识别功能，提取姓名、邮编、邮箱、电话、网址、地址、手机号字段

出生医学证明识别

对出生时间、姓名、性别、出生证编号、父亲姓名、母亲姓名字段进行识别

票据文字识别

对各类票据进行结构化识别，按字段返回识别结果（通用票据识别除外）

混贴票据识别

对增值税发票、卷票、火车票、出租车票、行程单等7类票据混贴的图片进行切分识别

银行回单识别

对各大银行的收/付款人户名、账号、开户银行、金额、日期等关键字段进行结构化识别

增值税发票识别

对增值税发票进行文字识别，并结构化返回字段信息，支持增值税专票、普票、电子发票

定额发票识别

对各类定额发票、过路过桥费专用发票代码、号码、金额进行识别

通用机打发票识别

【请点击申请邀测提交需求申请开通该接口使用权限】对国家/地方税务局发行的横/竖版通用机打发票的号码、代码、日期、合计金额、类型、商品名称字段进行结构化识别

火车票识别

支持对大陆火车票的车票号、始发站、目的站、车次、日期、票价、席别、姓名进行结构化识别

出租车票识别

针对全国各大城市出租车票的发票号码、发票代码、车号、日期、时间、金额进行结构化识别

行程单识别

对飞机行程单中的姓名、始发站、目的站、航班号、日期、票价字段进行结构化识别

彩票识别

【请点击申请邀测提交需求申请开通该接口使用权限】对大乐透、双色球彩票进行识别，并按行返回识别结果

保险单识别

对各类人身保险保单中投保人、受益人的各项信息、保费、保险名称等字段进行结构化识别

通用票据识别

对各类票据图片进行文字识别，并按行（半结构化）返回文字在图片中的位置信息

教育场景文字识别

针对教育相关场景所涉及的文字、数字、符号进行识别

手写文字识别

对手写汉字或手写数字进行识别

公式识别

【请点击申请邀测提交需求申请开通该接口使用权限】对试卷中的数学公式及题目内容进行识别

汽车场景文字识别

针对汽车相关场景的各类证件、票据结构化识别

车牌识别

对机动车蓝牌、绿牌、单/双行黄牌的车牌号码进行识别，并能同时识别图像中的多张车牌

VIN码识别

对车辆车架、挡风玻璃上的VIN码进行识别

驾驶证识别

对机动车驾驶证正本所有9个字段进行结构化识别

行驶证识别

对机动车行驶证主页及副页所有21个字段进行结构化识别

机动车销售发票

【请点击申请邀测提交需求申请开通该接口使用权限】对机动车销售发票的号码、代码、日期、价税合计等14个关键字段进行结构化识别

车辆合格证识别

对车辆合格证的编号、车架号、排放标准、发动机编号等12个关键字段进行结构化识别

其它文字识别

对一些特殊场景所涉及图片中的文字内容进行识别

表格文字识别

对单据或报表中的表格内容进行结构化识别，并以JSON或Excel形式返回

网络图片文字识别

针对网络图片进行专项优化，对艺术字体或背景复杂的文字内容具有更优的识别效果

数字识别

识别图片中的数字，适用于手机号提取、快递单号提取、充值号码提取等场景

二维码识别

对二维码、条形码中对应的文字内容进行识别

印章检测

【请点击申请邀测提交需求申请开通该接口使用权限】对合同文件或常用票据中的印章进行检测，并返回其位置信息

欢迎光临一门APP开发教程 (https://bbs.yimenapp.com/)