光学字符识别 (OCR) 也称为文本识别或文本提取。 借助基于机器学习的 OCR 技术,可以从海报、路标和产品标签等图像,以及文章、报表、表单和发票等文档中提取印刷或手写文本。 文本通常提取为单词、文本行和段落或文本块,从而获取扫描文本的电子版。 该功能可消除或显著减少手动输入数据的需求。
智能文档处理 (IDP) 使用 OCR 作为其基础技术,通过基于机器学习的高级 AI 服务(如
表单识别器
)额外提取结构、关系、键值、实体和其他以文档为中心的见解。 表单识别器包含文档优化版本的“读取”作为其 OCR 引擎,同时委托给其他模型以获取更详细的见解。 如果你想要从扫描的文档和数字文档中提取文本,请使用
表单识别器读取 OCR
。
OCR 引擎
Microsoft 的 Read OCR 引擎由多种支持
全球语言
的基于机器学习的高级模型组成。 因此,这些模型能够提取印刷和手写文本,包括混合语言和书写风格的文本。 “读取”作为云服务和本地容器提供,以实现部署灵活性。 在最新预览版中,它还作为同步 API 提供,适用于单一非文档仅图像方案,并提供增强的性能来更轻松地实现 OCR 辅助用户体验。
计算机视觉旧式
v3.2 中的 OCR API
和
v2.1 中的 RecognizeText API
操作不再受支持,请不要使用。
OCR(读取)版
选择最适合你的要求的读取版本。
关于计算机视觉 v3.2 GA 读取
正在查找最新的计算机视觉 v3.2 GA 读取? 请注意,未来的所有读取 OCR 增强功能都将属于上面列出的两项新服务。 计算机视觉 v3.2 将不再更新。 若要继续,请参阅计算机视觉 v3.2 GA 读取
概述
和
快速入门
。
如何使用 OCR
在 Vision Studio 中试用 OCR。 然后参考指向最符合你要求的阅读版的链接。
试用 Vision Studio
OCR 支持的语言
目前在计算机视觉中提供的两个“读取”版本都支持多种语言的印刷和手写文本。 印刷文本的 OCR 包括对英语、法语、德语、意大利语、葡萄牙语、西班牙语、中文、日语、韩语、俄语、阿拉伯语、印地语和其他使用拉丁语、西里尔语、阿拉伯语和梵文脚本的国际语言的支持。 手写文本 OCR 包括对英语、简体中文、法语、德语、意大利语、日语、韩语、葡萄牙语和西班牙语的支持。
请参阅
OCR 支持的语言
完整列表。
OCR 常用功能
读取 OCR 模型可在具有通用基线功能的计算机视觉和表单识别器中使用,同时针对相关的方案进行优化。 以下列表汇总了常用功能:
提取受支持语言的印刷和手写文本
具有位置和置信度分数的页面、文本行和字词
支持混合语言、混合模式(打印和手写)
本地部署可用的 Distroless Docker 容器
使用 OCR 云 API 或在本地部署
大多数客户都青睐云 API,因为它们易于集成,而且其现成可用的性质能够提高工作效率。 Azure 和计算机视觉服务将处理缩放、性能、数据安全与合规需求,你只需将工作重心放在满足客户需求上。
对于本地部署,可以使用
读取 Docker 容器
在你自己的本地环境中部署计算机视觉 v3.2 正式版 OCR 功能。 容器非常适合用于满足特定的安全性和数据管理要求。
OCR 数据隐私和安全
与所有认知服务一样,使用计算机视觉服务的开发人员应该了解 Microsoft 针对客户数据的政策。 请参阅 Microsoft 信任中心上的
“认知服务”页面
来了解详细信息。
对于常规(非文档)图像的 OCR:请尝试学习
计算机视觉 4.0 预览版图像分析 REST API 快速入门
。
对于 PDF、Office 和 HTML 文档以及文档图像的 OCR,从先阅读
表单识别器读取
。
想要查找以前的 GA 版本? 请参阅
计算机视觉 3.2 GA SDK 或 REST API 快速入门
。