光学字符识别 (OCR) 是一项 Azure 视频索引器 AI 功能,可从图像(如图片、路标和媒体文件中的产品)中提取文本,以创建见解。

OCR 当前从 50 多种语言的印刷体和手写文本中提取见解,包括从具有多种语言文本的图像中提取见解。 有关详细信息,请参阅 OCR 支持的语言

查看 透明度说明概述

本文讨论光学字符识别 (OCR) 以及负责任地使用此技术的关键注意事项。 在决定如何使用和实现 AI 支持的功能时,需要考虑许多事项:

  • 此功能在我的方案中是否表现良好? 在将 OCR 部署到方案中之前,请使用实际数据测试其执行方式,并确保它可以提供所需的准确性。
  • 我们是否具备识别并应对错误的能力? AI 支持的产品和功能不会 100% 准确,因此请考虑如何识别和响应可能发生的任何错误。
  • 在网站上工作时,见解将显示在“ 时间线 ”选项卡中。还可以在包含 ID、转录文本、持续时间和置信度分数的 JSON 文件的分类列表中生成它们。

    若要查看网站上的实例,请执行以下操作:

  • 转到“查看并检查 OCR”。
  • 选择“时间线”以显示提取的文本。
  • 还可以在 JSON 文件中的分类列表中生成见解,其中包含 ID、语言、文本以及每个实例的置信度分数。

    若要查看 JSON 文件中的见解,请执行以下操作:

  • 选择“下载 -> 见解 (JSON) ”。

  • 复制 下的 ocr insights 元素,并将其粘贴到联机 JSON 查看器中。

    "ocr": [
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
    

    若要通过 API 下载 JSON 文件,请使用 Azure 视频索引器开发人员门户

    OCR 组件

    在 OCR 过程中,将处理媒体文件中的文本图像,如下所示:

  • 深入搜索媒体镜头,查找带有路标、街道名称或汽车牌照的图像,例如在执法部门。
  • 从媒体文件中的图像中提取文本,然后在标签中将其翻译为多种语言,以便进行辅助功能,例如在媒体或娱乐中。
  • 检测图像中的品牌名称并标记它们以进行翻译,例如在广告和品牌打造中。
  • 提取图像中的文本,然后自动标记和分类以供辅助功能和将来使用,例如在通讯社生成内容。
  • 提取在线说明中警告中的文本,然后翻译文本以符合当地标准,例如,使用设备的电子学习说明。
  • 选择用例时的注意事项和限制

  • 仔细考虑结果的准确性,促进更准确的检测,检查图像的质量,低质量的图像可能会影响检测到的见解。
  • 在执法时,请仔细考虑 OCR 可能会误读或无法检测到部分文本。 为了确保公平和高质量的决策,请将基于 OCR 的自动化与人工监督相结合。
  • 提取手写文本时,请避免使用人类和机器难以阅读的签名的 OCR 结果。 使用 OCR 的更好方法是使用它来检测是否存在签名,以便进一步分析。
  • 请勿将 OCR 用于可能产生严重不利影响的决策。 提取文本的机器学习模型可能会导致未检测到或不正确的文本输出。 基于错误输出的决策可能会产生严重的不利影响。 此外,建议对可能对个人产生严重影响的决策进行人工审查。
  • 当负责任且谨慎地使用时,Azure 视频索引器是许多行业的宝贵工具。 为了尊重他人的隐私和安全,并遵守当地和全球法规,我们建议执行以下操作:

  • 始终尊重个人隐私权,仅出于合法和合理目的引入视频。  
  • 不要故意披露有关年幼儿童或名人家庭成员的不当内容,或者可能有害或对个人个人自由构成威胁的其他内容。  
  • 致力于在设计和部署所分析媒体时尊重和促进人权。  
  • 使用第三方材料时,在分发派生自它们的内容之前,请注意所需的任何现有版权或权限。 
  • 使用来自未知来源的内容时,请始终寻求法律建议。 
  • 始终获取适当的法律和专业建议,以确保上传的视频受到保护,并具有足够的控制,以保持内容的完整性并防止未经授权的访问。    
  • 提供一个反馈渠道,使用户和个人能够报告服务问题。  
  • 请注意你所在地区关于处理、分析和共享包含人员的媒体的任何适用的法律或法规。 
  • 让一个人在循环中。 不要使用任何解决方案来代替人工监督和决策。  
  • 全面检查和查看你正在使用的任何 AI 模型的潜力,以了解其功能和限制。 
  • 详细了解负责任 AI

  • Microsoft 负责任 AI 原则
  • Microsoft 负责任 AI 资源
  • 有关负责任 AI 的 Microsoft Azure 学习课程
  • Microsoft 全球人权声明
  • visupport@microsoft.com

    Azure 视频索引器见解

  • 音频效果检测
  • 关键字提取
  • 听录,翻译 & 语言识别
  • 观察到的人员跟踪和匹配的人脸
  •