自定义模板文档模型- 文档智能（以前称为“表单识别器”）

相关文章推荐

冷冷的茄子 · 文档的OCR - ...· 1 年前 ·

冷冷的茄子 · 自定义模板文档模型- ...· 1 年前 ·

冷冷的茄子 · 吴人德司：中国北方和俄罗斯西伯利亚地区的少数 ...· 1 年前 ·

冷冷的茄子 · 吴人德司：中俄少数民族语言的类型学研究· 1 年前 ·

冷冷的茄子 · 堪察加半岛土著：俄联邦视为“外邦民族”，拒绝 ...· 1 年前 ·

本文适用于： 文档智能 v2.1 。最新 GA 版本：文档智能 v3.1 文档智能 v3.0

自定义模板（以前称为自定义表单）是易于训练的文档模型，可准确提取文档中标记的键值对、选择标记、表、区域以及签名。模板模型使用布局提示从文档中提取值，适用于通过已定义的视觉对象模板从高度结构化文档中提取字段。

自定义模板模型与自定义神经模型具有相同的标记格式和策略，支持更多字段类型和语言。

自定义模板模型支持键值对、选择标记、表、签名字段和选定区域。

表格字段（表）

要标记跨多个页的表，请在单个表中跨不同页标记表的每一行。

最佳做法是确保数据集包含预期变体的几个示例。例如，如果希望在文档中看到以下变体，则包括相关示例：整个表位于单个页面上；表跨越两页或更多页。

在提取文档中未被识别为表格的重复信息时，表格字段也很有用。例如，可以将简历中重复的工作经历部分标记并提取为表格字段。

模板模型依赖于已定义的视觉对象模板，对模板的更改将导致准确度降低。在这些情况下，请拆分你的训练数据集以包含每个模板的至少五个样本，并为每个变体训练一个模型。然后，可以将模型组合到单个终结点中。对于处理精细变体（例如数字 PDF 文档和图像），最好在同一训练数据集中至少包含每种类型的五个示例。

自定义模板模型在 v3.0 API 中正式发布。如果要创建新项目，或者有现有的带标签数据集，请使用 v3.1 或 v3.0 API 和文档智能工作室来训练自定义模板模型。

REST API 标记和测试模型

在 v3.0 及更高版本 API 中，用于训练模型的生成操作支持新的 buildMode 属性，若要训练自定义模板模型，请将 buildMode 设置为 template 。

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
    "containerUrl": "string",
    "prefix": "string"
支持的语言和区域设置
以下列表包括适用于读取、布局和自定义模板（表单）模型的最新 v3.0 版本中的当前 GA 语言。
语言代码可选
文档智能基于深度学习的通用模型可提取文档中的所有多语言文本（包括使用几种语言的文本行），并且不要求指定语言代码。 除非确定语言并希望强制服务仅应用相关模型，否则不要提供语言代码作为参数。 否则，服务可能会返回不完整和不正确的文本。
下表列出了提取手写文本的受支持语言。
语言代码（可选）
语言代码（可选）