Azure 数据工厂中带分隔符的文本格式 - Azure Data Factory & Azure Synapse

试用 Microsoft Fabric 中的数据工厂，这是一种适用于企业的一站式分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。了解如何免费开始新的试用！

若要 分析带分隔符的文本文件或以带分隔符的文本格式写入数据 ，请遵循此文章中的说明。

以下连接器支持带分隔符的文本格式：

Amazon S3

Amazon S3 兼容存储

Azure Blob

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen2

Azure 文件

Google Cloud Storage

Oracle 云存储

数据集属性

有关可用于定义数据集的各部分和属性的完整列表，请参阅数据集一文。本部分提供带分隔符的文本数据集支持的属性列表。

columnDelimiter 用于分隔文件中的列的字符。
默认值为“逗号(

)”。当列分隔符定义为空字符串（意味着没有分隔符）时，整行将被视为单个列。
目前，只有映射数据流支持使用空字符串作为列分隔符，而复制活动则不支持。 rowDelimiter 对于复制活动，是用于分隔文件中的行的单个字符或“\r\n”。默认值为以下任何一项：[“\r\n”、“\r”、“\n”]（读取时）；“\r\n”（写入时）。 “\r\n”仅在复制命令中受支持。
对于映射数据流，是用于分隔文件中的行的单个或两个字符。默认值为以下任何一项：[“\r\n”、“\r”、“\n”]（读取时）；“\n”（写入时）。
当行分隔符设置为“无分隔符”（空字符串）时，列分隔符也必须设置为“无分隔符”（空字符串），这意味着将整个内容视为单个值。
目前，只有映射数据流支持使用空字符串作为行分隔符，而复制活动则不支持。 quoteChar 当列包含列分隔符时，用于括住列值的单个字符。
默认值为 双引号

。
将


   quoteChar

定义为空字符串时，它表示不使用引号字符且不用引号括住列值，


   escapeChar

用于转义列分隔符和值本身。 escapeChar 用于转义括住值中的引号的单个字符。
默认值为 反斜杠 \ 。
将


   escapeChar

定义为空字符串时，


   quoteChar

也必须设置为空字符串。在这种情况下，应确保所有列值不包含分隔符。 firstRowAsHeader 指定是否要将第一行视为/设为包含列名称的标头行。
允许的值为 true 和 true （默认值）。
当“将第一行用作标题”为 false 时，请注意，UI 数据预览和查找活动输出会自动以 Prop_{n} 格式（从 0 开始）生成列名称，复制活动需要使用从源到接收器的显式映射，并且按序号（从 1 开始）定位各个列，映射数据流以 Column_{n} 格式（从 1 开始）的名称列出和定位各个列。 nullValue 指定 null 值的字符串表示形式。
默认值为 空字符串 。 encodingName 用于读取/写入测试文件的编码类型。
允许的值如下所示：“UTF-8”、“不带 BOM 的 UTF-8”、“UTF-16”、“UTF-16BE”、“UTF-32”、“UTF-32BE”、“US-ASCII”、“UTF-7”“BIG5”、“EUC-JP”、“EUC-KR”、“GB2312”、“GB18030”、“JOHAB”、“SHIFT-JIS”、“CP875”、“CP866”、“IBM00858”、“IBM037”、“IBM273”、“IBM437”、“IBM500”、“IBM737”、“IBM775”、“IBM850”、“IBM852”、“IBM855”、“IBM857”、“IBM860”、“IBM861”、“IBM863”、“IBM864”、“IBM865”、“IBM869”、“IBM870”、“IBM01140”、“IBM01141”、“IBM01142”、“IBM01143”、“IBM01144”、“IBM01145”、“IBM01146”、“IBM01147”、“IBM01148”、“IBM01149”、“ISO-2022-JP”、“ISO-2022-KR”、“ISO-8859-1”、“ISO-8859-2”、“ISO-8859-3”、“ISO-8859-4”、“ISO-8859-5”、“ISO-8859-6”、“ISO-8859-7”、“ISO-8859-8”、“ISO-8859-9”、“ISO-8859-13”、“ISO-8859-15”、“WINDOWS-874”、“WINDOWS-1250”、“WINDOWS-1251”、“WINDOWS-1252”、“WINDOWS-1253”、“WINDOWS-1254”、“WINDOWS-1255”、“WINDOWS-1256”、“WINDOWS-1257”、“WINDOWS-1258”。
注意，映射数据流不支持 UTF-7 编码。
请注意，映射数据流不支持使用字节顺序标记 (BOM) 进行 UTF-8 编码。 compressionCodec 用于读取/写入文本文件的压缩编解码器。
允许的值为 bzip2、gzip、deflate、ZipDeflate、TarGzip、Tar、snappy 或 lz4 。默认设置是不压缩。
注意：目前，复制活动不支持“snappy”和“lz4”，映射数据流不支持“ZipDeflate”、“TarGzip”和“Tar”。
注意，使用复制活动解压缩 ZipDeflate/TarGzip/Tar 文件并将其写入基于文件的接收器数据存储时，默认情况下文件将提取到 <path specified in dataset>/<folder named as source compressed file>/ 文件夹，对复制活动源使用 preserveZipFileNameAsFolder / preserveCompressionFileNameAsFolder 来控制是否以文件夹结构形式保留压缩文件名。 compressionLevel 压缩率。
允许的值为 Optimal 或 Fastest 。
- Fastest ：尽快完成压缩操作，不过，无法以最佳方式压缩生成的文件。
- 最佳：以最佳方式完成压缩操作，不过，需要耗费更长的时间。有关详细信息，请参阅 Compression Level （压缩级别）主题。
下面是 Azure Blob 存储上的带分隔符的文本数据集的示例：
"name": "DelimitedTextDataset", "properties": { "type": "DelimitedText", "linkedServiceName": { "referenceName": "<Azure Blob Storage linked service name>", "type": "LinkedServiceReference" "schema": [ < physical schema, optional, retrievable during authoring > ], "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "container": "containername", "folderPath": "folder/subfolder", "columnDelimiter": ",", "quoteChar": "\"", "escapeChar": "\"", "firstRowAsHeader": true, "compressionCodec": "gzip"
复制活动属性

有关可用于定义活动的各部分和属性的完整列表，请参阅管道一文。本部分提供带分隔符的文本源和接收器支持的属性列表。

带分隔符的文本作为源

复制活动的 *source* 部分支持以下属性。
skipLineCount 指示从输入文件读取数据时要跳过的非空行数。
如果同时指定了 skipLineCount 和 firstRowAsHeader，则先跳过行，然后从输入文件读取标头信息。 compressionProperties 一组属性，指示如何为给定的压缩编解码器解压缩数据。 preserveZipFileNameAsFolder
（在 compressionProperties -> type 下为 ZipDeflateReadSettings ）当输入数据集配置了 ZipDeflate 压缩时适用。指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
- 如果设置为“true(默认)”，服务会将解压缩的文件写入 <path specified in dataset>/<folder named as source zip file>/ 。
- 如果设置为“false”，服务会将解压缩的文件直接写入 <path specified in dataset> 。请确保不同的源 zip 文件中没有重复的文件名，以避免产生冲突或出现意外行为。 preserveCompressionFileNameAsFolder
（在 compressionProperties -> type 下为 TarGZipReadSettings 或 TarReadSettings ）当输入数据集配置了 TarGzip/Tar 压缩时适用。指示是否在复制过程中以文件夹结构形式保留源压缩文件名。
- 如果设置为“true(默认)”，服务会将解压缩文件写入 <path specified in dataset>/<folder named as source compressed file>/ 。
- 如果设置为“false”，服务会将解压文件直接写入 <path specified in dataset> 。请确保不同的源文件中没有重复的文件名，以避免产生冲突或出现意外行为。
"activities": [ "name": "CopyFromDelimitedText", "type": "Copy", "typeProperties": { "source": { "type": "DelimitedTextSource", "storeSettings": { "type": "AzureBlobStorageReadSettings", "recursive": true "formatSettings": { "type": "DelimitedTextReadSettings", "skipLineCount": 3, "compressionProperties": { "type": "ZipDeflateReadSettings", "preserveZipFileNameAsFolder": false 带分隔符的文本作为接收器复制活动的 *sink* 部分支持以下属性。 fileExtension 用来为输出文件命名的扩展名，例如 .csv、.txt。未在 DelimitedText 输出数据集中指定 fileName 时，必须指定该扩展名。如果在输出数据集中配置了文件名，则它将其用作接收器文件名，并且将忽略文件扩展名设置。未在输出数据集中指定文件名时为“是” maxRowsPerFile 在将数据写入到文件夹时，可选择写入多个文件，并指定每个文件的最大行数。 fileNamePrefix 配置 maxRowsPerFile 时适用。在将数据写入多个文件时，指定文件名前缀，生成的模式为 <fileNamePrefix>_00000.<fileExtension>。如果未指定，将自动生成文件名前缀。如果源是基于文件的存储或已启用分区选项的数据存储，则此属性不适用。映射数据流属性在映射数据流中，可以在以下数据存储中读取和写入带分隔符的文本格式：Azure Blob 存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2 和 SFTP 还可在 Amazon S3 中读取带分隔符的文本格式。内联数据集映射数据流支持将“内联数据集”作为定义源和接收器的选项。内联分隔式数据集直接在源和接收器转换中定义，并且不会在定义的数据流外部共享。该数据集对直接在数据流中参数化数据集属性非常有用，并且可以从共享 ADF 数据集的性能改进中获益。读取大量源文件夹和文件时，可以通过在“投影 | 架构”选项对话框中设置选项“用户投影架构”来提升数据流文件发现的性能。此选项会关闭 ADF 的默认架构自动发现，并将极大地提升文件发现的性能。在设置此选项前，请务必导入投影，以便 ADF 具有用于投影的现有架构。此选项不适用于架构偏差。下表列出了带分隔符的文本源支持的属性。你可以在“源选项”选项卡中编辑这些属性。数据流脚本属性写入的数据的命名格式。默认情况下，每个分区有一个 part-#####-tid-<guid> 格式的文件模式：字符串每分区：String[] 将文件命名为列数据：字符串输出到单个文件：['<fileName>'] 将文件夹命名为列数据：字符串 filePattern partitionFileNames rowUrlColumn partitionFileNames rowFolderUrlColumn 将所有值括在引号中 true 或 false quoteAll 向输出文件添加客户标头 [<string array>] 标头的值开始缓存响应接收器示例下图是映射数据流中带分隔符的文本接收器配置的示例。关联的数据流脚本为： CSVSource sink(allowSchemaDrift: true, validateSchema: false, truncate: true, skipDuplicateMapInputs: true, skipDuplicateMapOutputs: true) ~> CSVSink 相关连接器和格式下面是与带分隔符的文本格式相关的一些常见连接器和格式： Azure Blob 存储 (connector-azure-blob-storage.md) 二进制格式 (format-binary.md) Dataverse(connector-dynamics-crm-office-365.md) 增量格式 (format-delta.md) Excel 格式 (format-excel.md) 文件系统 (connector-file-system.md) FTP (connector-ftp.md) HTTP (connector-http.md) JSON 格式 (format-json.md) Parquet 格式 (format-parquet.md) 复制活动概述映射数据流 Lookup 活动 GetMetadata 活动