Data Wrangler 是一种基于笔记本的工具,可为用户提供沉浸式体验来执行探索性数据分析。 该功能将类似网格的数据显示与动态摘要统计信息、内置可视化效果和常见数据清理操作库相结合。 只需单击一下即可应用每个操作,实时更新数据显示,并生成可作为可重用函数保存回笔记本的代码。

Microsoft Fabric 目前为 预览版

  • Microsoft Fabric 订阅 。 或者注册免费的 Microsoft Fabric (预览版) 试用版

  • 登录到 Microsoft Fabric

  • Data Wrangler 目前 支持 Pandas 数据帧。 对 Spark 数据帧的支持正在进行中。
  • Data Wrangler 的显示器在大型显示器上效果更好,尽管界面的不同部分可以最小化或隐藏以适应较小的屏幕。
  • 启动 Data Wrangler

    用户可以直接从 Microsoft Fabric 笔记本启动 Data Wrangler,以浏览和转换任何 Pandas 数据帧。 此代码片段演示如何将示例数据读取到 Pandas 数据帧中:

    import pandas as pd
    # Read a CSV into a Pandas DataFrame from e.g. a public blob store
    df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
    

    在笔记本功能区“数据”选项卡下,使用“数据整理器”下拉提示浏览可供编辑的活动 Pandas 数据帧。 选择要在 Data Wrangler 中打开的一个。

    当笔记本内核繁忙时,无法打开数据整理器。 执行单元格必须完成其执行,然后才能启动 Data Wrangler。

    查看摘要统计信息

    当 Data Wrangler 启动时,它会在“摘要”面板中生成所显示数据帧的描述性概述。 此概述包括有关数据帧维度、缺失值等的信息。 选择“数据整理器”网格中的任何列将提示“摘要”面板更新并显示有关该特定列的描述性统计信息。 其标头中还提供了有关每个列的快速见解。

    “摘要”面板和列标题中 (列特定的统计信息和视觉对象) 取决于列数据类型。 例如,仅当列被强制转换为数值类型时,数值列的装箱直方图才会显示在列标题中。 使用“操作”面板可重新转换列类型,以便最准确地显示。

    浏览数据清理操作

    可在“操作”面板中找到可搜索的数据清理步骤列表。 (还可以在每个列的上下文菜单中访问相同操作的较小选择。) 从“操作”面板中,选择数据清理步骤会提示你选择一个或多个目标列,以及完成步骤所需的任何参数。 例如,提示按数字缩放列需要新的值范围。

    预览和应用操作

    所选操作的结果将自动在 Data Wrangler 显示网格中预览,相应的代码将自动显示在网格下方的面板中。 若要提交预览的代码,请在任一位置选择“应用”。 若要删除预览的代码并尝试新操作,请选择“放弃”。

    应用操作后,Data Wrangler 显示网格和汇总统计信息会更新以反映结果。 预览的代码显示在已提交操作的运行列表中,位于“清理步骤”面板中。

    始终可以撤消最近应用的步骤,旁边带有回收站图标,如果将光标悬停在“清理步骤”面板中的该步骤上,将显示该图标。

    下表总结了 Data Wrangler 当前支持的操作:

    保存和导出代码

    Data Wrangler 显示网格上方的工具栏提供用于保存工具生成的代码的选项。 可以将代码复制到剪贴板,或将其作为函数导出到笔记本。 导出代码会关闭 Data Wrangler 并将新函数添加到笔记本中的代码单元格。 还可以下载已清理的数据帧(反映在更新的数据整理器显示网格中)作为 csv 文件。

    在手动运行新单元格之前,不会应用 Data Wrangler 生成的代码,并且不会覆盖原始数据帧。