TFX 交互式笔记本简介

TFX 交互式笔记本简介 2023-01-11 321

文 / 由 Charles Chen、Joe Lee 和 Kenny Song 代表 TFX 团队发布

TensorFlow Extended (TFX) 是一个用于创建端到端机器学习流水线的平台。TFX 由 Google 创建，起初是为我们自己的 ML 应用程序和服务提供支撑，我们现在正在稳步地将 TFX 开源，以支持其他公司和团队轻松搭建生产级 ML 系统（更多信息请阅读）。

在 TFX 0.15 中，我们很高兴地发布一种快速开始使用 TFX 的方法。现在您可以在交互式 Google Colab 或 Jupyter 笔记本上搭建、调试和运行自己的 TFX 流水线！在此类笔记本环境中，您可以按逐个组件的方式运行 TFX，这样迭代起来更加容易，也便于在您的 ML 流水线上开展试验。

逐个组件

首先，这一全新的基于 Colab 的 TFX 教程包含所有 TFX 组件，无需安装，全部都在浏览器中运行！免费开放使用，请在 Colab 中试用 TFX 并与我们分享您的使用反馈吧！

Colab 的 TFX 教程使用反馈

在 Google Colab 中运行 TFX

完成笔记本中流水线的开发后，您可以将笔记本代码转换为流水线文件，且此文件可通过 Apache Airflow 或 Apache Beam 进行编排（即将推出导出到 Kubeflow Pipelines）。我们建议利用此导出路径来生成 TFX 流水线：笔记本用于试验环境，而流水线用于生产环境。

在 Google Colab 中运行 TFX

试验和生产之间的一个主要差异是运行组件的方式。在生产环境中，诸如 Apache Airflow 这样的编排引擎将为您执行组件。在试验过程中，运行笔记本的人（也就是你！）是编排者。而其中的秘诀便是负责管理笔记本中组件执行和状态的InteractiveContext。

context = InteractiveContext()

例如，下面就是我们在笔记本中运行StatisticsGen组件的方式。首先，我们将StatisticsGen组件实例化，并导入我们的训练数据（通常由另一 TFX 组件导入，如ExampleGen）。

statistics_gen = StatisticsGen(examples=example_gen.outputs[examples])

接着，要运行组件，我们只需调用 context.run()，并运行该单元。

context.run(statistics_gen)

大功告成！顾名思义，StatisticsGen 将针对您的数据集生成特征级别的统计信息。单元运行完必后，您可以通过调用context.show()以内置的 TFX 可视化方式查看这些统计信息。

context.show(statistics_gen.outputs[statistics])

此函数的输出是一个交互式可视化视图，通过研究此视图可分析数据的形状和特性。

您可以按此方式运行所有 TFX 组件，包括在 Trainer 组件中训练 TensorFlow 模型，以及在 Evaluator 组件中通过 TensorFlow 模型分析深入分析模型的性能。

TensorFlow 模型分析

这可以让试验更加快速、方便。对于生产环境，您在笔记本中编写的任何内容均可通过调用context.export_to_pipeline()转换为可编排的流水线文件：

context.export_to_pipeline(notebook_filepath=_notebook_filepath,
                           export_filepath=_pipeline_export_filepath,
                           runner_type=_runner_type)

TFX 还提供更多的组件供您在生产 ML 流水线中使用。若要了解详情并要在 Colab 笔记本中尝试所有 TFX 组件，请查看教程()。另外欢迎您通过 TFX 邮件列表提供反馈，让我们了解您的想法。

TFX邮件列表

免费搭建微信查券返利机器人来轻松赚佣金