Vertex AI 上改进的 TabNet：高性能、可扩展的表格深度学习

数据专家在解决涉及表格（即结构化）数据的机器学习问题时，会根据各种权衡选择模型。在这些模型中，决策树很受欢迎，因为它们易于解释，训练速度快，并且可以从小规模数据集中快速获得高精度。另一方面，深度神经网络在更大的数据集上提供了卓越的准确性，以及端到端学习的好处，但它是黑盒且难以解释。TabNet 是一种由 Google AI 开发的可解释深度学习架构，它结合了两种优势：它是可解释的，就像更简单的基于树的模型一样，并且可以实现复杂黑盒模型和集成的高精度。

现在，谷歌宣布 TabNet 已经可以用于 Vertex AI 表格工作流中。Tabular Workflows 提供了完全托管、优化和可扩展的管道，让使用 TabNet 变得更容易，无需担心实现细节，并使用 Vertex 的 MLOps 功能部署 TabNet。Vertex AI Tabular Workflows 上的 TabNet 经过优化，可有效扩展到海量表格数据集。此外，Vertex AI 表格工作流上的 TabNet 在原始 TabNet 的基础上进行了机器学习改进，从而为现实世界的数据挑战提供了更好的准确性。

Vertex AI 上的 TabNet 非常适合各种表格数据任务，其中模型可解释性与准确性同样重要，例如金融资产价格预测、欺诈/网络攻击/犯罪检测、零售需求预测、用户建模、信用/风险评分、医疗记录诊断和产品推荐。

Tabnet 概述

TabNet 有一个特别设计的架构，它基于sequential attention，在每个步骤中选择要推理的模型特征。这种机制可以解释模型是如何得出预测结果的，而深思熟虑的设计有助于提高准确性。TabNet 不仅优于替代模型（包括神经网络和决策树），而且还提供可解释的特征属性。

自发布以来，TabNet 受到了来自不同行业的各种企业和各种高价值表格数据应用程序的极大关注。它已被微软、Ludwig、Ravelin 和 Determed 等众多企业使用。

TabNet 在 Vertex AI 表格工作流上的亮点

扩展到非常大的数据集

在 BigQuery 等云技术进步的推动下，企业越来越多地收集更多表格数据，具有数十亿样本和数百/数千特征的数据集正在成为常态。一般来说，深度学习模型可以从更多的数据样本和更多的特征中更好地学习，并使用最佳方法，因为它们可以更好地学习驱动预测的复杂模式。然而，当考虑在海量数据集上进行模型开发时，计算挑战变得非常重要。这导致高成本或非常长的模型开发时间成为大多数客户充分利用其大型数据集的瓶颈。借助表格工作流上的 TabNet，可以更高效地扩展到非常大的表格数据集。

关键实现方面：TabNet 架构在扩展方面具有独特的优势：它主要由张量代数操作组成，它使用非常大的批量大小，并且具有高计算强度（该架构对每个数据字节使用大量操作传送）。这些为在许多 GPU 上进行高效分布式训练开辟了道路。

在 Vertex AI Tabular Workflows 上的 TabNet 中精心设计了数据和训练管道，以最大限度地提高硬件利用率，从而使用户能够从 Vertex AI 支出中获得最佳回报。以下功能支持在表格工作流上使用 TabNet 进行扩展：

管道中多个 CPU 的并行数据读取经过优化，可最大限度地提高分布式训练的 GPU 利用率，反映了 Tensorflow 的最佳实践。
在多个 GPU 上进行训练，可以在具有高计算要求的大型数据集上提供显着的加速。用户可以在 GCP 上指定具有多个 GPU 的任何可用机器，模型将自动在其上运行并进行分布式训练。
为了通过分布式学习实现高效的数据并行性，使用 Tensorflow 镜像分布策略来支持跨多个 GPU 的数据并行性。结果表明，在具有 100-1000 个特征的十亿规模数据集上，多个 GPU 的利用率超过 80%。

深度学习模型的标准实现可能会导致 GPU 利用率低，从而导致资源使用效率低下。通过在 Vertex 上的 TabNet 实施，用户可以在大规模数据集上的计算支出上获得最大回报。

真实客户数据示例：针对使用大型数据集且快速训练至关重要的企业用例对训练时间进行了基准测试。在一个具有代表性的示例中，使用 1 个NVIDIA_TESLA_V100 GPU 在约 1 小时内对具有约 500 万个样本的数据集实现了最先进的性能。在另一个示例中，使用 4 个NVIDIA_TESLA_V100 GPU 在约 14 小时内对具有约 14 亿个样本的数据集实现最先进的性能。

针对现实世界的数据挑战提高准确性

与原始版本相比，Vertex AI Tabular Workflows 上的 TabNet 提高了机器学习能力。现实世界表格数据的一个常见挑战是具有偏态分布的数值列，为此谷歌生产了可学习的预处理层（例如，包括参数化的幂变换族和分位数变换）以改进 TabNet 学习。第二个常见的挑战是分类数据的大量类别，为此谷歌采用了可调整的高维嵌入。第三个是标签分布的不平衡，我们为此添加了各种损失函数系列（例如，焦点损失和可微 AUC 变体）。在某些情况下，此类添加可以显著提升性能。

真实客户数据的案例研究：大客户用 TabNet 替换旧算法，用于广泛的用例，包括推荐、排名、欺诈检测和预计到达时间预测。在一个具有代表性的示例中，TabNet 与一个针对大客户的复杂模型集合相叠加。在大多数情况下，它的表现优于整体，导致在一些关键任务上的错误减少了近 10%。这是一个令人印象深刻的结果，因为该模型的每一个百分比改进都会为客户节省数百万美元！

扩展到非常大的数据集

除了高精度之外，TabNet 的另一个核心优势是，与多层感知器等传统深度神经网络 (DNN) 模型不同，它的架构包括开箱即用的可解释性。Vertex Tabular Workflows 上的这项新推出使得对训练的 TabNet 模型的解释可视化非常方便，以便用户可以快速了解 TabNet 模型如何得出其决策。TabNet 通过其学习掩码提供特征重要性输出，这些掩码指示是否在模型中的给定决策步骤选择了一个特征。下面是基于掩码值的局部和全局特征重要性的可视化。特定样本的掩码值越高，对应的特征对该样本越重要。TabNet 的可解释性相对于诸如 Shapley 值这样的估计计算量大的 post-hoc 方法具有根本优势，而 TabNet 的解释很容易从模型的中间层获得。此外，事后解释是基于对非线性黑盒函数的近似，而 TabNet 的解释是基于实际决策的基础。

可解释性示例：为了说明这种可解释性可以实现什么，可解释性能力是基于样本的，这意味着可以分别获得每个样本的特征重要性。

作为完全托管的顶点管道的好处

Vertex Tabular Workflows 上的 TabNet 使模型开发和部署任务变得更加简单 - 无需编写任何代码，即可获得经过训练的 TabNet 模型，将其部署到他们的应用程序中，并使用 Vertex Managed Pipelines 启用的 MLOps 功能，其中一些好处被强调为：

与 Vertex AI ML Ops 兼容，可大规模实施自动化 ML，包括Vertex AI Pipelines和Vertex AI Experiments等产品。
部署便利：开箱即用地支持批量和在线模式的 Vertex AI 预测服务。
可定制的特征工程，以实现用户领域知识的最佳利用。
使用 Google 最先进的搜索算法，自动调整以识别性能最佳的超参数，并根据数据集大小、预测类型和训练预算自动选择适当的超参数搜索空间。
跟踪部署的模型和方便的评估工具。
随着用户旅程的统一，与其他模型（例如AutoML和Wide & Deep Networks ）进行比较基准测试变得容易。
多区域可用性，以更好地处理国际工作负载。

———
WebEye是中国大陆地区首家获得 Google Cloud MSP 资质的合作伙伴。WebEye致力于用创新的技术向中国企业提供数字化效率创新服务，实现数字化赋能。我们不断帮助客户打造新的运营与协作方式，打造新的竞争优势，构建资源高效链接，共创价值生长空间。
WebEye整合全球资源，打造全球数字化营销体系，为企业提供营销增长服务、营销增长引擎以及企业上云三大板块业务，涵盖数字营销、数字创意、游戏发行、流量变现、程序化广告、数据洞察、云计算等一站式全链条增长产品矩阵，是中国互联网出海领军企业。

返回全部