使用谷歌云 AutoML Tables实现快速、精准的信息分类

什么是 AutoML Tables

AutoML Tables 是一个监督式机器学习服务，它可以用列表数据在结构化数据上，以远超从前的速度和规模构建和部署最先进的机器学习模型。

它是 GCP 的核心自动机器学习平台的延伸，可以提取工程特性、超参数调试、ML 模型选择等自定义模型构建项目，并且提供一种利用相关数据来构建正确模型的自动化服务。

首先，让我们用一个简单的例子来说明如何使用 AutoML Tables。下图显示了确定房屋价格的因素列表（第1到第6列），最终的房屋价格显示在最右侧一列中。

这些房屋销售的数据集会被配置成为 AutoML Tables 服务的信息源，从而基于输入的影响因素自动生成的列值，AutoML Tables 会自动构建和提供可以预测房屋价格的分类模型。

无需任何人工干预，AutoML 平台会在后台完全管理整个繁重的工作，包括分析输入数据、特征工程、选择模型、调整超参数和整体评估。

在后台，输入数据分析、特征工程、模型选择、超参数调整和评估的整个繁重工作完全由 AutoML 平台管理，无需任何人工干预。模型的部署用的也是一种用 UI 驱动的无代码方法，可以创建一个基于可扩展微服务端点的 REST。

大家对 AutoML 表格的一个常见误解是认为表格的单元格中只能有数字。但实际上，AutoML 表也可以与各种其他数据类型一起使用，例如时间戳、长文本描述、数组以及数字。我们将在示例中使用长文本描述属性来构建 AutoML 分类模型。

为什么要使用 AutoML

我们要解决什么问题？

问题陈述：客户收到来自不同供应商的电子产品库存数据。数据由关于电子产品（如手机、笔记本电脑、耳机、扫描仪等）的结构化表格数据组成，每个数据都有复杂的长文本产品描述，比如型号、版本、尺寸等。每一个行项目都需要分类为其正确的类别代码。代码需要非常准确，因为其之后将用于关键的下游流程，例如计划、库存和库存预测、计费和付款等。

当前解决方案：内部数据科学家团队构建了一个自定义 ML 分类模型，刚开始他们只录入了一个供应商数据，但随着他们向其中添加更多供应商数据，由于产品属性的复杂性和重叠性，准确度也开始下降到 80% 以下。

主要挑战总结：

-成本和规模：每个供应商用于定制模型构建的数据科学资源有限，需要额外的投资去提升产能以及足够添加新的供应商的规模。

-速度： 3 到 6 个月时间长的自定义构建周期会影响挑选和推出新供应商的速度。

-准确性：包含所有供应商数据而构建的模型准确性会较低。

GCP的AutoML Tables可以解决这些问题

在充分理解了关键挑战并将其分类为关于符合语法规则的结构化表格数据的机器学习分类问题后，我们提出了用谷歌云的 AutoML Tables 来解决上面强调的问题：

-成本：它是一个无代码机器学习平台，不需要数据科学经验。

-速度：AutoML Tables 可以在几小时到几天内创建模型，而不是几个月和一年。

-规模：该平台建立MLOps模型训练流水线，可以自动加入新的供应商，从而扩大配置规模。

如何操作AutoML Tables