使用谷歌云 AutoML Tables实现快速、精准的信息分类

什么是 AutoML Tables

AutoML Tables 是一个监督式机器学习服务,它可以用列表数据在结构化数据上,以远超从前的速度和规模构建和部署最先进的机器学习模型。

它是 GCP 的核心自动机器学习平台的延伸,可以提取工程特性、超参数调试、ML 模型选择等自定义模型构建项目,并且提供一种利用相关数据来构建正确模型的自动化服务。

首先,让我们用一个简单的例子来说明如何使用 AutoML Tables。下图显示了确定房屋价格的因素列表(第1到第6列),最终的房屋价格显示在最右侧一列中。


这些房屋销售的数据集会被配置成为 AutoML Tables 服务的信息源,从而基于输入的影响因素自动生成的列值,AutoML Tables 会自动构建和提供可以预测房屋价格的分类模型。

无需任何人工干预,AutoML 平台会在后台完全管理整个繁重的工作,包括分析输入数据、特征工程、选择模型、调整超参数和整体评估。

在后台,输入数据分析、特征工程、模型选择、超参数调整和评估的整个繁重工作完全由 AutoML 平台管理,无需任何人工干预。模型的部署用的也是一种用 UI 驱动的无代码方法,可以创建一个基于可扩展微服务端点的 REST。


大家对 AutoML 表格的一个常见误解是认为表格的单元格中只能有数字。但实际上,AutoML 表也可以与各种其他数据类型一起使用,例如时间戳、长文本描述、数组以及数字。我们将在示例中使用长文本描述属性来构建 AutoML  分类模型。


为什么要使用 AutoML

我们要解决什么问题?

问题陈述:客户收到来自不同供应商的电子产品库存数据。数据由关于电子产品(如手机、笔记本电脑、耳机、扫描仪等)的结构化表格数据组成,每个数据都有复杂的长文本产品描述,比如型号、版本、尺寸等。每一个行项目都需要分类为其正确的类别代码。代码需要非常准确,因为其之后将用于关键的下游流程,例如计划、库存和库存预测、计费和付款等。

当前解决方案:内部数据科学家团队构建了一个自定义 ML 分类模型,刚开始他们只录入了一个供应商数据,但随着他们向其中添加更多供应商数据,由于产品属性的复杂性和重叠性,准确度也开始下降到 80% 以下。

主要挑战总结:

-成本和规模:每个供应商用于定制模型构建的数据科学资源有限,需要额外的投资去提升产能以及足够添加新的供应商的规模。

-速度: 3 到 6 个月时间长的自定义构建周期会影响挑选和推出新供应商的速度。

-准确性:包含所有供应商数据而构建的模型准确性会较低。


GCP的AutoML Tables可以解决这些问题

在充分理解了关键挑战并将其分类为关于符合语法规则的结构化表格数据的机器学习分类问题后,我们提出了用谷歌云的 AutoML Tables 来解决上面强调的问题:

-成本:它是一个无代码机器学习平台,不需要数据科学经验。

-速度:AutoML Tables 可以在几小时到几天内创建模型,而不是几个月和一年。

-规模:该平台建立MLOps模型训练流水线,可以自动加入新的供应商,从而扩大配置规模。


如何操作AutoML Tables

  • 创建 AutoML Tables 数据集

该过程的第一步是创建将用作输入信息的数据集。此步骤需要数据探索、清理、格式化并将其转换为结构化表格格式。

以下是电子产品及其特征的数据集示例,特别的地方在于,它定义了这些产品特性列表里的描述,并在分类代码列中列出相对应的信息。


登陆到 GCP 控制台 → Vertex AI → 数据集 → 创建数据集


-提供数据集的名称——数据集将在整个过程中以此名称被引用。

-数据类型选择表格,目标选择分类。

-选择地区。

-单击创建。


  • 设置数据源

AutoML Tables 平台提供了多个选项来配置数据源,例如上传数据文件、从 GCP 存储中选择它或指定已经存储为 Bigquery tables 的数据。


  • 数据分析

映射数据源后,AutoML Tables 将显示数据集的摘要,即表列、行数、位置等。您还可以选择单击“生成统计信息”链接,它将显示列级别的统计信息,例如缺失的地方和不同的地方。


训 练

单击上面屏幕中的“训练新模型”按钮以启动训练。数据集被选中后,目标选择分类,选择 AutoML 作为训练选项,然后单击继续。


详细填写模型名称并选择目标列选项,这将是模型预测的结果——我们的例子中选择的是 Category_Code。您还可以探索“高级选项”,它提供了拆分训练和测试数据的方法。

接下来,AutoML tables 提供了选择优化目标和权重列的选项。您可以将其保留为默认值,平台将自行确定权重。点击“继续”。



下一页将允许您输入平台将用于训练模型的节点小时数。这对于成本来说至关重要,因为节点小时数越高,训练模型的成本就越高。这里还提供了基于行数的建议作为最佳选择。


输入训练小时数,然后单击“开始训练”。

这将启动训练工作,平台将开始执行底层机器学习生命周期开发过程。

要了解训练作业的状态,可以单击 Vertex AI → 训练。


每次状态更新都会发送一封电子邮件通知,让用户知道训练是成功还是失败。成功完成训练后,如上图所示状态将更改为“已完成”。


  • 模型评估与测试

至此,模型创建完成。单击模型,它将带您进入模型详细信息页面。

第一个页面“评估”提供各种模型性能评估统计、混淆矩阵和特征归因详细信息。


特征属性图表提供了作用于预测每一个给定的例子的特性视图。



  • 模型部署和测试——在线预测

单机部署和测试页面。

部署和测试页面提供“部署到端点”来自动创建和部署作为在线 REST 微服务端点的模型。

它提供了关于流量拆分、节点数量、自动缩放、节点规范、监控等附加配置。


配置相同后,单击“部署”以创建端点。


单击 Vertex AI → Endpoints,您将看到部署的模型端点已经可以使用。



  • 批量预测

AutoML tables 还支持批量预测,这项功能代表可以配置其运行输入了大量数据后的模型预测。



使用AutoML Tables可以获得的结果

使用 GCP AutoML tables,我们能够在几天内快速构建和交付涵盖所有供应商的分类模型,无需额外成本,并且准确率可以达到 98% 以上。


WebEye是中国大陆地区首家获得 Google Cloud MSP 资质的合作伙伴。WebEye致力于用创新的技术向中国企业提供数字化效率创新服务,实现数字化赋能。我们不断帮助客户打造新的运营与协作方式,打造新的竞争优势,构建资源高效链接,共创价值生长空间。

WebEye整合全球资源,打造全球数字化营销体系,为企业提供营销增长服务营销增长引擎以及企业上云三大板块业务,涵盖数字营销、数字创意、游戏发行、流量变现、程序化广告、数据洞察、云计算等一站式全链条增长产品矩阵,是中国互联网出海领军企业。

返回全部