基于深度学习的推荐器系统

重要

此功能在 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版

本页提供了使用无服务器 GPU 计算生成建议系统的笔记本示例。 这些示例演示如何使用现代深度学习方法创建高效的建议模型。

双塔推荐模型

这些笔记本演示如何将建议数据转换为马赛克数据分片(MDS)格式,然后使用该数据创建双塔建议模型。 此方法特别适用于大规模建议系统。

数据准备:将建议模型数据集转换为 MDS 格式

首先,将建议数据集转换为 MDS 格式,以便高效加载数据:

转换数据

获取笔记本

模型训练:使用 PyTorch Lightning 的双塔推荐器模型

使用准备好的数据集和 PyTorch 闪电训练器 API 在多个 GPU 节点上训练双塔推荐器模型(A10 或 H100 GPU)。

PyTorch 推荐器

获取笔记本

示例:在无服务器 GPU 计算中使用 llm-foundry 微调嵌入模型

嵌入模型是新式建议系统的关键组成部分,尤其是在检索阶段,它们可在数百万项之间实现高效的相似性搜索。 虽然双塔模型生成特定于任务的嵌入,但预先训练的嵌入模型可以针对特定于域的应用程序进行微调,以提高检索质量。

以下示例笔记本演示如何利用对比学习在无服务器 GPU 计算(SGC)上微调 BERT 风格的嵌入模型。 它使用 llm-foundry 框架和 Composer 的训练器来微调模型,例如 gte-large-en-v1.5,并处理存储在 Delta 表中的数据。 此示例使用马赛克流将数据转换为马赛克数据分片(MDS)格式,以便进行分布式数据加载,使用 MLflow 进行模型跟踪和日志记录。

微调嵌入模型工作簿

获取笔记本

注释

  • 嵌入模型需要数据,其中必须包含列 query_textpositive_passage,且可以选择性地包含列 negative_passages
  • 微调的嵌入可以在矢量存储中用于相似性搜索操作,从而有效检索推荐系统的相关项。
  • 当你需要将常规用途嵌入模型适应特定域或用例时,此方法特别有用。