基于深度学习的推荐器系统

重要

此功能在 Beta 版中。工作区管理员可以从预览页控制对此功能的访问。请参阅管理 Azure Databricks 预览版。

本页提供了使用无服务器 GPU 计算生成建议系统的笔记本示例。这些示例演示如何使用现代深度学习方法创建高效的建议模型。

双塔推荐模型

这些笔记本演示如何将建议数据转换为马赛克数据分片（MDS）格式，然后使用该数据创建双塔建议模型。此方法特别适用于大规模建议系统。

数据准备：将建议模型数据集转换为 MDS 格式

首先，将建议数据集转换为 MDS 格式，以便高效加载数据：

转换数据

获取笔记本

模型训练：使用 PyTorch Lightning 的双塔推荐器模型

使用准备好的数据集和 PyTorch 闪电训练器 API 在多个 GPU 节点上训练双塔推荐器模型（A10 或 H100 GPU）。

PyTorch 推荐器

获取笔记本

示例：在无服务器 GPU 计算中使用 llm-foundry 微调嵌入模型

嵌入模型是新式建议系统的关键组成部分，尤其是在检索阶段，它们可在数百万项之间实现高效的相似性搜索。虽然双塔模型生成特定于任务的嵌入，但预先训练的嵌入模型可以针对特定于域的应用程序进行微调，以提高检索质量。

以下示例笔记本演示如何利用对比学习在无服务器 GPU 计算（SGC）上微调 BERT 风格的嵌入模型。它使用 llm-foundry 框架和 Composer 的训练器来微调模型，例如 gte-large-en-v1.5，并处理存储在 Delta 表中的数据。此示例使用马赛克流将数据转换为马赛克数据分片（MDS）格式，以便进行分布式数据加载，使用 MLflow 进行模型跟踪和日志记录。

微调嵌入模型工作簿

获取笔记本

注释

嵌入模型需要数据，其中必须包含列 query_text 和 positive_passage，且可以选择性地包含列 negative_passages。
微调的嵌入可以在矢量存储中用于相似性搜索操作，从而有效检索推荐系统的相关项。
当你需要将常规用途嵌入模型适应特定域或用例时，此方法特别有用。

反馈

此页面是否有帮助？

Last updated on 2025-12-19

通过

基于深度学习的推荐器系统

双塔推荐模型

数据准备：将建议模型数据集转换为 MDS 格式

转换数据

模型训练：使用 PyTorch Lightning 的双塔推荐器模型

PyTorch 推荐器

示例：在无服务器 GPU 计算中使用 llm-foundry 微调嵌入模型

微调嵌入模型工作簿

反馈

其他资源