重要
此功能在 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版。
本页提供了使用无服务器 GPU 计算生成建议系统的笔记本示例。 这些示例演示如何使用现代深度学习方法创建高效的建议模型。
双塔推荐模型
这些笔记本演示如何将建议数据转换为马赛克数据分片(MDS)格式,然后使用该数据创建双塔建议模型。 此方法特别适用于大规模建议系统。
数据准备:将建议模型数据集转换为 MDS 格式
首先,将建议数据集转换为 MDS 格式,以便高效加载数据:
转换数据
模型训练:使用 PyTorch Lightning 的双塔推荐器模型
使用准备好的数据集和 PyTorch 闪电训练器 API 在多个 GPU 节点上训练双塔推荐器模型(A10 或 H100 GPU)。
PyTorch 推荐器
示例:在无服务器 GPU 计算中使用 llm-foundry 微调嵌入模型
嵌入模型是新式建议系统的关键组成部分,尤其是在检索阶段,它们可在数百万项之间实现高效的相似性搜索。 虽然双塔模型生成特定于任务的嵌入,但预先训练的嵌入模型可以针对特定于域的应用程序进行微调,以提高检索质量。
以下示例笔记本演示如何利用对比学习在无服务器 GPU 计算(SGC)上微调 BERT 风格的嵌入模型。 它使用 llm-foundry 框架和 Composer 的训练器来微调模型,例如 gte-large-en-v1.5,并处理存储在 Delta 表中的数据。 此示例使用马赛克流将数据转换为马赛克数据分片(MDS)格式,以便进行分布式数据加载,使用 MLflow 进行模型跟踪和日志记录。
微调嵌入模型工作簿
注释
- 嵌入模型需要数据,其中必须包含列
query_text和positive_passage,且可以选择性地包含列negative_passages。 - 微调的嵌入可以在矢量存储中用于相似性搜索操作,从而有效检索推荐系统的相关项。
- 当你需要将常规用途嵌入模型适应特定域或用例时,此方法特别有用。