一种内容推荐方法、装置、设备及介质与流程

本公开涉及计算机，尤其涉及一种内容推荐方法、装置、设备及介质。

背景技术：

1、对内容进行推荐时可以通过点击率、观看时长进行推荐。相关技术中，对样本数据中的噪音数据可以通过人工确定的固定阈值进行截断或采用平均观看时长进行替换的修改方式进行处理，但是这种方式没有顾及内容自身以及不同用户自身导致的差异，导致训练的针对观看时长的内容推荐模型的准确性较低，进而导致内容推荐的准确性较低。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种内容推荐方法、装置、设备及介质。

2、本公开实施例提供了一种内容推荐方法，所述方法包括：

3、获取样本数据集，其中，所述样本数据集包括多个样本数据，每个所述样本数据包括一个内容及其对应的观看时长标签；

4、确定所述样本数据集中各所述样本数据的标准观看时长；

5、基于各所述样本数据的标准观看时长、观看时长标签以及置信区间参数，对所述样本数据集中的噪音数据进行纠正处理，得到目标数据集；

6、基于所述目标数据集训练得到观看时长模型，并基于所述观看时长模型在多个内容中确定推荐内容。

7、本公开实施例还提供了一种内容推荐装置，所述装置包括：

8、获取模块，用于获取样本数据集，其中，所述样本数据集包括多个样本数据，每个所述样本数据包括一个内容及其对应的观看时长标签；

9、标准模块，用于确定所述样本数据集中各所述样本数据的标准观看时长；

10、样本纠正模块，用于基于各所述样本数据的标准观看时长、观看时长标签以及置信区间参数，对所述样本数据集中的噪音数据进行纠正处理，得到目标数据集；

11、模型模块，用于基于所述目标数据集训练得到观看时长模型，并基于所述观看时长模型在多个内容中确定推荐内容。

12、本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的内容推荐方法。

13、本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的内容推荐方法。

14、本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的内容推荐方案，获取样本数据集，其中，样本数据集包括多个样本数据，每个样本数据包括一个内容及其对应的观看时长标签；确定样本数据集中各样本数据的标准观看时长；基于各样本数据的标准观看时长、观看时长标签以及置信区间参数，对样本数据集中的噪音数据进行纠正处理，得到目标数据集；基于目标数据集训练得到观看时长模型，并基于观看时长模型在多个内容中确定推荐内容。采用上述技术方案，对样本数据中的各样本数据可以先确定标准观看时长，之后可以根据各样本数据的标准观看时长、观看时长标签以及预设的置信区间参数，利用统计方式对其中的噪音数据进行纠正处理，利用纠正处理后的目标数据集进行模型训练得到观看时长模型，基于观看时长模型进行推荐内容的确定，实现了基于定义的标准观看时长和正态分布的置信区间参数统计方式对噪音数据进行纠正，这种纠正噪音数据的方式顾及了内容自身的差异以及不同用户群体的差异，能够更加有效表达噪音数据的观看时长，进而利用纠正后的样本数据训练模型能够更好地优化噪音带来的模型预估偏差问题，提升模型的准确性，进而有效提升基于该模型的内容推荐的准确性。

技术特征：

1.一种内容推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，确定所述样本数据集中各所述样本数据的标准观看时长，包括：

3.根据权利要求2所述的方法，其特征在于，所述第二样本数据的标准观看时长与所述文本长度、所述图像数量正相关。

4.根据权利要求1所述的方法，其特征在于，基于各所述样本数据的标准观看时长、观看时长标签以及置信区间参数，对所述样本数据集中的噪音数据进行纠正处理，得到目标数据集，包括：

5.根据权利要求4所述的方法，其特征在于，根据多个所述标准观看时长将所述样本数据集划分为多个样本集合，包括：

6.根据权利要求4所述的方法，其特征在于，确定各所述样本集合的观看时长标签的预设统计参数，包括：

7.根据权利要求6所述的方法，其特征在于，针对每个所述样本集合，基于该样本集合的预设统计参数和置信区间参数提取并纠正噪音数据，得到纠正后的样本集合，包括：

8.根据权利要求1-7中任一所述的方法，其特征在于，所述置信区间参数表征所述样本数据集的观看时长标签的正态分布的置信区间，所述置信区间参数越大，所述置信区间越大。

9.一种内容推荐装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8中任一所述的内容推荐方法。

技术总结
本公开实施例涉及一种内容推荐方法、装置、设备及介质，其中该方法包括：获取样本数据集，其中，样本数据集包括多个样本数据，每个样本数据包括一个内容及其对应的观看时长标签；确定样本数据集中各样本数据的标准观看时长；基于各样本数据的标准观看时长、观看时长标签以及置信区间参数，对样本数据集中的噪音数据进行纠正处理，得到目标数据集；基于目标数据集训练得到观看时长模型，并基于观看时长模型在多个内容中确定推荐内容。本公开实现了基于定义的标准观看时长和正态分布的置信区间参数统计方式对噪音数据进行纠正，顾及内容的差异以及不同用户群体的差异，进而利用纠正后的样本数据训练模型有效提升基于该模型的内容推荐的准确性。

技术研发人员：喻钢
受保护的技术使用者：北京火山引擎科技有限公司
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)