@heavysheep
2017-01-06T15:50:55.000000Z
字数 518
阅读 977
个性化推荐功能文档
文档
算法
概述
为了初步建设个性化推荐功能,选择使用新闻(全网、社区)、活动、公共文化(报刊、杂志、电子图书)三个模块进行用户阅读习惯的信息整合,通过机器学习运算得到模型后,向用户精准推送兴趣匹配的新闻、活动、文章图书等。
任务分解
- 构建分类权重训练集
- 爬虫从腾讯新闻、网易新闻、搜狐新闻、新浪新闻获取十万份以上带分类的新闻。
- 存储网页链接、平台(如网易、腾讯)、一级分类、二级分类、标题、上架时间、来源、正文、评论数、权重前10的关键字列表及其权重值等元素。
- 额外存储文本(P标签)去标签后的分词结果。
- 数据格式入mongoDB,规范遵循mongoDB数据导入规范。
- 定义数据分类
- 根据获取到的结果,定义新闻分类项。
- 根据新闻分类结果,定义尽可能相关的活动、报刊杂志分类结果。
- 机器学习计算每个词所占分类权重
- 通过所得权重,对新闻录入推测分类矩阵。
- 分类算法还是用随机森林
- 模拟用户参数并匹配推送
- 兴趣距离:
U:用户兴趣矩阵
N:新闻倾向矩阵
W:新闻热度权重
t:新闻从上架到此刻的天数
- 具体参考之前的新闻推荐系统
- 还是放实验室用实际数据来运算比较稳定,架空的风险太大。
- (后续)新闻的主题聚合、去重