@gump88
2016-09-19T10:13:16.000000Z
字数 1826
阅读 1489
不公开
项目背景:平安科技研发的产品主要是提供给平安内部使用,用于分析当前金融市场环境,给集团决策提供相应的依据。主要是通过爬取各个门户网站财经类新闻,例如新浪财经、网易财经等。对这些新闻文本数据进行分析,获取各个公司当前的经营状况,例如人事变动、资产重组、营收状况等。
概要:HMM、维特比算法、角色标注
1.中国人名构成多样性 2.人名内部互相成词 3.人名与其上下文组合成词 4. 歧义理解 基于角色标注的方法在原有分词的基础上对分词结果进一步细分,按照角色标注表进行进一步标注,在角色标注的结果上进行名字模式匹配,识别中国姓名。
角色标注:
什么是角色标注:该方法主要采用隐马尔科夫模型在分词结果上标注人名构成角色(十五种角色)。一个含有中国人名的句子里的词可以划分为:人名的内部组成、上文和下文。人名的内部组成又可以细分成姓、单名、双名首字、双名末字等。
怎样进行角色标注:
首先对句子进行分词,分词后每个词的词性就是序列观测值,而每个词对应的角色就是序列的状态值。这是HMM问题中的经典问题:预测问题,已知序列观测值,求一个最大可能概率的状态序列。采用维特比算法从所有可能的标注序列中优选出概率最大者作为最终标注结果。
角色标注之后:使用人名识别模式集中的模式串对角色标志的结果进行匹配,匹配到的最长模式串,其对应的片段就识别为中国人名。
自动摘要就是从文章中自动提取关键句,类似于基于pagerank的网页排名,这里采用的是从pagerank思想衍生出来的textrank算法,抽取出文章中的关键句,关键句是通过给每个句子进行打分,之后给出打分排名靠前的句子。
1. 首先对文章进行按句子分割,对每个句子进行分词并去除停用词;
2. 根据相似度计算公式计算每两个句子之间的相似度,生成句子相似度矩阵w[n][n];
3. 使用权重计算公式迭代计算句子权重;
4. 判定是否满足迭代停止条件;
5. 根据给定的句子数从中选取K个权值最大的输出;
TextRank算法、BM25算法
项目背景:
1
项目中自己的亮点:
预测一个球员的投篮是否可以投入。
我们拿到的数据时这名球员20年职业生涯的历史投篮数据,总共大概有3w条,数据大小共10m左右,每条数据的特征维度在30维左右。
首先第一步需要做的是对数据进行清洗,数据维度里有一些特征例如,team_id 和team_name表示的含义都是自己球队的值,这些是固定不变的,因此对最终的预测没有影响,这一部分的数值需要删除;还有一部分特征表示的含义是相似的,例如,distance和shot_distance这部分特征通过画出散列图可以看出是成正比例相关的,因此也需要删除其中的一个,另外,matchup和opponent属性含义是一种包含关系,因为将matchup可以拆分成opponent和home或away属性,这样opponent属性就可以删除;
第二步是对一些枚举类型的特征进行onehot处理,例如属性action_type,combined_shot_type;
第三步是根据自己理解新构建一些特征,因为每场比赛是否是常规赛还是季后赛或者是总决赛,球员的命中率都是有区别的,所以增加了这一部分的特征,还有是否是背靠背比赛对于命中率也是有影响的,这一部分新增的特征更多是自己对于业务的理解;
数据处理完了之后的最终数据的特征维度大概在150维左右。
增加特征back-to-back,home,away,lastmoment,