兴趣识别方法及系统与流程

文档序号:12364347阅读:来源:国知局

技术特征:

1.一种兴趣识别方法,其特征在于,包括:

收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;

对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;

对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;

将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;

根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体,其中, 所述一定时间范围内为最近一定时间范围内;

若有,将所述侧重的语义实体作为该用户的兴趣标签。

2.如权利要求1所述的兴趣识别方法,其特征在于,将所述侧重的语义实体作为该用户的兴趣标签,包括:

获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;

将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。

3.如权利要求1所述的兴趣识别方法,其特征在于,对所述文本内容进行处理,包括:

对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理,其中,对所述文本内容进行分词包括:

对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词,其中, 所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词;所述基于类的隐马分词之后还包括进行词性标注。

4.如权利要求4所述的兴趣识别方法,其特征在于,未登录词识别之后,还包括将识别到的未登录词更新补充入所述分词词典和歧义词词典。

5.如权利要求4所述的兴趣识别方法,其特征在于,嵌套未登录词识别之后,还包括将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。

6.一种兴趣识别系统,其特征在于,包括:

收集处理模块,用于收集文本内容和结构化数据,对所述文本内容进行处理,得到非结构化的带顺序的词组集合;

抽取模块,用于对所述非结构化的带顺序的词组集合和/或结构化数据进行语义实体的抽取、文本实体的抽取、语义实体间关系的抽取、及文本实体与语义实体间关系的抽取;

归并模块,用于对抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系进行语义实体的归并;

知识图谱形成模块,用于将归并后的抽取到的语义实体、语义实体间关系、及文本实体与语义实体间关系形成知识图谱;

第一判断模块,用于根据所述知识图谱,将每个用户的一定时间范围内的访问行为数据和互动行为数据中的文本实体关联到对应的语义实体,通过统计学判断每个用户访问时是否有侧重的语义实体,其中,所述一定时间范围内为最近一定时间范围内;

兴趣标签模块,用于若有所述侧重的语义实体,将所述侧重的语义实体作为该用户的兴趣标签。

7.如权利要求6所述的兴趣识别系统,其特征在于,所述兴趣标签模块,用于获取用户的基本标签,将所述基本标签归入到对应预设类别的分组标签;将所述侧重的语义实体和分组标签进行组合作为该用户的兴趣标签。

8.如权利要求6所述的兴趣识别系统,其特征在于,所述收集处理模块,用于对所述文本内容依次进行分词、歧义词处理、词性识别、去除停用词、消除脏数据的处理,其中,对所述文本内容进行分词包括:

对所述文本内容依次进行原子切分、根据分词词典和歧义词词典并采用预设的多种算法进行分词、未登录词识别、嵌套未登录词识别、基于类的隐马分词,其中, 所述预设的多种算法包括正向最大匹配法、逆向最大匹配法和统计分词;所述基于类的隐马分词之后还包括进行词性标注。

9.如权利要求8所述的兴趣识别系统,其特征在于,所述收集处理模块,用于在未登录词识别之后,将识别到的未登录词更新补充入所述分词词典和歧义词词典。

10.如权利要求8所述的兴趣识别系统,其特征在于,所述收集处理模块,用于在嵌套未登录词识别之后,将识别到的嵌套未登录词更新补充入所述分词词典和歧义词词典。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1