评论词汇观点关连分析方法及其装置的制作方法

文档序号:6585864阅读:144来源:国知局
专利名称:评论词汇观点关连分析方法及其装置的制作方法
技术领域
本发明是有关于一种文件分析方法与装置,且特别是有关于一种针对文件中关键 词分析的方法与装置。
背景技术
随信息爆炸时代来临与网络兴起,博客及微型推特(Twitter)等评论文章以指数 方式增长。特别是对各项商品意见观点、评论等文章是逐日增加。对市场调查员或是销售通 路者而言,每天无时无刻地在网络上收集各项商品的使用心得或评价旷时耗日。对消费者 而言,找出感兴趣商品的销售评价及其它人的心得也必须经由网络搜寻,并逐一阅读浏览。而目前收集评论分析文章方式有以人工的方式每天在工作时间内,监督各大讨 论区、广告牌、BBS文章,然如此的方式人力成本高、且不能M小时运作,再加以每个人的主 观意见并非完全一致,因此收集的结果并不一致。另有以关键词的方式每天上网收集评论 文章,然而关键词下达不易,查询大量数据时很慢。或从新闻媒体报导收集,但信息来源并 非稳定,且仍须人力介入注记。上述这些传统方法,由于或多或少均需人力介入,因此难以量化每篇报导。且对人 来说记忆是短程的,倘若同时处理分析多向针点,则不易对一特定针点的评论,长期进行追 踪,而形成一时间演进分析。因此急需一种可解决上述缺点的评论分析方法与装置。

发明内容
因此,本发明的目的在于提供一种文章评论观点关连分析方法与装置。本发明的一实施方式是在提供一种文章评论观点关连分析方法,包括下述步骤 建立一文件库以及一关键词汇库,其中该文件库包括至少一笔数字文件数据,关键词汇库 包括至少一笔关键词汇;判断该数字文件数据的语系;根据该语系对该至少一笔数字文件 数据进行词性分析处理成为一第一文件;接收一搜寻范围以及一搜寻词性;以及根据该搜 寻范围以及该词性从该第一文件撷取出多个词汇组合,其中每一该些词汇组合包含该关键 词汇以及符合该词性的一词汇。在一实施例中,其中该搜寻范围为在该第一文件中,以具有该关键词汇的句子为 起点,搜寻前句子以及后句子的数目,其中搜寻前句子的数目为1,搜寻后句子的数目为1。在一实施例中,其中该搜寻范围为在该第一文件中,以该关键词汇为起点,搜该关 键词汇前后的词汇数目,其中该词汇数目为5。在一实施例中,其中该搜寻词性包括名词、受词、形容词、副词、或上述词性的组
口 O 在一实施例中,还包括根据每一该些词汇组合出现的次数,排序该些词汇组合;以 及根据该排序,撷取该些词汇组合中一定比率的词汇组合。 在一实施例中,还包括在该一定比率的词汇组合中,计算每一词汇组合的该
5关键词汇以及符合该词性的该词汇间的相关度;以及撷取该一定比率的词汇组合中,相 关度大于一门槛值的词汇组合,该相关度计算是使用条件机率、期望交互信息(Mutual Information)或可信度方法。在一实施例中,还包括建立一索引对照表,该索引对照表记录有该至少一笔数字 文件的来源以及日期,以及每个词汇的位置,并根据该索引对照表将来源以及日期与该些 词汇组合连接。本发明的另一实施方式是在提供一种文章评论观点关连分析方法,包括下述步 骤建立一文件库以及一关键词汇库,其中该文件库包括至少一笔数字文件数据,关键词汇 库包括至少一笔关键词汇;判断该数字文件数据的语系;根据该语系对该至少一笔数字文 件数据进行词性分析处理成为一第一文件;接收一搜寻范围以及一搜寻词性;根据该搜寻 范围以及该词性从该第一文件撷取出多个词汇组合,其中每一该些词汇组合包含该关键词 汇以及符合该词性的一词汇;根据每一该些词汇组合出现的次数,排序该些词汇组合;根 据该排序,撷取该些词汇组合中一定比率的词汇组合;在该一定比率的词汇组合中,计算每 一词汇组合中的该关键词汇以及符合该词性的该词汇间的相关度;以及撷取该一定比率的 词汇组合中,相关度大于一门槛值的词汇组合。本发明的另一实施方式是在提供一种文章评论观点关连分析装置,包括一文件 库,其中该文件库包括至少一笔数字文件数据;一关键词汇库,其中该关键词汇库包括至少 一笔关键词汇;一语系判定模块,用以判断该数字文件数据的语系;一词性分析处理模块, 根据该语系判定模块判定出的语系对该数字文件数据进行词性分析处理成为一第一文件; 一过滤模块,根据一搜寻范围以及一搜寻词性从该第一文件撷取出多个词汇组合,其中每 一该些词汇组合包含该关键词汇以及符合该词性的一词汇,并根据每一该些词汇组合出现 的次数,排序该些词汇组合,以及根据该排序,撷取该些词汇组合中一定比率的词汇组合; 一相关度计算模块,在该一定比率的词汇组合中,计算每一词汇组合中的该关键词汇以及 符合该词性的该词汇间的相关度,以及撷取该一定比率的词汇组合中,相关度大于一门槛 值的词汇组合;以及一显示模块,显示该独立性检定模块撷取出的词汇组合。在一实施例中,文章评论观点关连分析装置,还包括一索引对照表建立模块,用以 建立一索引对照表,该索引对照表记录有该至少一笔数字文件数据的来源以及日期,以及 每个词汇在对应文章的位置。在一实施例中,该词性分析处理模块,还包括一词汇撷取单元,对该数字文件数 据进行词汇撷取;以及一词性标注单元,对该撷取出的词汇进行词性标注。综合上述所言,应用本发明至少具有下列优点。可以列出各消费者感兴趣的产品 评价及其相关描述,供消费者于购买相同产品的评估。可以找出制造者生产在线所有产品 的评价描述,与用户试用心得供制造商进行改进缺点,以及广告放大消费者感兴趣的优点。


为让本发明的上述和其它目的、特征、优点与实施例能更明显易懂,所附附图的说 明如下图1所示为根据本发明一实施例文章评论观点关连分析方法的流程图;图2所示为根据本发明一实施例的文章评论观点关连分析装置;
图3所示为应用本发明于各种文章中搜寻产品评论的一实施例;图4所示为应用本发明于各种文章中搜寻产品评论的另一实施例。主要组件符号说明100 流程101-109 步骤200关连分析装置201文件库202索引对照表建立模块203语系判定模块204词性分析处理模块205过滤模块206相关度计算模块207显示模块208关键词汇库2041词汇撷取单元2042词汇标注单元
具体实施例方式本发明通过先对所收集的各文章进行词性分析处理后,根据所定义的产品名称以 及与该产品有关欲撷取的词性与撷取范围,将位于各文章产品名称处的撷取范围内符合定 义词性的词汇撷取出来,与产品名称形成一组合,并根据相关度计算方式计算词汇与产品 名称的相关度,来搜寻出符合一相关度门槛值的词汇与产品名称组合。其详细的发明流成 如下所述。参阅图1所示为根据本发明一实施例文章评论观点关连分析方法的流程图。本发明的流程100,首先于步骤101,文件库与关键词汇库。其中文件库中储存有 所收集的各数字文件数据,例如来自于网络的BBS,论坛讨论区、推特类型网站,或其它数字 文章等。并根据所收集的数字文件数据建立一索引对照表。其中该索引对照表记录有每 一篇数字文件数据的来源以及日期,以及每个词汇在对应文章的位置。而关键词汇库则储 存有搜寻的关键词汇,在一实施例中,若以搜寻产品评论为例,则此关键词汇为该产品的名 称。接着于步骤102,判断一文章各字间是否有明显的边界。在一实施例中,在判断 欲分析文章为中文内容或英文内容时,是判断字与字间是否有一空格,因为对一英文文件, 只要依空格即可将文件分解成一个个字,因此只要字与字间具有一空格,即可判定此为英 文文件,并于步骤103,根据已知的英文词性分析处理方式进行该文章的词汇撷取与词性标 注。反之,若判断出字与字间未具有任何空格时,即可判定此为中文文件,并于步骤104,根 据已知的中文词性分析处理方式进行该文章的词汇撷取与词性标注。其中词性分析方式会 先将文章断句拆解成句子,并切割独立词汇辨识专有名词,最后将切割出的词汇进行词性 标注。值得注意的是本发明并不限于应用在分析中文以及英文文章。接着于步骤105,判断该些文章是否具有关键词汇。在一实施例中,若以搜寻产品评论为例,则此关键词汇为产品的名称,本发明会将完成词汇撷取的文章与关键词汇库中 记载的关键词汇进行比对,若其中撷取的词汇完全无关键词汇,即代表此篇文章非用以评 论该产品,与该产品无关,即会结束此流程100。反之,若其中撷取的词汇含有关键词汇,即 代表此篇文章可能与该产品有关,即会进行后续步骤106,进行词汇的撷取。于步骤106中,根据使用者设定的规则进行相关词汇组撷取。此规则包括设定产 品名称以及与该产品有关欲撷取的词性与撷取范围,藉以将位在该文章产品名称处撷取范 围内符合设定词性的词汇撷取出来,与该产品名称形成一词汇组合。在一实施例中,例如 设定撷取范围为产品名称所在句子的前后一句,而设定的撷取词性为形容词。因此,本流程 即会根据此规则,撷取产品名称所在句子前后一句内的形容词,来与产品名称形成一词汇 组合。此外,亦可增加设定搜寻范围限定与该产品名称相距5词汇内,来避免因产品名称所 在句子的前后句过于冗长,所搜寻出的形容词非用以形容该产品名称,造成结果不正确。此 外在另一实施例中,使用者亦可设定额外的搜寻词性,例如,设定的撷取词性包括名词、受 词、形容词、副词、形容词+副词等,本流程即会根据此规则,撷取产品名称所在句子前后一 句内的形容词或/和副词,来与产品名称形成一词汇组合。接着步骤107,将所撷取的词汇组合列出,其中相同的词汇组合会进行累加,并 统计其次数,计算其出现的比率。在一实施例中,例如可设定一门槛比率值,仅出现次数 高于此门槛比率的词汇组合才会被取出。此外,为避免撷取出词汇组合内的词汇为彼此 不相关的词汇,例如,关键词汇为手机产品,但搜寻出的形容词汇为形容食物的相关词汇, 因此于步骤108,会进行一独立性检定估计,计算词汇组合中各词汇的相关度,在一实施 例中例如可使用下述已知的方法进行独立性检定,包括条件机率、期望交互信息(Mutual Information)或可信度等。并于步骤109,撷取相关度最高的词汇组合。在一实施例中,例 如可设定一相关度门槛值(θ ),仅撷取独立性检定超过此门槛值的词汇组合。最后结束此 流程100。此时一使用者即可根据所撷取出的词汇组合判断该项产品在消费者中的评价。在另一实施例中,所撷取出的词汇组合亦可再次连接文件库,根据索引对照表,将 撷取出的词汇组合与其来源进行连接,如此一使用者即可知晓此篇评论是来自于哪一篇数 字文件,以及其发表的时间、日期,借以了解,该项产品的评价在上市初期是好评或是坏评, 以及使用者使用一段时间后对该项产品的评价是否有更改。例如,若一产品在上市初期是 好评但使用者使用一段时间后对该项产品的评价却转换成坏评,此时厂商即可判断是否商 品设计不符合使用者使用,或是其它可能原因。或是坏评,才以及每个词汇在对应文章的位置。而关键词汇库则储存有搜寻的关 键词汇,在一实施例中,若以搜寻产品评论为例,则此关键词汇为该产品的名称。参阅图2所示,为根据本发明一实施例的文章评论观点关连分析装置。文章评论 观点关连分析装置200包括一文件库201、一索引对照表建立模块202、一语系判定模块 203、一词性分析处理模块204、一过滤模块205、一相关度计算模块206、一显示模块207以 及一关键词汇库208。其中,文件库201中储存有所收集的各数字文件数据,例如来自于网络的BBS,论 坛讨论区、推特类型网站,或其它数字文章等。而索引对照表建立模块202根据所收集的 数字文件数据建立一索引对照表,该索引对照表记录有每一篇数字文件数据的来源以及日 期,以及每个词汇在对应文章的位置。关键词汇库208则储存有搜寻的关键词汇,在一实施例中,若以搜寻产品评论为例,则此关键词汇为该产品的名称。语系判定模块203,用以判断一文章的语系。在一实施例中,在判断欲分析文章为 中文内容或英文内容时,语系判定模块203会判断字与字间是否有一空格,因为对一英文 文件,只要一空格即可将文件分解成一个个字,因此只要字与字间具有一空格,即可判定此 为英文文件。反之,若判断出字与字间未具有任何空格时,即可判定此为中文文件。词性分析处理模块204,会根据语系判定模块203判断出的文章语系,进行词性分 析处理。其中词性分析处理模块204还包括词汇撷取单元2041和词汇标注单元2042,其中 词汇撷取单元2041会将文章拆解成句子,并根据空格、标点符号或者是其它断字规则,来 切割独立词汇。而词汇标注单元2042,会将各独立词汇进行词性标注。过滤模块205,会根据使用者设定的规则进行相关词汇组撷取。此规则包括根据关 键词汇库中的产品名称,以及根据词性与撷取范围进行相关词汇组撷取。在一实施例中,例 如设定撷取范围为产品名称所在句子的前后一句,而设定的撷取词性为形容词。过滤模块 205即会根据此规则,撷取产品名称所在句子前后一句内的形容词,来与产品名称形成一词 汇组合。此外,亦可增加设定搜寻范围限定与该产品名称相距5词汇内,来避免因产品名 称所在句子的前后句过于冗长,所搜寻出的形容词非用以形容该产品名称,造成结果不正 确。此外在另一实施例中,使用者亦可设定额外的搜寻词性,例如,设定的撷取词性包括形 容词、副词、形容词+副词等,过滤模块205即会根据此规则,撷取产品名称所在句子前后一 句内的形容词或/和副词,来与产品名称形成一词汇组合。其中相同的词汇组合会进行累 加,并统计其次数,计算其出现的比率。在一实施例中,可设定一门槛比率值,仅出现次数高 于此门槛比率的词汇组合才会被取出。相关度计算模块,将过滤模块205撷取的词汇组合进行一独立性检定估计,计算 词汇组合中各词汇的相关度,在一实施例中例如可使用下述已知的方法进行独立性检定, 包括条件机率、期望交互信息(Mutual ^formation)或可信度等。在一实施例中,可设定 一相关度门槛值(θ ),仅撷取独立性检定超过此门槛值的词汇组合。显示模块207,显示最终的词汇组合。一使用者即可根据所撷取出的词汇组合判断 该项产品在消费者中的评价。此外,所撷取出的词汇组合亦可再次连接文件库,根据索引对 照表,将撷取出的词汇组合与其来源进行连接,并由显示模块207显示连接结果,如此一使 用者即可知晓此篇评论是来自于哪一篇数字文件,以及其发表的时间、日期,借以了解,该 项产品的评价在上市初期是好评或是坏评,以及使用者使用一段时间后对该项产品的评价 是否有更改。例如,若一产品在上市初期是好评但使用者使用一段时间后对该项产品的评 价却转换成坏评,此时厂商即可判断是否商品设计不符合使用者使用,或是其它可能原因。图3所示为应用本发明于各种文章中搜寻产品评论的一实施例。在本实施例中, 以搜寻中文文章中的产品评论为例进行说明。请同时参阅图1-3。其中文件库中的欲分析文件有3贝U,其出处与日期分别为3(a)的MobileOl 2009-09-22。 3(b)的 MobileOl 2009-09-23。 3(c)的 PTT2009-09-22。关键词汇库中,欲分析的产品名称为3个手机产品名称,N85、N82以及N79。使用者设定的规则为撷取产品名称所在句子前后一句,并限定与该产品名称相距 5词汇内的形容词。最终欲显示的项目包括产品名称、评价词汇、日期和来源。此外,亦设 定门槛比率值为10%,仅撷取出现次数高于此门槛比率的词汇组合才会被取出。此外,采用期望交互信息进行独立性检测,其相关度门槛值(θ )为70%。其搜寻出的结果如3(d)所示,包括Ν85—不喜爱--Mobile01--2009· 09. 22选--N82--Mobile01—2009·09. 22喜欢—N82—MobileOl-2009.09. 23N82—老气一MobileOl—2009. 09. 23N82—高--PTT—2009. 09. 22N79—连在一起一MobileOl—2009· 09. 22喜欢--N79--Mobile01—2009·09. 23看上--N79--Mobile01—2009·09. 22其中以搜寻“N85是上下滑盖机...我比较不喜爱”为例,N85为欲搜寻的产品 名称,亦即关键词汇,因此本发明会根据设定搜寻N85产品名称所在句子的前后一句,且与 N85相距5词汇内的形容词。依此,其中“我比较不喜爱”为N85所在句子的后一句,而前 一句“不过好像都没货了”不具形容词,因此其搜寻范围变成后一句且相距5词汇内的形容 词。N85后四个词汇分别为“是” “上下滑盖机” “我” “比较”,因此即会撷取出“不喜爱”此 形容词。而组成“N85-不喜爱”的词汇组合。接着使用期望交互信息(Mutual Information)相关度计算方法将值最高的10% 并且满足相关性> θ的词汇组合撷取出来。使用者即可根据上述撷取出的词汇组合判断 该项产品在消费者中的评价。图4所示为应用本发明于各种文章中搜寻产品评论的一实施例。在本实施例中, 以搜寻英文文章中的产品评论为例进行说明。请同时参阅图1-3。其中文件库中的欲分析文件有3贝U,其出处与日期分别为4 (a)的Amazone 2009-08-11。 4(b)的 Amazone 2009-08-12。 4(c)的 CPU review2009-08_22。关键词汇库中,欲分析的产品名称为2个中央处理器(CPU)名称,i7_920以及i7。使用者设定的规则为撷取产品名称所在句子前后2句,并限定与该产品名称相距 6词汇内的形容词。最终欲显示的项目包括产品名称、评价词汇、日期和来源。此外,亦设 定门槛比率值为20%,仅撷取出现次数高于此门槛比率的词汇组合才会被取出。此外,采用 期望交互信息(Mutual Information)相关度计算检测,其相关度门槛值(Θ)为70%。其搜寻出的结果如4(d)所示,包括 7—excellent—Amazon—2009. 08. 11loud—i7—Amazon—2009. 08. 11low speed—i7—Amazon—2009. 08. 11i7—amazing—Amazon—2009. 08. 12cheaper—i7—Amazon—2009. 08. 12 7-920—amazing—CPU review—2009. 08. 22接着使用期望交互信息(Mutual ^formation)相关度计算方法将值最高的20% 并且满足相关性> θ的词汇组合撷取出来。使用者即可根据上述撷取出的词汇组合判断 该项产品在消费者中的评价。综合上述所言,应用本发明至少具有下列优点。对于消费者而言本发明可以列出
10各消费者感兴趣的产品评价及其相关描述,供消费者于购买相同产品的评估。对于制造业 者而言,本发明可以找出其生产在线所有产品的评价描述,与用户试用心得供制造商进行 改进缺点,以及广告放大消费者感兴趣的优点。对于同业竞争者而言本发明能找出类似 产品的相关评价,并整理各家产品的特色与优缺点,供竞争者进行评估,以发展下一世代产品。 虽然本发明已以实施方式揭露如上,然其并非用以限定本发明,任何熟悉此技术 的人员,在不脱离本发明的精神和范围内,当可作各种的更动与润饰,因此本发明的保护范 围当视权利要求书所界定的范围为准。
权利要求
1.一种文章评论观点关连分析方法,其特征在于,包括下述步骤建立一文件库以及一关键词汇库,其中该文件库包括至少一笔数字文件数据,关键词 汇库包括至少一笔关键词汇; 判断该数字文件数据的语系;根据该语系对该至少一笔数字文件数据进行词性分析处理成为一第一文件; 接收一搜寻范围以及一搜寻词性;以及根据该搜寻范围以及该词性从该第一文件撷取出多个词汇组合,其中每一该些词汇组 合包含该关键词汇以及符合该词性的一词汇。
2.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,该搜寻范围为在 该第一文件中,以具有该关键词汇的句子为起点,搜寻前句子以及后句子的数目。
3.根据权利要求2所述的文章评论观点关连分析方法,其特征在于,搜寻前句子的数 目为1,搜寻后句子的数目为1。
4.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,该搜寻范围为在 该第一文件中,以该关键词汇为起点,搜该关键词汇前后的词汇数目。
5.根据权利要求4所述的文章评论观点关连分析方法,其特征在于,该词汇数目为5。
6.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,该搜寻词性包括 名词、受词、形容词、副词、或上述词性的组合。
7.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,判断该数字文件 数据的语系还包括判断该数字文件数据的各字间是否具有一空格。
8.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,该词性分析处理 还包括对该数字文件数据进行词汇撷取;以及 对该撷取出的词汇进行词性标注。
9.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,还包括 判断该第一文件中是否含有该关键词汇;当该第一文件中不含有该关键词汇,结束该分析方法;以及 当该第一文件中含有该关键词汇,进行该词汇组合撷取。
10.根据权利要求1所述的文章评论观点关连分析方法,其特征在于,还包括 根据每一该些词汇组合出现的次数,排序该些词汇组合;以及根据该排序,撷取该些词汇组合中一定比率的词汇组合。
11.根据权利要求10所述的文章评论观点关连分析方法,其特征在于,包括在该一定比率的词汇组合中,计算每一词汇组合的该关键词汇以及符合该词性的该词 汇间的相关度;以及撷取该一定比率的词汇组合中,相关度大于一门槛值的词汇组合。
12.根据权利要求11所述的文章评论观点关连分析方法,其特征在于,该相关度计算 是使用条件机率、期望交互信息或可信度方法。
13.根据权利要求11所述的文章评论观点关连分析方法,其特征在于,还包括建立一 索引对照表,该索引对照表记录有该至少一笔数字文件的来源以及日期,以及每个词汇的 位置。
14.根据权利要求13所述的文章评论观点关连分析方法,其特征在于,还包括根据该 索引对照表将来源以及日期与该些词汇组合连接。
15.一种文章评论观点关连分析方法,其特征在于,包括下述步骤建立一文件库以及一关键词汇库,其中该文件库包括至少一笔数字文件数据,关键词 汇库包括至少一笔关键词汇; 判断该数字文件数据的语系;根据该语系对该至少一笔数字文件数据进行词性分析处理成为一第一文件; 接收一搜寻范围以及一搜寻词性;根据该搜寻范围以及该词性从该第一文件撷取出多个词汇组合,其中每一该些词汇组 合包含该关键词汇以及符合该词性的一词汇;根据每一该些词汇组合出现的次数,排序该些词汇组合; 根据该排序,撷取该些词汇组合中一定比率的词汇组合;在该一定比率的词汇组合中,计算每一词汇组合中的该关键词汇以及符合该词性的该 词汇间的相关度;以及撷取该一定比率的词汇组合中,相关度大于一门槛值的词汇组合。
16.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,该搜寻范围为 在该第一文件中,以具有该关键词汇的句子为起点,搜寻前句子以及后句子的数目。
17.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,该搜寻范围为 在该第一文件中,以该关键词汇为起点,搜该关键词汇前后的词汇数目。
18.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,该搜寻词性包 括名词、受词、形容词、副词、或上述词性的组合。
19.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,该词性分析处 理还包括对该数字文件数据进行词汇撷取;以及 对该撷取出的词汇进行词性标注。
20.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,还包括 判断该第一文件中是否含有该关键词汇;当该第一文件中不含有该关键词汇,结束该分析方法;以及 当该第一文件中含有该关键词汇,进行该词汇组合撷取。
21.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,该相关度计算 是使用相关度计算是使用条件机率、期望交互信息或可信度方法。
22.根据权利要求15所述的文章评论观点关连分析方法,其特征在于,还包括建立一 索引对照表,该索引对照表记录有该至少一笔数字文件的来源以及日期,以及每个词汇的 位置。
23.根据权利要求22所述的文章评论观点关连分析方法,其特征在于,还包括根据该 索引对照表将来源以及日期与该些词汇组合连接。
24.一种文章评论观点关连分析装置,其特征在于,包括 一文件库,其中该文件库包括至少一笔数字文件数据; 一关键词汇库,其中该关键词汇库包括至少一笔关键词汇;一语系判定模块,用以判断该数字文件数据的语系;一词性分析处理模块,根据该语系判定模块判定出的语系对该数字文件数据进行词性 分析处理成为一第一文件;一过滤模块,根据一搜寻范围以及一搜寻词性从该第一文件撷取出多个词汇组合,其 中每一该些词汇组合包含该关键词汇以及符合该词性的一词汇,并根据每一该些词汇组合 出现的次数,排序该些词汇组合,以及根据该排序,撷取该些词汇组合中一定比率的词汇组 合;一相关度计算模块,在该一定比率的词汇组合中,计算每一词汇组合中的该关键词汇 以及符合该词性的该词汇间的相关度,以及撷取该一定比率的词汇组合中,相关度大于一 门槛值的词汇组合;以及一显示模块,显示该独立性检定模块撷取出的词汇组合。
25.根据权利要求M所述的文章评论观点关连分析装置,其特征在于,该搜寻范围为 在该第一文件中,以具有该关键词汇的句子为起点,搜寻前句子以及后句子的数目。
26.根据权利要求M所述的文章评论观点关连分析装置,其特征在于,该搜寻范围为 在该第一文件中,以该关键词汇为起点,搜该关键词汇前后的词汇数目。
27.根据权利要求M所述的文章评论观点关连分析装置,其特征在于,还包括一索引 对照表建立模块,用以建立一索引对照表,该索引对照表记录有该至少一笔数字文件数据 的来源以及日期,以及每个词汇在对应文章的位置。
28.根据权利要求M所述的文章评论观点关连分析装置,其特征在于,该搜寻词性包 括名词、受词、形容词、副词、或上述词性的组合。
29.根据权利要求M所述的文章评论观点关连分析装置,其特征在于,该词性分析处 理模块,还包括一词汇撷取单元,对该数字文件数据进行词汇撷取;以及一词性标注单元,对该撷取出的词汇进行词性标注。
30.根据权利要求M所述的文章评论观点关连分析装置,其特征在于,该相关度计算 是使用条件机率、期望交互信息或可信度方法。
全文摘要
本发明提供一种文章评论词汇关连分析方法及其装置,该方法包括下述步骤建立一文件库以及一关键词汇库,其中该文件库包括至少一笔数字文件数据,关键词汇库包括至少一笔关键词汇;判断该数字文件数据的语系;根据该语系对该至少一笔数字文件数据进行词性分析处理成为一第一文件;接收一搜寻范围以及一搜寻词性;以及根据该搜寻范围以及该词性从该第一文件撷取出多个词汇组合,其中每一该些词汇组合包含该关键词汇以及符合该词性的一词汇。
文档编号G06F17/27GK102087643SQ20091025139
公开日2011年6月8日 申请日期2009年12月3日 优先权日2009年12月3日
发明者刘培森, 吴毓杰, 张升贺, 张翰轩, 黄信荣 申请人:财团法人资讯工业策进会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1