词汇信息处理方法及系统的制作方法

文档序号:6483725阅读:141来源:国知局

专利名称::词汇信息处理方法及系统的制作方法
技术领域
:本发明涉及网络技术,尤其涉及一种基于互联网的词汇信息处理方法及系统。
背景技术
:随着网络技术的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine)作为辅助人们检索信息的工具成为用户访问互联网的入口和指南。网络爬虫作为搜索引擎的重要组成,是一个自动提取网页的程序,用于为搜索引擎从互联网上下载网页。传统网络爬虫从一个或若干初始网页的统一资源定位符(UniformResourceLocator,以下简称URL)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入URL队列,直到满足系统设定的停止搜索条件。此外,所有被网络爬虫抓取的网页将会被存储,通过对所抓取的网页进行分析、过滤后,建立索引,以便用户对相关信息的查询和检索。现有技术中,搜索引擎仅仅能够向用户提供网络爬虫所抓取的网页信息,并不能抓取用户所想要的仅与特定主题相关的信息,用户仍需要对网络爬虫所抓取的网页信息进行甄别,并且该甄别过程具有较高的主观性。此外,当用户通过搜索引擎检索到特定主题(比如某一具体事件或者某一具体人物)的相关信息时,用户只能获取关于该网页的点击频次、媒体曝光度等简单的关于该特定主题的评价结果,该评价结果只能表现出该具体事件在互联网环境下的关注热度,用户并不能针对该具体事件在互联网环境下的关注热度得知针对该具体事件相关信息的客观的全方位的评测,从而对该特定主题的评价带有主观的、片面的评价。
发明内容本发明的目的在于提供一种词汇信息处理方法及系统,对互联网上发布的信息进行客观的全方位评测,避免了互联网用户对特定主题带有主观的、片面的评价。为实现上述目的,本发明提供了一种词汇信息处理方法,包括以下步骤从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据,所述标准化数据采用二维数据表的格式存储;按照设定条件从所述标准化数据中抽取部分数据,形成抽取数据;对所述抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;对所述词汇语义参数进行综合测量,获取评测结果。所述从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据具体为4根据所述待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息;将所述待测量词汇信息下载到本地数据库;将下载到所述本地数据库的待测量词汇信息生成所述标准化数据。所述对所述抽取数据进行切词匹配,形成切词数据具体为在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据。对所述切词数据进行聚类处理采用K-Means聚类方法,或者Kohonen神经网络聚类方法。所述对分类存储后的切词数据进行词汇语义信息解析具体为根据预先设置的语义数据库中存储的字符串的语义,解释对所述分类存储后的切词数据所对应的字符串的词汇语义,获取词汇语义参数,并计算词汇语义信息的比重值。本发明词汇信息处理方法通过所获取的某一特定主题的待测量词汇信息进行聚类处理,将待测量词汇信息进行客观分类,并计算分类后的词汇语义信息在每一类别中的比重值,根据词汇语义信息的比重值计算每一类别的词汇语义参数,通过对每一类别中的词汇语义参数的评测,进一步获取某一特定主题的客观综合的全方位评测,避免了互联网用户对该特定主题带有主观的、片面的评价。为实现上述目的,本发明还提供了一种词汇信息处理系统,包括获取模块,用于从互联网上获取待测量词汇信息,并将所述待测量词汇信息生成标准化数据,其中,标准化数据采用二维数据表的格式存储;抽取模块,用于按照设定条件从所述获取模块中的标准化数据抽取部分数据,形成抽取数据;词频聚类模块,用于对所述抽取模块的抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;词汇语义解析模块,用于对所述词频聚类模块中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;语义测量模块,用于对所述词汇语义解析模块的词汇语义参数进行测量,获取评测结果。所述获取模块包括自动检索单元,用于自动检索从互联网上获取待测量词汇信息;本地数据库,用于保存从所述自动检索单元获取的待测量词汇信息,并将所述待测量词汇信息生成标准化数据。所述词频聚类模块包括切词单元,用于在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据;聚类单元,用于对所述切词数据进行聚类处理;存储单元,用于存储所述聚类单元聚类处理后的所述切词数据。所述存储单元包括至少两个存储子单元。所述词汇语义解析模块包括语义解析单元,设置有语义数据库,用于对所述词频聚类模块中分类存储后的切词数据进行词汇语义信息解析;语义测量单元,用于计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义;记录单元,用于记录所述词频聚类模块中未记录的切词数据,并将记录的所述切词数据反馈给所述语义解析单元。本发明提供的一种词汇信息处理系统,通过词频聚类模块将所获取的待测量词汇信息进行聚类处理,词汇语义解析模块对词频聚类模块中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数,通过将切词数据进行分类,客观判断待测量词汇信息的类别,实现了对待测量词汇信息进行客观综合的全方位评测。图1为本发明词汇信息处理方法实施例一的流程示意图图2为本发明词汇信息处理方法实施例二的流程示意图图3为本发明词汇信息处理系统实施例一的结构示意图图4为本发明词汇信息处理系统实施例二的结构示意图,具体实施例方式下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。图1为本发明词汇信息处理方法实施例一的流程示意图,如图1所示,本实施例包括以下步骤步骤101、从互联网上获取待测量词汇信息,将待测量词汇信息生成标准化数据,标准化数据采用二维数据表的格式存储。在步骤101中,可以通过网络爬虫从互联网上获取待测量词汇信息,待测量词汇信息是关于某一特定主题的信息;具体的操作是网络爬虫从一个URL开始,获取初始网页,并不断从网页上抽取新的URL,从而能够从互联网上获取大量、丰富的词汇信息。其中,URL既可以为普通的网页也可以为门户网站;若为普通的网页,网络爬虫可以直接从网页内容中获取待测量词汇信息,若为门户网站,网络爬虫可以从门户网站主页的新闻标题中获取待测量词汇信息的关键词。标准化数据采用二维数据表的格式存储,该二维数据表的具体结构如表l所示。表1<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table>上述表1中,二维数据表的第一维度(横向)表示特定主题的相关信息,具体为出现位置记录特定主题"周女士"在URL中出现的位置(网站1、网站2.....网站N,共N个网站)、频次记录特定主题在网页中出现的频次、时间记录特定主题在互联网相关网页上发布的时间等内容;第二维度(竖向)表示特定主题中共有N个与特定主题相关的待测量词汇信息,出现在N个网站上。实际应用中,也可依据实际需要设定二维数据表的格式。步骤102、按照设定条件从标准化数据中抽取部分数据,形成抽取数据。在步骤102中,根据实际需要将标准化数据进行抽取。若需要抽取与"周女士"在"公益"方面相关的待测量词汇信息,找出与"公益"词汇语义相近的字符串,如"慈善"、"捐款"、"义卖"、"募捐"、"赈灾"等待测量词汇信息,将上述待测量词汇信息所对应的字符串与词汇语义相近的已知的字符串进行模糊匹配,实现对标准化数据的抽取,进一步得到抽取数据。其中,抽取数据的格式与步骤101中获取的标准化数据的格式相同,如上述表1所示。也可按照其它设定条件对标准化数据进行抽取。步骤103、对抽取数据进行切词匹配,形成切词数据,对切词数据进行聚类处理,并将聚类处理后的切词数据分类存储。在步骤103中,切词数据的格式与步骤101中获取的标准化数据的格式相同,如上述表1所示。在对切词数据进行聚类处理时,根据标准化数据出现的频次进行聚类,将聚类处理后的切词数据分类存储到多个存储单元中,其中每一存储单元用于存储词汇语义相近的切词数据。例如在表示"影视"、"歌曲"的标准化数据中,由于"影视"与"歌曲"同属于娱乐类的词汇,因此可以赋予二者相同的词汇语义,在聚类处理后,二者被统计到同一个表示娱乐类的存储单元中。在表示"影视"、"经济"的标准化数据中,由于"影视"与"经济"表示完全不同的词汇语义,其中"影视"属于娱乐类,"经济"属于商业类,因此二者不具有相同的词汇语义,因此将分别被存储到表示不同的词汇语义的存储单元中。步骤104、对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数。在步骤104中,根据预先设置的语义数据库解析被分类存储的词汇语义信息,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数例如被分类存储后的切词数据中,得到不同的词汇语义信息,若其中一个被分类存储的词汇语义信息中包括"影视"、"娱乐"、"公益"等,那么根据抽取数据在二维数据表中所记录的该抽取数据在网页中的频次进行聚类处理得到抽取数据的聚类结果,根据聚类结果计算该切词数据所表示的词汇语义信息的比重值,若根据聚类结果计算得到"影视"所占比重为20%、"娱乐"所占比重为10%、"公益"所占比重为70%,则可确定该词汇语义信息的词汇语义参数表示公益信息;若另一个被分类存储的词汇语义信息中包括"影视"、"娱乐"、"公益"等,那么根据切词数据在二维数据表中所记录的该标准化数据在网页中的频次进行聚类处理得到抽取数据的聚类结果,根据该聚类结果计算该切词数据所表示的词汇语义信息的比重值,若根据7聚类结果计算得到"影视"所占比重为60%、"娱乐"所占比重为30%、"公益"所占比重为10%,则可确定该词汇语义信息的词汇语义参数表示影视信息。步骤105、对词汇语义参数进行综合测量,获取评测结果。在步骤105中,根据步骤104中被分类后计算得出的各个词汇语义参数和相应的词汇语义信息的每一分类中所占比重值,得出某一特定主题的待评测词汇信息的评测结果。其中,由于在步骤101中所获取的待测量词汇信息随着在互联网上出现的时间和频次不断变化,因此所获取的评测结果随着时间而变化。具体地,对特定主题为"周女士"进行评测,需要知道该"周女士"在"公益"、"影视"、"歌曲"等方面的信息,通过步骤101可获取该"周女士"在"公益"、"影视"、"歌曲"等各方面的待测量词汇信息;通过步骤102和步骤103可获取该"周女士"在"公益"、"影视"、"歌曲"等方面具体的相关词汇;通过步骤104可获取该"周女士"在"公益"、"影视"、"歌曲"等方面的各个方面的测量;通过步骤105可获取该"周女士"的评测结果。本发明词汇信息处理方法通过将所获取的待测量词汇信息进行聚类处理获取待测量词汇信息的类别及计算词汇语义信息的比重值,根据词汇语义信息的比重值计算待测量词汇信息的某一类别的词汇语义参数,最终通过对词汇语义参数的计算,获取评测结果,从而实现了对待测量词汇信息进行客观综合的全方位测量,避免了互联网用户对特定主题带有主观的、片面的评价。图2为本发明词汇信息处理方法实施例二的流程示意图,如图2所示,本实施例包括以下步骤步骤201、根据待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息。在步骤201中,根据待测量词汇的语义进行自动检索,从互联网上获取待测量词汇信息,该自动检索过程可以通过具有语义识别的网络爬虫实现。二维数据表包括待测量词汇信息、位置、出现频次、出现时间。也可依据需要设定二维数据表的结构。通过自动检索获取待测量词汇信息,根据待测量词汇的语义进行自动检索,从而减少了从互联网上获取的词汇量,节省存储空间。步骤202、将待测量词汇信息下载到本地数据库。步骤203、将下载到本地数据库的待测量词汇信息生成二维数据表,生成标准化数据,标准化数据采用二维数据表的格式存储。其中二维数据表的格式与上述表1所示相同,也可根据实际需要设定。步骤204、按照设定条件从标准化数据中抽取部分数据,形成抽取数据。在步骤204中,根据实际需要将标准化数据进行抽取。若需要抽取与"周女士"在"公益"方面相关的待测量词汇信息,找出与"公益"词汇语义相近的字符串,如"慈善"、"捐款"、"义卖"、"募捐"、"赈灾"等待测量词汇信息,将上述待测量词汇信息所对应的字符串与词汇语义相近的已知的字符串进行模糊匹配,实现对标准化数据的抽取,从而得到抽取数据。其中,抽取数据的格式与步骤201中获取的标准化数据的格式相同,如上述表l所示。也可按照其它设定条件对标准化数据进行抽取。步骤205、在本地词库中查找抽取数据所对应的字符串,比较抽取数据所对应的字符串与本地词库中的字符串,将抽取数据生成切词数据,对切词数据进行聚类处理,并将聚类处理后的切词数据分类存储。在步骤205中,切词数据的格式与步骤201中获取的标准化数据的格式相同,如上述表1所示。本地词库中保存有大量已知的词汇数据对应的字符串,在对抽取数据进行切词匹配时,可以将普通网页中出现的句子或者网站主页中的标题信息切成单独的词汇所对应的字符串。例如在对"北京奥运"进行切词匹配时,根据本地词库中保存的"北京"与"奥运"两个词汇所对应的字符串分别与"北京奥运"进行匹配,切词结果得到"北京"与"奥运"两个词,而非"北京奥"和"运"等其他非常用词汇。其中,根据标准化切词数据在网页中出现的频次进行统计,聚类处理可采用K-Means聚类方法,也可采用Kohonen神经网络聚类方法,本领域普通技术人员能够根据上述两种聚类方法实现聚类统计,因此在这里不再赘述。步骤206、根据预先设置的语义数据库中存储的字符串的语义,解释分类存储后的切词数据所对应的字符串的词汇语义,获取词汇语义参数,并计算词汇语义信息的比重值。在步骤206中,由于语义数据库中保存有大量的已知词汇,因此根据语义数据库中设置的大量已知词汇解析切词数据,可获取切词数据的词汇语义信息,并结合前述步骤205中的聚类结果,计算出该切词数据词汇语义信息的比重值,根据该比重值可计算切词数据的词汇语义参数。例如根据聚类结果计算得到"影视"所占比重为20%、"娱乐"所占比重为10%、"公益"所占比重为70%,则可确定该词汇语义信息的词汇语义参数表示公益信息。步骤207、对词汇语义参数进行综合测量,获取评测结果。在步骤207中,根据步骤206中被分类后计算得出的各个词汇语义参数和相应的词汇语义信息的比重值,得出某一特定主题的待评测词汇信息的评测结果。其中,由于在步骤201中所获取的待测量词汇信息随着在互联网上出现的时间和频次不断变化,因此所获取的评测结果随着时间而变化。本发明词汇信息处理方法实施例二根据待测量词汇信息的语义进行自动检索,可将待测量词汇信息有选择性的下载到本地数据库,节省存储空间。通过将所获取的待测量词汇信息进行聚类处理获取待测量词汇信息的类别及计算词汇语义信息的比重值,根据词汇语义信息的比重值计算待测量词汇信息的某一类别的词汇语义参数,最终通过对词汇语义参数的计算,获取评测结果,从而实现了对待测量词汇信息进行客观综合的全方位测量,避免了互联网用户对特定主题带有主观的、片面的评价,并且所获取评测结果随着时间的变化而变化。图3为本发明词汇信息处理系统实施例一的结构示意图,如图3所示,词汇信息处理系统包括获取模块31、抽取模块32、词频聚类模块33、词汇语义解析模块34与语义测量模块35。其中,获取模块31从互联网上获取待测量词汇信息,并将待测量词汇信息生成标准化数据;抽取模块32按照设定条件从获取模块31中的标准化数据抽取部分数据,形成抽取数据;词频聚类模块33对抽取模块32的抽取数据进行切词匹配,形成切词数据,对切词数据进行聚类处理,并将聚类处理后的切词数据分类存储;词汇语义解析模块34对词频聚类模块33中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数,语义测量模块35对词汇语义解析模块34的词汇语义参数进行测量,获取评测结果。本发明词汇信息处理系统实施例一通过词频聚类模块33将所获取的待测量词汇信息进行聚类处理,词汇语义解析模块34对词频聚类模块33中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数,通过将切词数据进行分类,客观判断待测量词汇信息的类别,实现了对待测量词汇信息进行客观综合的全方位评测。图4为本发明词汇信息处理系统实施例二的结构示意图,如图4所示,词汇信息处理系统包括获取模块41、抽取模块42、词频聚类模块43、词汇语义解析模块44与语义测量模块45。获取模块41包括自动检索单元411、本地数据库412;词频聚类模块43包括切词单元431、聚类单元432、存储单元433;词汇语义解析模块44包括语义解析单元441、语义测量单元442,可选择地,词汇语义解析模块44还可包括记录单元443,用于记录语义解析单元441中未记录的切词数据,并将记录的切词数据反馈给语义解析单元441。其中,获取模块41的自动检索单元411根据待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息,并将待测量词汇信息下载保存到获取模块41的本地数据库412中,本地数据库412将待测量词汇信息生成二维数据表,生成标准化数据其中,标准化数据采用二维数据表的格式。该二维数据表具体可包括待测量词汇信息、出现位置、频次、时间。抽取模块42按照设定条件从获取模块41中的标准化数据抽取部分数据,形成抽取数据;词频聚类模块43的切词单元431在本地词库中查找抽取模块42生成的抽取数据所对应的字符串,并生成切词数据,聚类单元432将切词单元431生成的切词数据根据出现频次进行聚类处理,抽取数据被聚类处理后存储到存储单元433中。其中,存储单元433包括至少两个存储子单元。语义解析单元441设置有语义数据库,将对词频聚类模块43中的切词数据进行词汇语义信息解析,并分类存储在存储单元433中。语义测量单元442根据解析后的语义解析单元441的词汇语义信息,计算切词数据的词汇语义参数。语义测量单元442计算词汇语义信息的比重值,并根据比重值计算切词数据的词汇语义参数。语义测量模块45对词汇语义解析模块44的词汇语义参数进行综合测量,获取评测结果。其中,词汇语义解析模块还包括记录单元443,用于记录词汇语义解析模块中未记录的切词数据,并将记录的切词数据反馈给语义解析单元441.当词汇语义解析模块44在进行语义解析时,词汇语义解析模块44能够将语义解析单元441遇到的未知语义词汇记录到记录单元443中,记录单元443通过语义词汇自学习后,将未知的词汇语义生成已知语义词汇,从而扩大了语义解析单元解析语义的范围。本发明词汇信息处理系统实施例二通过记录单元443通过语义词汇自学习后,将未知的词汇语义生成已知语义词汇,从而扩大了语义解析单元441解析语义的范围。通过词频聚类模块43将所获取的待测量词汇信息进行聚类处理,词汇语义解析模块44对词频聚类模块43中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义,通过将切词数据进行分类,客观判断待测量词汇信息的类别,实现了对待测量词汇信息进行客观综合的全方位评测。10最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。权利要求一种词汇信息处理方法,其特征在于,包括以下步骤从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据,所述标准化数据采用二维数据表的格式存储;按照设定条件从所述标准化数据中抽取部分数据,形成抽取数据;对所述抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;对所述词汇语义参数进行综合测量,获取评测结果。2.根据权利要求1所述的词汇信息处理方法,其特征在于,所述从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据具体为根据所述待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息;将所述待测量词汇信息下载到本地数据库;将下载到所述本地数据库的待测量词汇信息生成所述标准化数据。3.根据权利要求1所述的词汇信息处理方法,其特征在于,所述对所述抽取数据进行切词匹配,形成切词数据具体为在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据。4.根据权利要求1所述的词汇信息处理方法,其特征在于,对所述切词数据进行聚类处理采用K-Means聚类方法,或者Kohonen神经网络聚类方法。5.根据权利要求1所述的词汇信息处理方法,其特征在于,所述对分类存储后的切词数据进行词汇语义信息解析具体为根据预先设置的语义数据库中存储的字符串的语义,解释所述分类存储后的切词数据所对应的字符串的词汇语义,获取词汇语义参数,并计算词汇语义信息的比重值。6.—种词汇信息处理系统,其特征在于,包括获取模块,用于从互联网上获取待测量词汇信息,并将所述待测量词汇信息生成标准化数据,其中,标准化数据采用二维数据表的格式存储;抽取模块,用于按照设定条件从所述获取模块中的标准化数据抽取部分数据,形成抽取数据;词频聚类模块,用于对所述抽取模块的抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;词汇语义解析模块,用于对所述词频聚类模块中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;语义测量模块,用于对所述词汇语义解析模块的词汇语义参数进行测量,获取评测结果。7.根据权利要求6所述的词汇信息处理系统,其特征在于,所述获取模块包括自动检索单元,用于根据所述待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息;本地数据库,用于保存从所述自动检索单元获取的待测量词汇信息,并将所述待测量词汇信息生成标准化数据。8.根据权利要求6所述的词汇信息处理系统,其特征在于,所述词频聚类模块包括切词单元,用于在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据;聚类单元,用于对所述切词数据进行聚类处理;存储单元,用于存储所述聚类单元聚类处理后的切词数据。9.根据权利要求8所述的词汇信息处理系统,其特征在于,所述存储单元包括至少两个存储子单元。10.根据权利要求6所述的词汇信息处理系统,其特征在于,所述词汇语义解析模块包括语义解析单元,设置有语义数据库,用于对所述词频聚类模块中分类存储后的切词数据进行词汇语义信息解析;语义测量单元,用于计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义;记录单元,用于记录所述词频聚类模块中未记录的切词数据,并将记录的所述切词数据反馈给所述语义解析单元。全文摘要本发明涉及一种词汇信息处理方法及系统,其中方法包括从互联网上获取待测量词汇信息,将待测量词汇信息生成标准化数据;按照设定条件从标准化数据中抽取部分数据,形成抽取数据;对抽取数据进行切词匹配,形成切词数据,对切词数据进行聚类处理,并将聚类处理后的切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数;对词汇语义参数进行综合测量,获取评测结果。本发明提供的词汇信息处理方法及系统,通过将待测量词汇信息进行聚类处理,对待测量词汇信息进行客观分类和评测,实现对特定主题综合的全方位评测,避免互联网用户对特定主题带有主观片面的评价。文档编号G06F17/30GK101788989SQ200910077558公开日2010年7月28日申请日期2009年1月22日优先权日2009年1月22日发明者庞然,胡新宇,蔡亮华申请人:蔡亮华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1