基于统计语言模型算法的智能信息评估和营销系统的制作方法

文档序号:18900490发布日期:2019-10-18 21:52阅读:504来源:国知局
基于统计语言模型算法的智能信息评估和营销系统的制作方法

本发明涉及一种网络检索系统,更具体地说,它涉及一种基于统计语言模型算法的智能信息评估和营销系统。



背景技术:

搜索引擎抓取优化是通过了解各类搜索引擎抓取互联网页面、进行索引以及确定其对特定关键词搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售或宣传的效果。

现有技术一般被称为:seo(searchengineoptimization),即搜索引擎优化。

seo与本发明相关主要有3个方面:

第一,对网页meta标签进行优化:内容标题、关键词还有内容摘要都是标签优化的目标。

第二,网站内部的链接优化是影响网站点击率的主要因素,相关性连接,锚文本链接都要进行优化,满足网站用户的需求。

第三,对网页代码压缩、改进,主要是保持网站主页的唯一性,网站内页与主业的链接。

现有技术存在以下缺点:当前seo都采用人工方式,费时费力,并且易受从业人员的素质影响。



技术实现要素:

针对现有技术存在的不足,本发明的目的在于提供一种基于统计语言模型算法的智能信息评估和营销系统。

为实现上述目的,本发明采用如下技术方案:一种基于统计语言模型算法的智能信息评估和营销系统,包括以下步骤:

步骤一:统计语言模型,采用统计语言模型算法,统计语言模型可以用来表述词汇序列的统计特性,譬如学习序列中单词的联合分布概率函数。如果用w1到wm依次表示一句话中的各个词,那么该句式的出现概率可以简单表示为:

其中,模型中的条件概率可以用词频来计算:

步骤二:双向匹配分词算法,基于字符串匹配的分词方法又称为机械分词方法,它需要有一个初始的充分大的词典(图1中的专业术语词库和通用词典),然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来,按扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配,合并构成双向匹配分词算法;

步骤三:统计语言模型算法与双向匹配分词算法协同工作,对目标字符获得词性标注;

步骤四:提取关键词,关键词提取公式:

用j代表一篇文档,用i代表该文档中的一个词,

tf表示一个词在文档中出现的次数;

df表示整个语料库中含有某个词的文档个数;

n表示整个语料库中的文档总数;

由公式可知:一个词在文档中出现的次数越多,其tf值就越大,整个语料库中包含某个词的文档数越少,则df值越大,因此某个词的tf-df值越大,则这个词是关键词的概率越大;

步骤五:内部评估,对步骤四中获得的关键词的被动语态,名词化,复杂名词短语,特定动词出现频率和专业术语频率这5个特征进行评估,根据这5个特征,给予不同的权重系数,即可得到该信息内容是否倾向于学术语言,分析指数值越高,那么认为该信息内容越有价值。

作为优选的,步骤一中,设定当前词只与它前面的一个词相关,计算公式可以简化为:

使用以上公式,可以统计出任意一个字在另一个字后出现的概率,准确度取决于统计样本的大小。

作为优选的,步骤二中,正向最大匹配算法原理:

1)从左到右将待切分句子的m个字符作为匹配字符,m为初始词典中最长词条的长度。;

2)将字符与字典中元素进行匹配;

3)若匹配成功,则将这个字符作为一个词切分出来;

4)若匹配不成功,则将这个字符的最后一个字去掉,再进行匹配,重复上述过程,知道切分完整个文本为止;

逆向最大匹配算法原理与正向最大匹配算法原理类似,不同的是将扫描方向变成了从右往左,匹配不成功时,去掉最左边的字符:双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法。

作为优选的,还包括步骤六:外部评估查重,外部评估主要是信息内容查重评估,如果发布的信息在互联网上随处可见,那么这条信息本身是没有价值的。

本发明相对现有技术相比具有以下优点:可以代替人工对信息进行搜索引擎优化,节省大量人力劳动,从而节省人力成本,相对人力更高效的处理速度和处理效率,可以处理海量规模的网络文本数据且处理结果更加精确,有助于提高评估结果的准确度,提高后续营销的导向性。

附图说明

图1为本发明基于统计语言模型算法的智能信息评估和营销系统实施例中整体逻辑思路的流程示意图;

图2为本发明基于统计语言模型算法的智能信息评估和营销系统实施例中双向匹配分词算法的流程示意图;

图3为本发明基于统计语言模型算法的智能信息评估和营销系统实施例中关键词提取的流程示意图;

图4为本发明基于统计语言模型算法的智能信息评估和营销系统实施例中内部评估的流程示意图;

图5为发明基于统计语言模型算法的智能信息评估和营销系统实施例中外部评估查重的流程示意图

具体实施方式

下面结合附图对本发明基于统计语言模型算法的智能信息评估和营销系统实施例做进一步说明。

一种基于统计语言模型算法的智能信息评估和营销系统,包括以下步骤:

步骤一:统计语言模型,采用统计语言模型算法,统计语言模型可以用来表述词汇序列的统计特性,譬如学习序列中单词的联合分布概率函数。如果用w1到wm依次表示一句话中的各个词,那么该句式的出现概率可以简单表示为:

其中,模型中的条件概率可以用词频来计算:

但这样的公式计算量极其庞大,如果我们设定当前词只与它前面的一个词相关,计算公式可以简化为:

使用以上公式,可以统计出任意一个字在另一个字后出现的概率,准确度取决于统计样本的大小;

步骤二:双向匹配分词算法,基于字符串匹配的分词方法又称为机械分词方法,它需要有一个初始的充分大的词典(图1中的专业术语词库和通用词典),然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来,按扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配,合并构成双向匹配分词算法,正向最大匹配算法原理:

1)从左到右将待切分句子的m个字符作为匹配字符,m为初始词典中最长词条的长度。;

2)将字符与字典中元素进行匹配;

3)若匹配成功,则将这个字符作为一个词切分出来;

4)若匹配不成功,则将这个字符的最后一个字去掉,再进行匹配,重复上述过程,知道切分完整个文本为止;

逆向最大匹配算法原理与正向最大匹配算法原理类似,不同的是将扫描方向变成了从右往左,匹配不成功时,去掉最左边的字符:双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而决定正确的分词方法;

步骤三:统计语言模型算法与双向匹配分词算法协同工作,对目标字符获得词性标注;

步骤四:提取关键词,关键词提取公式:

用j代表一篇文档,用i代表该文档中的一个词,

tf表示一个词在文档中出现的次数;

df表示整个语料库中含有某个词的文档个数;

n表示整个语料库中的文档总数;

由公式可知:一个词在文档中出现的次数越多,其tf值就越大,整个语料库中包含某个词的文档数越少,则df值越大,因此某个词的tf-df值越大,则这个词是关键词的概率越大;

步骤五:内部评估,对步骤四中获得的关键词的被动语态,名词化,复杂名词短语,特定动词出现频率和专业术语频率这5个特征进行评估,根据这5个特征,给予不同的权重系数,即可得到该信息内容是否倾向于学术语言,分析指数值越高,那么认为该信息内容越有价值;步骤六:外部评估查重,外部评估主要是信息内容查重评估,如果发布的信息在互联网上随处可见,那么这条信息本身是没有价值的。

本发明通过统计语言模型算法、双向匹配算法对信息内容进行分词、词性识别,通过关键词提取算法提取出信息内容关键词。

通过上述功能,本发明可以代替人工对信息进行搜索引擎优化,其效果包括:

1)节省大量人力劳动,从而节省人力成本;

2)相对人力更高效的处理速度和处理效率,可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档;

3)基于海量语料库通过分词算法和关键词提取算法,关键词提取结果往往比人工更能反映出该篇文章的主干特征。关键词可以被称为是整个搜索应用的基石。对用户和搜索引擎来说,关键词是双方互动的媒介。关键词提取的精确性决定了营销结果;

4)通过外部评估功能,本发明总是推荐最具独创性的信息内容,极大提升搜索引擎的友好度;

5)通过营销成果的反馈,本发明能够自我学习改进营销策略,具有一定的成长性。

以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1