训练语料的获取方法和装置的制造方法

文档序号:9865700阅读:282来源:国知局
训练语料的获取方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其是一种训练语料的获取方法和装置。
【背景技术】
[0002]移动通信运营商为用户提供通信业务的查询功能,例如,用户可以通过短信、电话、客户端等多种方式进行查询,但是,上述几种方式均需要用户进行大量的操作,实时性较差,不能满足用户的要求。
[0003]随着互连网技术的发展,出现了很多在终端侧进行通信业务使用量的监测的技术,从而可以及时向用户报告。然而,在终端侧监测到的数据经常会出现与通信运营商的统计数据不一致,因此,现有的通信业务使用量的监控方法需要定期根据通信运营商的统计数据进行校准。
[0004]一种有效的校准方法是利用条件随机场(CRF)识别模型对截取到的运营商发给用户的短信进行识别,这种方法可以提高校准的精度。但是,条件随机场识别模型需要训练语料进行训练得到,而现有技术中训练语料均是通过人工的方式来获取,效率低下,影响运营效率。

【发明内容】

[0005]本发明实施例所要解决的一个技术问题是:提供一种训练语料的获取方法和装置,以提高训练语料的获取效率。
[0006]本发明实施例提供的一种训练语料的获取方法包括:获取通信运营商发送给用户的文本信息;通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
[0007]在基于本发明上述方法的另一个实施例中,还包括:利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
[0008]在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:将过滤后的文本信息拆分为多个短句,其中,每个短句中包含该业务类型的不同业务;利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
[0009]在基于本发明上述方法的另一个实施例中,在利用第一正则表达式对过滤后的文本信息进行匹配之前,还包括:对过滤后的文本信息进行去重处理。
[0010]在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:获取去重后的文本信息的重复率;利用第一正则表达式按照重复率的高低依次对去重后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
[0011]在基于本发明上述方法的另一个实施例中,所述利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料包括:获取去重后的文本信息的重复率,按照重复率的高低对文本信息进行排序;从排序后的文本信息中提取出重复率大于预设值的文本信息作为需要加强训练的文本信息;以多组随机数字替代需要加强训练的文本信息中的数字,以便将每个文本信息变为多个文本信息;利用第一正则表达式对所述多个文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
[0012]在基于本发明上述方法的另一个实施例中,所述业务类型包括流量、短信、彩信、通话时长和话费中的一项或多项。
[0013]本发明实施例提供的一种训练语料的获取装置,包括:获取单元,用于获取通信运营商发送给用户的文本信息;过滤单元,用于通过预设过滤规则对所述文本信息的内容进行过滤,以得到过滤后的文本信息;第一匹配单元,用于利用第一正则表达式对过滤后的文本信息进行匹配,以提取出包含业务类型和该业务类型的各业务的使用情况信息的短文本作为第一训练语料。
[0014]在基于本发明上述装置的另一个实施例中,还包括:第二匹配单元,用于利用第二正则表达式对所述短文本进行匹配,以提取出各业务的使用量名称作为第二训练语料。
[0015]在基于本发明上述装置的另一个实施例中,所述第一匹配单元包括:拆分模块,用于将过滤后的文本信息拆分为多个短句,其中,每个短句中包含所述业务类型的不同业务;匹配模块,用于利用每个业务对应的第一正则表达式对相应的短句进行匹配,以提取出包含该业务的使用情况信息的短文本作为第一训练语料。
[0016]基于本发明上述实施例提供的训练语料的获取方法和装置,在获取到通信运营商发送给用户的文本信息后,先对文本信息的内容进行过滤,然后通过正则表达式匹配出包含业务类型和该业务的使用情况信息的短文本作为训练语料,与现有技术人工获取训练语料的方式相比,大大提高了获取训练语料的效率,从而提高了运营效率。
[0017]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0018]构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
[0019]参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
[0020]图1是本发明训练语料的获取方法一个实施例的流程图;
[0021]图2是本发明训练语料的获取方法另一个实施例的流程图;
[0022]图3是本发明训练语料的获取方法又一个实施例的流程图;
[0023]图4是本发明训练语料的获取装置一个实施例的框图;
[0024]图5是本发明训练语料的获取装置另一个实施例的框图;
[0025]图6是本发明训练语料的获取装置又一个实施例的框图;
[0026]图7是本发明训练语料的获取装置再一个实施例的框图;
[0027]图8是本发明训练语料的获取装置再一个实施例的框图。
【具体实施方式】
[0028]现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0029]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0030]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
[0031]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0032]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0033]图1是本发明训练语料的获取方法一个实施例的流程图。该实施例的方法可以由设置在服务器上的训练语料的获取装置来实施,如图1所示,该实施例的方法包括如下步骤:
[0034]
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1