查询彩票信息的方法、装置、设备和计算机存储介质与流程

文档序号:11250906
查询彩票信息的方法、装置、设备和计算机存储介质与流程

本发明涉及互联网服务技术领域,尤其涉及一种查询彩票信息的方法、装置、设备和计算机存储介质。



背景技术:

随着彩票市场的扩大,彩民数量激增,人们对彩票信息的搜索需求日益增大。而现有技术在进行对彩票信息的相关搜索时,存在以下问题:(1)搜索结果不能够满足用户的核心诉求,即用户在相关搜索渠道搜索时,只能查询到彩票的开奖情况,用户需要根据彩票的开奖情况自己比对以查看是否中奖,如若中奖,还需要用户自己根据所购彩票的种类、模式、投注倍数、投注号码等计算中奖金额,步骤较为繁琐;(2)若用户需要详细的中奖信息但自己不会计算时,还需要前往彩票投注站进行查询,费时费力;(3)通过文本输入的方式查询彩票中奖信息的方式过于复杂,用户需要输入彩票种类、彩票玩法、投注倍数、投注号码等多个关键信息,因而查询效率较低,用户体验较差。



技术实现要素:

有鉴于此,本发明提供了一种查询彩票信息的方法、装置、设备和计算机存储介质,能够实现自动地查询彩票的中奖信息,从而提高彩票信息的查询效率以及准确率。

本发明为解决技术问题而采用的技术方案是提供一种查询彩票信息的方法,所述方法包括:识别彩票票面的文本信息;利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息;根据所提取的各类关键信息,查询所述彩票的中奖信息;其中,所述结构化信息词典是预先根据彩票的各类关键信息建立的。

根据本发明一优选实施例,所述文本信息包括文本内容信息以及文本位置信息;所述结构化信息词典包括包含信息词典、位置信息词典以及排除信息词典;其中所述包含信息词典包括属于某类关键信息的词项,所述位置信息词典包括属于某类关键信息的词项在彩票票面上的位置信息,所述排除信息词典包括不属于某类关键信息的词项。

根据本发明一优选实施例,所述识别彩票票面的文本信息包括:获取用户拍摄或扫描的图像;对所述图像进行文本识别,获取所述图像的文本信息;根据所述图像的文本信息,确定所述图像是否为彩票图像,若是,则将所述获取的文本信息作为所述彩票票面的文本信息

根据本发明一优选实施例,所述识别彩票票面的文本信息还包括:获取用户拍摄或扫描的彩票票面图像;对所述图像进行文本识别,获取所述彩票票面的文本信息。

根据本发明一优选实施例,所述根据所述图像的文本信息,确定所述图像是否为彩票图像时包括:根据所述图像的文本信息在预先建立的彩票常见字词表中的命中状况,计算所述图像是彩票图像的概率;若计算得到的概率大于预设概率值,则确定所述图像是彩票图像,否则确定不是。

根据本发明一优选实施例,所述利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息包括:对所述文本信息中的文本内容信息进行分词处理,得到一个以上的词项;基于结构化信息词典对各词项进行分类,得到属于各类关键信息的词项。

根据本发明一优选实施例,所述基于结构化信息词典对各词项进行分类,得到属于各类关键信息的词项包括:将各词项与基于结构化信息词典形成的分类树进行匹配,以确定各词项是否属于某类关键信息;或者基于结构化信息词典提取各词项的特征,将所提取的特征输入预先训练得到的分类器,以确定各词项是否属于某类关键信息;将各词项分别输入基于结构化信息词典形成的自学习分类模型,以确定各词项是否属于某类关键信息

根据本发明一优选实施例,所述各类关键信息包括:彩票玩法、彩票模式、彩票期号、投注倍数以及投注号码。

根据本发明一优选实施例,所述根据所提取的各类关键信息,查询所述彩票的中奖信息包括:根据提取的彩票玩法以及彩票模式的关键信息,获取所述彩票中奖金额的计算规则;根据提取的彩票期号、投注倍数以及投注号码的关键信息,结合所述获取的中奖金额计算规则,确定所述彩票的详细中奖信息。

本发明为解决技术问题而采用的技术方案是提供一种查询彩票信息的装置,所述装置包括:识别单元,用于识别彩票票面的文本信息;提取单元,用于利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息;查询单元,用于根据所提取的各类关键信息,查询所述彩票的中奖信息;建立单元,用于预先根据彩票的各类关键信息建立结构化信息词典。

根据本发明一优选实施例,所述文本信息包括文本内容信息以及文本位置信息;所述结构化信息词典包括包含信息词典、位置信息词典以及排除信息词典;其中所述包含信息词典包括属于某类关键信息的词项,所述位置信息词典包括属于某类关键信息的词项在彩票票面上的位置信息,所述排除信息词典包括不属于某类关键信息的词项。

根据本发明一优选实施例,所述识别单元在识别彩票票面的文本信息时,具体执行:获取用户拍摄或扫描的图像;对所述图像进行文本识别,获取所述图像的文本信息;根据所述图像的文本信息,确定所述图像是否为彩票图像,若是,则将所述获取的文本信息作为所述彩票票面的文本信息。

根据本发明一优选实施例,所述识别单元在用于识别彩票票面的文本信息时,还执行:获取用户拍摄或扫描的彩票票面图像;对所述图像进行文本识别,获取所述彩票票面的文本信息。

根据本发明一优选实施例,所述识别单元在根据所述图像的文本信息,确定所述图像是否为彩票图像时,具体执行:根据所述图像的文本信息在预先建立的彩票常见字词表中的命中状况,计算所述图像是彩票图像的概率;若计算得到的概率大于预设概率值,则确定所述图像是彩票图像,否则确定不是。

根据本发明一优选实施例,所述提取单元在利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息时,具体执行:对所述文本信息中的文本内容信息进行分词处理,得到一个以上的词项;基于结构化信息词典对各词项进行分类,得到属于各类关键信息的词项。

根据本发明一优选实施例,所述提取单元在基于结构化信息词典对各词项进行分类,得到属于各类关键信息的词项时,具体执行:将各词项与基于结构化信息词典形成的分类树进行匹配,以确定各词项是否属于某类关键信息;或者基于结构化信息词典提取各词项的特征,将所提取的特征输入预先训练得到的分类器,以确定各词项是否属于某类关键信息;将各词项分别输入基于结构化信息词典形成的自学习分类模型,以确定各词项是否属于某类关键信息。

根据本发明一优选实施例,所述各类关键信息包括:彩票玩法、彩票模式、彩票期号、投注倍数以及投注号码。

根据本发明一优选实施例,所述查询单元在根据所提取的各类关键信息,查询所述彩票的中奖信息时,具体执行:根据提取的彩票玩法以及彩票模式的关键信息,获取所述彩票中奖金额的计算规则;根据提取的彩票期号、投注倍数以及投注号码的关键信息,结合所述获取的中奖金额计算规则,确定所述彩票的详细中奖信息。

由以上技术方案可以看出,本发明通过建立结构化信息词典提取彩票票面的各类关键信息,然后利用所提取的各类关键信息计算彩票的中奖信息,从而实现彩票中奖信息的自动查询,提升彩票信息的查询效率以及准确率。

【附图说明】

图1为本发明一实施例提供的方法流程图。

图2为本发明一实施例提供的提取彩票各类关键信息的示意图。

图3为本发明一实施例提供的查询彩票中奖信息的示意图。

图4为本发明一实施例提供的装置结构图。

图5为本发明一实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

由于在查询彩票中奖信息时所需要的信息比较多,如何准确获取彩票票面上的各类关键信息成为查询彩票中奖信息的重要因素。因此,本发明提供一种查询彩票信息的方法、装置、设备和计算机存储介质,通过建立结构化信息词典,准确提取彩票票面上的各类关键信息,然后基于所提取彩票的各类关键信息,实现自动地查询彩票的中奖信息,从而提高彩票信息的查询效率以及准确率。

图1为本发明一实施例提供的方法流程图,如图1中所示,该方法可以主要包括以下步骤:

在101中,识别彩票票面的文本信息。

在本步骤中,通过图像文本识别技术获取彩票票面的文本信息,其中文本信息包括文本内容信息以及文本位置信息,即通过本步骤获取彩票票面上的全部文本内容以及每条文本内容所处的位置。

具体地,通过图像文本识别技术识别用户拍摄或扫描的图像,获取图像上的文本信息,根据所获取的文本信息,确定用户上传的图像是否为彩票图像,若是彩票图像,则将所获取的文本信息作为彩票票面的文本信息。

可选地,在本实施例的一个具体实现过程中,可以通过实时拍摄或扫描的方式获取图像,也可以使用已拍或已扫描的照片作为用户拍摄或扫描的图像。本发明对此不进行限定。

在获取用户拍摄或扫描的图像后,使用图像文本识别技术,例如通过使用OCR(光学字符识别,Optical Character Recognition)技术,对所获取的图像进行本文识别,从而获取图像上包含文本内容信息以及文本位置信息的文本信息。然后根据所获取的文本信息,确定所获取的图像是否为彩票图像。

可选地,在本实施例的一个具体实现过程中,可以通过预先建立彩票常见字词表的方式,根据文本内容信息在该常见字词表的命中状况计算该图像是彩票图像的概率,若计算得到的概率大于预设概率值,则确定该图像是彩票图像。也可以通过机器深度学习的方式,对所获取的图像进行判断,若判断结果是彩票图像,则确定该图像是彩票图像。

若确定用户上传的图像是彩票图像后,则将识别图像所获取的文本信息作为彩票票面的文本信息。在本步骤中,若已提前确定用户拍摄或扫描的图像为彩票图像,例如在拍摄或扫描界面向用户提供仅识别彩票图像等提示信息,则不需要确定所获取的图像是否为彩票图像,直接将识别获取的文本信息作为彩票票面的文本信息。其中,文本信息中的文本内容信息为彩票票面图像上的文字信息,文本信息中的文本位置信息为彩票票面图像上文字信息所处的位置信息。

在102中,利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息。

虽然彩票的种类繁多,但在获取每类彩票是否中奖或者计算每类彩票的中奖信息时,所使用的各类关键信息都是相同的,其中各类关键信息包括:彩票玩法、彩票模式、彩票期数、投注倍数以及投注号码。而由于使用图像文本识别技术所获取的文本信息中的文本内容信息是彩票票面图像上的全部文字信息,在其中除了具有上述各类关键信息以外,还包含了大量无用信息,例如投注站点、投注时间、宣传用语等。因此在本步骤中,利用结构化信息词典排除文本信息中的无用信息,进而提取计算彩票中奖信息时所需的各类关键信息。

在本步骤中,结构化信息词典是预先根据彩票的各类关键信息建立的,包括包含信息词典、排除信息词典以及位置信息词典。在根据彩票的各类关键信息建立结构化信息词典时,通过实体分析彩票各类关键信息的特征,包括关键信息的内容特征以及关键信息所处的位置特征,分别针对彩票玩法、彩票模式、彩票期数、投注倍数以及投注号码建立相对应的结构化信息词典,而每类关键信息对应的结构化信息词典都包括包含信息词典、排除信息词典以及位置信息词典。

在每类关键信息对应的结构化信息词典中,包含信息词典包括属于某类关键信息的词项,位置信息词典包括属于某类关键信息的词项在彩票票面上的位置信息,排除信息词典包括不属于某类关键信息的词项。而作为一种实现方式,词项可以是某一关键信息(文本)的N-gram分词。

其中,包含信息词典为包括属于某类关键信息的词项的词典。例如,彩票玩法“双色球”所对应的包含信息词典为“双、色、双色球、色球、双球等”,“投注倍数”所对应的包含信息词典为“倍、倍数、投注倍、投注倍数等”。

位置信息词典为包括属于某类关键信息的词项在彩票票面上的位置信息的词典。例如,彩票玩法“双色球”所对应的位置信息词典为“双:576 345 30 35、球:609 345 30 35等”。其中,“双”字中576代表“双”字距图像左边缘的距离为576像素,345代表“双”字距图像上边缘的距离为345像素,30代表“双”字的宽为30像素,35代表“双”字的高度为35像素。

排除信息词典为包括不属于某类关键信息的词项的词典。例如,彩票玩法“双色球”所对应的排除信息词典为“色、红色、蓝色、多色等”,彩票玩法“大乐透”所对应的排除信息词典为“快乐、双色球等”。

在本步骤中,利用结构化信息词典从所获取的文本信息中提取彩票的各类关键信息时,首先对文本信息中的文本内容信息进行分词处理,得到一个以上的词项,然后基于结构化信息词典对各词项进行分类,得到属于各类关键信息的词项。

具体地,在基于结构化信息词典对各词项进行分类得到属于各类关键信息的词项时,可以通过以下几种方式进行:(1)将各词项与基于结构化信息词典形成的分类树进行匹配,以确定各词项是否属于某类关键信息;(2)基于结构化信息词典提取各词项的特征,将所提取的特征输入预先训练得到的分类器,以确定各词项是否属于某类关键信息;(3)将各词项分别输入基于结构化信息词典形成的自学习分类模型,以确定各词项是否属于某类关键信息。

其中,上述方式(1),即将各词项与基于结构化信息词典形成的分类树进行匹配以确定各词项是否属于某类关键信息时,具体步骤为:首先将文本信息中的文本内容信息进行分词处理,得到一个以上的词项,将所得到的词项在各类关键信息的包含信息词典中进行匹配,若匹配成功,即某个词项位于某类关键信息对应的包含信息词典中,则提取该词项中位于该关键信息的包含信息词典中的文本内容;查看提取出的文本内容对应的位置是否位于该关键信息的位置信息词典中,若提取出的文本内容对应的位置不位于该关键信息的位置信息词典中,则该词项不属于彩票的某类关键信息;若提取出的文本内容对应的位置位于该关键信息的位置信息词典中,再查看该词项是否位于该关键信息的排除信息词典中,若该词项不位于该关键信息的排除信息词典中,则确定该词项属于彩票的某类关键信息,若该词项位于该关键信息的排除信息词典中,则确定该该词项不属于彩票的某类关键信息。

举例来说,若对某一文本信息中的文本内容信息分词处理得到的词项为“双球”,则“双球”位于彩票玩法“双色球”的包含信息词典中,提取“双球”,查看“双”、“球”所在的位置是否位于彩票玩法“双色球”的位置信息词典中,若“双”、“球”所在的位置位于“双色球”玩法的位置信息词典中,进一步查看“双球”是否位于“双色球”玩法的排除信息词典中,若“双球”不位于“双色球”玩法的排除信息词典中,则确定所获取的词项“双球”属于彩票关键信息中的彩票玩法“双色球”。

再举例来说,若对某一文本信息中的文本内容信息分词处理得到的词项为“红色”,该词项“红色”没有位于彩票某类关键信息的包含信息词典中,因此“红色”不属于彩票的关键信息。

再举例来说,若对某一文本信息中的文本内容信息分词处理得到的词项为“色”。“色”位于彩票玩法“双色球”的包含信息词典中,继续查看“色”所在的位置是否位于彩票玩法“双色球”的位置信息词典中,若“色”所在的位置位于“双色球”玩法的位置信息词典中,进一步查看“色”是否位于“双色球”玩法的排除信息词典中,若“色”位于“双色球”玩法的排除信息词典中,则确定词项“色”不是彩票的关键信息。

对于上述方式(2),即基于结构化信息词典提取词项的特征,将所提取的特征输入预先训练得到的分类器,得到词项是否属于某类别关键信息,具体可以为:将某个词项与各类别的结构化信息词典分别匹配,可以得到类似如下特征:该词项与哪些类别的包含信息词典匹配,该词项与哪些类别的位置信息词典匹配,该词项与哪些类别的排除信息词典匹配;然后将该词项的这些特征输入预先训练的诸如SVM分类器,从而得到该词项是否属于某类关键信息。

对于上述方式(3),即将各词项分别输入基于结构化信息词典形成的自学习分类模型,以确定各词项是否属于某类关键信息,具体可以为:预先利用各类关键信息的包含信息词典、位置信息词典和排除信息词典,训练诸如神经网络模型等自学习模型,将待判别的词项分别输入自学习模型,就能够得到该词项是否属于某类关键信息的判别结果。

可以理解的是,彩票种类会随着社会的发展变得越来越多,因此结构化信息词典可以根据不同地区、不同样式的彩票进行不断优化,从而确保所能够提取的彩票种类更加丰富,并且使得在根据彩票票面的文本内容提取彩票的关键内容时更加迅速、精准。

在本步骤中,还包括在显示页面上展示针对所获取彩票图像获得的各类关键信息,每条关键信息都可以由用户进行编辑以修正错误信息,保证计算结果的准确性。如图2所示,图2中左侧图为通过用户扫描所获取的彩票图像,右侧图为该彩票的各类关键信息示意图。从图3中可以看出,通过本步骤所获取的彩票各类关键信息为:彩票玩法:大乐透,彩票模式:胆拖式,彩票期数:第16115期,投注倍数:1倍,投注号码:前区胆:02、03、05,前区拖:10、13、14、17、35,后区拖:01、10、11。如若有错误,用户可利用编辑按钮,根据实际情况对彩票关键信息进行修改。

因此,本步骤通过利用结构化信息词典,将所获取的文本信息进行筛选,排除无用信息,提取所获取文本信息中彩票的各类关键信息。

在103中,根据所提取的各类关键信息,查询所述彩票的中奖信息。

在本步骤中,首先根据所提取的彩票玩法以及彩票模式的关键信息,获取该彩票中奖金额的计算规则。可选地,在本实施的一个具体实现过程中,彩票中奖金额的计算规则可以为本地预先存储,也可以为在网络中实时检索获得。

然后,根据所提取的彩票期号、投注倍数以及投注号码的关键信息,结合所获取的中奖金额计算规则,查询该彩票的中奖信息。具体来说,根据彩票期号获取对应期号的中奖号码,根据彩票中的投注号码以及投注倍数,按照中奖金额计算规则计算该彩票的中奖金额。

在本步骤之后,完成计算获得彩票的中奖金额时,在显示界面展示该彩票的中奖信息,中奖信息包含:彩票玩法、彩票模式、彩票期数、投注倍数、开奖结果、投注号码以及中奖金额。

举例来说,如图3所示,图3中左侧图为通过用户扫描获取的彩票图像,中间图为所提取的该彩票的各类关键信息,右侧图为根据所提取的该彩票的各类关键信息所得到的该彩票的中奖信息。通过识别彩票图像提取的彩票关键信息为:彩票玩法:双色球,彩票模式:复式,投注期数:2017001,倍数:1倍,投注号码:红复:03、07、11、23、28、29、32,蓝单:05。根据提取的彩票关键信息,计算该彩票的中奖金额为35,中奖号码为:红复:11,蓝单:05,并同时在显示界面给出该彩票的其他详细信息。

下面对本发明实施例提供的装置结构图进行详述。如图4所述,所述装置包括:识别单元41、建立单元42、提取单元43以及查询单元44。

识别单元41,用于识别彩票票面的文本信息。

识别单元41通过图像文本识别技术获取彩票票面的文本信息,其中,文本信息包括文本内容信息以及文本位置信息,即由识别单元41获取彩票票面上的全部文本内容以及每条文本内容所处的位置。

具体地,识别单元41通过图像文本识别技术识别用户拍摄或扫描的图像,获取图像上的文本信息,根据所获取的文本信息,确定用户上传的图像是否为彩票图像,若是彩票图像,则将所获取的文本信息作为彩票票面的文本信息。

可选地,在本实施例的一个具体实现过程中,可以通过实时拍摄或扫描的方式获取图像,也可以使用已拍或已扫描的照片作为用户拍摄或扫描的图像。本发明对此不进行限定。

识别单元41在获取用户拍摄或扫描的图像后,使用图像文本识别技术,例如通过使用OCR(光学字符识别,Optical Character Recognition)技术,对所获取的图像进行本文识别,从而获取图像上包含文本内容信息以及文本位置信息的文本信息。然后根据所获取的文本信息,确定所获取的图像是否为彩票图像。

可选地,在本实施例的一个具体实现过程中,可以通过预先建立彩票常见字词表的方式,根据文本内容信息在该常见字词表的命中状况计算该图像是彩票图像的概率,若计算得到的概率大于预设概率值,则确定该图像是彩票图像。也可以通过机器深度学习的方式,对所获取的图像进行判断,若判断结果是彩票图像,则确定该图像是彩票图像。

若识别单元41确定用户上传的图像是彩票图像后,则将识别图像所获取的文本信息作为彩票票面的文本信息。若识别单元41已提前确定用户拍摄或扫描的图像为彩票图像,例如在拍摄或扫描界面向用户提供仅识别彩票图像等提示信息,则不需要确定所获取的图像是否为彩票图像,识别单元41直接将识别获取的文本信息作为彩票票面的文本信息。其中,文本信息中的文本内容信息为彩票票面图像上的文字信息,文本信息中的文本位置信息为彩票票面图像上文字信息所处的位置信息。

建立单元42,用于预先根据彩票的各类关键信息建立结构化信息词典。

建立单元42预先根据彩票的各类关键信息建立结构化信息词典,包括包含信息词典、排除信息词典以及位置信息词典。在根据彩票的各类关键信息建立结构化信息词典时,通过实体分析彩票各类关键信息的特征,包括关键信息的内容特征以及关键信息所处的位置特征,分别针对彩票玩法、彩票模式、彩票期数、投注倍数以及投注号码建立相对应的结构化信息词典,而每类关键信息对应的结构化信息词典都包括包含信息词典、排除信息词典以及位置信息词典。

在每类关键信息对应的结构化信息词典中,包含信息词典包括属于某类关键信息的词项,位置信息词典包括属于某类关键信息的词项在彩票票面上的位置信息,排除信息词典包括不属于某类关键信息的词项。而作为一种实现方式,词项可以是某一关键信息(文本)的N-gram分词。

其中,包含信息词典为包括属于某类关键信息的词项的词典。例如,彩票玩法“双色球”所对应的包含信息词典为“双、色、双色球、色球、双球等”,“投注倍数”所对应的包含信息词典为“倍、倍数、投注倍、投注倍数等”。

位置信息词典为包括属于某类关键信息的词项在彩票票面上的位置信息的词典。例如,彩票玩法“双色球”所对应的位置信息词典为“双:576 345 30 35、球:609 345 30 35等”。其中,“双”字中576代表“双”字距图像左边缘的距离为576像素,345代表“双”字距图像上边缘的距离为345像素,30代表“双”字的宽为30像素,35代表“双”字的高度为35像素。

排除信息词典为包括不属于某类关键信息的词项的词典。例如,彩票玩法“双色球”所对应的排除信息词典为“色、红色、蓝色、多色等”,彩票玩法“大乐透”所对应的排除信息词典为“快乐、双色球等”。

可以理解的是,彩票种类会随着社会的发展变得越来越多,因此结构化信息词典可以根据不同地区、不同样式的彩票进行不断优化,从而确保所能够提取的彩票种类更加丰富,并且使得在根据彩票票面的文本内容提取彩票的关键内容时更加迅速、精准。

提取单元43,用于利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息。

虽然彩票的种类繁多,但在获取每类彩票是否中奖或者计算每类彩票的中奖信息时,所使用的各类关键信息都是相同的,其中各类关键信息包括:彩票玩法、彩票模式、彩票期数、投注倍数以及投注号码。而由于使用图像文本识别技术所获取的文本信息中的文本内容信息是彩票票面图像上的全部文字信息,在其中除了具有上述各类关键信息以外,还包含了大量无用信息,例如投注站点、投注时间、宣传用语等。因此提取单元43利用建立单元42建立的结构化信息词典排除文本内容信息中的无用信息,进而提取计算彩票中奖信息时所需的各类关键信息。

提取单元43在利用结构化信息词典从所获取的文本信息中提取彩票的各类关键信息时,首先对文本信息中的文本内容信息进行分词处理,得到一个以上的词项,然后基于结构化信息词典对各词项进行分类,得到属于各类关键信息的词项。

具体地,提取单元43在基于结构化信息词典对各词项进行分类得到属于各类关键信息的词项时,可以通过以下几种方式进行:(1)将各词项与基于结构化信息词典形成的分类树进行匹配,以确定各词项是否属于某类关键信息;(2)基于结构化信息词典提取各词项的特征,将所提取的特征输入预先训练得到的分类器,以确定各词项是否属于某类关键信息;(3)将各词项分别输入基于结构化信息词典形成的自学习分类模型,以确定各词项是否属于某类关键信息。

其中,上述方式(1),即提取单元43在将各词项与基于结构化信息词典形成的分类树进行匹配以确定各词项是否属于某类关键信息时,具体步骤为:首先将文本信息中的文本内容信息进行分词处理,得到一个以上的词项,将所得到的词项在各类关键信息的包含信息词典中进行匹配,若匹配成功,即某个词项位于某一关键信息对应的包含信息词典中,则提取该词项中位于该关键信息的包含信息词典中的文本内容;查看提取出的文本内容对应的位置是否位于该关键信息的位置信息词典中,若提取出的文本内容对应的位置不位于该关键信息的位置信息词典中,则该词项不属于彩票的某类关键信息;若提取出的文本内容对应的位置位于该关键信息的位置信息词典中,再查看该词项是否位于该关键信息的排除信息词典中,若该词项不位于该关键信息的排除信息词典中,则确定该词项属于彩票的某类关键信息,若该词项位于该关键信息的排除信息词典中,则确定该该词项不属于彩票的某类关键信息。

举例来说,若对某一文本信息中的文本内容信息分词处理得到的词项为“双球”,则“双球”位于彩票玩法“双色球”的包含信息词典中,提取“双球”,查看“双”、“球”所在的位置是否位于彩票玩法“双色球”的位置信息词典中,若“双”、“球”所在的位置位于“双色球”玩法的位置信息词典中,进一步查看“双球”是否位于“双色球”玩法的排除信息词典中,若“双球”不位于“双色球”玩法的排除信息词典中,则确定所获取的词项“双球”属于彩票关键信息中的彩票玩法“双色球”。

再举例来说,若对某一文本信息中的文本内容信息分词处理得到的词项为“红色”,该词项“红色”没有位于彩票某类关键信息的包含信息词典中,因此“红色”不属于彩票的关键信息。

再举例来说,若对某一文本信息中的文本内容信息分词处理得到的词项为“色”。“色”位于彩票玩法“双色球”的包含信息词典中,继续查看“色”所在的位置是否位于彩票玩法“双色球”的位置信息词典中,若“色”所在的位置位于“双色球”玩法的位置信息词典中,进一步查看“色”是否位于“双色球”玩法的排除信息词典中,若“色”位于“双色球”玩法的排除信息词典中,则确定词项“色”不是彩票的关键信息。

对于上述方式(2),即提取单元43在基于结构化信息词典提取词项的特征,将所提取的特征输入预先训练得到的分类器,得到词项是否属于某类别关键信息,具体可以为:将某个词项与各类别的结构化信息词典分别匹配,可以得到类似如下特征:该词项与哪些类别的包含信息词典匹配,该词项与哪些类别的位置信息词典匹配,该词项与哪些类别的排除信息词典匹配;然后将该词项的这些特征输入预先训练的诸如SVM分类器,从而得到该词项是否属于某类关键信息。

对于上述方式(3),即提取单元43在将各词项分别输入基于结构化信息词典形成的自学习分类模型,以确定各词项是否属于某类关键信息,具体可以为:预先利用各类关键信息的包含信息词典、位置信息词典和排除信息词典,训练诸如神经网络模型等自学习模型,将待判别的词项分别输入自学习模型,就能够得到该词项是否属于某类关键信息的判别结果。

提取单元43还用于在显示页面上展示所提取彩票的各类关键信息,每条关键信息都可以由用户进行编辑以修正错误信息,保证计算结果的准确性。

因此,提取单元43通过利用建立单元42预先建立的结构化信息词典,将所获取的文本信息进行筛选,排除无用信息,提取所获取文本信息中彩票的各类关键信息。

查询单元44,用于根据所提取的各类关键信息,查询所述彩票的中奖信息。

查询单元44首先根据所提取的彩票玩法以及彩票模式的关键信息,获取该彩票中奖金额的计算规则。可选地,在本实施的一个具体实现过程中,彩票中奖金额的计算规则可以为本地预先存储,也可以为在网络中实时检索获得。

然后,查询单元44根据所提取的彩票期号、投注倍数以及投注号码的关键信息,结合所获取的中奖金额计算规则,查询该彩票的中奖信息。具体来说,根据彩票期号获取对应期号的中奖号码,根据彩票中的投注号码以及投注倍数,按照中奖金额计算规则计算该彩票的中奖金额。

在查询单元44完成计算获得彩票的中奖金额后,在显示界面展示该彩票的中奖信息,中奖信息具体包含:彩票玩法、彩票模式、彩票期数、投注倍数、开奖结果、投注号码以及中奖金额。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现一种查询彩票信息的方法,可以包括:

识别彩票票面的文本信息;

利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息;

根据所提取的各类关键信息,查询所述彩票的中奖信息。

上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行的方法流程,可以包括:

识别彩票票面的文本信息;

利用结构化信息词典从所述文本信息中提取所述彩票的各类关键信息;

根据所提取的各类关键信息,查询所述彩票的中奖信息。

随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明提供的技术方案,通过建立结构化信息词典,提取彩票的关键信息,实现使用彩票图像便能够自动地查询彩票的中奖信息,从而提升彩票信息的查询效率以及准确率。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1