文本解析方法、系统及计算机可读存储介质与流程

文档序号:18010332发布日期:2019-06-25 23:57阅读:155来源:国知局
文本解析方法、系统及计算机可读存储介质与流程

本发明涉及智能设备开发领域,尤其涉及一种文本解析方法、系统及计算机可读存储介质。



背景技术:

随着智能设备如智能电视、智能手机和平板电脑等的不断发展,智能设备除了系统自带的许多应用程序外,还增加了许多创新功能以满足人们日常所需,目前智能设备可以购物、看视频、听音乐、打游戏,甚至浏览网页、聊天互动,智能设备通过显示界面提供给用户的内容多而杂。当用户在智能设备的显示界面中发现自己很感兴趣的话题时,需要通过繁杂的手动按键操作,从智能设备的当前界面退出,再从设备的主界面中找到相应的应用程序,再在相应的应用程序中去检索查看,目前没有工具可以直接获取用户当前浏览界面中的文本信息,并快速检索到用户感兴趣的话题的其他相关信息,从而降低了用户的体验性。



技术实现要素:

本发明的主要目的在于提供一种文本解析方法、系统及计算机可读存储介质,旨在解决当用户在智能设备的显示界面中发现自己很感兴趣的话题时,需要通过繁杂的手动按键操作才能得到想要的信息。

为实现上述目的,本发明提供一种文本解析方法,所述文本解析方法包括:

接收智能设备发送的文本信息;

对所述文本信息进行分词处理,提取所述文本信息的关键词;

通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息;

将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户。

优选地,所述对所述文本信息进行分词处理,提取所述文本信息的关键词的步骤,包括:

通过预设的分词算法对所述文本信息进行分词处理,得到所述文本信息的词汇序列;

根据所述词汇序列中各个词汇在词汇序列中出现的概率和在预设词典库中出现的概率,确定所述文本信息中的关键词。

优选地,所述通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息的步骤,包括:

通过预设的关联算法计算预设的信息库中的信息与所述关键词的关联程度;

判断所述关联程度是否大于预设阈值;

若所述关联程度大于预设阈值,则获取所述关联程度对应的信息作为目标信息。

优选地,在所述判断所述关联程度是否大于预设阈值的步骤之后,还包括:

若所述关联程度小于或者等于预设阈值,则生成匹配失败的提示信息;

所述将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户的步骤,包括:

将所述匹配失败的提示信息发送至智能设备,以使得智能设备将提示信息进行显示,以提示用户。

此外,为实现上述目的,本发明还提供一种文本解析方法,所述文本解析方法,包括:

接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息;

将所述文本信息发送至服务器,以使得所述服务器对所述文本信息进行分词处理获得对应的关键词,并根据所述关键词获取与所述关键词关联的目标信息;

接收所述服务器发送的所述目标信息,并将所述目标信息在智能设备界面中的预设位置进行显示,以提示用户。

优选地,所述接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息的步骤,包括:

接收用户通过遥控器或者智能设备触发的控制指令,并根据所述控制指令定位用户想要搜索的目标对象;

获取所述目标对象的属性,根据所述目标对象的属性确定所述目标对象的类型;

根据所述目标对象的类型选择与所述目标对象类型对应的文本提取方法,并根据所述文本提取方法,获取所述目标对象中的文本信息。

优选地,所述目标对象的类型包括系统文本控件类型、网页类型和/或图片类型,所述根据所述目标对象的类型选择与所述目标对象类型对应的文本提取方法,并根据所述文本提取方法,获取所述目标对象中的文本信息的步骤,包括:

若所述目标对象为系统文本控件类型,则通过调用文本获取函数获取所述系统文本控件中的文本信息;

若所述目标对象为网页类型,则通过解析html文本数据,提取所述网页中的文本信息;

若所述目标对象为图片类型,则通过调用文本识别工具,识别所述图片中的文本信息。

优选地,在所述将所述文本信息发送至服务器,以使得所述服务器对所述文本信息进行分词处理获得对应的关键词,并根据所述关键词获取与所述关键词关联的目标信息的步骤之后,还包括:

接收服务器发送的匹配失败的提示信息,并在智能设备的显示界面进行显示,以提示用户。

此外,为实现上述目的,本发明还提供一种文本解析系统,所述文本解析系统包括:智能设备和服务器,

所述智能设备用于接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息;将所述文本信息发送至服务器;

所述服务器用于接收智能设备发送的文本信息;对所述文本信息进行分词处理,提取所述文本信息的关键词;通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息;将所述目标信息发送至智能设备;

所述智能设备还用于接收所述服务器发送的所述目标信息,并将所述目标信息在智能设备界面中的预设位置进行显示,以提示用户。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被智能设备和服务器执行时实现上述步骤中任一所述的文本解析方法的步骤。

本发明实施例提出的一种文本解析方法,通过服务器接收智能设备发送的文本信息,并将所述文本信息通过预设的分词算法进行分词处理,分词处理后提取所述文本信息中的关键词,然后通过预设的关联算法从预设的信息库中获取满足关联程度的目标信息,最后将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,从而提示用户。本发明通过对智能设备界面中的文本信息进行智能解析,获取到与文本信息关联的目标信息,从而实现了快速获取用户想要了解的信息,不再需要复杂的手动按键操作,使用户能更高效地获取到有用信息,节省用户时间,从而提高用户的体验性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;

图2为本发明文本解析方法的第一实施例的流程示意图;

图3为本发明实施例中对所述文本信息进行分词处理,提取所述文本信息的关键词的步骤的细化流程示意图;

图4为本发明实施例中通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息的步骤的细化流程示意图;

图5为本发明文本解析方法的第二实施例的流程示意图;

图6为本发明文本解析系统的第一实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实施例的主要解决方案是:接收智能设备发送的文本信息;对所述文本信息进行分词处理,提取所述文本信息的关键词;通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息;将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户。

由于现有技术在用户发现自己感兴趣的信息时,需要通过繁杂的手动按键操作,从智能设备的当前界面退出,再从主界面中找到相应的应用程序,然后在相应的应用程序中去检索查看。

本发明提供一种解决方案,实现了不需复杂的手动按键操作就能快速获取到用户想要了解的信息,使用户更高效地获取到有用信息,节省用户时间,从而提高用户的体验性。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是智能电视、也可以是智能手机、平板电脑、pc、电子书阅读器、mp3(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)播放器、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器等具有显示功能的终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,终端还可以包括红外接收模块,摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。其中,红外接收模块可以接收遥控的红外信号,实现对智能设备的控制。传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本解析程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文本解析程序,并执行以下操作:

接收智能设备发送的文本信息;

对所述文本信息进行分词处理,提取所述文本信息的关键词;

通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息;

将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户。

进一步地,处理器1001可以调用存储器1005中存储的文本解析程序,还执行以下操作:

通过预设的分词算法对所述文本信息进行分词处理,得到所述文本信息的词汇序列;

根据所述词汇序列中各个词汇在词汇序列中出现的概率和在预设词典库中出现的概率,确定所述文本信息中的关键词。

进一步地,处理器1001可以调用存储器1005中存储的文本解析程序,还执行以下操作:

通过关联算法计算预设的信息库中的信息与所述关键词的关联程度;

判断所述关联程度是否大于预设阈值;

若所述关联程度大于预设阈值,则获取所述关联程度对应的信息作为目标信息。

进一步地,处理器1001可以调用存储器1005中存储的文本解析程序,还执行以下操作:

若所述关联程度小于或者等于预设阈值,则生成匹配失败的提示信息;

所述将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户的步骤,包括:

将所述匹配失败的提示信息发送至智能设备,以使得智能设备将提示信息进行显示,以提示用户。

本发明文本解析设备的具体实施例与下述文本解析方法各实施例基本相同,在此不作赘述。

参照图2,本发明第一实施例提供一种文本解析方法,所述文本解析方法包括:

步骤s10,接收智能设备发送的文本信息。

本发明实施例终端可以是智能电视、也可以是智能手机、平板电脑、pc等,本发明以下所有实施例均以智能电视为例。当用户浏览电视界面时,发现界面中某条感兴趣的消息、网页或图片,用户可以通过遥控器锁定界面中感兴趣的目标对象,再通过遥控器的指定按键提取该目标对象中的文本信息,再将所述文本信息发送至服务器或云服务器,本实施例以服务器为例,服务器对智能设备发送过来的文本信息进行接收和保存。

步骤s20,对所述文本信息进行分词处理,提取所述文本信息的关键词。

服务器接收到智能设备发送的文本信息后,对接收到的文本信息进行分词处理,通过分词算法得到所述文本信息的词汇序列,再根据词汇序列中各个词汇在预设词典库中出现的概率,找出词汇序列中的关键词。其中分词算法可以有很多种,例如n元语法分词、二元分词、最大匹配分词方法、基于统计或语义分析的分词方法,其中,n元语法分词是一种不需要词典的机械分词方法,实现容易。二元分词方法是将句子中任意出现的两个紧邻的字都分出来,建立倒排索引。最大匹配分词方法是一种按照最长词优先的原则匹配分词的方法。基于统计或语义分析的分词方法得到的结果不一定是全面的,但比较准确。需要说明的是,以上分词算法仅为一种示意,实际应用中可采用其他分词算法,这里并不限定。例如,服务器接收到的文本信息为“本年度最受欢迎的女演员是赵**,她的代表作品为《知否**》”,通过分词算法,可以确定最符合语义理解的词汇序列为“本年度/最受/欢迎/的/女演员/是/赵**,她的/代表作品/为/《知否**》”,而非“本年/度/最/受欢/迎的/女/演员/是/赵**,她的/代表/作品/为/《知否/**》”或其他词汇序列,通过将得到的词汇序列中的各个词汇与预设词典库中词汇比较,找到词汇序列中出现概率最大的词汇,如本实施例中的“赵**”和“《知否**》”。

步骤s30,通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息。

服务器获取到文本信息中关键词后,通过预设在服务器中的关联算法将所述关键词与预设信息库中的信息进行匹配,获取与所述关键词对应的关联信息。关联算法是一种简单、实用的分析技术,用于发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式,常见的关联算法有apriori算法和fp-growth算法等。通过关联算法可以计算出关键词与信息库中的每条信息的关联程度,将获取到的关联程度大于预设阈值的信息作为目标信息推荐给用户。所述目标信息可以为一条,也可以为多条,当目标信息为多条时,服务器将根据关联程度大小,按从大到小的顺序排序,再将排序后的目标信息发送至智能设备。

步骤s40,将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户。

服务器将获取的目标信息发送给智能设备,智能设备接收到所述目标信息后,在界面中直接显示或者在界面的预设位置进行显示,当然也可以通过预设的应用程序中显示。当目标信息为多条时,智能设备会将关联性最强的信息放置在最前面,关联性小的,依次排在后面,便于用户选择查看。

在本实施例中通过服务器接收智能设备发送的文本信息,并将所述文本信息通过预设的分词算法进行分词处理,分词处理后提取所述文本信息中的关键词,然后通过预设的关联算法从预设的信息库中获取满足关联程度的目标信息,最后将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,从而提示用户。本发明通过对智能设备界面中的文本信息进行智能解析,获取到与文本信息关联的目标信息,从而实现了快速获取用户想要了解的信息,不再需要复杂的手动按键操作,使用户能更高效地获取到有用信息,节省用户时间,从而提高用户的体验性。

进一步的,参照图3,本发明第一实施例提供一种文本解析方法,基于上述图2所示的实施例,所述步骤s20对所述文本信息进行分词处理,提取所述文本信息的关键词的步骤,包括:

步骤s201,通过预设的分词算法对所述文本信息进行分词处理,得到所述文本信息的词汇序列。

由于文本信息由一个个字符串组成,包括汉字、英文、标点符号等,服务器并不能根据一个个字符理解文本信息的语义,故需要通过分词算法对文本信息进行分词处理,目前常用的分词工具有jieba、snownlp(mit)、pynlpir和thulac。通过分词算法处理后,能得到最贴近语义理解的词汇序列,比如接收到的文本信息内容为“元芳你怎么看?我就趴窗口上看呗!”,通过分词处理后,能得到最符合语义理解的词汇序列为“元芳/你/怎么/看/?/我/就/趴/窗口/上看呗/!/”。再比如,接收到的文本信息内容为“本年度最受欢迎的女演员是赵**,她的代表作品为《知否**》”,通过分词处理后,可以确定最符合语义理解的词汇序列为“本年度/最受/欢迎/的/女演员/是/赵**,她的/代表作品/为/《知否**》”。分词算法能使服务器更好的理解文本信息的语义,避免出现歧义或不理解的情况。

步骤s202,根据所述词汇序列中各个词汇在词汇序列中出现的概率和在预设词典库中出现的概率,确定所述文本信息中的关键词。

本实施例以tf-idf算法获取关键词为例,首先在服务器中预先设置词典库,该词典库包括语料中出现的所有词,用来模拟语言的使用环境,并保存有词典库中所有词的逆文档频率(idf值),然后再计算出所述词汇序列中每个词汇的词频(tf值),最后将tf值与idf值相乘,便得到tf-idf值,值越大表示作为关键词的优先级越高。

上述idf值计算公式如下:

其中,idf为某个词的逆文档频率,m为词典库的文档总数,m为词典库中包含该词的文档数。

上述tf值的计算公式如下:

其中,tf为某个词在词汇序列中的出现概率,a为某个词在词汇序列中出现的次数,t为词汇序列的总词数。

上述tf-idf值的计算公式如下:

可以看到,tf-idf与一个词在待提取文档中的出现次数成正比,与该词在整个词典库中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出词汇序列中每个词的tf-idf值,然后按降序排列,取排在最前面的几个词作为关键词。

当然,除了本实施例中通过tf-idf算法获取关键词外,还可以通过textrank算法或其他算法获取词汇序列中的关键词,在此就不一一赘述。

在本实施例中通过分词算法得到文本信息的词汇序列,进而提取所述词汇序列的关键词,这样使得服务器可以更好地理解文本信息的语义,从而提取文本信息中重要的信息,为后续得到关键词的关联信息作准备。

进一步的,参照图4,本发明第一实施例提供一种文本解析方法,基于上述图2所示的实施例,所述步骤s30通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息的步骤,包括:

步骤s301,通过预设的关联算法计算预设的信息库中的信息与所述关键词的关联程度。

服务器中预设有关联算法,通过关联算法计算关键词与服务器中预设的信息库中的信息关联程度,得到与关键词关联程度大于预设阈值的信息作为目标信息推送给用户。本实施例中使用apriori算法进行关联程度计算。相关计算公式如下:

其中,d为信息库中信息的总量,y为词汇序列的关键词,x为与y关联的词,support(x→y)为x和y同时在信息库中出现的概率。

其中,y为词汇序列的关键词,x为与y关联的词,为y在信息库中出现后,x在信息库中出现的概率。

其中,y为词汇序列的关键词,x为与y关联的词,为x与y之间的关联程度。

根据上述3个公式,可以分别计算关键词与信息库信息的支持度、置信度和提升度,根据支持度、置信度和提升度中至少一种以上的组合来表示预设的信息库中的信息与所述关键词的关联程度,从而找出满足条件的匹配信息。当然,除了本实施例中的apriori算法外,还可以是fp-growth算法和pagerank算法等,在此就不一一赘述。

步骤s302,判断所述关联程度是否大于预设阈值。

将根据步骤s301得到的支持度、置信度和提升度中至少一种以上的组合作为关联规则,只有满足该关联规则,才认为该关键词与信息库中的某条信息存在关联关系,否则,则不存在关联关系,并将关联的信息作为目标信息推荐给用户。本实施例中将提升度作为关联程度,当信息库中的信息与关键词的提升度大于预设阈值时,则认为信息库中的这条信息与关键词有关联关系,将作为目标信息推荐给用户。

本实施例需要将关键词与信息库中的每条信息进行匹配,判断两者的提升度是否大于预设阈值,若所述关联程度大于预设阈值,则执行步骤s303:获取所述关联程度对应的信息作为目标信息。例如,基于“赵**”和“《知否**》”的关键词,匹配出信息库中与“赵**”和“《知否**》”两个关键词的关联程度大于预设阈值的信息有赵**的生平介绍、赵**的作品介绍、参与《知否**》相关的演员介绍以及《知否**》的收视率等信息。若所述关联程度小于或者等于预设阈值,则执行步骤s304:生成匹配失败的提示信息。服务器生成匹配失败的提示信息并将所述匹配失败的提示信息发送至智能设备,以使得智能设备将提示信息进行显示,以提示用户。

在本实施例中通过关联算法获取到预设信息库中与关键词匹配的目标信息,不需要用户通过其他应用程序和关键词来手动检索,便于用户直接查看相关信息,从而提高了用户的体验性。

参照图5,本发明第二实施例提供一种文本解析方法,所述文本解析方法包括:

步骤s50,接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息。

本发明实施例终端可以是智能电视、也可以是智能手机、平板电脑、pc等,本实施例终端以智能电视为例。在智能电视安卓系统的framwork层自定义一个与activitymanagerservice同级别的识词系统服务(recognitionmanagerservice),并在activity.java的生命周期中注册该服务的回调,同时定义操作遥控器上的按键来启动或结束该识词系统服务(recognitionmanagerservice),这样使得用户通过遥控器就能启动或结束识词系统服务,让智能电视能对界面中的文本信息进行识别,从而获取到智能电视界面中的文本信息。

另一实施方式,实施例终端以智能手机为例,在智能手机安卓系统的framwork层自定义一个与activitymanagerservice同级别的识词系统服务(recognitionmanagerservice),并在activity.java的生命周期中注册该服务的回调,同时定义操作智能手机显示界面中的控件或手机上的按键组合来启动或结束该识词系统服务(recognitionmanagerservice),这样用户可以通过触摸手机显示界面中的控件来发送控制指令,也可以通过手机上的按键组合来发送控制指令,从而实现对手机当前界面中包含的文本信息进行获取。

步骤s60,将所述文本信息发送至服务器,以使得所述服务器对所述文本信息进行分词处理获得对应的关键词,并根据所述关键词获取与所述关键词关联的目标信息。

智能电视在获取到文本信息后,需要将该文本信息发送至服务器,通过服务器对该文本信息进行分词处理获得对应的关键词,并根据该关键词获取与该关键词关联的目标信息。具体地,服务器接收到智能设备发送的文本信息后,对所述文本信息进行分词处理,通过分词算法得到所述文本信息的词汇序列,再对词汇序列中各个词汇在词汇序列中出现的概率和在预设词典库中出现的概率,确定所述词汇序列中的关键词。获取到关键词后,再通过关联算法将所述关键词与预设信息库中的信息进行匹配,获取与所述关键词对应的关联信息。

步骤s70,接收所述服务器发送的所述目标信息,并将所述目标信息在智能设备界面中的预设位置进行显示,以提示用户。

服务器获取到目标信息后,将目标信息发送至智能电视,智能电视对所述目标信息进行接收和保存,为了不影响电视的正常播放,目标信息可以在预设的应用程序中显示查看,作为另一种实施方式,在电视原来的显示界面的预设位置生成一个显示框,用于播放电视的同时,对目标信息进行显示。

当服务器未获取到满足关联条件的目标信息时,则生成匹配失败的提示信息,服务器将所述提示信息发送至智能电视后,智能电视接收并保存所述提示信息,提示信息同样可以在预设的应用程序中显示查看,作为另一种实施方式,也可以在电视原来的显示界面的预设位置生成一个显示框,对提示信息进行显示。

本实施例中智能电视通过获取当前界面中的文本信息,并将所述文本信息发送至服务器进行解析,最后接收服务器解析的目标信息并显示给用户,使用户能快速的获取感兴趣的信息,提高用户的体验性。

进一步的,本发明第二实施例提供一种文本解析方法,基于上述图5所示的实施例,所述步骤s50接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息的步骤,包括:

步骤s501,接收用户通过遥控器或者智能设备触发的控制指令,并根据所述控制指令定位用户想要搜索的目标对象。

用户通过遥控器或者智能设备的按键或者智能设备显示界面中的控件来触发控制指令,智能设备根据所述控制指令对界面中的内容进行上下左右平移或翻页,当用户浏览到感兴趣的信息时,再通过遥控器、智能设备显示界面中的控件或者智能设备上的按键来锁定目标对象。这里的目标对象可以是显示界面中任一带有文本信息的对象,包括系统文本控件如textview控件、button等,还包括网页和图片。

步骤s502,获取所述目标对象的属性,根据所述目标对象的属性确定所述目标对象的类型。

由于目标对象可以是显示界面中带有文本信息的对象,包括系统文本控件、网页和图片等,所以首先需要判断目标信息的属性,再根据目标对象的属性,确定所述目标对象的类型,例如,若目标对象为jpg、jpeg、gif、png、bmp等格式,则为图片类型;若目标对象为html格式,则为网页类型;若目标对象属性为textview控件或button等,则为系统文本控件类型。当然,目标对象可以为一种类型或者多种类型,服务器可根据类型的不同,对不同类型的目标对象进行分类。

步骤s503,根据所述目标对象的类型选择与所述目标对象类型对应的文本提取方法,并根据所述文本提取方法,获取所述目标对象中的文本信息。

目标对象的类型包括系统文本控件类型、网页类型和图片类型。由于目标对象的属性不同,获取目标对象中文本信息的方式也不相同。具体地,若所述目标对象为系统文本控件类型,则通过调用文本获取函数获取所述系统文本控件中的文本信息。若所述目标对象为网页类型,则通过解析html文本数据,提取所述网页中的文本信息。若所述目标对象为图片类型,则通过调用文本识别工具,识别所述图片中的文本信息。

本实施例中智能设备根据目标对象的不同类型采用对应的文本信息获取方法,提高了文本信息获取的灵活性,使文本信息获取更智能化。

参照图6,为本发明文本解析系统的第一实施例,所述文本解析系统包括:智能设备和服务器,

所述智能设备用于接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息;将所述文本信息发送至服务器;

所述服务器用于接收智能设备发送的文本信息;对所述文本信息进行分词处理,提取所述文本信息的关键词;通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息;将所述目标信息发送至智能设备;

所述智能设备还用于接收所述服务器发送的所述目标信息,并将所述目标信息在智能设备界面中的预设位置进行显示,以提示用户。

本发明文本解析系统的智能设备的具体实施例与上述文本解析方法第一实施例和附图2、3和4基本相同;本发明文本解析系统的服务器的具体实施例与上述文本解析方法第二实施例和附图5基本相同,在此不作赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本解析程序,所述文本解析程序被处理器执行时实现如下操作:

接收智能设备发送的文本信息;

对所述文本信息进行分词处理,提取所述文本信息的关键词;

通过预设的关联算法在预设的信息库中匹配出与所述关键词关联的目标信息;

将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

通过预设的分词算法对所述文本信息进行分词处理,得到所述文本信息的词汇序列;

根据所述词汇序列中各个词汇在词汇序列中出现的概率和在预设词典库中出现的概率,确定所述文本信息中的关键词。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

通过预设的关联算法计算预设的信息库中的信息与所述关键词的关联程度;

判断所述关联程度是否大于预设阈值;

若所述关联程度大于预设阈值,则获取所述关联程度对应的信息作为目标信息。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

若所述关联程度小于或者等于预设阈值,则生成匹配失败的提示信息;

所述将所述目标信息发送至智能设备,以使得智能设备将所述目标信息进行显示,以提示用户的步骤,包括:

将所述匹配失败的提示信息发送至智能设备,以使得智能设备将提示信息进行显示,以提示用户。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

接收用户触发的控制指令,根据所述控制指令获取当前界面包含的文本信息;

将所述文本信息发送至服务器,以使得所述服务器对所述文本信息进行分词处理获得对应的关键词,并根据所述关键词获取与所述关键词关联的目标信息;

接收所述服务器发送的所述目标信息,并将所述目标信息在智能设备界面中的预设位置进行显示,以提示用户。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

接收用户通过遥控器或者智能设备触发的控制指令,并根据所述控制指令定位用户想要搜索的目标对象;

获取所述目标对象的属性,根据所述目标对象的属性确定所述目标对象的类型;

根据所述目标对象的类型选择与所述目标对象类型对应的文本提取方法,并根据所述文本提取方法,获取所述目标对象中的文本信息。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

若所述目标对象为系统文本控件类型,则通过调用文本获取函数获取所述系统文本控件中的文本信息;

若所述目标对象为网页类型,则通过解析html文本数据,提取所述网页中的文本信息;

若所述目标对象为图片类型,则通过调用文本识别工具,识别所述图片中的文本信息。

进一步地,所述文本解析程序被处理器执行时还实现如下操作:

接收服务器发送的匹配失败的提示信息,并在智能设备的显示界面进行显示,以提示用户。

本发明计算机可读存储介质的具体实施例与上述文本解析方法各实施例基本相同,在此不作赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1