一种基于页面内容的信息搜索方法与流程

文档序号：12034686阅读：165来源：国知局

本发明涉及移动互联网技术领域，特别涉及一种基于页面内容的信息搜索方法。

背景技术：

随着移动互联网的发展，手机新闻客户端越来越成为广大网民获取资讯的主要媒介。在阅读新闻的时候，用户经常因为对某个人物，机构或其它新闻背景信息不够了解而需要搜索更多相关信息。比如，用户在阅读新闻《乐天集团已经同意出让土地，萨德部署提速》时，可能对“乐天集团”和“萨德”的背景并不了解，需要搜索相关背景信息才能完全理解新闻的内容。和pc相比，因为手机屏幕有限且处理多任务的体验不佳，用户退出新闻内容页面进行搜索并在搜索结束后回到当前文章的交互比较繁琐，用户体验不佳。针对这个问题，现有技术使用以下三种技术方案予以解决：

第一种方案是，自动识别出文章中用户有可能需要了解更多背景信息的词并高亮出来。用户在阅读新闻时可以直接点击高亮词并跳转到这个词的搜索页面，搜索结束后又回到之前的文章位置，不影响继续阅读；

第二种方案是，给文章添加标签，比如对于上述新闻，在文章末尾展示下列标签：“乐天集团”“萨德”“朝鲜半岛”；用户可以直接点击标签并跳转到标签相关新闻的页面，浏览结束后又回到之前的文章末尾；

第三种方案是在文章末尾展示若干篇相关文章，用户可以点击阅读这些相关文章对新闻背景做一个更全面的了解。

现有技术帮助用户了解新闻背景信息的三种方案各自有一些缺点，比如，第一种方案的问题在于准确预测用户可能想了解的关键词比较困难，如果把太多的词高亮，比较影响用户正常的阅读体验，如果只对预测用户点击概率高的词进行高亮，则有可能遗漏用户真正想了解的词，无法使用户搜索必要的新闻背景。另外，如果用户想了解的相关信息不能被单个词表示，比如“萨德的有效射程”，高亮词的方法就无能无力了。第二种方案使用文末标签的方案则会受页面空间的限制，一般展示的标签不会多于五个，成功预测用户信息需求的概率更小，使用户无法对想了解的新闻信息进行搜索查询。第三种方案使用相关文章对新闻进行背景介绍同样具有文章数量展示的限制，页面空间有限导致背景文章的数量不能太多，有可能无法覆盖用户真正的信息需求。

技术实现要素：

本发明技术方案所解决的技术问题为：如何基于页面内容有效接收用户所需搜索信息。

为了解决上述技术问题，本发明技术方案提供了一种基于页面内容的信息搜索方法，包括：

在用户浏览的当前页面上检测用户在第一特定位置上的第一接触；

若检测到所述第一接触，则停止浏览所述当前页面并切换所述当前页面至搜索页面；

在所述搜索页面上检测用户在第二特定位置上的第二接触并根据所述第二接触接收用户输入的搜索信息。

可选的，所述当前页面为新闻页面。

可选的，所述当前页面包括：文字部分及第一搜索框部分，所述第一特定位置为所述当前页面第一搜索框部分的位置。

可选的，所述第一接触及第二接触为有效接触。

可选的，所述搜索页面包括：推荐搜索词部分及第二搜索框部分，所述第二特定位置为所述搜索页面每个推荐搜索词部分的位置及第二搜索框部分的位置。

可选的，若所述第二特定位置为所述搜索页面每个推荐搜索词部分的位置，所接收的用户输入的搜索信息为推荐搜索词信息；若所述第二特定位置为第二搜索框部分的位置，所接收的用户输入的搜索信息为用户通过文字输入法输入的文字信息。

可选的，所述信息搜索方法还包括：

根据所述当前页面的文字部分及用户停止浏览的文字部分的行位置生成所述推荐搜索词。

可选的，所述用户停止浏览的文字部分位置为所述当前页面文字部分的中间行位置。

可选的，所述根据所述当前页面的文字部分及用户停止浏览的文字部分位置生成所述推荐搜索词包括：

采集所述当前页面文字部分所涉文章的所有词汇并记录所有词汇在文章中的行位置；

计算所述词汇与所述用户停止浏览的文字部分的位置之间的行间距离d(w，p)，其中，w为所述词汇所在行位置，p为所述用户停止浏览的文字部分的行位置；

若所述词汇为所述当前页面文字部分的末尾行位置之后文章行间所涉词汇，则d(w，p)为行间距离极大值dmax；否则，d(w，p)为所述词汇与所述用户停止浏览的文字部分之间的最小行间距离；

基于关键词抽取模型计算所述词汇的重要性s(w)，并基于如下模型对所述词汇进行评价：

r(w)＝s(w)/ind(w,p)；

其中，r为所述词汇w的评分；

基于所述词汇评分获取得分最高的若干词汇作为所述推荐搜索词。

可选的，所述关键词抽取模型为gbdt模型。

可选的，所述信息搜索方法还包括：

根据用户输入的搜索信息在所述搜索页面上进行搜索；

若在搜索页面上接收到用户返回指示，则切换所述搜索页面至所述当前页面。

本发明技术方案的有益效果至少包括：

本发明技术方案通过在浏览页面(即浏览的当前页面)上设置切换至搜索页面的入口，从而连接浏览页面及搜索页面，用户输入特定的第一接触后可将浏览页面切换至搜索页面，该搜索页面可根据用户输入特定的第二接触形成搜索信息，该搜索信息的内容可以是根据用户停止浏览页面的文字不问生产的推荐词，或者是用户直接输入的搜索词。本发明技术方案能够基于页面内容有效接收用户所需搜索信息，并且不会影响当前页面的继续阅读，优化了用户浏览页面的流畅度，并简化了页面搜索的即使生成的过程。

本发明技术方案利用了用户停止浏览的当前页面的位置及当前页面的文字内容，使用用户停止浏览的页面位置的这一信息，精确推算用户可能感兴趣的搜索信息，从而进行推荐，最大程度得提高用户搜索信息的准确推荐，进一步实现用户搜索信息的有效接收。

本发明技术方案可在用户阅读新闻时随时进行搜索页面的切换，并结合用户停止浏览的页面位置进一步精确预测用户可能需要的搜索信息，能够准确预测用户对于搜索信息的需求，不但如此，本发明技术方案还对系统无法预测搜索信息的情况下实现基于用户的输入信息进行搜索词的生成，从而实现用户搜索的全部有效性。

附图说明

图1为本发明技术方案提供的一种基于页面内容的信息搜索方法的流程示意图；

图2为本发明技术方案提供的用户浏览页面的结构示意图；

图3为本发明技术方案提供的一种搜索界面的结构示意图；

图4为本发明技术方案提供的另一种搜索界面的结构示意图；

图5为本发明技术方案提供的另一种基于页面内容的信息搜索方法的流程示意图；

图6为本发明技术方案提供的一种推荐搜索词的算法示意图；

图7为本发明技术方案提供的一种搜索页面的应用例示意图；

图8为本发明技术方案提供的另一种搜索页面的应用例示意图；

图9为本发明技术方案提供的又一种基于页面内容的信息搜索方法的流程示意图。

具体实施方式

本发明技术方案的发明思路包括在用户浏览页面上设置一搜索页面的进入栏或进入菜单，只要用户在浏览页面时想要进行有关页面内容的背景知识的搜索，即可点击该进入栏或进入菜单，由于进入栏或进入菜单的形式虽然可以根据不同应用场景进行设计，但是其在浏览页面上属于开发者根据该浏览页面的特定位置所涉及，以便用户接触或点击进入进入栏或进入菜单所对应的搜索页面，该搜索页面上推荐了系统根据用户浏览页面时停止浏览的位置及浏览页面的内容而设定的推荐词，该搜索页面上还设置有搜索栏，用户可以接触或点击上述推荐词直接基于该推荐词进行搜索信息的查询，也可以直接在搜索栏上接触或点击，以直接根据系统输入法而输入用户其他想要查询的搜索信息。

基于上述发明思路，并结合图1，为本发明技术方案首先提出的一种基于页面内容的信息搜索方法，该方法对本发明技术方案的整体步骤进行了阐述，具体包括如下步骤：

步骤s100，在用户浏览的当前页面上检测用户在第一特定位置上的第一接触；

步骤s101，若检测到所述第一接触，则停止浏览所述当前页面并切换所述当前页面至搜索页面；

步骤s102，在所述搜索页面上检测用户在第二特定位置上的第二接触并根据所述第二接触接收用户输入的搜索信息。

根据步骤s100，所述当前页面根据开发商的应用领域的不同可以为多种应用场景的页面，该页面一般含有文字内容，可为新闻页面、论文页面、图文页面等。所述页面基于手机端可以是某客户端的手机页面，若基于平板电脑可以是某应用端的网络页面，所述页面的应用设备及应用场景可以是多样化的，本发明技术方案并不对所述页面的应用设备或应用场景做限定。

根据本发明技术方案的发明思路，本发明技术方案所述页面的结构包括页面的文字部分及搜索框部分，结合图2。所述文字部分一般为用户阅读、浏览的关键内容，而所述搜索框部分即为所述第一特定位置上的进入栏或进入菜单，对于目前的触摸屏而言，当该触摸屏检测到所述第一特定位置上存在有效接触，即所述第一接触，则所述搜索框部分被触发并转接页面至搜索页面。所述搜索框在页面上的位置不受图2所示的限制，其可以是页面上的任意位置。

需要说明的是，根据本发明技术方案发明思路的精神，所述本发明技术方案所述接触均为有效接触，所述进入栏或进入菜单的设计形式可以是任意的，所述接触仅是指设备屏幕与用户之间的交互方式，如是触摸屏，则所述接触为用户手指或其他人体部分与触摸屏之间的有效触摸，如是非触摸屏，则所述接触可以是屏幕页面的点击(比如鼠标或手指)，可以推测的是，如未来设备与用户之间的交互方式有其他除触摸、点击以外的方式，则也可以视为本发明技术方案所谓接触。

根据本发明技术方案的步骤s101，所述停止浏览所述当前页面的操作步骤存在停止浏览的时间点，该时间点与步骤s100中检测到用户在第一特定位置上的第一接触的时间点是一致的，即当检测到所述第一接触即视为获取到了停止浏览的当前页面。此时，设备还将当前页面切换至如图3所示的搜索页面。

根据本发明技术方案的步骤s102，并结合图3，所述搜索页面包括：推荐搜索词部分及第二搜索框部分，其中推荐搜索词部分可以根据开发商设置的需要设置一个或多个，所述搜索框部分的设置可以是搜索词的输入菜单或输入栏，其设计的图形界面的形式可以不被限定。所述第二特定位置为所述搜索页面每个推荐搜索词部分的位置及第二搜索框部分的位置。但不同的是：

若所述第二特定位置为所述搜索页面每个推荐搜索词部分的位置，所接收的用户输入的搜索信息为推荐搜索词信息；

若所述第二特定位置为第二搜索框部分的位置，所接收的用户输入的搜索信息为用户通过文字输入法输入的文字信息。

根据本发明技术方案的发明思路，上述设置第二特定位置的不同含义，所述第二接触的信息确认方案是不同的：

对于第二特定位置为所述搜索页面每个推荐搜索词部分的位置，用户直接根据其需要触摸或点击具有推荐搜索词部分的位置，其设置的搜索词即为触摸或点击后实际进行查询、搜索的关键词；

对于第二特定位置为所述第二搜索框部分的位置，用户若点击后则触发系统默认输入法，用户可根据需要进行搜索关键词的输入，一般是在所述推荐搜索词都不是用户想要搜索的关键词时，用户才选择的。

基于本发明技术方案的上述内容，以下给出一种变化例，其中用户浏览的当前页面为手机页面，用户浏览及设置的是手机应用中的某新闻客户端上显示的新闻详情页面，该页面提供了一种搜索内容的搜索入口。具体的，一种基于页面内容的信息搜索方法，包括如下步骤：

步骤s200，在用户进入新闻客户端任意一条新闻详情页面的时候，该页面提供内容搜索入口；

步骤s201，用户阅读过程中希望了解某些新闻背景信息，随即点击搜索入口icon；

步骤s202，点击后在当前页面弹出搜索框及搜索推荐词；

步骤s203，系统展示的搜索推荐词考虑了用户阅读到的位置，在用户停止阅读的位置附近出现的词会优先推荐；

步骤s204，如果推荐词可以描述用户的信息需求，用户直接点击查看相关内容；

步骤s205，如果推荐词无法描述用户的信息需求，用户直接输入自己想搜的内容；

步骤s206，浏览完相关背景信息后用户进行返回操作回到刚才读到的位置。

根据上述实例还需要补充的是，在本发明技术方案的一个实例中，还可以在搜索页面设置如图4所示的第三特定位置，系统可以根据第三特定位置上的接触，重新设置推荐搜索词位置上的搜索词，以供用户继续选择推荐词。若系统在搜索页面设置的默认推荐词并没有被用户选择时，可以根据用户在第三特定位置上的第三接触，再次排布所述第二特定位置上的搜索推荐词。所述第三特定位置可以是一标识继续推荐的菜单符号也可以是其他具有标识作用的图形界面。如图4显示的第三特定位置为“其他推荐词”的标识界面。

根据本发明技术方案的发明思路，如图5所示一种基于页面内容的信息搜索方法，除了包括步骤s100至s102以外，还包括：

步骤s300，根据所述当前页面的文字部分及用户停止浏览的文字部分的行位置生成所述推荐搜索词。

图5所示实施例给出了一种推荐搜索词的算法。

根据步骤s300，所述用户停止浏览的文字部分位置为所述当前页面文字部分的中间行位置为佳，但也可以是当前页面文字部分的其他设定位置，即只要系统能够预定一适用本发明技术方案当前页面的预定位置即可。

更为具体的，所述根据所述当前页面的文字部分及用户停止浏览的文字部分位置生成所述推荐搜索词包括如图6所示的步骤：

步骤s400，采集所述当前页面文字部分所涉文章的所有词汇并记录所有词汇在文章中的行位置；

步骤s401，计算所述词汇与所述用户停止浏览的文字部分的位置之间的行间距离d(w，p)，其中，w为所述词汇所在行位置，p为所述用户停止浏览的文字部分的行位置；

步骤s402，若所述词汇为所述当前页面文字部分的末尾行位置之后文章行间所涉词汇，则d(w，p)为行间距离极大值dmax；否则，d(w，p)为所述词汇与所述用户停止浏览的文字部分之间的最小行间距离；

步骤s403，基于关键词抽取模型计算所述词汇的重要性s(w)，并基于如下模型对所述词汇进行评价：r(w)＝s(w)/ind(w,p)，其中，r为所述词汇w的评分；

步骤s404，基于所述词汇评分获取得分最高的若干词汇作为所述推荐搜索词。

根据本发明技术方案的发明思路，本发明技术方案推荐搜索词的生成可以借鉴现有技术中新闻高亮词的生成算法，但是本发明技术方案和一般高亮词需要预先预测用户可能对哪些词的背景信息感兴趣不同，因为在本发明提出的交互流程中，推荐搜索词的时候还考虑了用户停止阅读的网页内容的位置信息，本发明技术方案就是利用这个位置信息可更精准的推荐用户可能感兴趣的背景词。具体的，结合上述步骤s400至s404，推荐搜索词的算法实现过程如下：

根据步骤s400,本发明技术方案中，用户触发详情页搜索时，系统已记录了用户停止浏览的当前页面(比如为一新闻页面)，该页面的文字部分的中间一行文本作为用户停止阅读的位置p。比如，如果用户开始触发搜索时，手机屏幕的当前页面内展示的是新闻所有内容的第30行到第50行，那么第40行就作为用户停止阅读的位置。

根据步骤s401、s402,如将当前页面中展示的新闻最后一行记作p1，定义文章中所有词w和p的距离d(w，p)，定义的距离d(w，p)的取值同时包括如下条件：

1)不考虑w出现在p1之后的位置；

2)距离d(w，p)为w和p的最小行间距，即如果p是第40行，词w先后出现在第32行，第45行，第49行，那么w和p的距离为5(出现在第45行的时候距离p行间距最小)；

3)如果词w只在p1之后出现过，那么w和p的距离d(w，p)为默认的极大值dmax。

根据步骤s403，其中所述词汇w的重要性s(w)计算可借用现有技术中高亮词抽取方法计算w的重要性s(w)。一种常见的方法是，考虑w的tf(在文章中出现的频度)，df(w在多少篇文章中出现过)，w的属性(w是否是一个人名，地名，机构名，产品名还是没有任何属性)等有关词汇w在文章中重要度特征来计算w的重要性。具体的计算函数可以采用机器学习技术获得，比如经典的gbdt(gradientboostingdecisiontree)模型。这时需要预先标注数百篇文章，把文章中值得高亮(即具有文章重要度)的词标记出来，从而给模型提供必要的训练样本。

上述训练后可计算得到s(w)模型及其模型参数，并获取符合本发明技术方案的有关词汇w的重要度函数s(w)，w的最终得分r(w)计算如下：r(w)＝s(w)/lnd(w,p)。其意义是，在重要性相同的情况下，距离p越近的词越应该被推荐。在距离相同的情况下，重要性高的词应该被推荐。根据上述结果获得的词汇w的评分r，根据步骤s404可将评分最高的k个词汇最终推荐给用户。k值根据需要可以选择3、5或其他自然数。

基于上述技术方案的一则应用例可参考图7及图8，其中图7及图8具体的展示了一个用户利用本发明技术方案获取相关搜索信息的具体实施例。其中，页面文字部分x代表非关键词，为省略的文字。

结合图7，首先用户在阅读新闻《乐天集团已经同意出让土地，萨德部署提速》时，读完第一屏后点击了详情页搜索按钮。根据上述d(w，p)的计算公式，只有用户已经看到过的词才有可能被推荐。综合考虑s(w)和d(w，p)，假设最多允许推荐5个词，当前页面会弹出一个推荐搜索词页面并推荐下列搜索词：

“乐天集团”、“萨德”、“天山高尔夫”、“韩国国防部”、“三八线”；

另外有些词，尽管s(w)很高(重要性较高)，但是只出现在第二屏，用户还未看到(d(w，p)会被设置为一个特别大的常数)，无法被推荐，比如“崔顺实”、“李仁源”、“辛东彬”。结合图8，图8浏览页面为图7浏览页面的后一页，即第二屏新闻的页面。当用户看完第二屏再点击详情页搜索按钮时，结合图8的搜索页面，这些搜索词才会被推荐出来。

如果用户在阅读过程中想了解的背景信息不能被推荐的搜索词描述，用户还可以在搜索框中直接输入查询词并查看新闻搜索的结果，比如“朴槿惠萨德关系”。

根据本发明技术方案的另一个变化例，如图9所示，一种基于页面内容的信息搜索方法，除了包括步骤s100至s102，还包括：

步骤s500，根据用户输入的搜索信息在所述搜索页面上进行搜索；

步骤s501，若在搜索页面上接收到用户返回指示，则切换所述搜索页面至所述当前页面。

根据步骤s500至s501，其定义了系统在获取用户的搜索信息后进行搜索并及时返还原浏览页面以继续阅读用户页面的步骤，上述步骤也可结合步骤s300进行。

其中s300与上述步骤之间并无先后的执行顺序。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹欢欢
技术所有人：北京字节跳动科技有限公司
我是此专利的发明人

上一篇：一种地球化学数据异常信息的提取方法及系统与流程
上一篇：文件管理方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。