基于社交媒体实体定位和搜索匹配的文本标记方法及装置与流程

文档序号:35343227发布日期:2023-09-07 14:29阅读:43来源:国知局
基于社交媒体实体定位和搜索匹配的文本标记方法及装置与流程

本发明涉及数据处理,尤其涉及一种基于社交媒体实体定位和搜索匹配的文本标记方法、装置及电子设备。


背景技术:

1、社交媒体是大批网民自发贡献,提取,创造新闻资讯,然后传播的过程。社交媒体具有人数众多、自发传播的特点。社交媒体的产生依赖的是web2.0的发展,如果网络不赋予网民更多的主动权,社交媒体就失去了群众基础和技术支持,失去了根基。如果没有技术支撑那么多的互动模式,那么多互动的产品,网民的需求只能被压制无法释放。如果没有意识到网民对于互动的,表达自我的强烈愿望也不会催生那么多眼花缭乱的技术。社交媒体正是基于群众基础和技术支持才得以发展。

2、用户在使用社交媒体软件的过程中,存在如下问题:

3、(1)对于复杂的文本内容,可能存在定位错误或遗漏的情况。

4、(2)实体识别的歧义性:在处理hashtag、url、domain和mentions时,存在实体歧义性的挑战。例如,某些词可能既可以作为mentions实体,也可以作为一般的文本。

5、(3)搜索关键词匹配的准确性:将用户指定的搜索关键词与内容匹配需要遵循搜索引擎文档匹配规则。然而,这些规则可能因搜索引擎算法的复杂性而难以准确实现。对于多义词、拼写错误或同义词等情况,匹配结果可能不够精确。

6、(4)重叠html内容的处理:将两层html内容重叠并进行样式调整可能引发布局和显示方面的问题。


技术实现思路

1、有鉴于此,本发明实施例提供一种基于社交媒体实体定位和搜索匹配的文本标记方法、装置及电子设备,至少部分解决现有技术中存在的问题。

2、第一方面,本发明实施例提供了一种基于社交媒体实体定位和搜索匹配的文本标记方法,包括:

3、通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,返回hashtag、url和mentions实体的位置信息,并为每个实体添加相应的跳转链接样式;

4、基于实体的位置信息和跳转样式,将文本内容组装成第一html文档,使组装后的第一html文档在页面上展示时具有点击跳转的效果;

5、构建支持用户指定的搜索关键词与内容匹配的第二html文档,所述第二html文档将用户指定的搜索关键词进行点亮处理;

6、将第一html文档和第二html文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容。

7、根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,包括:

8、根据搜索引擎文档匹配规则,确定搜索关键词在文本内容中的位置,对搜索关键词进行标亮处理,使用特定的css样式或html标签来突出显示关键词。

9、根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:

10、检查文本是否为空或是否包含#符号,如果不满足条件,则返回一个空数组;

11、创建一个空数组tags,用于存储提取到的hashtag实体;

12、遍历所有匹配到的hashtag,获取它们的文本和位置信息;

13、检查hashtag之后的文本是否与其他字符相连,如果是,则跳过当前匹配项;

14、计算hashtag的起始位置和结束位置,并将其文本和位置信息添加到tags数组中;

15、返回最终的结果数组。

16、根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:

17、通过while循环遍历文本,使用正则表达式extracturl进行匹配;

18、在匹配过程中,使用正则表达式来获取匹配结果中的特定部分,包括url之前的字符、提取的url、协议、域名、路径;

19、根据提取到的url的不同情况,进行相应的处理:

20、如果url没有协议部分,即没有以"http://"或"https://"开头,根据选项设置和先前的字符匹配规则,决定是否继续处理该url,如果允许提取没有协议的url且满足匹配规则,则将其添加到结果数组中;

21、如果url有协议部分,直接将其添加到结果数组中;

22、将提取到的url及其在文本中的起始和结束位置信息添加到结果数组中,并返回最终的结果数组。

23、根据本公开实施例的一种具体实现方式,所述通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,还包括:

24、检查文本是否为空或是否包含@符号,如果不满足条件,则返回一个空数组;

25、创建一个空数组possiblenames,用于存储提取到的可能的@提及实体;

26、遍历所有匹配到的@提及实体,获取其相关的用户名以及位置信息;

27、检查@提及实体之后的文本是否与其他字符相连,如果是,则跳过当前匹配项;

28、将用户名和位置信息添加到possiblenames数组中;

29、返回最终的possiblenames数组,其中包含了提取到的@提及实体及其位置信息。

30、根据本公开实施例的一种具体实现方式,所述基于实体的位置信息和跳转样式,将文本内容组装成第一html文档,包括:

31、将实体的位置信息规整排序后,定位实体的位置,hashtag和menstions根据社交平台和实体类型,拼接对应实体的跳转url。

32、根据本公开实施例的一种具体实现方式,所述构建支持用户指定的搜索关键词与内容匹配的第二html文档,包括:

33、将提取的关键词的位置进行规整排序后,定位关键词位置,为关键词包装标亮样式,并拼接html片段。

34、根据本公开实施例的一种具体实现方式,所述将第一html文档和第二html文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容,包括:

35、获取用于展示社交媒体内容的实体信息的第一html文档和用于标亮用户指定的搜索关键词第二html文档;

36、使用css中的定位属性将第一html文档和第二html文档叠加在一起;

37、使用css中的层叠顺序属性来控制第一html文档和第二html文档的显示顺序,确保搜索关键词的标亮效果在社交媒体内容之上。

38、第二方面,本发明实施例提供了一种基于社交媒体实体定位和搜索匹配的文本标记装置,包括:

39、识别模块,用于通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,返回hashtag、url和mentions实体的位置信息,并为每个实体添加相应的跳转链接样式;

40、组装模块,用于基于实体的位置信息和跳转样式,将文本内容组装成第一html文档,使组装后的第一html文档在页面上展示时具有点击跳转的效果;

41、构建模块,用于构建支持用户指定的搜索关键词与内容匹配的第二html文档,所述第二html文档将用户指定的搜索关键词进行点亮处理;

42、显示模块,用于将第一html文档和第二html文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容。

43、第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:

44、至少一个处理器;以及,

45、与该至少一个处理器通信连接的存储器;其中,

46、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述任第一方面或第一方面的任一实现方式中的基于社交媒体实体定位和搜索匹配的文本标记方法。

47、第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的基于社交媒体实体定位和搜索匹配的文本标记方法。

48、第五方面,本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的基于社交媒体实体定位和搜索匹配的文本标记方法。

49、本发明实施例中的基于社交媒体实体定位和搜索匹配的文本标记方案,包括:通过对文本内容进行分析和处理,定位并识别其中的hashtag、url和mentions实体,返回hashtag、url和mentions实体的位置信息,并为每个实体添加相应的跳转链接样式;基于实体的位置信息和跳转样式,将文本内容组装成第一html文档,使组装后的第一html文档在页面上展示时具有点击跳转的效果;构建支持用户指定的搜索关键词与内容匹配的第二html文档,所述第二html文档将用户指定的搜索关键词进行点亮处理;将第一html文档和第二html文档按照预定的算法定位后,进行重叠显示,用于展示分层标记指定的内容。本发明相对于现有技术具有更全面、准确和灵活的实体提取和标亮功能,能够满足用户的定制化需求,并遵循搜索引擎的匹配规则,提供更好的用户体验和可视化效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1