数据处理方法和计算机可读存储介质、电子设备与流程

文档序号:26754470发布日期:2021-09-25 03:32阅读:49来源:国知局
1.本公开涉及数据处理技术,尤其是一种数据处理方法和计算机可读存储介质、电子设备。
背景技术
::2.elasticsearch(以下简称es)是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。目前es支持使用bulx接口对索引文档数据进行批量更新,支持的操作包括create(创建)、delete(删除)、index(索引)以及update(局部更新)四种操作方式。其中create是写入不存在的文档,delete是删除指定文档,index是替换指定文档,而update是更新指定文档的局部数据。在实际检索业务中,索引文档数据的更新使用批量更新接口,操作主要是index、update以及delete三种。技术实现要素:3.为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种数据处理方法和计算机可读存储介质、电子设备。4.根据本公开实施例的一个方面,提供了一种数据处理方法,包括:5.获取需要更新操作的文档数据集;其中,所述文档数据集中包括多个数据,所述更新操作的操作类型至少包括删除操作;6.基于所述操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集;其中,所述删除数据集中包括至少一个数据;7.响应于所述删除数据集中存在至少一个缺失路由字段的第一数据,为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段;8.基于每个所述第一数据对应的所述至少一个设定路由字段,对每个所述第一数据执行删除操作。9.可选地,所述基于操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集之前,还包括:10.基于所述文档数据集中的每个数据对应的至少一个更新操作对应的操作类型,对每个所述数据对应的至少一个更新操作进行合并,得到合并数据集;其中,所述合并数据集中每个数据对应一个更新操作;11.所述基于操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集,包括:12.基于操作类型对所述合并数据集进行分类,得到所述合并数据集中对应所述删除操作的删除数据集。13.可选地,所述基于所述文档数据集中的每个数据对应的至少一个更新操作对应的操作类型,对每个所述数据对应的至少一个更新操作进行合并,包括:14.针对所述文档数据集中的每个数据,按时间获得所述数据对应的第一更新操作和第二更新操作,合并所述第一更新操作和所述第二更新操作,得到中间更新操作;15.迭代执行:以所述中间更新操作作为新的第一更新操作,以所述第二更新操作之后的第三更新操作作为新的第二更新操作,合并所述新的第一更新操作和所述新的第二更新操作,得到新的中间更新操作;直到不存在第三更新操作,以得到的中间更新操作作为目标更新操作。16.可选地,所述更新操作的操作类型还包括写入操作和局部更新操作;17.所述合并所述第一更新操作和所述第二更新操作,得到中间更新操作,包括:18.响应于所述第一更新操作的操作类型为局部更新操作,以所述第二更新操作的操作类型作为所述中间更新操作的操作类型;或者19.响应于所述第一更新操作的操作类型为写入操作,当所述第二更新操作的操作类型为写入操作或局部更新操作时,所述中间更新操作的操作类型为写入操作;或者20.响应于所述第一更新操作的操作类型为写入操作,当所述第二更新操作的操作类型为删除操作时,所述中间更新操作的操作类型为删除操作;或者21.响应于所述第一更新操作的操作类型为删除操作,所述中间更新操作的操作类型为写入操作。22.可选地,所述为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段,包括:23.通过查找彩虹表为每个所述第一数据得到x个设定路由字段以及所述x个设定路由字段对应的x个分片id;其中,x为大于等于1的整数,所述第一数据对应的每个设定路由字段对应一个分片id。24.可选地,所述基于每个所述第一数据对应的所述至少一个设定路由字段,对每个所述第一数据执行删除操作,包括:25.针对每个所述第一数据,将所述第一数据分别与所述x个设定路由字段进行组合,得到x个组合数据;其中,每个所述组合数据包括一个所述设定路由字段和所述第一数据;26.基于所述x个设定路由字段与x个分片id的对应关系,在所述x个分片id中执行删除所述组合数据的操作。27.可选地,所述为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段之前,还包括:28.基于哈希算法确定多个设定路由字段中每个所述设定路由字段对应的分片id,为每个所述分片id确定至少一个对应的设定路由字段;29.基于每个所述分片id与所述多个设定路由字段之间的对应关系,建立所述彩虹表。30.根据本公开实施例的另一方面,提供了一种数据处理装置,包括:31.数据集获取模块,用于获取需要更新操作的文档数据集;其中,所述文档数据集中包括多个数据,所述更新操作的操作类型至少包括删除操作;32.分类模块,用于基于所述操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集;其中,所述删除数据集中包括至少一个数据;33.路由获取模块,用于响应于所述删除数据集中存在至少一个缺失路由字段的第一数据,为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段;34.删除扩展模块,用于基于每个所述第一数据对应的所述至少一个设定路由字段,对每个所述第一数据执行删除操作。35.可选地,所述装置还包括:36.操作合并模块,用于基于所述文档数据集中的每个数据对应的至少一个更新操作对应的操作类型,对每个所述数据对应的至少一个更新操作进行合并,得到合并数据集;其中,所述合并数据集中每个数据对应一个更新操作;37.所述分类模块,具体用于基于操作类型对所述合并数据集进行分类,得到所述合并数据集中对应所述删除操作的删除数据集。38.可选地,所述操作合并模块,具体用于针对所述文档数据集中的每个数据,按时间获得所述数据对应的第一更新操作和第二更新操作,合并所述第一更新操作和所述第二更新操作,得到中间更新操作;迭代执行:以所述中间更新操作作为新的第一更新操作,以所述第二更新操作之后的第三更新操作作为新的第二更新操作,合并所述新的第一更新操作和所述新的第二更新操作,得到新的中间更新操作;直到不存在第三更新操作,以得到的中间更新操作作为目标更新操作。39.可选地,所述更新操作的操作类型还包括写入操作和局部更新操作;40.所述操作合并模块在合并所述第一更新操作和所述第二更新操作,得到中间更新操作时,用于响应于所述第一更新操作的操作类型为局部更新操作,以所述第二更新操作的操作类型作为所述中间更新操作的操作类型;或者,响应于所述第一更新操作的操作类型为写入操作,当所述第二更新操作的操作类型为写入操作或局部更新操作时,所述中间更新操作的操作类型为写入操作;或者,响应于所述第一更新操作的操作类型为写入操作,当所述第二更新操作的操作类型为删除操作时,所述中间更新操作的操作类型为删除操作;或者,响应于所述第一更新操作的操作类型为删除操作,所述中间更新操作的操作类型为写入操作。41.可选地,所述路由获取模块,具体用于通过查找彩虹表为每个所述第一数据得到x个设定路由字段以及所述x个设定路由字段对应的x个分片id;其中,x为大于等于1的整数,所述第一数据对应的每个设定路由字段对应一个分片id。42.可选地,所述删除扩展模块,具体用于针对每个所述第一数据,将所述第一数据分别与所述x个设定路由字段进行组合,得到x个组合数据;其中,每个所述组合数据包括一个所述设定路由字段和所述第一数据;基于所述x个设定路由字段与x个分片id的对应关系,在所述x个分片id中执行删除所述组合数据的操作。43.可选地,所述装置还包括:44.彩虹表建立模块,用于基于哈希算法确定多个设定路由字段中每个所述设定路由字段对应的分片id,为每个所述分片id确定至少一个对应的设定路由字段;基于每个所述分片id与所述多个设定路由字段之间的对应关系,建立所述彩虹表。45.根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的数据处理方法。46.根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:47.处理器;48.用于存储所述处理器可执行指令的存储器;49.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的数据处理方法。50.根据本公开实施例的再一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述任一项实施例所述的数据处理方法的步骤。51.基于本公开上述实施例提供的一种数据处理方法和计算机可读存储介质、电子设备,获取需要更新操作的文档数据集;其中,所述文档数据集中包括多个数据,所述更新操作的操作类型至少包括删除操作;基于操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集;其中,所述删除数据集中包括至少一个数据;响应于所述删除数据集中存在至少一个缺失路由字段的第一数据,为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段;基于每个所述第一数据对应的所述至少一个设定路由字段,对每个所述第一数据执行删除操作;本实施例通过为需要执行删除操作的第一数据分配至少一个设定路由字段,保证了能够准确删除该第一数据,保证了事务性及数据更新性能。52.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。附图说明53.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。54.图1是本公开一示例性实施例提供的数据处理方法的流程示意图。55.图2是本公开另一示例性实施例提供的数据处理方法的流程示意图。56.图3是本公开图2所示的实施例中步骤204的一个流程示意图。57.图4是本公开一示例性实施例提供的数据处理方法中执行更新操作合并的流程示意图。58.图5是本公开图1所示的实施例中步骤108的一个流程示意图。59.图6是本公开一示例性实施例提供的数据处理方法中执行删除膨胀的流程示意图。60.图7是本公开一示例性实施例提供的数据处理装置的结构示意图。61.图8是本公开一示例性实施例提供的电子设备的结构图。具体实施方式62.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。63.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。64.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。65.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。66.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。67.另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。68.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。69.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。70.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。71.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。72.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。73.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。74.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。75.申请概述76.在实现本公开的过程中,发明人发现,实际业务对于分片的索引,使用bulx接口进行批量更新时需要指定“_routing”(路由)字段,以此保证更新操作在正确的分片上执行,但是实际业务场景中存在删除文档时无路由字段情况,这种情况只能采用先查找再删除的方式将指定文档删除,无法保证事务性及数据更新性能。77.示例性方法78.图1是本公开一示例性实施例提供的数据处理方法的流程示意图。本实施例可应用在es上,如图1所示,包括如下步骤:79.步骤102,获取需要更新操作的文档数据集。80.其中,文档数据集中包括多个数据,更新操作的操作类型至少包括删除操作(delete)。81.可选地,可通过消费(consume)订阅的xafxatopic(主题)获取需要更新的文档数据集;数据可以是文档数据或文本数据。82.步骤104,基于操作类型对文档数据集进行分类,得到文档数据集中对应删除操作的删除数据集。83.其中,删除数据集中包括至少一个数据。84.步骤106,响应于删除数据集中存在至少一个缺失路由字段的第一数据,为至少一个第一数据中每个第一数据确定至少一个设定路由字段。85.本实施例中,需要执行删除操作的数据可以是主键数据,在执行删除时,需要通过路由字段查找该主键数据在es上存储的位置,本实施例通过为缺失路由字段的第一数据确定至少一个设定路由字段,保证了第一数据可以被删除。86.步骤108,基于每个第一数据对应的至少一个设定路由字段,对每个第一数据执行删除操作。87.本实施例中,通过至少一个设定路由字段在至少一个位置对该第一数据执行删除操作,保证了能够实现对该第一数据的删除;并且由于es上一个数据只保存一个,不会出现误删的情况。88.本公开上述实施例提供的一种数据处理方法,获取需要更新操作的文档数据集;其中,所述文档数据集中包括多个数据,所述更新操作的操作类型至少包括删除操作;基于操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集;其中,所述删除数据集中包括至少一个数据;响应于所述删除数据集中存在至少一个缺失路由字段的第一数据,为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段;基于每个所述第一数据对应的所述至少一个设定路由字段,对每个所述第一数据执行删除操作;本实施例通过为需要执行删除操作的第一数据分配至少一个设定路由字段,保证了能够准确删除该第一数据,保证了事务性及数据更新性能。89.图2是本公开另一示例性实施例提供的数据处理方法的流程示意图。如图2所示,包括如下步骤:90.步骤202,获取需要更新操作的文档数据集。91.其中,文档数据集中包括多个数据,更新操作的操作类型至少包括删除操作(delete)。92.该步骤的实现和效果可参照图1所示实施例中的步骤102,在此不再赘述。93.步骤204,基于文档数据集中的每个数据对应的至少一个更新操作对应的操作类型,对每个数据对应的至少一个更新操作进行合并,得到合并数据集。94.其中,合并数据集中每个数据对应一个更新操作。95.可选地,在文档数据集中,每个数据可能被执行不止一次的更新操作,本实施例通过将至少一个更新操作进行合并,实现对每个数据仅执行一次更新操作,大大减少了系统的数据更新规模。96.步骤206,基于操作类型对合并数据集进行分类,得到合并数据集中对应删除操作的删除数据集。97.其中,删除数据集中包括至少一个数据。98.步骤208,响应于删除数据集中存在至少一个缺失路由字段的第一数据,为至少一个第一数据中每个第一数据确定至少一个设定路由字段。99.该步骤的实现和效果可参照图1所示实施例中的步骤106,在此不再赘述。100.步骤210,基于每个第一数据对应的至少一个设定路由字段,对每个第一数据执行删除操作。101.该步骤的实现和效果可参照图1所示实施例中的步骤108,在此不再赘述。102.本实施例中,将更新的文档数据集中同一主键(用于实现数据的区分性,相同的数据具有同一主键)的数据进行合并,使每个数据仅执行一次更新操作,有效降低更新操作的数据量,降低了es写入压力。103.如图3所示,在上述图2所示实施例的基础上,步骤204针对文档数据集中的每个数据可执行如下步骤:104.步骤2041,按时间获得数据对应的第一更新操作和第二更新操作。105.步骤2042,合并第一更新操作和第二更新操作,得到中间更新操作。106.步骤2043,判断是否存在第三更新操作,如果存在,执行步骤2024;否则,以得到的中间更新操作作为目标更新操作,结束该数据的合并。107.步骤2044,以中间更新操作作为新的第一更新操作,以第二更新操作之后的第三更新操作作为新的第二更新操作,返回执行步骤2042。108.本实施例中,对应同一主键对应的数据的多次更新操作之间存在时间的先后顺序,本实施例将在时间上首次对数据的更新操作作为第一更新操作,紧邻第一更新操作之后的更新操作作为第二更新操作,紧邻第二更新操作之后的更新操作作为第三更新操作,本实施例将相邻的两次更新操作执行合并,在以合并后的更新操作作为第一更新操作,以实现将后续的更新操作继续进行合并,实现多个更新操作的逐个合并,最终实现同一主键对应的数据仅执行一次更新操作,极大的降低了更新操作的数据量。109.可选地,更新操作的操作类型还包括写入操作(index)和局部更新操作(update);110.上述实施例中的步骤2042可包括:111.响应于第一更新操作的操作类型为局部更新操作,以第二更新操作的操作类型作为中间更新操作的操作类型;或者112.响应于第一更新操作的操作类型为写入操作,当第二更新操作的操作类型为写入操作或局部更新操作时,中间更新操作的操作类型为写入操作;或者113.响应于第一更新操作的操作类型为写入操作,当第二更新操作的操作类型为删除操作时,中间更新操作的操作类型为删除操作;或者114.响应于第一更新操作的操作类型为删除操作,中间更新操作的操作类型为写入操作。115.在实际检索业务中,文档数据集的更新操作主要是index、update以及delete三种。index操作是写入文档数据,如果es中已存在指定文档数据,则进行完全替换;update操作是文档数据的局部更新,当es中不存在指定文档数据时,则进行一次文档数据写入,否则对对应文档数据指定字段进行替换操作;delelte操作则是删除指定的文档数据。下面假设文档数据集中,存在对同一主键对应的数据进行两次更新操作,如图4所示,通过消费(consume)订阅的xafxatopic(主题)获取需要更新的文档数据集,document(文件)在本实施例中表示需要更新操作的数据,compactmodule在本实施例中表示更新操作合并,下面详细介绍不同操作的压缩方式:116.1.如果是两次update操作,那么将两次局部更新操作的数据进行字段合并,如果有重复的字段更新,则以后者为准,将两次局部更新合并成一次局部更新。117.2.如果先执行index或update操作,后执行index操作,那么后一次index操作会将前一次操作覆盖。118.3.如果先执行index操作,后执行update操作,则将update操作中与index操作有重复的字段进行覆盖替换,将两次操作合并成一次index操作。119.4.如果先执行index或update操作,后执行delete操作,则后一次delete操作会将前一次操作覆盖。120.5.如果先执行delete操作,后执行update操作,那么对于es,相当于执行了index操作,index内容与update内容相同,则两次操作合并成一次index操作。121.6.如果先执行delete操作,后执行index操作,则后一次index操作会将前一次操作覆盖。122.在一些可选的实施例中,步骤106可以包括:123.通过查找彩虹表为每个第一数据得到x个设定路由字段以及x个设定路由字段对应的x个分片id。124.其中,x为大于等于1的整数,第一数据对应的每个设定路由字段对应一个分片id。125.可选地,彩虹表提供的设定路由字段与分片id的对应关系,彩虹表可在本实施例执行之前,基于es哈希算法提前建立,具体建立彩虹表的过程可包括:基于哈希算法确定多个设定路由字段中每个设定路由字段对应的分片id,为每个分片id确定至少一个对应的设定路由字段;126.基于每个分片id与所述多个设定路由字段之间的对应关系,建立彩虹表。127.可选地,es根据路由字段分配数据到指定分片的哈希算法如下公式(1)所示:128.shard_num=hash(_routing)%num_primary_shardsꢀꢀꢀ公式(1)129.其中,shard_num表示指定的分片id,num_primary_shards为es中包括的分片数量,_routing表示设定路由字段对应的字符串,基于上述公式(1),即可实现将设定路由字段与指定分片的分片id建立对应关系。参照上述公式(1),实现逆向枚举计算出分片id与设定路由字段的对应信息,并将其存储在一个哈希表中作为彩虹表,用以补充路由字段时使用。130.如图5所示,在上述图1所示实施例的基础上,步骤108可包括如下步骤:131.步骤1081,针对每个第一数据,将第一数据分别与x个设定路由字段进行组合,得到x个组合数据。132.其中,每个组合数据包括一个设定路由字段和第一数据。133.步骤1082,基于x个设定路由字段与x个分片id的对应关系,在x个分片id中执行删除组合数据的操作。134.本实施例中,通过将第一数据分别与x各设定路由字段进行组合,实现了数据膨胀,将一个第一数据膨胀为x个组合数据,x个组合数据中每个组合数据对应一个分片id,即,在执行删除操作时,对每个分片都执行删除该组合数据的操作,但由于es中同一数据仅保存一次,因此,在存在该第一数据的分片成功删除数据,不存在该数据的分片不删除任何数据,实现了无论第一数据存储在哪个分片中,都能被准确的删除,而不会出现因为缺少路由字段无法确定存储位置而无法正确删除的问题,避免了使用es根据条件删除功能带来的性能损耗和事务性问题。135.可选地,在一可选示例中,假设索引分片数为x,经过更新操作压缩后,如果存在对某一主键数据的删除操作,且缺失路由字段,那么可根据彩虹表提供的设定路由字段与分片id的对应关系,将删除操作缺失的路由字段进行填充,此时删除操作膨胀为x个,每一个操作为对应的第一数据以及补充的设定路由字段。通过该方式实现删除操作的数据补全,例如,在一可选示例中补全方式可以如图6所示,document1‑documentn表示经过操作合并后的合并数据集,deleteexpansionmodule(删除扩展模块)在本实施例中表示对缺失路由字段的第一数据进行路由字段填充,rainbowtable表示彩虹表,彩虹表中每个设定路由字段(routingi,i的取值为图中所示0到x‑1)与分片id(shardi,i的取值为图中所示0到x‑1)对应,示例性的,图中delete表示一个第一数据,该第一数据经过彩虹表得到x个组合数据(deletewithroutingi,i的取值为图中所示0到x‑1),在调用es的bulx接口时,es会对该索引每个分片执行对应删除操作,存在该数据的分片成功删除数据,不存在该数据的分片不删除任何数据,以此实现缺失路由字段的数据删除操作。假设经过更新操作合并处理后,合并数据集中包括数据量为n,包含缺失路由字段的第一数据的数据量为y,分片数的数量为x,则经过膨胀删除处理后数据量大小k计算公式如下公式(2)所示:136.k=xy+(n‑y)ꢀꢀꢀ公式(2)137.在一个可选示例中,通过以下步骤实现缺失路由字段的数据的膨胀删除:138.假设es索引中包括三个分片,即shardnum的取值为[0,1,2];数据主键以id表示,路由字段以cityid表示。[0139]写入三条数据,内容如下:[0140]id=1,cityid=100;[0141]id=2,cityid=200;[0142]id=3,cityid=300;[0143]三条数据与es索引分片对应分布情况为:[0144]shardnum=0,id=2;[0145]shardnum=1,id=3;[0146]shardnum=2,id=1。[0147]生成彩虹表如下:[0148]分片数为3,对应生成的设定路由字段为“2”,“1”,“8”,即,分片id为0对应设定路由字段2,分片id为1对应设定路由字段1,分片id为2对应设定路由字段8。[0149]此时需要执行删除操作的数据如下:[0150]id=1,无cityid,删除膨胀并进行设定路由字段填充:[0151]id=1,cityid=2;[0152]id=1,cityid=1;[0153]id=1,cityid=8;[0154]es收到需要执行的组合数据,对三个分片执行删除操作,id=1的数据删除成功。[0155]本公开实施例提供的任一种数据处理方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种数据处理方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种数据处理方法。下文不再赘述。[0156]示例性装置[0157]图7是本公开一示例性实施例提供的数据处理装置的结构示意图。本实施例提供的装置包括:[0158]数据集获取模块71,用于获取需要更新操作的文档数据集。[0159]其中,文档数据集中包括多个数据,更新操作的操作类型至少包括删除操作。[0160]分类模块72,用于基于操作类型对文档数据集进行分类,得到文档数据集中对应删除操作的删除数据集。[0161]其中,删除数据集中包括至少一个数据。[0162]路由获取模块73,用于响应于删除数据集中存在至少一个缺失路由字段的第一数据,为至少一个第一数据中每个第一数据确定至少一个设定路由字段。[0163]删除扩展模块74,用于基于每个第一数据对应的至少一个设定路由字段,对每个第一数据执行删除操作。[0164]本公开上述实施例提供的一种数据处理装置,获取需要更新操作的文档数据集;其中,所述文档数据集中包括多个数据,所述更新操作的操作类型至少包括删除操作;基于操作类型对所述文档数据集进行分类,得到所述文档数据集中对应所述删除操作的删除数据集;其中,所述删除数据集中包括至少一个数据;响应于所述删除数据集中存在至少一个缺失路由字段的第一数据,为所述至少一个第一数据中每个所述第一数据确定至少一个设定路由字段;基于每个所述第一数据对应的所述至少一个设定路由字段,对每个所述第一数据执行删除操作;本实施例通过为需要执行删除操作的第一数据分配至少一个设定路由字段,保证了能够准确删除该第一数据,保证了事务性及数据更新性能。[0165]在一些可选的实施例中,本实施例提供的装置还包括:[0166]操作合并模块,用于基于文档数据集中的每个数据对应的至少一个更新操作对应的操作类型,对每个数据对应的至少一个更新操作进行合并,得到合并数据集;其中,合并数据集中每个数据对应一个更新操作。[0167]分类模块72,具体用于基于操作类型对合并数据集进行分类,得到合并数据集中对应删除操作的删除数据集。[0168]本实施例中,将更新的文档数据集中同一主键(用于实现数据的区分性,相同的数据具有同一主键)的数据进行合并,使每个数据仅执行一次更新操作,有效降低更新操作的数据量,降低了es写入压力。[0169]可选地,操作合并模块,具体用于针对文档数据集中的每个数据,按时间获得数据对应的第一更新操作和第二更新操作,合并新的第一更新操作和新的第二更新操作,得到新的中间更新操作;迭代执行:以中间更新操作作为新的第一更新操作,以第二更新操作之后的第三更新操作作为新的第二更新操作,合并第一更新操作和第二更新操作,得到中间更新操作;直到不存在第三更新操作,以得到的中间更新操作作为目标更新操作。[0170]可选地,更新操作的操作类型还包括写入操作和局部更新操作;[0171]操作合并模块在合并第一更新操作和第二更新操作,得到中间更新操作时,用于响应于第一更新操作的操作类型为局部更新操作,以第二更新操作的操作类型作为中间更新操作的操作类型;或者,响应于第一更新操作的操作类型为写入操作,当第二更新操作的操作类型为写入操作或局部更新操作时,中间更新操作的操作类型为写入操作;或者,响应于第一更新操作的操作类型为写入操作,当第二更新操作的操作类型为删除操作时,中间更新操作的操作类型为删除操作;或者,响应于第一更新操作的操作类型为删除操作,中间更新操作的操作类型为写入操作。[0172]在一些可选的实施例中,路由获取模块73,具体用于通过查找彩虹表为每个第一数据得到x个设定路由字段以及x个设定路由字段对应的x个分片id。[0173]其中,x为大于等于1的整数,第一数据对应的每个设定路由字段对应一个分片id。[0174]可选地,删除扩展模块74,具体用于针对每个第一数据,将第一数据分别与x个设定路由字段进行组合,得到x个组合数据;其中,每个组合数据包括一个设定路由字段和第一数据;基于x个设定路由字段与x个分片id的对应关系,在x个分片id中执行删除组合数据的操作。[0175]可选地,本实施例提供的装置还包括:[0176]彩虹表建立模块,用于基于哈希算法确定多个设定路由字段中每个设定路由字段对应的分片id,为每个分片id确定至少一个对应的设定路由字段;基于每个分片id与多个设定路由字段之间的对应关系,建立彩虹表。[0177]示例性电子设备[0178]下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。[0179]图8图示了根据本公开实施例的电子设备的框图。[0180]如图8所示,电子设备80包括一个或多个处理器81和存储器82。[0181]处理器81可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备80中的其他组件以执行期望的功能。[0182]存储器82可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器81可以运行所述程序指令,以实现上文所述的本公开的各个实施例的数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。[0183]在一个示例中,电子设备80还可以包括:输入装置83和输出装置84,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。[0184]例如,在该电子设备是第一设备100或第二设备200时,该输入装置83可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置83可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。[0185]此外,该输入装置83还可以包括例如键盘、鼠标等等。[0186]该输出装置84可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。[0187]当然,为了简化,图8中仅示出了该电子设备80中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备80还可以包括任何其他适当的组件。[0188]示例性计算机程序产品和计算机可读存储介质[0189]除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据处理方法中的步骤。[0190]所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。[0191]此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据处理方法中的步骤。[0192]所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd‑rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。[0193]以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。[0194]本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。[0195]本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。[0196]可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。[0197]还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。[0198]提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。[0199]为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1