实体抽取方法、装置、电子设备及计算机存储介质与流程

文档序号：25885409发布日期：2021-07-16 19:11阅读：87来源：国知局

1.本公开涉及计算机技术领域，尤其涉及自然语言处理、信息流等技术领域。

背景技术：

2.实体抽取是语言等信息处理过程中的常用技术。实体抽取，在于网络相关的很多领域中起着重要的作用。
3.但是，由于语言的丰富多样性，同一个词语可能能够被抽取为多种不同的实体。而在特定领域中，对抽取出的实体都具有一定的预设条件的要求。比如，在教育领域，抽取出的实体需要与教育相关性较高而非与娱乐相关性较高。因此，需要对实体抽取技术进行改进，使得实体抽取技术更好地应用于不同的场景。

技术实现要素：

4.本公开提供了一种实体抽取方法、装置、电子设备及计算机存储介质。
5.根据本公开的一方面，提供了一种实体抽取方法，包括：
6.采用第一分类模型，根据输入信息的语义信息，从输入信息中抽取多个实体；
7.采用第二分类模型，在多个实体中确定符合与设定场景相关的条件的目标实体。
8.根据本公开的另一方面，提供了一种实体抽取装置，包括：
9.第一分类模块，用于采用第一分类模型，根据输入信息的语义信息，从输入信息中抽取多个实体；
10.第二分类模块，用于采用第二分类模型，在多个实体中确定符合与设定场景相关的条件的目标实体。
11.根据本公开的另一方面，提供了一种电子设备，包括：
12.至少一个处理器；以及
13.与该至少一个处理器通信连接的存储器；其中，
14.该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。
15.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。
16.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。
17.根据本公开的技术，能够根据第一分类模型确定输入信息中的实体，采用第二分类模型从采用第一分类模型确定的实体中，选取符合设定条件的实体，从而使得实体抽取能够适用于特定的场景，满足在应用场景下的特定要求，从而使得实体抽取技术能够更好地应用与不同的具体场景。
18.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
19.附图用于更好地理解本方案，不构成对本公开的限定。其中：
20.图1是根据本公开一实施例的实体抽取方法示意图；
21.图2是根据本公开另一实施例的实体抽取示意图；
22.图3是根据本公开一示例的实体抽取方法示意图；
23.图4是根据本公开一实施例的实体抽取装置示意图；
24.图5是根据本公开另一实施例的实体抽取装置示意图；
25.图6是根据本公开又一实施例的实体抽取装置示意图；
26.图7是用来实现本公开实施例的实体抽取方法的电子设备的框图。
具体实施方式
27.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
28.本公开实施例首先提供一种实体抽取方法，如图1所示，包括：
29.步骤s11：采用第一分类模型，根据输入信息的语义信息，从输入信息中抽取多个实体；
30.步骤s12：采用第二分类模型，在多个实体中确定符合与设定场景相关的条件的目标实体。
31.在一种可能的实现方式中，从输入信息中抽取的多个实体可以为利用实体抽取方法抽取出的实体。实体抽取方法可以指从输入文本中抽取0～n个能够描述输入文本核心内容关键词，预期这些关键词能够准确地反映其主要内容，且给出的关键词均具有实际含义。
32.本实施例中，第一分类模型可以包括一种或多种语义信息处理模型。
33.在第一分类模型包括多种语义信息处理模型的情况下，各不同种类的语义信息处理模型可以从不同角度，对输入信息的语义进行处理，得到输入信息中所包含的多个实体。
34.输入信息可以是包含文字、符号的信息，在输入信息中可以根据语义信息提取出实体。比如，输入信息可以是图片、语音的信息。比如，输入信息可以是图片、语音、视频、网址或者单纯的文字信息。
35.实体可以是名词、品牌、可消费项目等等。
36.在一种可能的实现方式中，在第一分类模型包括多种模型的情况下，采用第一分类模型，根据输入信息的语义信息，从输入信息中抽取多个实体，可以是采用每一种第一分类模型，从输入信息中抽取至少一个实体。比如，采用第一种分类模型，从输入信息中抽取一实体a；采用第二种分类模型，从输入信息中抽取另一实体b；采用第三种分类模型，从输入信息中抽取另一实体c，则最终可确定，通过第一分类模型从输入信息中抽取的实体包括：a、b、c。
37.在本公开的实施例中，第一分类模型、第二分类模型可以为深度学习模型或机器学习模型，还可以为具有语义实体抽取功能的第一分类模块或具有根据与设定场景相关的条件进行实体筛选的第二分类模块。
38.在具体实施例中，可根据应用场景，确定相关的条件。即，与设定场景相关的条件可以是特定应用场景下对实体的要求。场景也可以是特定的应用领域。比如，在本公开实施例应用于广告场景的实体抽取时，与设定场景相关的条件可以为，实体具备成为商品的性质。这种情况下，比如饮料、水果、家具等实体，可以成为商品，可被出售，因此可认为符合与设定场景相关的条件。比如父母、兄弟、空气、天空等实体，不可成为商品，不可被出售，因此可认为不符合与设定场景相关的条件。
39.本公开实施例还可以应用于其它场景，相对于其它场景设置其它相关条件。比如，应用于计算机领域的实体抽取时，与设定场景相关的条件可以为，实体为计算机类别的实体。这种情况下，123、0101等实体，不属于计算机类别的实体，可认为不符合与设定场景相关的条件。十进制数据、二进制数据等实体，属于计算机类别的实体，可认为符合与设定场景相关的条件。
40.本公开实施例还可以应用于其它场景或领域，比如教育领域、医疗领域等。
41.在应用于广告场景时，与设定场景相关的条件可以包括细粒度的商业标签信号。该标签信号可用于广告的频控，也可作为媒介来拉取广告，同时也可作为特征来参与ctr(click
‑
through
‑
rate，点击通过率)建模。
42.在具体实现方式中，不同类别的第一分类模型抽取的实体可以存在含义上的交错和包含关系。比如，针对输入信息“孝敬父母的礼物”中，可抽取出实体“老年用品”、“父母”、“礼物”等语义信息相关的实体，而若本公开实施例应用于广告领域，与设定场景相关的条件为实体具有可成为商品的性质，则采用第二分类模型，从多个实体中确定的目标实体可以为“老年用品”。
43.在本公开实施例中，第一分类模型可根据实际应用的场景确定具体的种类。在第一分类模型包括不同种类的模型的情况下，不同种类的模型可对应于不同的语义信息处理方式或文本处理方式。第二分类模型可以为比第一分类模型的分类粒度更细的模型。
44.在一种可能的实现方式中，采用第二分类模型，在多个实体中确定符合与设定场景相关的条件的目标实体，可以是采用第二分类模型，在多个实体中确定与设定场景相关的条件的符合程度排序，根据符合程度排序，确定符合与设定场景相关条件的目标实体。
45.本实施例中，能够根据第一分类模型确定输入信息中的实体，采用第二分类模型从采用第一分类模型确定的实体中，选取符合设定条件的实体，从而使得实体抽取能够适用于特定的场景，满足在应用场景下的特定要求，从而使得实体抽取技术能够更好地应用与不同的具体场景。
46.在一种实施方式中，第一分类模型包括语义分类模型、语义匹配模型、语义召回模型中的至少一种。
47.在具体实现方式中，第一分类模型包括语义分类模型、语义匹配模型和语义召回模型。
48.具体的，语义分类模型可采用fasttext分类模型(快速文本分类模型)，语义匹配模型可采用erine(enhanced language representation with informative entities，具有实体信息的增强语义表示)模型；语义召回模型可采用dictmatch(词典匹配)模型。
49.fasttext分类模型召回结果能很好拟合训练样本，对于“小说”这种特征标记的样本效果很好，erine语义模型召回的都是和广告语义相关的实体，dictmatch算法能毫秒级
产出实体，因此当新的实体输入的时候，不需要重新训练前两个模型，通过dictmatch方式就可以召回。
50.在可能的实现方式中，可通过语义分类模型，根据语义分类信息确定输入信息中的多个实体；可通过语义召回模型，根据语义关联信息确定多个实体；可通过语义匹配模型，根据文本匹配信息确定输入信息中的等多个实体。
51.本实施例中，采用语义分类模型、语义匹配模型和语义召回模型，可以提高实体抽取过程中的实体预估准确率，在这三种模型同时适用的情况下，三者可实现互补与增强准确率的效果，通过实际实验验证，在采用语义分类模型、语义匹配模型和语义召回模型作为第一分类模型的情况下，实体抽取的准确率提高到90％以上。
52.在一种实施方式中，如图2所示，在第一分类模型包括两种以上模型的情况下，采用第一分类模型，根据输入信息的语义信息，从输入信息中抽取多个实体，包括：
53.步骤s21：采用第一分类模型中的每一种模型，根据输入信息的语义信息，从输入信息中抽取多个初步实体；
54.步骤s22：将第一分类模型的各模型所确定的初步实体进行去重，得到多个实体。
55.本实施例中，对初步实体进行去重，可以为根据语义信息进行去重，也可以为根据文字的直观重复性进行去重。比如，在根据文字的直观重复性进行去重的情况下“减肥”和“肥肉”不属于重复实体，完全相同的属于重复实体。
56.本实施例中，对实体进行去重，从而能够从输入信息中抽取出的多个实体，减少后续模型的计算量，提高后续模型输出结果的准确性。
57.在一种实施方式中，与设定场景相关的条件包括所述多个实体的词性特征、行业特征、实体是否在所述输入信息中、实体与所述输入信息的语义相关性和词频逆文本频率指数特征(tfidf，term frequency
–
inverse document frequency)中的至少一种特征相关的条件。
58.本实施例中，在设定场景为广告场景的情况下，输入信息可以为广告创意(具体可包括广告标题、广告内容等)，与设定场景相关的条件可以包括：实体切词词性、实体是否在广告创意中、广告行业特征、tfidf，实体和广告创意的相关性等。
59.在一种可能的实现方式中，在设定场景为广告场景的情况下，行业特征可是把广告的行业切割成一级行业和二级行业特征，而后采用one
‑
hot(一位有效编码)的编码形式，形成多个行业特征。例如，假设一级行业和二级行业之和为150个，那么对应就有150个行业特征；在确定行业特征的值时，把该广告创意对应的一级行业特征和二级行业特征置1，其它置为0。
60.本实施例中，通过多种特征，能够提高目标实体与设定场景的贴合程度，使得实体抽取技术在具体的设定场景中应用效果得到提高。
61.在一种实施方式中，采用第二分类模型，确定多个实体中，符合与设定场景相关条件的目标实体，包括：
62.将所述多个实体输入所述第二分类模型；
63.采用所述第二分类模型，根据与设定场景相关的条件，确定所述多个实体中的排序信息；
64.根据所述排序信息，确定所述多个实体中的目标实体。
65.本实施例中，采用第二分类模型，确定多个实体中，符合与设定场景相关条件的目标实体，包括：
66.在广告场景中，可根据多个实体的词性特征、行业特征和词频逆文本频率指数特征分别相关的条件，确定目标实体。
67.在一种可能的实现方式中，符合与设定场景相关条件可包括多个维度的条件，比如，包括关于词性特征的条件、关于行业特征的条件和关于词频逆文本平率指数特征的条件。
68.在一种具体的实现方式中，第一分类模型起到粗排作用，实现实体的粗略抽取。在本公开实施例应用于广告场景或广告领域时，通过第一分类模型，可抽取出多条广告标题、广告品牌名、广告行业以及它广告相关信息对应的多个实体。通过第一分类模型抽取的实体里可能因为上游模型的问题，导致有的不准，因此在在本实施例中可通过众测标注这些样本，从多个实体中标注出一个或多个精准实体，这里通过实体的切词词性特征、广告一级二级行业特征、广告一级行业特征、二级行业特征和品牌维度的tfidf特征、实体在不在广告中、实体在不在品牌名中等特征构建广告到实体的二分类模型。
69.在具体实现方式中，第二分类模型可以根据行业特征、词性特征以及行业与词性结合的特征进行实体的精选。行业特征可包含多种特征，词性特征也可包括多种特征，行业与词性结合的特征也可包括多种特征，从而，第二分类模型可以根据较多数量的特征对多个实体进行筛选，得到目标实体。
70.本实施例中，通过根据与场景相关的条件进行抽取的多个实体的排序，可确定整体与设定场景相关性最高的目标实体，进而能够提高实体在特定的具体场景中的可实用性，使得实体抽取技术能够与应用领域或场景更好地结合。
71.在一种实施方式中，在所述与设定场景相关的条件包括所述行业特征的情况下，行业特征包含第一级别的行业特征和第二级别的行业特征，第二级别的行业特征为第一级别的行业特征的子行业特征。
72.在一种可能的实现方式中，第一级别的行业特征可包含至少一个第二级别的行业特征。
73.本实施例中，通过多级别行业特征，能够提高实体在具体应用场景中，与行业状况相结合的程度，进而提高实体抽取的准确率。
74.在一种实施例中，在与设定场景相关的条件包括所述词频逆文本频率指数特征的情况下，所述词频逆文本频率指数特征包括一级行业维度、二级行业维度和品牌维度中至少一种维度的词频逆文本频率指数特征。
75.在具体实现方式中，一级行业、二级行业的划分方式，可以与行业特征中第一级别的行业和第二级别的行业划分方式分别相同。
76.在具体的实现方式中，一级行业维度的tfidf特征，可以反映出实体与一级行业的相关性；二级行业维度的tfidf特征，可以反映出实体与二级行业的相关性；品牌维度的tfidf特征，可反映出实体与品牌的相关性。
77.在一种可能的实现方式中，第二分类模型可设定多种特征，对多个实体进行筛选得到目标实体。比如，在应用于广告场景时，第二分类模型可设定两百多种特征，主要可包括：词性特征、行业特征、实体在不在广告标题、实体在不在品牌名、实体和广告的相似度分
数(score)这些，因为词性特征、行业特征是分类特征，采用one
‑
hot的编码的方式进行编码，针对每个类别的目标实体可设定至少一种特征。通过第一分类模型，获得多个实体队列，通过第二分类迷行，从多个实体队列中筛选出目标实体。
78.本实施例中，词频逆文本频率指数是一种用于信息检索与数据挖掘的加权技术。通过词频逆文本频率指数，能够更精准地进行实体抽取，使得获得的实体满足具体应用场景的要求。
79.本公开实施例可应用于广告场景。在原生广告系统中，最终胜出展现给用户的广告存在大量卖点相同、人为可理解的广告内容相同的情况。而这些卖点相同的广告通过广告主、广告单元、创意单元这些粒度无法区分，因此需要引入一种更细粒度的商业标签信号。
80.而在推荐广告中，用户无明确意图表达，广告主缺乏抓手去圈定用户，因此客户为了获量，大量购买不相关的意图词和兴趣标签，导致呈现给用户的广告内容相似，广告的显示召回相关性差和召回效率低。本公开实施例提供的实体抽取方法，应用于广告推荐时，获得的实体可以更加精准地表征用户的商业意图，进而实现广告的准确拉取，提高广告召回相关性和召回效率。
81.在本公开一种示例中，输入信息可包括广告的标题、品牌名、只有标题、品牌名、行业信息等。可在广告投放前采用本公开实施例的实体抽取方法进行关键实体的抽取。从而加深广告理解，丰富广告信号，基于该广告实体可以优化用户体验，提升原生变现能力。
82.例如：针对输入信息中包含的自然语句，利用实体抽取技术可提取出某个偏向自然现象的和具有商业价值的关键词。本公开实施例提供的实体抽取方法能够在于抽取短语或句子中的关键短语的同时，考虑抽取短语的商业价值，提高泛化能力。有助于商业场景下落地。
83.本公开实施例还可应用于智能定向产品。在具体示例中，可将意思相近的实体归一到同一实体。
84.本公开实施例能够在完善广告商业实体标签体系的同时，构建全量的商业价值实体集。通过粗选、精排结合后置规则的方式构建商业实体抽取方式。粗排阶段通过分类模型、erine语义模型以及字符串匹配三路召回产出多个实体候选集，精选模型通过构建广告行业特征、广告库的行业brand(品牌)维度的tfidf特征、实体是否在广告创意中等特征，训练一个打分模型，选出在商业价值实体集中最能匹配这条广告创意的实体列表。在一些没有明显商业价值实体的广告行业，通过后置规则的方式调整最终的实体，同时针对意义相近的实体，通过实体归一的方式调整实体。
85.如图3所示，在应用于广告场景的情况下，第一分类模型可包含fasttext分类模型31、erine语义召回模型32和文本匹配模型33。输入第一分类模型的信息可以为广告创意，广告创意可以包含广告标题、广告品牌名和该广告的行业信息，广告创意通过第一分类模型，进行fasttext分类(拼接输入)、erine语义召回(该方式使用开源框架，可召回语义相关的信息，对文本进行切词)、文本匹配三种方式的处理，分别产出各自的候选实体列表。
86.在一种可能的实现方式中，fasttext分类方式前期训了一个多分类模型，即第一分类模型中对应于fasttext分类方式的模型。fasttext分类方式分类的实体来自于商业价值实体标签，通过fasttext分类能获取该广告在分类模型下的实体列表，实现中按阈值大
小取分类的前n个实体。利用fasttext分类获取实体的方式能起到泛化作用且预估的实体都在商业价值实体标签中，因此通过fasttext分类方式预估得到的实体基本都有商业价值。此外，因为fasttext分类模型从广告中提取数据训练，因此分类的结果更贴近于标注结果，标注结果可以是通过各种方式标注的符合具体应用场景对应的条件的结果。例如，训练数据中存在大量广告创意比较抽象且没有具体实体可抽的情况，可通过各种可行的标记方式，对输入信息的训练样本打上既定的实体标签。类似小说题目的广告标题，训练数据标注为“小说”，那么在分类模型预估的时候，类似的标题模型就可自动识别为“小说”。
87.在一种可能的实现方式中，erine语义召回的方式前期训了一个广告创意到实体的语义模型，即第一分类模型中所包括的erine语义召回模型。考虑到fasttext的分类结果强依赖训练数据，缺少语义上的关联，因此将erine语义召回的实体也作为候选实体集。
88.在一种可能的实现方式中，通过文本匹配方式，针对广告创意的文本字符串进行处理，在商业价值实体标签中匹配所有出现在广告创意字符串中的实体。fasttext分类方式、erine语义召回方式都是通过模型预估的方式处理输入信息，输出实体；且这两种方式强依赖商业价值实体标签，当广告库中有商业价值实体存入时，分类模型需要重新训练，因此没法做到新增进来的实体实时生效。而文本匹配的处理方式效率高，能做到新增实体即时生效。
89.fasttext分类方式、语义召回方式和文本匹配方式都能产出各自的实体队列，在线上使用中，可以取fasttext分类预估的前n、语义召回方式预估的前m项实体，以及全部的文本匹配实体集，一起做合并(merge)，进入到后面的精选模型中。
90.在本公开具体示例中，精选模型即第二分类模型，在候选集里选择，根据文本信息、行业信息和tfidf信息、词性等特征进行输入信息的处理。精选模型的处理方式包含了根据实体词性特征进行实体的精选处理，实体词性特征通过判断每个实体和创意的相关性获得，可以是在实体检查后获得的实体为名词或动词等词性。精选模型还可根据一级行业特征和二级行业特征进行实体信息的筛选。
91.在一种可能的实现方式中，第二分类模型可以根据第一级别的行业特征，第二级别的行业特征以及广告品牌名维度的tfidf特征等特征构建。第二分类模型的训练数据可以是众测标注数据，即展示出众测每条创意的多个实体，让被测方其选出最合适的多个实体，从而构建出一个二分类模型，作为第二分类模型。
92.在一种可能的实现方式中，构建第二分类模型时，第一级别的行业特征和第二级别的行业特征可作为模型的两个特征进行模型训练。
93.在本公开一种示例中，广告创意具体可以是：
94.标题：大量批发桃树苗、冬桃苗、甜桃苗，量大重优，免费技术指导！
95.品牌名：c牌果蔬；
96.采用fasttext方式产出的实体top8(前8)：桃树、桃树苗、桃苗、珍珠鸡苗、枣树苗、梨树苗、贵妃鸡苗、葡萄苗。
97.仍然参照图3，通过多路模型进行实体提取，获得的多个实体，进行多路实体抽取结果合并。采用erine语义召回产出的实体top3(前3)：桃树苗批发、桃苗批发、桃树苗；
98.文本匹配方式产出的实体：桃苗、冬桃、桃树、树苗、桃树苗；
99.merge(合并)之后该创意的实体列表是：桃树、桃树苗、桃苗、珍珠鸡苗、枣树苗、梨
树苗、贵妃鸡苗、葡萄苗、桃树苗批发、桃苗批发、冬桃、树苗。
100.仍然参照图3，对多路合并得到的实体，连同最初的广告创意的特征组合再过一次精选模型，获得至少一个精选结果(排序后的精选结果)。比如，上述示例中的“桃树苗批发”可以作为一个精选结果。对精选结果可进行排序，获得排序后的精选结果，根据排序后的精选结果得到广告创意中的目标实体。
101.本公开实施例的实体抽取方法，应用在特定场景中时，能够获得符合场景对应的条件的实体，使得实体抽取能够符合场景应用要求。比如，当本公开实施例应用于广告领域时，实体抽取结果对比可如下表所示，其中，输入的广告创意可包括广告标题、广告品牌名两种信息。
[0102][0103]
表1
[0104]
在表1对应的示例中，引入商业价值实体标签，使得通过预估模型预估出来的都是有商业价值的实体，方便在商业场景应用落地。
[0105]
本公开示例采用多路召回构建粗选实体集，提高实体识别的泛化能力。构建实体归一聚合关系，对相近语义实体消歧。最终预估实体之间无语义overlap(重叠)。
[0106]
本公开实施例还提供一种实体抽取装置，如图4所示，包括：
[0107]
第一分类模块41，用于采用第一分类模型，根据输入信息的语义信息，从输入信息中抽取多个实体；
[0108]
第二分类模块42，用于采用第二分类模型，在多个实体中确定符合与设定场景相关的条件的目标实体。
[0109]
在一种实施方式中，第一分类模型包括语义分类模型、语义匹配模型、语义召回模型中的至少一种。
[0110]
在一种实施方式中，在第一分类模型包括两种以上模型的情况下，如图5所示，第一分类模块包括：
[0111]
初步单元51，用于采用第一分类模型中的每一种模型，根据输入信息的语义信息，从输入信息中抽取多个初步实体；
[0112]
去重单元52，用于将第一分类模型的各模型所确定的初步实体进行去重，得到多个实体。
[0113]
在一种实施方式中，与设定场景相关的条件包括所述多个实体的词性特征、行业特征、实体是否在所述输入信息中、实体与所述输入信息的语义相关性和词频逆文本频率指数特征中的至少一种特征相关的条件。
[0114]
在一种实施方式中，如图6所示，与设定场景相关的条件包括多个实体的词性特征和行业特征中的至少一种特征相关的条件；第二分类模型包括：
[0115]
输入单元61，用于将多个实体输入第二分类模型；
[0116]
排序单元62，用于采用所述第二分类模型，根据与设定场景相关的条件，确定所述多个实体中的排序信息；
[0117]
排序处理单元63，用于根据所述排序信息，确定所述多个实体中的目标实体。
[0118]
在一种实施方式中，在所述与设定场景相关的条件包括所述行业特征的情况下，行业特征包含第一级别的行业特征和第二级别的行业特征，第二级别的行业特征为第一级别的行业特征的子行业特征。
[0119]
在一种实施方式中，在与设定场景相关的条件包括所述词频逆文本频率指数特征的情况下，所述词频逆文本频率指数特征包括一级行业维度、二级行业维度和品牌维度中至少一种维度的词频逆文本频率指数特征。
[0120]
本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。
[0121]
本公开实施例可应用于计算机技术领域，尤其可应用于自然语言处理、信息流等技术领域。
[0122]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0123]
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。
[0124]
如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序来执行各种适当的动作和处理。在ram 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入输出(i/o)接口705也连接至总线704。
[0125]
电子设备700中的多个部件连接至i/o接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0126]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如实体抽取方法。例如，在一些实施例中，实体抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到ram 703并由计算单元701执行时，可以执行上文描述的实体抽取方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行实体抽取方法。
[0127]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0128]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0129]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd
‑
rom)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
[0130]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
[0131]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0132]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。
[0133]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0134]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王盼
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。