一种网络搜索词的聚类方法和聚类装置制造方法

文档序号:6622265阅读:160来源:国知局
一种网络搜索词的聚类方法和聚类装置制造方法
【专利摘要】本发明公开了一种网络搜索词的聚类方法和聚类装置,所述方法包括:对相同URL的网络搜索词,根据URL抓取网页相关内容,生成短文本信息;对短文本信息提取关键词,并根据关键词获取每条短文本信息对应的关键词向量;判断任两个关键词向量是否为相似的关键词向量;当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。本发明能够取得提升聚类速度和精度的有益效果。
【专利说明】一种网络搜索词的聚类方法和聚类装置

【技术领域】
[0001]本发明涉及数据分析【技术领域】,特别涉及一种网络搜索词的聚类方法和聚类装置。

【背景技术】
[0002]聚类分析是数据分析中的一种重要技术,在网站信息分类问题、网页的点击行为关联性问题及用户搜索词(query)分类问题等多个领域得到广泛的关注和研究。它可以将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。
[0003]现有方案在对用户搜索词进行聚类时,根据用户共同点击的URL (Un i formResource Locator,统一资源定位符)进行聚类分析,将具有相同URL的用户搜索词划分为同一类。
[0004]然而,单纯依靠共同点击的URL进行聚类是片面的、不准确的,例如,仅依赖用户共同点击的URL得到的聚类结果中会出现长尾现象,也就是说,只有少数20%的高频搜索词,才会对应相同的URL,而其他80%的搜索词没有共同的URL。再如,一些搜索词虽然没有共同的URL,但是却应该聚到一起,如“金融”和“股票”。


【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络搜索词的聚类方法和相应的聚类装置。
[0006]依据本发明的一个方面,本发明实施例提供了一种网络搜索词的聚类方法,包括:
[0007]从搜索日志中提取出需要进行聚类的网络搜索词;
[0008]对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;
[0009]对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;
[0010]判断任两个所述关键词向量是否为相似的关键词向量;
[0011]当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;
[0012]当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。
[0013]可选地,所述对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息包括:
[0014]将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;
[0015]从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。
[0016]可选地,在对所述短文本信息提取关键词之前,所述方法还包括:
[0017]剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。
[0018]其中,对所述短文本信息提取关键词包括:
[0019]将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。
[0020]可选地,所述根据所述关键词得到每条短文本信息对应的关键词向量包括:
[0021]利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;
[0022]根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。
[0023]并且,所述判断任两个所述关键词向量是否为相似的关键词向量包括:
[0024]根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。
[0025]其中,所述计算两个关键词向量之间的余弦相似度包括:
[0026]对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;
[0027]利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;
[0028]上述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
[0029]可选地,所述方法还包括建立关键词向量和短文本信息的对应关系:
[0030]将所述对应关系和向量合并关系记录在向量正排索引表中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系;
[0031]所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
[0032]可选地,所述对相似的两个关键词向量进行合并,生成一个新的关键词向量包括:
[0033]利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词;
[0034]当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值;
[0035]当关键词不是相似的两个关键词向量的共同关键词时,将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值;以及,
[0036]将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。
[0037]根据本发明的另一方面,本发明实施例提供了一种网络搜索词的聚类装置,包括:
[0038]网络搜索词提取单元,适于从搜索日志中提取出需要进行聚类的网络搜索词;
[0039]短文本信息生成单元,适于对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息;
[0040]关键词向量获取单元,适于对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量;
[0041]判断单元,适于判断任两个所述关键词向量是否为相似的关键词向量;
[0042]聚类单元,适于当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量;
[0043]提取划分单元,适于当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。
[0044]可选地,所述短文本信息生成单元,适于将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。
[0045]可选地,所述关键词向量获取单元,适于在对所述短文本信息提取关键词之前,剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。
[0046]可选地,所述关键词向量获取单元,还适于将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。
[0047]可选地,所述关键词向量获取单元,适于利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值;根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。
[0048]可选地,所述判断单元,适于根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。
[0049]可选地,所述判断单元,还适于对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;其中,所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
[0050]可选地,所述装置还包括对应关系建立单元,所述对应关系建立单元适于将所述对应关系和向量合并关系记录在向量正排索引表中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系;所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
[0051]可选地,所述聚类单元,适于利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词;当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值;当关键词不是相似的两个关键词向量的共同关键词时,将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值;以及,将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。
[0052]根据本发明的网络搜索词的聚类方法和聚类装置,通过利用用户点击url对应的网页信息,将网络搜索词的信息进行补全,形成短文本,从而增加网络搜索词的识别度;通过在传统的向量表述方法中,引入词性分析来提取关键词向量,从而减少了向量空间的维数,节省了内存占用空间;通过对相似的两个关键词向量进行合并,生成一个新的关键词向量代替相似的两个关键词向量,从而减少了网络搜索词的聚类类别,本发明能够取得提升聚类速度和精度的有益效果,更加精确的获取用户感兴趣的搜索内容。
[0053]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。

【专利附图】

【附图说明】
[0054]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0055]图1示出了根据本发明一个实施例提供的一种网络搜索词的聚类方法的流程图;
[0056]图2示出了根据本发明一个实施例提供的词项倒排索引表TIIT基本机制结构示意图;
[0057]图3示出了根据本发明一个实施例提供的向量正排索引表VFIT基本机制结构示意图;以及
[0058]图4示出了根据本发明一个实施例提供的一种网络搜索词的聚类装置的结构图。

【具体实施方式】
[0059]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0060]如图1所示,根据本发明一个实施例提供的一种网络搜索词的聚类方法,该方法包括如下步骤:
[0061]S11,从搜索日志中提取出需要进行聚类的网络搜索词。
[0062]例如,对原始的搜索引擎点击日志进行分析,可以得到需要进行聚类的网络搜索词query的短文本信息。
[0063]S12,对相同URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信肩、O
[0064]该步骤的一个具体实施例是:将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,对这些相同的网络搜索词中进行合并去重,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中;从具有所述URL的网页中抓取元标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。
[0065]由于query的短文本信息长度较短、表达内容丰富、组合比较灵活,所以单纯依靠query进行短文本聚类无法完成。通过分析可知,用户对搜索结果满意或者比较符合他搜索的意愿的时候才会进行点击,所以用户的这个行为在一定程度上给我们提供了更多的关于搜索词的信息,因此,我们可以首先得到每个query对应的url,对这些url进行分析,发现url相同对应的query或相同或相似,所以将这些url进行一次数据预处理,将相同url对应的query进行合并去重,形成一些〈url, query〉对;然后,我们根据每一个<url, query〉对中的url进行网页抓取,为了减少存储空间,我们在抓取的同时进行网页解析,找到网页中<meta> (元)标签,查找name (名字)属性值为keywords (关键字)参数和descript1n (网站内容描述)参数,并获得这些参数相应的content属性的值,将这些信息与query合并组成短文本信息。
[0066]meta是html语言head区的一个辅助性标签。meta标签共有两个属性,它们分别是http-equiv属性和name属性,不同的属性又有不同的参数值,这些不同的参数值就实现了不同的网页功能。其中name属性主要用于描述网页,与之对应的属性值为content,content中的内容主要是便于搜索引擎机器人查找信息和分类信息用的。在name属性中包括用来告诉搜索引擎你网页的关键字是什么的参数Keywords和用来告诉搜索引擎你的网站主要内容的参数descript1n。
[0067]S13,对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量。
[0068]该步骤具体方法是:首先将预定词性的词项选取为关键词,所述词性包括名词、形容词、副词和动词;接着利用关键词在关键词向量中的词频(Term Frequency, TF)值,计算所述关键词在每条短文本信息中的权重值;然后根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。
[0069]需要说明的是,上述步骤S12形成的这些短文本信息尽管包含了 query对应的完备信息,然而目前的自然语言处理技术无法完全处理这些文本信息。因此,在对短文本建立词频向量之前需要删除短文本中对应的停用词,如中文的“的”、“了”、英文的“a”、“is”等。由于本方案提出的方法需要对词项进行语义分析,除了删除停用词外还需要进行关键词的选取,这些关键词就是最能表征文本含义的实词,即该词项的词性是名词、动词、形容词和副词等。
[0070]文本预处理后,需要对每篇短文本的词项进行TF值的计算,将短文本中的各个词项的TF值表示成一个向量,以此来计算文本间的相似度。由于这个文本向量是高维的,所以我们可以从每篇短文本中挑选关键词,以此来表征文本,从而最大可能地减少短文本向量的维度。具体做法是:选取每篇短文本中的动词、名词、形容词和副词作为关键词项,如果设关键词项个数占整个短文本百分比为P,这样一篇短文本向量的维度可以下降1-p,这可以提高本方案的效率。
[0071 ] S14,判断任两个所述关键词向量是否为相似的关键词向量。
[0072]得到了每篇短文本的关键词向量之后,接下来需要考虑如何计算两篇短文本之间的相似度。由于关键词项代表了一篇文本中最重要的信息,因此文本的相似度就可以用关键词项向量间的相似度来描述。
[0073]判断任两个关键词向量是否为相似的关键词向量的具体方法可以是:根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。
[0074]其中,计算两个关键词向量之间的余弦相似度包括:
[0075]对第一关键词向量中的第一关键词,在设置的词项倒排索引表(Term InvertedIndex Table, TUT)中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词;
[0076]利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度;
[0077]上述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
[0078]下面是计算两个关键词向量之间的余弦相似度的具体说明:
[0079]设ty tj是两个不同的短文本关键词向量,Pi和Pj分别对应关键词在i文本和j文本中的占比。其中,h= (wn, Wi2,…,win) , tj = (Wj1, Wj2, "^wjm),相似度定义为:
[0080]Sim (tj, tj) = wf X CosSim (tj, tj) (I)
[0081]其中wf表示关键词向量\和之间相似度的加权因子,这里我们定义wJ =-4PrPi,CosSim Ui, tj)表示关键词向量h和t」之间的余弦相似度。
[0082]具体的余弦相似度计算公式由式⑵给出:

【权利要求】
1.一种网络搜索词的聚类方法,包括: 从搜索日志中提取出需要进行聚类的网络搜索词; 对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息; 对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量; 判断任两个所述关键词向量是否为相似的关键词向量; 当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量; 当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。
2.根据权利要求1所述的方法,其中,所述对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息包括: 将对应于相同URL的网络搜索词设置在短文本信息中,其中,当对应于相同URL的网络搜索词中存在多个相同的网络搜索词时,从相同的网络查询词中选取一个网络查询词设置在所述短文本信息中; 从具有所述URL的网页中抓取属性标签中关键词属性和/或描述属性对应的属性值,将所述属性值设置在在所述短文本信息中。
3.根据权利要求1所述的方法,其中,在对所述短文本信息提取关键词之前,所述方法还包括: 剔除所述短文本信息中的停用词,并对剔除停用词后的短文本信息中的词项进行词性分析,得到各词项的词性。
4.根据权利要求3所述的方法,其中,对所述短文本信息提取关键词包括: 将预定词性的词项选取为所述关键词,所述词性包括名词、形容词、副词和动词。
5.根据权利要求1所述的方法,其中,所述根据所述关键词得到每条短文本信息对应的关键词向量包括: 利用关键词在关键词向量中的词频值,计算所述关键词在每条短文本信息中的权重值; 根据所述关键词和关键词在本条短文本信息中的权重值,得到本条短文本信息对应的关键词向量。
6.根据权利要求5所述的方法,其中,所述判断任两个所述关键词向量是否为相似的关键词向量包括: 根据两个关键词向量中各关键词的权重值,计算两个关键词向量之间的余弦相似度,当计算出的余弦相似度大于预定阀值时,判断所述两个关键词向量为相似的关键词向量,当计算出的余弦相似度不大于预定阀值时,判断所述两个关键词向量不是相似的关键词向量。
7.根据权利要求6所述的方法,其中,所述计算两个关键词向量之间的余弦相似度包括: 对第一关键词向量中的第一关键词,在设置的词项倒排索引表中查询该第一关键词对应的关键词向量,当对应的关键词向量包括第二关键词向量时,获知所述第一关键词为同时存在于第一关键词向量和第二关键词向量中的共同关键词; 利用所述共同关键词在第一关键词向量中的第一权重值、所述共同关键词在第二关键词向量中的第二权重值、第一关键词向量的模长和第二关键词向量的模长计算所述第一关键词向量和第二关键词向量的余弦相似度; 其中,所述词项倒排索引表包括记录词项的词典表、记录词项与关键词向量编号对应关系的向量索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
8.根据权利要求1所述的方法,其中,所述方法还包括建立关键词向量和短文本信息的对应关系: 将所述对应关系和向量合并关系记录在向量正排索引表中,其中,所述对应关系指示向量编号与文本编号的对应关系,每个关键词向量设置有向量编号,每个短文本信息设置有文本编号,所述向量合并关系指示向量编号与发生合并的关键词向量的对应关系; 所述向量正排索引表包括记录向量编号的向量索引表、记录向量编号与关键词向量的对应关系的向量内容索引表和词项信息表,所述词项信息表记录关键词向量中的关键词、关键词的权重值、关键词向量的模长和关键词向量对应的短文本信息。
9.根据权利要求1所述的方法,其中,所述对相似的两个关键词向量进行合并,生成一个新的关键词向量包括: 利用相似的两个关键词向量中的关键词生成新的关键词向量中的关键词; 当关键词为相似的两个关键词向量的共同关键词时,由所述共同关键词在两个关键词向量中的权重值的平均值,得到该共同关键词在新的关键词向量中的权重值; 当关键词不是相似的两个关键词向量的共同关键词时,将该关键词在原关键词向量中的权重值作为该关键词在新的关键词向量中的权重值;以及, 将新的关键词向量的向量编号设置为所述相似的两个关键词向量的向量编号中较大的向量编号。
10.一种网络搜索词的聚类装置,包括: 网络搜索词提取单元,适于从搜索日志中提取出需要进行聚类的网络搜索词; 短文本信息生成单元,适于对相同统一资源定位符URL的网络搜索词,根据所述URL抓取网页相关内容,生成短文本信息; 关键词向量获取单元,适于对所述短文本信息提取关键词,并根据所述关键词获取每条短文本信息对应的关键词向量; 判断单元,适于判断任两个所述关键词向量是否为相似的关键词向量; 聚类单元,适于当存在相似的两个关键词向量时,对相似的两个关键词向量进行合并,生成一个新的关键词向量代替所述相似的两个关键词向量,并继续判断任两个关键词向量是否为相似的关键词向量; 提取划分单元,适于当不存在相似的关键词向量时,从互不相似的各关键词向量中提取网络搜索词,将从同一个关键词向量中提取到的网络搜索词划分为同一聚类。
【文档编号】G06F17/27GK104199833SQ201410377357
【公开日】2014年12月10日 申请日期:2014年8月1日 优先权日:2014年8月1日
【发明者】孙鹏飞 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1