一种基于网络文本语义分析的建筑评价方法与流程

文档序号：12064669阅读：来源：国知局

技术特征：

1.一种基于网络文本语义分析的建筑评价方法，其特征在于：所述方法包括以下步骤：

S1、选取专业建筑论坛，利用Locoy Spider软件对网络文本进行获取，并进行筛选整理；

S2、通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析，并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验，建立网络建筑专业语料库；

S3、通过对建筑个案进行特征词汇分析，将建筑个案特征词汇与网络建筑专业语料库进行比较，分析网络群众与专业建筑设计师对于建筑个案的关注差异。

2.根据权利要求1所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：步骤S1中，所述选取专业建筑论坛，利用Locoy Spider软件对网络文本进行获取，并进行筛选整理，具体包括：

S11、选取评论样本数量充足的专业建筑论坛作为数据来源；

S12、利用Locoy Spider软件编辑新建火车头任务，通过分析专业建筑论坛网页结构的源代码，选取前后相应的字段作为抓取所需网页信息的标识字符串，爬取的主要标签信息包括专业建筑论坛主题、评论用户名称、评论时间和评论内容；

S13、在火车头任务的采集内容规则中进行设置，运行火车头任务爬取相关数据；

S14、将获取的评论数据按照专业建筑论坛主题、评论用户、评论时间和评论内容的标签进行完善和整理，并剔除专业建筑论坛公告和广告帖子。

3.根据权利要求1所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：步骤S2中，所述通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析，并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验，建立网络建筑专业语料库，具体包括：

S21、将筛选整理后的专业建筑论坛评论数据转换成txt文本格式，并利用结巴分词工具进行分词，形成专业建筑论坛评论的词汇列表；

S22、根据步骤S21形成的词汇列表，利用汉语词频统计工具对专业建筑论坛评论数据统计各项词汇的频数、重复数、百分比和去重百分比；

S23、根据语料库在线网站中现代汉语语料库的词语频率表，匹配获取一定数量的词汇样本以及该词汇样本在建筑专业建筑论坛和现代整体汉语语料库的词频数；

S24、对两组词频数据进行标准归一化处理；

S25、将标准归一化处理后的数据导入SPSS软件中，利用两配对样本非参数检验命令进行两组词频数的非参数检验分析，判断两配对样本来自的总体分布是否存在显著性差异；

S26、当两配对样本来自的总体分布存在显著性差异时，基于TextRank算法分析专业建筑论坛词汇的重要性；

S27、根据步骤S26形成的词汇重要性数据，将建筑专业建筑论坛词汇由高到低进行排序，并根据语料库在线网站中现代汉语语料库的词语频率表，将其中出现的现代汉语语料库高频词汇进行筛选剔除，剩余词汇作为网络建筑专业词汇；

S28、按照建筑类型、建筑功能、建筑造型、交通布局、建筑环境、建筑色彩、建筑材料及结构、空间布局、建筑成果、建筑构件和建筑角色将步骤S27形成的网络建筑专业词汇进行分类整理，建立网络建筑专业语料库。

4.根据权利要求1所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：步骤S3中，所述通过对建筑个案进行特征词汇分析，将建筑个案特征词汇与网络建筑专业语料库进行比较，分析网络群众与专业建筑设计师对于建筑个案的关注差异，具体包括：

S31、将筛选整理后的建筑个案评论数据转换成txt文本格式，并利用结巴中文分词工具进行分词，形成建筑个案评论的词汇列表；

S32、根据步骤S31形成的词汇列表，利用汉语词频统计工具对建筑个案评论数据统计各项词汇的频数、重复数、百分比和去重百分比；

S33、根据语料库在线网站中现代汉语语料库的词语频率表，匹配获取一定数量的词汇样本以及该词汇样本在建筑个案评论和现代整体汉语语料库的词频数；

S34、对两组词频数据进行标准归一化处理；

S35、将标准化处理后的数据导入SPSS软件中，利用两配对样本非参数检验命令进行两组词频数的非参数检验分析，判断两配对样本来自的总体分布是否存在显著性差异；

S36、当两配对样本来自的总体分布存在显著性差异时，基于TextRank算法分析建筑个案词汇的重要性；

S37、根据步骤S36形成的词汇重要性数据，将建筑个案词汇重要性由高到低进行排序，并根据语料库在线网站中现代汉语语料库的词语频率表，将其中出现的现代汉语语料库高频词汇进行筛选剔除，剩余词汇作为建筑个案特征词汇；

S38、将步骤S37形成的建筑个案特征词汇与网络建筑专业语料库进行比较，分析网络群众与专业建筑设计师对于建筑个案的关注差异。

5.根据权利要求3或4所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：所述对两组词频数据进行标准归一化处理，具体为：

假设第j组词汇列表的第i个词频数为α_ij，则标准归一化处理后到标准值θ_ij，具体公式为：

$<mrow> <msub> <mi>θ</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>α</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>minα</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>maxα</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>minα</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> </mrow>$

式中：i＝1,2…,x；j＝1,2。

6.根据权利要求3或4所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：所述利用两配对样本非参数检验命令进行两组词频数的非参数检验分析，判断两配对样本来自的总体分布是否存在显著性差异，具体为：

按照符号检验的方法，将第二组样本的观察值减去第一组样本的观察值β_ij；如果差值是一个正数，则记为正号；差值为负数，则记为符号；出现差值等于0时，则删除相应的建筑个案，样本数量x也相应地减少；

保留差值数据，根据差值数据的绝对值按升序排序，求出相应的秩值β_i，并分别计算符号为正号的秩和W₊、负号秩和W_{_}及正号平均秩U₊、正号平均秩U_{_}；

具体计算公式为：

或

U₊＝W₊/m或U_{_}＝W_{_}/n

其中，m和n分别代表正号秩值和负号秩值的数量；

计算检验统计量Z值和SPSS计算得到的相伴概率值Sig,通过与设定的显著性水平进行比较，从而判断两组样本数据是否存在显著性差异，如下式：

W＝min(W₊，W_{_})

$<mrow> <mi>Z</mi> <mo>=</mo> <mfrac> <mrow> <mi>W</mi> <mo>-</mo> <mi>n</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>4</mn> </mrow> <msqrt> <mrow> <mi>n</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>2</mn> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mn>24</mn> </mrow> </msqrt> </mfrac> </mrow>$

其中，n为删除差值为零的有效样本数量；

如果得到的概率值小于或等于设定显著性水平，则认为两配对样本来自的总体分布存在显著性差异；如果得到的概率值高于设定的显著性水平，则认为两配对样本来自的总体分布无显著性差异。

7.根据权利要求3或4所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：所述词汇的重要性，公式如下：

$<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mo>*</mo> <munder> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>O</mi> <mi>u</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中，P(V_i)是词汇i的中重要性，d是阻尼系数，In(V_i)是含有词汇i的语段集合，Out(V_j)是含有词汇j中的语段的集合，|Out(V_j)|是集合中元素的个数。

8.根据权利要求4所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：所述方法还包括：

S4、将建筑个案的整体评论数据根据不同的建筑方案进行分类，分析网络群众对于不同方案的关注要素。

9.根据权利要求8所述的一种基于网络文本语义分析的建筑评价方法，其特征在于：步骤S4中，所述将建筑个案的整体评论数据根据不同的建筑方案进行分类，分析网络群众对于不同方案的关注要素，具体包括：

S41、对专业建筑论坛上建筑个案的评论按照不同方案进行分类，并分别转换为txt文件格式；

S42、根据步骤S31形成的词汇列表，利用汉语词频统计工具对步骤S41形成的多个建筑方案评论数据分别统计各项词汇的频数、重复数、百分比和去重百分比；

S43、根据步骤S42形成的词频数据，取其中的高频词汇数据进行标准归一化处理，如下：

假设高频词汇数据中第i个词频数为α_i，则标准归一化处理后到标准值θ_i，具体公式为：

$<mrow> <msub> <mi>θ</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>α</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>minα</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>maxα</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>minα</mi> <mi>i</mi> </msub> </mrow> </mfrac> </mrow>$

其中，i＝1,2…,x；

S44、对各建筑方案进行特征词汇判断，假设第j个方案的第i个词频数的标准值为P_ij，则该标准值的词频显著性值为具体计算公式为：

$<mrow> <mover> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mfrac> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>n</mi> </mfrac> </mrow> <msqrt> <mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mfrac> <msub> <mi>P</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mi>n</mi> </mfrac> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>$

其中，i＝1,2…,x；j＝1,2；

S45、取的词汇作为建筑方案的特征词汇，即得到网络群众对于不同方案的关注要素。

完整全部详细技术资料下载

当前第2页1 2 3