高相似度英语词语自主选取系统设计的论文(2)

时间:2021-08-31

1 高相似度英语词语自主选取系统设计

  1.1 高相似度英语词语选取系统设计endprint

  考虑到人们对高相似度英语词语自主选取系统设计需求的精准性与灵活性[10],将英语词语的相似度计算结果与数据挖掘特点相结合,设计出一种高相似度英语词语自主选取系统,如图1所示。

  本文高相似度英语词语的自主选取系统设计对硬件系统设计不作考量,主要研究软件和算法。

  1.2 基于路径和深度的英语词语高相似度计算方法

  1.3 基于数据挖掘的高相似度英语词语自主选取

  为了能够有效地在网络中挖掘出高相似度英语词语,在处理两个英语词语义项的最短路径与其距离最近公共父节点的基础上,利用数据挖掘将英语词语文本特征选择转换为一个多目标优化问题;然后以英语词语特征维数最少、分类正确率相对最高为选取标准,采用蚁群算法找到英语词语的最优特征子集;最后通过神经网络建立英语词语相似度文本自动分类器。具体描述过程如下:

  式中:[σ]为英语词语神经网络隐节点宽度;[c]表示英语词语第[r]个神经网络隐节点中点;[w]为英语词语神经网络输出权值。参数[w,][c,][σ]对神经网络分类起决定性作用,要想获得高性能神经网络,需要对参数进行优化。在此基础上完成对高相似度英语词语的自主选择。

2 实验结果与分析

  实验环境建立的PC机配置为:CPU Core i7?4790 3.60 GHz,RAM=4 GB,Windows7操作系统,通过Java语言编写实现。实验过程中设置32个存储节点,每个节点的最大存储容量为1 TB,数据通道为2 000 Mb/s,英语词语文本采集与数据存储均为10 TB。根据参与对比的系统设计使用的英语词语语义资源所收录的英语词语情况,本文从该英语词语测试集中筛选出一些无法计算的英语词语对,最终结果保留10对英语词语用于测试,如表1所示。

  从表1中可以看出,[S1]的英语词语相似度计算结果在数值上普遍较低,主要是由于基于Corpus库的高相似度英语词语自主选取系统设计方法考虑众多英语词语特征,加上一些其他干扰因素的影响,从而造成英语词语特征高维向量的相似度普遍偏低;[S2]数值跨度较大,这是由于基于百度百科的高相似度英语词语自主选取系统设计方法通常情况下在某些方面与人工思维没有较好的符合。

  利用1.3节中的平衡最大英语词语特征识别率与英语词语特征维数的权值[λ,]对高相似度英语词语自主选取系统设计方法的选取效率影响,如图2所示。

  由图2可知,选取参与测试的英语词语数据集为700个,选取英语词语测试数据为200,400,600时对应的高相似度英语词语自主选取系统设计的选取效率,其中,当[λ=1]时,高相似度英语词语自主选取系统设计的选取效率分别为30%,38%和60%;当[λ=3]时,高相似度英语词语自主选取系统设计的选取效率分别为42%,48%和72%;当[λ=5]时,当高相似度英语词语自主选取系统设计的选取效率分别为60%,70%和90%。通过分析可知平衡最大英语词语特征识别率与英语词语特征维数的权值[λ]在区间[1,5]时,本文所提系统设计方法的选取效率最高。3 结 语

  采用当前系统设计方法对高相似度英语词语进行自主选取时,存在选取效率低、选取时间过长等问题。本文提出基于数据挖掘的高相似度英语词语自主选取系统设计方法。通过实验证明,所提系统设计方法可精确地对高相似度英语词语进行自主选取,具有良好的应用价值。