基于分类的智能搜索引擎研究与实现

来源：爱玩科技网

第21卷第3期2010年6月

中原工学院学报

JOURNALOFZHONGYUANUNIVERSITYOFTECHNOLOGYVol.21 No.3Jun.,2010

文章编号:1671-6906(2010)03-0041-04

基于分类的智能搜索引擎研究与实现

程传鹏

(中原工学院,郑州450007)

摘要: 将文本分类技术应用到搜索引擎上,提出了一种基于自动分类的智能搜索引擎系统原型系统.在此基础上,对智能搜索引擎中的网页特征提取、特征加权、网页分类提出了一定的思考和见解.关键词: 搜索引擎;特征提取;KNN分类算法

中图分类号: TP391.07 文献标识码: A DOI:10.3969/j.issn.1671-6906.2010.03.012

目前的搜索引擎主要有2大类:分类目录式的搜索引擎工具和全文检索式的搜索引擎工具[1].分类目录有助于逐步缩小主题范围或者查找关于某个主题的权威性较强的信息,该方法查准率高,但查找方式不灵活;全文搜索引擎通过关键词匹配的方式检索信息,检索结果经过相关度排序后,提交给用户.该类查找方式缺点是返回信息乱,用户需要耗费很多时间来浏览返回的结果,查准率不够高,而且用户要花费大量的时间进行/二次筛选0.

为了提高用户的查准率并缩短查准时间,本文提出将文档自动分类技术应用到搜索引擎上,通过文档分类器自动地将检索结果快速分类.对检索结果进行分类标注,可以大大降低用户需要浏览的检索结果数量,方便用户快速查找信息.

分类的意义是不同的,一些通用的、各个类别都普遍存在的词汇对分类的贡献小,在某特定类中出现比重大

而在其他类中出现比重小的词汇对网页分类的贡献大.为了提高分类精度,对于每一类,应去除那些表现力不强的词汇.

YangYiming通过大量的实验研究证明,X2统计量是目前效果最好的特征选择方法之一[4].

在一些网页中,有些词条出现的次数较低,但却与文章的主题有很强的关系,因此这类词也应该作为特征词进行提取.但传统的62(t,c)统计量方法对这类低频词是不公平的.62(t,c)中,如果Ay0时,By0时,那么6(t,c)y0,按照6统计量的计算方法,在多类中普遍出现的高频词的权重将比只在特定类中出现的低频词的权重高,所以说6统计量对低频词不公平.而在实际的分类中,在多类中普遍出现的高频词语,它们的特征区分度差,应该被滤掉.

所以,在本文中提出了一个变形后的62*公式:

6(t,c)=

N(AD-CB)log(N/Nft)

(A+C)(B+D)(A+B)(C+D)2*

1 分类检索关键技术及改进

1.1 特征提取

原始的特征空间由可能出现在文章中的全部词条构成.而中文的词条总数有二十多万条,这样高维的特征空间对于几乎所有的分类算法来说都偏大,可以达到几万维[2],因此需要进行维数压缩工作.这样做的目的主要有2个:一是提高程序的效率,提高运行速度;二是提高分类的精度

[3]

(1)

式中:N表示训练语料中的文档总数,c表示某一特定类别,t表示特定的词条,A表示属于c类且包含t的文档频数,B表示不属于c类但是包含t的文档频数,C表示属于c类但是不包含t的文档频数,D是既不

.所有几万个词汇对网页

收稿日期:2010-05-05

作者简介:程传鹏(1977-),男,河南信阳人,讲师,硕士.

#42#

中原工学院学报2010年第21卷

属于c也不包含t的文档频数,Nft为出现t的文档数.1.2 本文采用的特征加权方法

特征词在文档文件中所处的位置和特征词的长度往往包含着重要的信息,而传统的TF2IDF公式忽视了这一重要的信息,忽略了词汇在文章中的重要程度.这是因为特征词的权重是由许多因素决定.

特征词的长度也是决定特征词权值的重要因素.对于中文文档信息,词的长度越长,则该词出现在文档中的几率就越小;反过来说,出现在文档中的较长的词,有理由相信它比短词包含更多的信息[3].如果只是采用简单的词频统计的话,就会忽略文档频率低但却包含了重要信息的长词条.

网页与纯文本文件不同的是,网页里有各种各样的标签,不同的标签都有着特殊的含义,往往出现在网页标题上的特征词,更能够体现该网页的中心思想,还有一些内容文字,网页作者想要引起读者注意,往往用较大的字体来显示.所以特征词的权值大小还与特征词出现在网页中的位置有关.在一些标签内出现的特征词一般更能表现网页的中心思想,应在该网页向量模型中赋予较高的权重.在本文中具体标签及权重赋值见表1.

表1 权重赋值表

标签<Meta><Strong><H1><H2><H3><B><p>标签权重<p>43221.81.52<p>标签含义题目网页描述强调1号标题2号标题3号标题粗字体<p>球、比赛、超市},有3篇文档D1、D2、D3,对应的特征权值见表1,Cosine相似度见表2.<p>表2 文本对应的特征词权值<p>文本<p>篮球<p>比赛<p>超市<p>D1D2D3<p>0.80.20.8<p>0.20.80<p>000.2<p>表3 文本之间的Cosine相似度相似度Sim(D1,D2)Sim(D1,D3)Sim(D3,D2)<p>Cosine值0.470.940.10<p>假设D1和D2都是描述关于篮球比赛的文章,应归属于体育类.而D3是一篇描述商场篮球销售的文章,所以D1、D2应该归属于一类,而D1与D3不能归属于同一类.但是,按照传统Cosine相似度的计算方法来分类,结果却与实际情况相反.通过对此问题的分析,我们发现不能仅仅依靠特征词的/字面0意思来比较相似性,应该对特征词的相关性进行扩展,从而提高相似度计算的有效性.公式如下:<p>M(i,j)={特征词i,j的相关度}<p>而2篇文章的相关度的计算,也由简单的R=Sim(di,dj)变为<p>R=Sim(di,dj)@M(i,j)<p>特征词之间的相关度计算方法如下:<p>M(i,j)=Ni,j/(Ni+Nj-Ni,j)-(Ni@Nj)/<p>(N@N)<p>其中:N为文章数目;Ni为含有特征词i的文章总数;Ni,j为含有{i+j}的文章总数.<p>本计算中可能会得到负相关,如果考虑到Ni、Nj都是小量,可以忽略,那么改进后的相似性计算如下:<p>M(i,j)=Ni,j/(Ni+Nj-Ni,j)<p>综合特征词的词长和特征词在特殊标签中的权<p>重之后,在本文中提出了一种新的加权公式:<p>Wi=Wi0@L_Weight@Pos_Weight其中:<p>Wi0=f(t,d󰅀)@log(N/ni)L_Weight=log2(词条的长度)Pos_Weight参照表1取值.<p>1.3 KNN分类中文本相似性比较的改进<p>文本信息之间的相关性计算,一般是采用向量的办法[1],然而传统的关于计算文本相关度的计算没有很好地考虑到特征词之间的相互关联与共现,使分类结果不甚理想.假设得到Ci类的特征词集合为{篮<p>2 主要功能模块<p>本系统主要有网页信息提取、特征提取、网页分类、搜索4大模块,整个系统的结构如图1所示.下面分别介绍这几个模块.<p>第3期程传鹏:基于分类的智能搜索引擎研究与实现<p>#43#<p>图1 系统总体结构图<p>2.1 信息提取模块<p>网页一般包含2部分内容:一部分内容是网页的主题信息,比如新闻网页中的正文部分,能够较好地体现/主题0内容;另一部分则是与主题内容无关的导航条、广告信息、版权信息以及调查问卷等内容[5],这部分内容通常分布在主题内容周围,有时也夹杂在主题内容中间,但它们并无内容相关性.快速准确地识别并清除网页内的噪音内容是提高Web应用程序处理结果准确性的一项关键技术.首先,提取网页的正文部分,尽可能地排除噪音内容的干扰,从而提高处理结果的准确性.网页信息提取还可以简化网页内标签结构的复杂性并减小网页的大小,为后续的网页处理减少了时间开销.2.2 特征提取模块<p>经过信息提取后,网页里已经去除了大部分与分类无关的信息.对信息提取后的网页进行分词,分词所得到的所有词条作为候选特征词,按照公式<p>mi=1<p>2*<p>P(ci)6(t,ci)计算侯选特征词和各个类别之间E<p>据抽取的特征项,进行向量维数压缩,精简向量表示.2.3 分类模块<p>对于一个待测试网页,计算它与训练样本集中每<p>个文档的网页相似度,依余弦相似度的方法,找出K个最相似的训练文档.然后在此基础上给每一个文档类打分,分值是K个训练文档中属于该类的文档与测试文档之间的文档相似度之和.对这K个文档所属类的分值统计完毕之后,即按分值进行排序.待测文档应该属于分值最大的一类2.4 搜索模块<p>[6]<p>.<p>用户输入搜索关键词后,系统对关键词进行分词处理,分词方法同网页训练中的分词方法,对分词得到的每个词条,在索引库里进行二分查找,对每个词条返回的结果进行合并,取其交集,以分类的形式返回给用户.<p>3 实验<p>为了验证本算法,我们从一些权威网站下载一些较有代表性的网页,包括900个训练文本实例和500个测试文本实例.文本分类体系从总体上可以分为财经、环保、教育、房产、汽车、娱乐、军事、社会、科技、体育等10个类别.在上述研究的基础上,设计了能够对搜索结果进行分类标识的简单搜索引<p>的CHI统计量,依据CHI统计量进行快速排序.抽取一定数量的词作为特征项,具体需要抽取多少维的特征项,目前尚无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值,一般初<p>始值定在几千左右[2].将每类中所有的训练文本,根#44#<p>中原工学院学报2010年第21卷<p>擎,如图2所示.<p>图2 分类检索界面图<p>方法,在此基础上,构造了一个基于分类的搜索引<p>4 结语<p>本文对网页分类技术中的相似性比较以及特征加权的一些不足之处进行了分析,并提出了改进的<p>擎原型系统.由于整个模型涵盖的范围大,涉及到的技术细节多,在网页分析、分词方法上,仍需要进行继续深入的研究,以提高整个自动分类过程的准确性和高效性.<p>参考文献:<p>[1] 杨洁,程传鹏.搜索引擎上的自动分类技术研究[J].中原工学院学报,2007,18(6):43-46.[2] 程传鹏.中文网页分类中特征提取的研究[J].中原工学院学报,2005,16(6):42-44.[3] 代六玲.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,24(1):26-32.<p>[4] YangYiming.AnEvaluationofStatisticalApproachestoTextCategorization[J].JournalofInformationRetrieval,1999(1):<p>67.<p>[5] 张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-392.[6] 程传鹏.中文网页分类的研究[J].中原工学院学报,2007,18(1):61-.<p>ResearchandImplementationonIntelligentSearchEngine<p>BasedonClassification<p>CHENGChuan2peng<p>(ZhongyuanUniversityofTechnology,Zhengzhou450007,China)<p>Abstract: Thispapercombinestheexistingclassificationtechnologyofwebpagewhilestudyingtradition2alsearchenginetechnology,presentsaintellectualsearchenginesystemmodelbasedonautoclassification.Andthenpresentssomeopinionandthinkingwebpagefeatureselection,webpageclassify,weightoffeatureinintellectualinformationretrieval.<p>Keywords: searchengine;featureselection;KNNcategorization </div> <div class="preview-ft"> <div class="preview-title"> <p style="color: red;"><strong>因篇幅问题不能全部显示，请点此查看更多更全内容</strong></p> <div class="model-fold-cover-bd"><a href="https://m.tang5.com/mlogox/nreeiagkeao/" target="_blank"><span>查看全文</span><i class="iconfont icon-chakangengduo"></i></a></div> </div> </div> <script type="text/javascript" src="https://jss.aiwanbo.com/mobile/detail_left.js"></script> <script type="text/javascript" src="https://jss.aiwanbo.com/mobile/detail_gg2.js"></script> </div> </div> <script type="text/javascript" src="https://jss.aiwanbo.com/mobile/detail_foot.js"></script> <script type="text/javascript" src="https://jss.aiwanbo.com/mobile/share_cebian_gg1.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/mobile/share_cebian_xgyd.js"></script> <script type="text/javascript" src="https://jss.aiwanbo.com/mobile/share_cebian_gg2.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/mobile/share_cebian_rmtj.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/tj_foot4.js"></script><footer class="map-footer">  <p class="copyright"> Copyright © 2019-<span class="currentYear"></span> aiwanbo.com 版权所有 <br> <a href="https://beian.miit.gov.cn/" target="_blank">赣ICP备2024042808号-3</a></p> <script type="text/javascript"> const currentYear = new Date().getFullYear(); $('.currentYear').html(currentYear) </script> </footer> </body> </html>

全部频道

基于分类的智能搜索引擎研究与实现