标签权重
43221.81.52
标签含义题目网页描述强调1号标题2号标题3号标题粗字体
球、比赛、超市},有3篇文档D1、D2、D3,对应的特征权值见表1,Cosine相似度见表2.
表2 文本对应的特征词权值
文本
篮球
比赛
超市
D1D2D3
0.80.20.8
0.20.80
000.2
表3 文本之间的Cosine相似度相似度Sim(D1,D2)Sim(D1,D3)Sim(D3,D2)
Cosine值0.470.940.10
假设D1和D2都是描述关于篮球比赛的文章,应归属于体育类.而D3是一篇描述商场篮球销售的文章,所以D1、D2应该归属于一类,而D1与D3不能归属于同一类.但是,按照传统Cosine相似度的计算方法来分类,结果却与实际情况相反.通过对此问题的分析,我们发现不能仅仅依靠特征词的/字面0意思来比较相似性,应该对特征词的相关性进行扩展,从而提高相似度计算的有效性.公式如下:
M(i,j)={特征词i,j的相关度}
而2篇文章的相关度的计算,也由简单的R=Sim(di,dj)变为
R=Sim(di,dj)@M(i,j)
特征词之间的相关度计算方法如下:
M(i,j)=Ni,j/(Ni+Nj-Ni,j)-(Ni@Nj)/
(N@N)
其中:N为文章数目;Ni为含有特征词i的文章总数;Ni,j为含有{i+j}的文章总数.
本计算中可能会得到负相关,如果考虑到Ni、Nj都是小量,可以忽略,那么改进后的相似性计算如下:
M(i,j)=Ni,j/(Ni+Nj-Ni,j)
综合特征词的词长和特征词在特殊标签中的权
重之后,在本文中提出了一种新的加权公式:
Wi=Wi0@L_Weight@Pos_Weight其中:
Wi0=f(t,d)@log(N/ni)L_Weight=log2(词条的长度)Pos_Weight参照表1取值.
1.3 KNN分类中文本相似性比较的改进
文本信息之间的相关性计算,一般是采用向量的办法[1],然而传统的关于计算文本相关度的计算没有很好地考虑到特征词之间的相互关联与共现,使分类结果不甚理想.假设得到Ci类的特征词集合为{篮
2 主要功能模块
本系统主要有网页信息提取、特征提取、网页分类、搜索4大模块,整个系统的结构如图1所示.下面分别介绍这几个模块.
第3期程传鹏:基于分类的智能搜索引擎研究与实现
#43#
图1 系统总体结构图
2.1 信息提取模块
网页一般包含2部分内容:一部分内容是网页的主题信息,比如新闻网页中的正文部分,能够较好地体现/主题0内容;另一部分则是与主题内容无关的导航条、广告信息、版权信息以及调查问卷等内容[5],这部分内容通常分布在主题内容周围,有时也夹杂在主题内容中间,但它们并无内容相关性.快速准确地识别并清除网页内的噪音内容是提高Web应用程序处理结果准确性的一项关键技术.首先,提取网页的正文部分,尽可能地排除噪音内容的干扰,从而提高处理结果的准确性.网页信息提取还可以简化网页内标签结构的复杂性并减小网页的大小,为后续的网页处理减少了时间开销.2.2 特征提取模块
经过信息提取后,网页里已经去除了大部分与分类无关的信息.对信息提取后的网页进行分词,分词所得到的所有词条作为候选特征词,按照公式
mi=1
2*
P(ci)6(t,ci)计算侯选特征词和各个类别之间E
据抽取的特征项,进行向量维数压缩,精简向量表示.2.3 分类模块
对于一个待测试网页,计算它与训练样本集中每
个文档的网页相似度,依余弦相似度的方法,找出K个最相似的训练文档.然后在此基础上给每一个文档类打分,分值是K个训练文档中属于该类的文档与测试文档之间的文档相似度之和.对这K个文档所属类的分值统计完毕之后,即按分值进行排序.待测文档应该属于分值最大的一类2.4 搜索模块
[6]
.
用户输入搜索关键词后,系统对关键词进行分词处理,分词方法同网页训练中的分词方法,对分词得到的每个词条,在索引库里进行二分查找,对每个词条返回的结果进行合并,取其交集,以分类的形式返回给用户.
3 实 验
为了验证本算法,我们从一些权威网站下载一些较有代表性的网页,包括900个训练文本实例和500个测试文本实例.文本分类体系从总体上可以分为财经、环保、教育、房产、汽车、娱乐、军事、社会、科技、体育等10个类别.在上述研究的基础上,设计了能够对搜索结果进行分类标识的简单搜索引
的CHI统计量,依据CHI统计量进行快速排序.抽取一定数量的词作为特征项,具体需要抽取多少维的特征项,目前尚无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值,一般初
始值定在几千左右[2].将每类中所有的训练文本,根#44#
中原工学院学报2010年 第21卷
擎,如图2所示.
图2 分类检索界面图
方法,在此基础上,构造了一个基于分类的搜索引
4 结 语
本文对网页分类技术中的相似性比较以及特征加权的一些不足之处进行了分析,并提出了改进的
擎原型系统.由于整个模型涵盖的范围大,涉及到的技术细节多,在网页分析、分词方法上,仍需要进行继续深入的研究,以提高整个自动分类过程的准确性和高效性.
参考文献:
[1] 杨洁,程传鹏.搜索引擎上的自动分类技术研究[J].中原工学院学报,2007,18(6):43-46.[2] 程传鹏.中文网页分类中特征提取的研究[J].中原工学院学报,2005,16(6):42-44.[3] 代六玲.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,24(1):26-32.
[4] YangYiming.AnEvaluationofStatisticalApproachestoTextCategorization[J].JournalofInformationRetrieval,1999(1):
67.
[5] 张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-392.[6] 程传鹏.中文网页分类的研究[J].中原工学院学报,2007,18(1):61-.
ResearchandImplementationonIntelligentSearchEngine
BasedonClassification
CHENGChuan2peng
(ZhongyuanUniversityofTechnology,Zhengzhou450007,China)
Abstract: Thispapercombinestheexistingclassificationtechnologyofwebpagewhilestudyingtradition2alsearchenginetechnology,presentsaintellectualsearchenginesystemmodelbasedonautoclassification.Andthenpresentssomeopinionandthinkingwebpagefeatureselection,webpageclassify,weightoffeatureinintellectualinformationretrieval.
Keywords: searchengine;featureselection;KNNcategorization