大数据环境下的网络主动入侵检测方法研究
来源:爱玩科技网
第31卷第8期 2015年8月 科技通报 BULLETIN OF SCIENCE AND TECHN0L0GY Vo1.31 No.8 Aug.2015 大数据环境下的网络主动入侵检测方法研究 王曙霞 (湖北工程学院计算机与信息科学学院,湖北孝感432000) 摘要:由于传统网络入侵检测方法检测率低及不能进行在线检测,无法有效实现网络主动入侵检测, 提出一种基于马氏距离K均值的大数据环境下网络主动入侵检测方法,分析了马氏距离的评价准则, 依据新样本与原样本之间的马氏距离确定是否需开展新的聚类,输出与全部数据样本相应的攻击类 别。通过一个由一定数量的支持向量决定的超平对数据进行分类,当SVM分离方法受到约束时,利用 核函数将输人数据映射至高维特征空间,采用高斯径向基函数对最小二乘支持向量机分类模型进行建 立。通过粒子群优化算法对最小二乘支持向量机参数进行选择。利用种群中个体之间的协作以及信 息交换获取最佳方案。仿真实验结果表明,所提方法有很高的的检测效率及精度。 关键词:大数据;网络入侵;检测; 中国分类号:TP393 文献标识码:A 文章编号:1001—7119(2015)08—0225—03 Network Intrusion Detection Method Research Under Big Data Environment Wang Shuxia (School of Computer and Information Science;Hubei Engineering University,Xiaogan Hubei 432000;China) Abstract:Due to low detection rate and the traditional network intrusion detection method cannot be on—line detection.un— able to effectively implement network intusiron detection,proposes a k-means based on markov distance under the environ— merit of big data network intrusion detection method.analyzed the evaluation criterion of markov distance.on the basis of markov distance between the new sample with the original sample to determine whether need to launch a new clustering, output and all data samples corresponding attack category.Through a determined by a certain number of support vectors than classifying data,when the separation of the SVM method is restrained,use kernel functions to map the input data to high—dimensional feature space,the gaussian radial basis function is adopted to the least squares suppo ̄vector machine (SVM)classiifcation model is established.By particle swarm optimization algorithm for least squares support vector ma— chine(SVM)parameters selection.Using the collaboration and information exchange between individuals in a population to obtain the best solution.The simulation results show that the proposed method has high detection eficifency and precision. Keywords:big data;network invasion:detection: 0 引言 近年来,随着计算机技术的迅猛发展,以及智能终 保障数据安全,准确检测出网络主动人侵,成为相关学 者研究的重点课题,受到越来越广泛的关注 。 端、数字地球等信息体的普及与建设,全球数据量增长 速度加快,大数据时代已经到来 。 。大数据下网络蕴 藏着价值信息,但数据安全面临严峻挑战 。随着大数 据环境的逐渐发展,信息的开放程度也随之扩大,导致 1基于PSO-LSSVM的网络主动入侵 检测方法 传统K均值算法通过欧式距离对两个样本之间的 信息泄露及网络入侵。面对大数据发展的特点,如何 相似程度进行衡量,有一定的弊端,马氏距离是一种数 收稿日期:2015—08—07 基金项目:国家自然科学基金(61370092);湖北省自然科学基金(No.2013CFC005);湖北省高等学校优秀中青年科技创新 团队计划(T201410)。 作者简介:王曙霞(1975-),女,湖北荆门人,硕士,副教授,研究方向:智能计算与网络安全。。 226 科技通报 =第31卷 据协方差距离,能够有效衡量样本的相似度,因为马氏 距离计算过程中只与样本数量有关,所以计算效率较 高。 假设大数据环境下网络数据样本集是 ∑ Y ( ) a (6) ai=1 - x=fXl, ̄X ,…, },其中任意两个样本之间的马氏距离可 通过下式求出: I y (l )+6卜 一1=0 将W、 消除,则有: d =( 一 ) A ( 一 ) 式中,△用于描述样本的协方差矩阵。 圈 ㈩ 所以,经优化后的依据马氏距离的评价目标函数 式中, 可描述成: =(△,x)-∑∑ (J…1 I ) (矿Cj)一lnl ̄I 式中, ={X;j,Xi2,…, }用于描述样本对象; 用 于描述第 维分量;c,用于描述第 个聚类中心;n 用 于描述聚类C,的样本个数; ,用于描述此刻样本数据 的权重。 支持向量机是依据统计学的一种分类方法,主要 用于解决小样本、非线性、高维等分类问题,其基本思 想为:通过一个由一定数量的支持向量决定的超平对 数据进行分类。若不能采用SVM分离方法,则利用核 函数将输入数据映射至高维特征空问,通过高维特征 空间解决上述问题。在高维特征空间中建立最优分类 超平面 ・ ( )十b=0,令分类间隔达到最大化。 引入拉格朗日乘子,在Ey =0,n一 ≥0条件下对 L —】 下式最大值进行计算: ∑。 一告∑n yI ( , ) (1) =1 一ij=l 其中,k(x, ,1用于描述核函数。 则支持向量机函数可描述成: / 、 y( )=sign【\i=1∑ Y ( )+6 / l (2) 将最小二乘支持向量机分类问题转换成下述二次 规划问题: min : 圳 +c ] (3) ^ [ ( )+6]一1+ =0 (4) 式中,C用于描述惩罚参数,其能够对大于误差样 本的惩罚程度进行,大小可调。g.O、b分别用于描 述权向量及阈值。 引入拉格朗日乘子a.,将上述分析的问题变成下 述问题: L=J(w, )一ai Y [ ( )+f)]一1+ ) (5) 式中,a,≥0,用于描述拉格朗日乘子。 分别对式(4)的 、b、 、。.求偏导数,则有: l,=[y.咖( 。),Y ( ),…,y ( )] (8) Io=[1,1,…,l】 (9) a: a:,…,an] (10) =Y…Y地) )】… (11) 求出b、a后,LS—SVM的最佳分类函数可描述成: y( )=signl∑n Y ( , )+bl (12) 式中,k(x, )用于描述核函数,通常采用几种核函 数如下: (1)线性核函数k(x, )= ・ ; (2)多项式核函数k(x, ):( ・ +1) ,z=1,2,…; (3)高斯径向基函数 ( )=exp I等。 本文采用高斯径向基函数对最小二乘支持向量机 分类模型进行建立。 选择合适的最小二乘支持向量机参数对增强分类 性能起着至关重要的作用。本文通过粒子群优化算法 对最小二乘支持向量机参数进行选择。粒子群优化算 法是一种智能寻优算法,利用种群中个体之间的协作 以及信息交换获取最佳方案。粒子群优化算法利用一 个由目标函数获取的适应值对其有效性进行评估。粒 子状态可通过下式进行描述: +- ‘ +c ’r。nd‘(?6es 一 )+ (13) c2・rand・(gbest—X ) X :X + +, 其中,pbest用于描述该粒子的最佳位置;gbest用 于描述全部粒子中的最佳位置;rand用于描述0到1 范围内的任意数值;W用于描述惯性因子;C。、C 用于 描述学习因子,本文取2。 通过粒子群优化算法获取最优最小二乘支持向量 机参数的详细过程如下: (1)对群体规模进行初始化处理,同时随机产生一 组粒子; (2)求出所有粒子的适应度。若所有粒子的适应 度均优于pbest,则用其值替代pbest;若所有粒子的适 第8期 王曙霞.大数据环境下的网络主动入侵检测方法研究 227 应度值均优于gbest,则用其值替代gbest; (3)对粒子速度及位置进行更新。 分析表2可以看出,采用本文方法的误报率及漏报 率均低于传统人工神经网络检测方法,这是因为本文 (4)判断是否达到最大迭代次数,若达到最大迭代 方法能够实时在线检测,大大降低了误报、漏报情况的 次数,则结束迭代,输出改进的最小二乘支持向量机参 发生。数;否则重新进行步骤(2),获取更新后的粒子速度和 检测时间性能对比如图1所示。分析图1可以看 位置。 2仿真实验分析 分别采用本文方法和传统人工神经网络检测方法 方法对KDD99数据集中的入侵数据进行检测,对检测 的准确率进行统计,获取的结果用表1进行描述。 表1本文方法与传统方法准确率比较结果 Table 1 The method compared with traditional methods accuracy resuhs 攻击方式 检测准确率/% 本文方法 传统方法 分析表1可以看出,采用本文方法的检测准确率明 显高于传统人工神经网络检测方法,且一直高于传统 方法,说明本文方法有很高的检测性能,验证了本文方 法的有效性。 在上述实验的基础上,对本文方法和传统人工神 经网络检测方法的误报率和漏报率进行统计,获取的 结果用表2进行描述。 表2本文方法与传统方法误报率、漏报率比较 Table 2 This method compared with the traditional method of false positives,non—response rates 出,本文方法的检测时问一直低于传统人工神经网络 检测方法,这是因为传统方法在检测过程中,为了增强 自身的自适应性,增加了自主响应,造成检测时间长。 图1本文方法与传统方法检测时间比较 Fig.1 This method is compared with the traditional method detection time 4结论 本文提出了一种基于马氏距离K均值的大数据环 境下网络主动入侵检测方法,仿真实验结果表明,所提 方法有很高的的检测效率及精度。 参考文献 …1 谢红,刘人杰,陈纯楷.基于误用检测与异常行为检测的 整合模型【J].重庆部电大学学报(自然科学版),2012,1 (24):73—77. [2】 汪洁.基于神经网络的人侵检测系统的设计与实现 计 算机应用与软件,2013,5(30):320—322. [3]杨照峰,樊爱京,樊爱宛.基于自适应蚁群聚类的入侵检 测【J】.计算机工程与应用,201 1,47(12):90—96. [4】 杨晓峰,孙明明,胡雪蕾,等.基于改进隐马尔可夫模型的 网络攻击检测方法[J].通信学报,2010,3(31):95—101. 【5】 李庆年.基于多层特征基参数融合的网络入侵检测算法 fJ].科技通报,2012,8(28):69—71.