您的当前位置:首页正文

基于关联规则挖掘的网络行为分析系统设计

来源:汇意旅游网
龙源期刊网 http://www.qikan.com.cn

基于关联规则挖掘的网络行为分析系统设计

作者:张炘,李昆仑

来源:《电脑知识与技术》2011年第10期

摘要:该文介绍了关联规则挖掘的基本原理,并在此基础上提出了一种基于关联规则挖掘的网络行为分析系统设计方案。该方案采用一种主动的监控分析模型,可以及时的分析用户网络访问行为,并对发现的用户异常行为进行一定的引导和管理。文中详细描述了该系统方案的总体结构和主要模块设计方法。

关键词:关联规则;行为分析;系统设计

中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)10-2333-02 Design of Network Behavior Analysis System Based on Association Rules Mining ZHANG Xin, LI Kun-lun

(College of Science and Technology, Nanchang University, Nanchang 330029, China) Abstract: This paper introduces the basic principle of association rules mining, and a new design of network behavior analysis system based on association rules mining is proposed. The program can analysis user's network access behavior and give certain guidance and management to user's unusual behavior of discovery by an active monitoring and analysis model.In this paper,that includes the detailed description of the system architecture and the methods of main module. Key words: association rules; behavior analysis; system design

随着计算机网络技术的快速发展,互联网应用不断深入普及,人们在工作和生活中越来越依赖于各种网络应用和服务。与此同时,一些网络使用中的问题也随之显现,主要表现在两个方面:一方面是过度的网络娱乐行为,这些应用消耗了大量的网络资源,影响了正常网络业务的开展;另一方面是网络用户的有害行为,这些行为往往带来严重的网络安全问题。特别是在校园网,用户群体主要是学生,他们更容易沉迷于网络聊天、网络游戏等娱乐行为,而且常常由于不适当的网络行为而引发安全问题,或由于兴趣和好奇心而主动进行一些有害的网络行为。针对这些问题,研究和分析用户的网络行为,特别是学生群体的上网行为,限制有害网络行为的发生,对于有效管理校园网资源,增强校园网安全性都具有现实的意义。

本文在利用关联规则挖掘技术的基础上,对通过分析用户访问网络的行为来获得用户行为模式、判断行为倾向、发现异常行为的网络行为分析系统进行研究和设计。 1 网络行为分析概述

龙源期刊网 http://www.qikan.com.cn

行为分析原本是心理学研究领域中的一个概念,由于它对各种现实社会活动具有很好的指导价值,因此应用于很多领域。随着计算机网络的出现和普及,国内外学者也开始研究网络用户行为的特征及规律。网络用户都具有不同的兴趣爱好和行为习惯,在上网时相应的网络访问行为也必然带有各自的特征,对这种特征的分析与探索是网络行为分析研究的重点,研究的方式主要是通过对服务器端的用户访问日志进行分析,挖掘用户在对外进行网络访问时的行为特征。网络行为分析主要应用于网络使用偏好、网络安全审计、入侵检测分析等方面,可以实现优化网站设计、保障网络安全、引导和管理异常网络行为等作用。

目前的大多数网络行为分析研究主要都基于数据挖掘技术,网络行为分析的过程实际上就是一个从大量网络行为数据中获取有价值信息的数据挖掘过程,但是网络行为分析方法的分析重点和分析对象却各有不同,主要包括:用户特征分析、关联分析、分类与预测、异常分析、TopN分析、IP地址分析、点击率分析、Web日志分析等。在网络行为分析系统中,本文采用关联规则挖掘算法来进行关联分析,挖掘产生行为模式添加到行为模式库中,并采用基于相似度的方法来比对行为模式和识别异常行为。 2 网络行为分析系统设计

系统主要应用于校园网的局域网环境下,通过客户端Agent采集所有用户的网络行为原始数据,并将原始数据格式化为用户行为描述格式,发送到服务器端,形成适合进行数据挖掘的训练数据集,然后采用关联规则挖掘算法对行为模式之间的关联特征进行分析,提取出用户行为模式信息,建立用户行为模式库。对于特定的用户群,可以实时采集他们的网络行为数据,格式化处理后作为测试数据集与用户行为模式库中的正常行为模式进行比对,如发现异常行为则可对特定用户的上机操作进行管理。系统主要包括三个模块:数据采集与格式化模块、行为模式生成模块和行为模式比对模块,系统结构图如图1所示。 2.1 数据采集与格式化

1)数据的来源一般分为日志数据或网络数据两种。由于网络节点较多,校园网中存在各种各样的日志数据源,同时访问外部站点所产生的日志信息本地管理者无法得到,因此系统采用在客户端安装Agent程序,由Agent收集网络行为数据并发送到服务器端的方式采集数据。这种方式能够直接、完整的获取用户的网络行为数据,有效的采集大量训练数据,而且校园网络普遍进行统一管理,可以保证客户端Agent程序的正常运行。客户端Agent作为系统服务在客户端后台运行,程序包括三个主要线程:网络数据捕获线程、网络数据队列维护线程、网络数据发送线程。

2)要获得用户网络行为模式,必须对网络行为进行有效的描述,即用哪些特征属性及属性间的关系来描述用户的网络访问行为。系统采用四元组{T,W,S,F}的格式对用户的网络行为进行描述,即用户使用网络时间(Time)、访问的网站(Website)、使用的网络服务(Service)和产生的流量(Flow)。客户端网络数据采集后进行格式化,然后发送到服务器端形成训练数据集。

龙源期刊网 http://www.qikan.com.cn

2.2 关联规则挖掘算法

关联规则(Association Rules)可以从事务数据库中大量数据的项目集合之间发现有趣的关联或相关关系,以帮助人们进行各种决策。关联规则挖掘问题可以分为两个子问题:找出所有频繁项集、由频繁项集产生关联规则,其中第一子问题找出所有频繁项集的性能决定了关联规则挖掘的整体性能。Apriori算法是一种经典的关联规则挖掘算法,它采用迭代法挖掘频繁项集,过程可分为两步:连接步和剪枝步。在连接步,通过连接两个频繁(k-1)-项集产生候选k-项集合;在剪枝步,删除候选k-选项集合中(k-1)-项子集不是频繁项集的候选k-项集合。然后扫描数据库计算候选k-项集的支持数。重复这个过程,直到没有新的候选项集产生。 系统采用一种基于向量计算的改进Apriori算法—AprioriBV算法,该算法通过事务向量和项集向量之间的内积运算与加法运算可减少候选项集数量、提高剪枝运算效率,并快速计算候选项集支持数。该算法首先找出所有频繁项集,然后由频繁产生关联规则。第一步找出所有频繁项集是关联规则挖掘的核心问题,AprioriBV算法产生所有频繁项集的过程为:

1)生成频繁1-项集。扫描一次数据库D,将每一个事务T表示为一个事务向量TVr,(r=1,2,…,n),同时记录每个项ij,(j=1,2,…,m),在所有事务中出现的次数,即项集{ij}的支持数sup({ij}),对于给定的最小支持数阀值MinSup,如果sup({ij})≧MinSup,则{ij}∈L1,由此生成频繁1-项集。

2)生成频繁2-项集。频繁1-项集L1与自身连接得到C2。将C2中的每一个项集{ip,iq}表示为一个2-项集向量IV2ipiq,则该项集的支持数为sup({ip,iq})=,其中“ ·”为向量内积运算。如果sup({ip,iq})≧MinSup,则{ip,iq}∈L2,由此生成频繁2-项集。

3)由频繁k-1项集生成频繁k-项集。根据算法定义的排序规则,对于Lk-1中的任意一个k-1项集{ip,…,iq},只需连接一个大于iq的项即可组合成一个k-项集{ip,…,iq,ij}(j>p)。 接着,扫描一次Lk-1,生成所有的项集累加向量SVk-1 ij(j=k,k+1,…,m),对于Ck中任何k-项集的最后一项ij,必有j≧k。然后将Lk-1中的每一个频繁k-1项集{ip,…,iq}对应的IVk-1 ip,…,iq,分别与SVk-1ij (j=q+1,q+2,…,m)进行加运算,求出S=IVk-1ip,…,iq+SVk-1 ij 。 最后对于Ck中的每一个k-项集{ip1,ip2,…,ipk}计算支持数,sup({ip1,ip2,…,ipk})=,如果sup({ip1,ip2,…,ipk})≧Min Sup,则{ip1,ip2,…,ipk}∈Lk,由此生成频繁k-项集。 重复过程3),直到Ck或者Lk为空集,最终得到所有频繁项集的集合。 2.3 网络行为建模

龙源期刊网 http://www.qikan.com.cn

系统主要采用动态建模方式建立用户行为模式库。在使用初期,客户端Agent程序收集用户在一段时间内的正常访问行为,格式化后集中存储,形成一定规模的训练数据集后,使用AprioriBV算法对训练数据集行进关联规则挖掘,提取出用户的正常行为模式,建立用户行为模式库。在系统的运行阶段,管理员可以控制和收集新的正常访问行为加入到训练数据集中,所以系统需要定期的对训练数据集中的行为数据进行重新挖掘,同时更新用户行为模式库。 网络行为建模的过程就是对网络行为描述格式中四项属性之间关联规则的提取过程。AprioriBV算法是基于布尔型数据的挖掘算法,网络行为描述格式中的属性都属于多值属性,需要先将其转换成布尔型数据。例如对于流量属性,取值包括:Small、Middle、Big、Huge,某次网络行为产生的流量为Big,则对应的布尔型数据为{0,0,1,0}。在此基础上可以挖掘出更易理解的、更有效的关联规则。 2.4 行为模式比对

行为模式比对就是在建立了用户行为模式库的基础上,将采集到的用户当前行为,与行为模式库中的行为模式进行比对,分析当前行为模式与正常行为模式的差异程度,从而确定当前行为是否异常。

网络访问时间(Time)作为比对的基本属性,在得到用户当前行为模式后,在行为模式库中查找所有Time属性与当前行为相同的用户正常行为模式,计算当前行为与查询结果集的相似程度,相似程度越高,说明用户当前行为模式与正常行为模式越吻合,是异常行为的可能性越小。

客户端Agent程序还支持对行为模式比对结果的响应,当发现异常行为时,Agent根据行为模式比对模块发送的行为异常等级,可以采取:消息框提示、暂时锁定键盘鼠标、中止网络应用程序等措施,来对用户的网络行为进行引导和管理。 3 结束语

本文在介绍网络行为分析和关联规则挖掘的基本上,研究了基于关联规则挖掘的网络行为分析技术,并设计了系统的模型。该系统充分利用数据挖掘技术在大规模数据集中发现知识的优势,挖掘提炼用户行为模式,为网络行为的监控和管理提供了依据。系统的主动监控以及对异常行为的管理等功能都为网络资源管理和网络安全维护提供了新的有效工具。 参考文献:

[1] 刘逸坚.网络行为分析系统设计与应用[J].中国教育信息化,2009(10):70-74.

[2] 缪红保,李卫.基于数据挖掘的用户安全行为分析[J].计算机应用研究,2005(2):105-107.

龙源期刊网 http://www.qikan.com.cn

[3] 郭鸿雁,尉永青,吕桃霞.基于关联规则挖掘的网络安全审计技术研究[J].山东科学,2010,23(5):33-36.

[4] 王莘.基于数据挖掘的审计日志分析技术研究[D].郑州:解放军信息工程大学,2007.

因篇幅问题不能全部显示,请点此查看更多更全内容