4 福建 电脑 2007年第4期 利用报文抽样和二次哈希方法实现长流识别 景泉 ,刘卫江2'3,白磊 (1.辽宁石化职业技术学院计算机系辽宁锦州121000 2.大连海事大学计算机科学与技术学院,辽宁大连,116026 3.东南大学计算机科学与技术学科博士后流动站江苏南京210096 4.渤海大学信息科学与工程学院辽宁锦州121003 1 【摘要】:识别长流对于网络操作和网络管理有着重要的意义。本文给出了利用报文抽样和二次哈希方法识别长流的 算法。使用二次哈希的方法,极大的减少了哈希过程中的冲突。实验结果表明,该算法可以精确地获得长流的标识,并通过估 计的方法得出的长度信息接近其真实值。 【关键词】:长流;报文抽样;哈希;闽值 O.引言 则发生冲突的概率为:P:1一Pt (N一1)z2~ Nz2-r (1) 如果在某次测量中.流的数目较大或选择的哈希函数的随 都会增加哈希冲突的发生率。通过二次哈希的方法可 分布特征 。即大多数流(短流)仅包含很少数目的报文,而很少 机性不好.部分流(长流)却携带着很大数目的报文。长流被描述为只在 以极大的降低冲突的概率 二次哈希即需要我们引入两个 一对网络流进行测量、统计后发现,流往往呈现很强烈的重尾 流的总数量中占很小一部分却占据了大部分网络通信量的流M 的哈希函数。当到来报文的流标识通过第一个哈希函数作用后 识别长流对于设计高效的流量工程方案有着重要的意义.而且 得到一个比特的哈希值.我们把这一哈希值作为该报文的哈希 获得这些长流的信息对于网络操作和管理是非常有用的。使用 地址 第二个哈希函数的作用结果就是上面所提到的为了区分 抽样技术识别长流不仅减少了对存储空间的要求.而且降低了 报文中的流标识所需的比特的哈希值 如果某一个哈希函数作 对测量系统的负荷.避免了对链路上的所有报文都要进行处理 用到不同流标识的报文上发生了冲突.则可以通过另一个哈希 而带来的过大的存储开销和计算开销.并且通过对报文样本所 函数加以区分。这样就大大降低了冲突发生的概率。反映出来的特征进行还原和估计.能够推断出原链路上近似的 由式(1),在理想的情况下,采用二次哈希方法产生冲突的 流量特征 使用哈希技术克服了利用硬件哈希表记录流标识带 概率P Ⅳ 2… (2) 来的存储空间大、计算复杂性大的弊端 1.长流的定义 与式(1)相比.哈希冲突的概率缩小了2・倍。 2.3长流识别算法 IP网中的流是指在某时间段内通过一个观测点的具有相 由于对网络上的流统计呈现很强烈的重尾分布特性.通过 同流标识的报文集合 。在本文中流是指具有相同的源、宿IP地 抽样,长流比短流会更容易抽到。如果我们对链路上的报文每R 址,源、宿端口信息,受到超时约束的TCP或UDP的报文集合 个抽取一个.我们可以把阈值T1确定为:T1一T,R。如果某个流包 含的报文数超出了T1.我们就把它识别为长流。识别算法的过 长流被描述为占据了大部分的网络通信量.而在数量上相 程如下: 对较少的流。对长流的描述仅是一个定性的描述『q.定性的定义 1.对链路上通过的报文以每R个随机的抽取一个 长流.能够使网络操作员依据他们的标准随意决定哪些流是长 2.将抽到的报文样本通过第一个哈希函数H1作用得出的 流。长流的定义是:如果某个流中包含的报文数或总字节数超出 哈希值作为存储地址.每个地址指向一链表。链表中每__二结点由 了预先定义好的一个值T(这个值叫做阈值),我们称这个流为 三部分值构成.分别是记录报文样本经第二个哈希函数H,作用 长流。 得到的哈希值、存储报文的命中次数、指向下一结点的指针 如 2.长流识别过程 果报文样本经H.作用找到了存储的首地址,接下来将会被H, 2.1分层随机抽样 作用 如经H,作用后的哈希值与该首地址指向链表中某结点的 (不考虑协议)。 分层随机抽样是将被测量总体报文平均分成L个两两互不 哈希值相等,则将其结点的报文命中次数增1;否则,是由于不 交叉、互不重叠的组群,我们把每一个组群称为一层。分层后,再 同流标识的报文经H,作用后产生了冲突,则新建一个结点,并 从各层中运用随机抽样技术提取样本 分得的层数由抽样频率 记录下相关的信息。如果某一结点中报文命中次数超出了阈值. 来确定。本文使用分层随机抽样对报文进行抽取.抽样频率是在 就在内存中建立这个流的一个标识项来记录它的信息 随后其 每R个报文中随机抽取一个.即每一层中的报文数为R 所属报文被抽到后直接对内存中该流的标识项作用 2-2二次哈希方法及哈希冲突的分析 3.测量结束后,要对流长度进行还原估计。根据简单的线形 在高速、大容量的流测量过程中.通过硬件哈希表保存流标 关系.识别出长流的报文数可以被估计为该流中被抽到报文数 识的方法已经不再适用 哈希技术可有效的降低保存每个哈希 的R倍。 表项所需的存储空间的大小,使之与流标识的字节数无关.仅与 2.4实例分析 被测链路上流的数目有关。但在哈希的过程中.会产生不同的流 利用在CERNET华东北网络江苏省网边界上获得Traces 标识哈希到同一存储空间.从而产生冲突。下面给出了发生哈希 进行实验 选择对链路上的报文每1O个抽取1个.使用抽样方 冲突的概率: 法阈值TI=T/10.T1被确定为1000个报文。每个识别出的长流 假设某一存储空间同时支持流的数量为个.哈希函数将流 中的报文数可以被估计为该流中被抽到报文数的1O倍。表1给 标识压缩为比特。设每个到来报文经哈希函数作用后.都随机 的映射到的存储空间中.则哈希过程中没有发生冲突的概率近 似的表示为: P.‘ = (2r) l一(Ⅳ一1)z2一r ‘ ’ 表l识别出的长流信息和估计的报文数(下转第3页) 基金项目:国家重点基础研究发展规划(973)(2003CB3148o4);教育部科学技术重点研究项目(105084); 江苏省网络与信息安全重点实验室fBM2003201):江苏省博士后科研资助计划项目. 维普资讯 http://www.cqvip.com
2007年第4期 福建 电脑 3 龟 :: 囊 累・。 :: 图1分组投递率和平均速度的关系 端延时(end—end delay1,最少的平均跳数(average hop count)。采 用Random Direction模型的节点.由于必须要运动到仿真区域 的边界,才能改变方向,因此,数据传送的平均跳数,往往比采用 其他模型的网络高,且更易被分割,所以它在分组投递率,最低 的端一端延时.最少的平均跳数方面。表现最差。RandomWalk模 型的表现介于上述两种模型之间。 图2为三种模型的平均跳数随节点移动速度变化的情况。。 4.结语 可以看出随着节点速度的增大。平均跳数基本不变,这是因为节 本文介绍了几种典型的Ad Hoc网络移动模型.并在OP. 点受限在固定的区域内移动,且DSR采用的是路由缓存机制. NET中用DSR协议对这三种模型进行了仿真测试.对仿真数据 使得平均跳数不会随着网络拓扑的变化.而明显地增加。采用 进行了曲线模拟和分析。可以看出,同样的移动Ad Hoc网络路 Random Direcfion模型的节点。必须要运动到仿真区域的边界, 由协议采用不同的移动模型。得到的性能分析结果,差异是巨大 才能改变方向或速度.所以在低速情况下(0~5nds),随着仿真时 的。因此.如何选取一个合适的移动Ad Hoc网络移动模型。来对 间的推移,节点的分布比较散,路由经过的跳数是增加的,由于 移动Ad Hoc网络路由协议进行性能评估是一个重要的研究课 节点受限在固定的区域内移动。且发射功率范围较大,所以,当 题。目前在该领域.以下几个方面还有待进一步深人地研究:1。 节点的移动速度逐步增大的时候.节点出现在仿真区域中心位 提高移动模型的精确性,使之能更好地反映和接近现实世界。2, 置的概率增大,导致平均跳数.略有下降。 QoS是Ad Hoc网络领域研究的热点问题之一.因此设计一种能 满足QoS要求的移动模型.是今后工作的重点。 参考文献: 1.T.Camp.J.Boleng,and V.Davies.A survey"of mobility models for ad hoc neDarork res ̄qIch.Wirde COt ̄tl"lHnications&Mobfle Computing (WCMC】,2(5):1-2,2oo2. 2.M.Sanchez and P.Manzolli.Anejos:A iava based simulator for ad—hoc networks.Future Generation Computer Systems,17(5):573—583,2001 3.C.Bet岱tetce r.H.Hartemtein.and X.Perez--COSra Stochastic propertis eof the random waypoint mobiliy modetlⅡ】.ACM/Kluwer WirelessNet- w'orks:Speci ̄Issue on Modehng nd AnaJays ̄of MobileNetwors,2004,k10 (5):555—567. 4.ROYER E M,MELLIAK-SMITH P M,MOSER L.An analysis of dle optimum node densiyt for ad hoc mobile networs[kAI.1nt Confercnce on CornlTlumcatiol ̄Proceedings.IEEE[a.2001.857-861. 图3端一端延时和平均速度的关系 5.V.Tolety.Load reduction in ad hoc networs usikng mobile scⅣers. Master s dlesis.Colorado Schoo1 of Mines.1999. 随着节点移动速度的增加.网络拓扑变化更加频繁.导致分 组投递率(packet delivery rafto)急剧下降。由于采用Random 6.王文博,张金文编著.OPNET Modder与网络仿真(第1版)【M】.北 Waypoint模型的节点穿过仿真区域中心的概率非常高.且节点 京:人民邮电出版社.2003。10. ohnson and D.Mal旺,DyI1amic source routing in ad hoc ̄Sreless 每到达一个新的位置,采用一定的停留时问,这样更容易构成一 7.D,l种相对稳定的网络.所以它具有最高的分组投递率.最低的端一 networks.In T.Imelimky and H.Korth,editors,Mob ̄e Computing,pages 153-181.K1uwer Academic Publishers.1996. (上接第4页) 表2给出了Traces中真实的长流信息和每个长流中包含的 使用本文提出的识别长流的算法可以准确的识别出长流的II) 报文数。 孽口地垃 2ln卫 惦114 2l1Jl l2UlO 3旺lIU‘IO 地址和端口信息.并且通过估计得出的报文数与实际长流中包 宿口jb址 211 l l9] 舭l1124.10 211.71 m110 蠢端口 29砷 l701 I 1 宿端口 6鹞, l l 170I 撮芏置 l叮耵 IS6 2眦I 含的报文数是比较接近的。 参考文献: 1.Kohler E,Li ,Pg ̄on V and Shenker S.Observed structure of ad- 通过表1和表2的比较。我们可以看出,使用本文提出的识 dr-' ̄ses in ip tra ̄c[A】.Interact Measurement Conference【q.New York, NY,USA,2002.253-266. 别长流的算法能够准确的识别出长流信息。但是,估计的报文数 与真实长流中包含的报文数存在一些差异:主要是由于报文抽 2.T.Mori。R.Kawahara。S.Naito and S.Goto.On the characteristics of ntemet∞伍c variabiliy:stpikes and dephams[A】.In Proceedings of!FFF/ 样具有随机性,不能够按报文的真实分布进行抽取;另外,通过 iPSJ StuNT[C].Tokyo,Japan。2004.99—106. 估计的方法也会给结果带来一定的误差:第三,虽然本文使用二 I次哈希降低了哈希过程中的冲突.但是不能避免冲突的发生。 3.结论 3.W.Fang.and L.Peterson.Inter—AS tra ̄c patterns and their imp ̄cafiom [A】.Proceedings of IEEE GLOBECOM[C】.Rio,Brazil,December 1999. 1859-1868. 4.Feldmann A。Greenberg A,Lund C and R.eingold N.Deriving∞伍c 本文使用分层随机抽样和二次哈希方法实现长流的识别 使用哈希技术可以把流标识映射到很短的哈希串所代表的空 demands for opemtion ̄iP networs:metkhodology and experience[A].Pro- 间。使之与流标识的字节数无关,仅与被测链路上流的数目有 ceedings of ACM SIGCOMM【cJ.2000.265—279. 关.极大的减少了由于维护流标识而带来的资源开销,但哈希的 5.Requirements for ip flow informationexpor ̄http://www.ietf.org/rfc/ .过程不可避免带来哈希冲突 二次哈希方法很好的解决了哈希 rfc/rfc3917.txt l T。Uchida M,Kawahara R.Identifying elephant lfows through pe- 冲突问题。它通过选择两个的哈希函数,当某一个哈希函数 6.Moiiodicany sampled packem[A].tMC[C],Italiy,2004.1 15—120. 作用到不同流标识的报文上发生了冲突.则可以通过另一个哈 r希函数加以区分.这样就大大降低了冲突的发生率。实验表明:
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务