…~ DOI:10.16707 ̄.enki.fjpc.2016.12.005 丽 彳 ………一 基于拓扑结构的二分网络社区发现算法 邹凌君 (金陵科技学院信息化建设与管理中心江苏南京211169;) 【摘要】二分网络的社区划分是"3前的研究热点。本文提出了一种基于拓扑结构的二分网络社区划分算法。首先找 -出网络中所有的社区核,根据社区核的紧密度得到初始社区,最后再对孤立点进行处理,得到最终的社区划分。实验结果 表明,算法在不需事先指定社区个数的前提下,能获得较好的社区划分效果。 【关键词】二分网络;社区划分;拓扑结构 1.引言 其邻接顶点的标签,最终连接紧密并且有相同标签的顶点形成 一二分网络是复杂网络的一种重要表现形式。如图1所示, 个社区。Murata ̄71提出了LP&BRIM算法,它基于标签传播算 二分网络由两类节点构成。相同类型的节点内部没有连边,连 边只存在于不同类型的节点之间。现实生活中很多的现象都可 以用二分网络来描述。例如科学家和他们写的论文可以用科学 家一论文网『l】来描述,疾病和基因的关系可以用疾病一基因网12]来 描述。演员和他们参演的电影可以用演员一电影网来描述。 法,采用BRIM算法改进划分质量,以产生更好的社区划分,算 法适用于大型网络,可在大型网络中获得较好的划分质量。文 献Es]提出了一个基于矩阵分解的二分网络社区挖掘算法。首 先将二分网络分为两个部分,每个部分尽量完整的保存原始的 社区信息,再对两个部分进行递归分解,直至不能拆分为止。算 法能获得较好的社区划分质量。 3.算法的基本思想 3.1相关定义 一个二分网络可以用二部图G ,曰)来表示,A 和曰 分 图1二分网络 别是G的两个节点集,分别有m和n个节点。 (G ,日))和E (G ,曰))分别是二分网络的节点集和连边集。对于任意一条 连边(厶),有i∈AX 9 B 。二部图的邻接矩阵为: . 网络中的社区是由网络中的项点及其连边组合而成的集 合,同一个社区内的顶点连边较多,联系比较紧密,而不同的社 区间的顶点连接比较少。研究和分析二分网络社区能够挖掘二 分网络结构和特性,对网络有更深入的理解和认识。 本文提出了基于拓扑结构的二分社区发现算法。在原始二 分网络上进行挖掘,将二分网络中的社区核作为初始社区,根 据紧密度进行合并,最后对不属于任何社区的孤立点进行处理 :『0I … U …0 j ] 和 这里0 和0 分别是mxm和n×n阶全0矩阵, 分别是mxn和n,Xm的非0矩阵。由于邻接矩阵是对称,因 而用 表示二部图,每一行表示A类的一个顶点,每一列表 示B类的一个顶点。 定义1二分子网:假定G s,Bs),A ∈A,Bs∈B,对于任一 节点i∈A sx, ∈Bs ,满足e( , )∈E(G( )),则称G s,Bs)是原 二分网络的一个二分子网。 得到社区划分。本文提出的算法不需额外的参数,能得到较好 的划分效果。 2.相关工作 对二分网络社区发现是当前的研究热点,目前对二分网络 社区的发现算法主要分为两类。一类是将二分网络投影成单分 网络,用单分网络的方法来发现,文献E3J利用资源矩阵替代相 似度矩阵,将二分网络映射到单一网络,挖掘出同类节点问的 隐含信息。但将二分网络投影成单分网络方法会造成部分原始 信息的丢失以及投影过程中生成冗余信息等缺点。另一种方法 是直接对二分网络进行社区发现。文献[4]提出了一种二分模 块度以此来衡量社区的划分质量,该模块度使用相同类型的顶 二分网络的社区发现是要发现这样的二分子网,使得子网 内部的节点连接紧密,而子网之间节点连接稀疏,节点问相互 作用较弱。 定义2社区核:对于二分子网G ,Bs),若A 中的任一结 点都和日 中的每个结点相连,同时 中的每个结点都和A 中 的每个结点相连,则称该二分子网是一个社区核C ,Bs)。 定义3社区核的紧密度:对于任意两个社区核C ,Bs)和 czc4 s,Bs),社区核之间的紧密度定义为N【c‘): 点的共同邻居来表示社区内顶点的相似程度,并以此量化社区 内顶点的连接稠密程度。但该二分模块度只能分别对不同类型 的顶点进行划分,社区间没有对应关系。文献E5]定义了新的二 其中s(q, )={( J)l(i.,)∈E.f CI,J },N(Ck)={I(i,J)l(i,,) .f Ck.J } 定义4.孤立点的紧密度:对于任意孤立点到社区的紧密度 分模块度,并提出了能同时对异质节点进行社区划分的BRIM 算法。该方法需要事先确定社区的数量。Raghavan[6]等人提出了 标号传播方法LP用于单分网络的社区挖掘,算法首先为每个 可定义为该结点在社区中的邻居数。lⅣ( )l=l{./ .,)eE,.,ec}J。 3.2.算法描述 顶点分配一个标签,然后在迭代过程中,每个顶点尽可能选取 整个过程分为两个步骤 金项目】江苏省现代教育技术研究课题(2016一R一51167);江苏省高等教育教改研究课题(2o15JSJG562) 20l6年第12期l福建电脑 ・9・ II LJJIA 煎下器 (一)初始社区的形成 我们首先找到二分网络中的所有的社区核,社区核中的两 类结点相互之间有连边连接,因而它们的连接最紧密。然后根 该算法不需事先确定社区的个数,克服了当前很多二分网络社 区发现需要事先指定社区个数的缺点。算法还能发现社区间的 重叠,具有一定的现实意义。下一步的研究工作是研究当社团 结构不明显时如何进一步提高算法的准确度。 参考文献: l 1]Newman M E J.Scientiifc collaboration networks.I Network con— 据社区核的紧密度,将社区核进行合并。若社区核紧密度N(C , C2)大于2/3,则将其合并,否则不做处理。这一过程处理后所得 的结果称为初始社区。 (二)孤立点的处理 经过步骤一以后,仍可能有结点会不包含在任何社区中, 计算孤立点到各个初始社区的紧密度,将孤立点分配到紧密度 struction and fundamental resultsUj.Physical Review E,2001,64:016131 l 2]Chen Wen—qin,Lu Jun—an,Liang Jia.Research in disease—gene net— 最大的社区中。若和两个以上的社区的紧密度相同,则可将该 孤立点作为社区间重叠。 work based on bipartite network projection…Complexity Science,2009,6(1):13—19. Complex System and 4.实验结果与分析 [3]张嫱嫱,黄廷磊,张银明.基于聚类分析的二分网络社区挖掘 ].计 为了测试算法的性能,我们将本文的算法在妇女一活动二分 网进行测试。该数据集是由18个妇女和14个活动构成的二分 网络,每个顶点代表一个妇女或一个活动,如果一个妇女参加 了某个活动,那么这两个对应的顶点之间存在一条链接。编号 1—18表示18个妇女,编号19—32表示14个活动。 算机应用,2015,35(12):3511—3514. 14jGuimer a R,Salespardo M,Amaral L A.Module identiifcation in bi— partite and directed networks.1Jj.Physical Review E,2007,76:036102 l 5]Barber M J.Modulariy and community detecttion in bipartite networks lJ J.Physical Review E,2007,76:066102 l 6 jRaghavan U N,Mbert R,Kumara S.Near linear time algorithm to de— tect community structures in large—scale networks lJ j.Physical Review E, 2007,76:036106 l 7 jLiu Xin,Murata T,Community detection in large—scale bipartite net— works[C j//Proceedings of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intenigent Agent Technology(ggl——I—— 口 AT’09).Washington,DC,USA:IEEE Computer Society,2009:50—57 图2妇女一活动二分网 [8]陈伯伦,陈岐,邹盛荣等.基于矩阵分解的二分网络社区挖掘算法 我们使用本文算法划分此二分网络,得到了两个社区{妇 女1—8,活动19—27}和(妇女9—18,活动28—32}。该划分结果和 Davis利用人种学知识划分的结果较为一致。说明算法是有效 的。 [_J].计算机科学,2014,41(2):55—58,101. 作者简介: 邹凌君(1984一),女,江苏南京人,研究生,工程师,研究方向为复 杂网络的链接预测、数据挖掘,信息管理等。 5.结束语 本文提出了一种基于拓扑结构的二分网络社区挖掘算法。 (上接第2页) 5结论 图像 LZW LZW—MAL 6.7 6.2 J A A Fast Mgorithm to Find All the Maximal Frequent Sequences in a b 6.5 6.1 7.8 7.3 d 7.6 7.1 7.9 7-3 f 7.4 6.8 g 8_3 7.5 h 7-3 6-8 Text lM J//Progress in Pattem Recogniiton,Image Analysis and Applica— dons.Springer Berlin Heidelberg,2004:478—486 l 3 j Vergaravillegas,Osslan O,et a1.”Data Preprocessing by Sequenfid Pattern Mining for LZW”Mexican International Conference on Com— 本文结合邻近序列与页面置换方法提出了一个LZw图像 压缩的改进LZW—MAL算法,该算法结合最大邻近序列模式, puter Science 2005:82—87. [4]汤小丹梁红兵哲凤屏汤子瀛.计算机操作系统(第四版):西安电 子科技出版社:西安电子科技大学出版社.2016年08月.162—167. 1 5 J Garcia-Hernandez R A,Martinez-Trinidad I F,Carrasco—Ochoa l A. Finding maximal sequentil apatterns in text document collections and single 充分利用图像中未使用的像素值编码进行图像文件的最大邻 近序列模式替换,改善了局部而非全局搜索方式产生的字典压 缩效果,此外,使用页面置换的最近最久未使算法方法来改善 LZw算法的字典表。实验结果表明,LZW—MAL改进算法对图 像的压缩比优于LZw算法。 documents.-Jj.Informatica,2010,34(I):93—101. 作者简介: 参考文献: [1]Rehman,Mehwish,M.Shari ̄and M.Raza.”Image Compression:A Survey”Research Journal of Applied Sciences Engineering&Technology 7.4(2014):656—672. 黄剑雄(1990一),男,福建省莆田市人,研究生,研究方向:关联规 则、图像压缩。谢伙生(1964一),通讯作者,男,福建省宁化县人,副教 授,研究方向:数据挖掘、图形图像处理。 [2]Garc i a—Herna ndez R A,Mart i nez—Trinidad J F,Carrasco-Ochoa ・10・ 福建电脑l 2016年第12期