社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

GitHub 热榜:这款 Python 工具火了,可对社群结构进行可视化、检测

Python程序员 • 3 年前 • 291 次点击  

来自量子位

最近,又有一款 Python 可视化工具火了。

这一次,功能是针对图聚类问题的社群结构进行检测、可视化。

该项目的帖子在 reddit 上一经发布,就被顶到了 “机器学习板块” 的 榜首

一起来看看它究竟都能用来做什么吧~

功能亮点

这款工具叫作 communities, 是一个 Python 库,用于图聚类问题的社群结构检测。

它支持多种算法,包括:

  • Louvain 算法;

  • Girvan-Newman 算法;

  • 层次聚类算法;

  • 光谱聚类算法;

  • Bron-Kerbosch 算法。

更赞的是,communities 还可以实现这些算法的可视化

具体了解一下~

导入算法并插入矩阵

这里以 Louvain 算法为例。

这是一种基于模块度的社群发现算法,也是贪心算法。

它根据顶点的共享边将顶点排列成社群结构,也就是说,它将节点分为几个社群,每个社群之间共享很少的连接,但是同一社群的节点之间共享许多连接。

最终,让整个社群网络呈现出一种模块聚集的结构,实现整个社群网络的模块度的最大化。

所以首先,我们需要构建一个表示无向图的邻接矩阵,可以加权,也可以不加权,矩阵为 2Dnumpy 数组。

n*n 矩阵则表示有 n 个节点,矩阵的每个位置分别表示各节点之间边的关系,有边则为 1,没有边则为 0。

然后,只需从 communities.algorithms 中导入算法并插入矩阵。

import numpy as npfrom communities.algorithms import louvain_method


    
adj_matrix = np.array([[0, 1, 1, 0, 0, 0],                       [1, 0, 1, 0, 0, 0],                       [1, 1, 0, 1, 0, 0],                       [0, 0, 1, 0, 1, 1],                       [0, 0, 0, 1, 0, 1],                       [0, 0, 0, 1, 1, 0]])communities, _ = louvain_method(adj_matrix)# >>> [{0, 1, 2}, {3, 4, 5}]

接下来输出社群列表,每个社群即为一组节点。

实现可视化,并进行颜色编码

利用 communities 将图进行可视化,将节点分到社群中并进行颜色编码,还可以选择深色或浅色背景、保存图片、选择图片的分辨率等等 。

draw_communities(adj_matrix : numpy.ndarray, communities : list, dark : bool = False, filename : str = None, seed : int = 1)

其中各参数的具体含义为:

  • adj_matrix (numpy.ndarray):图的邻接矩阵;

  • dark (bool, optional (default=False)):如果为 True, 则绘图为深色背景,否则为浅色背景;

  • filename (str or None, optional (default=None)):通过 filename 路径可以将图另存为 PNG 格式;设置 None 则是用交互方式显示图;

  • dpi (int or None, optional (default=None)):每英寸的点数,控制图像的分辨率;

  • seed (int, optional (default=2)):随机种子。

具体到 Louvain 算法的可视化,代码是这样的:

from communities.algorithms import louvain_methodfrom communities.visualization import draw_communitiesadj_matrix = [...]communities, frames = louvain_method(adj_matrix)draw_communities(adj_matrix, communities)

动画呈现算法

communities 还可以动画呈现节点分配到社群的过程。

louvain_animation(adj_matrix : numpy.ndarray, frames : list, dark : bool = False, duration : int = 15, filename : str = None, dpi : int = None, seed : int = 2)

其中各参数的含义如下:

  • adj_matrix (numpy.ndarray):图的邻接矩阵;

  • frames (list):算法每次迭代的字典列表;

  • 每个字典都有俩个键:“C” 包含节点到社群的查找表,“Q” 表示图的模块度数值;
  • 此字典列表是 louvain_method 的第二个返回值;
  • dark (bool, optional (default=False)):如果为 True, 则动画为深色背景和配色方案,否则为浅色方案;

  • duration (int, optional (default=15)):动画所需的持续时间,以秒为单位;

  • filename (str or None, optional (default=None)):通过 filename 路径将动画存为 GIF;设置 None 则以交互方式展示动画;

  • dpi (int or None, optional (default=None)):每英寸点数,控制动画的分辨率;

  • seed (int, optional (default=2)):随机种子。

例如,空手道俱乐部网络中 Louvain 算法的动画呈现:

from communities.algorithms import louvain_methodfrom communities.visualization import louvain_animationadj_matrix = [...]communities, frames = louvain_method(adj_matrix)louvain_animation(adj_matrix, frames)

我们可以看到 Louvain 算法的动态过程:

  • 首先扫描数据中的所有节点,将每个节点看做一个独立的社群;

  • 接下来,遍历每个节点的邻居节点,判断是否将该节点加入邻居节点所在的社群,以提升模块度;

  • 这一过程重复迭代,直到每一个节点的社群归属稳定;

  • 最后,将所有在同一个社群的节点压缩成一个新节点,计算新节点的权重,直到整个图的模块度稳定。

大家可以通过文末链接,自行尝试一下其他算法~

此外,它还可以用于社群间邻接矩阵、拉普拉斯矩阵以及模块度矩阵等。

对于这款工具,不少网友发出 “awesome”、“really cool!” 等花式赞叹,表示正是自己需要的。

当然,也有网友提出疑问,例如:是否可以指定执行的迭代次数(例如:提前停止)?

开发者对此表示:不能,但是对于某些算法,可以指定要将图形划分为多少个社群。

作者简介

项目开发者 Jonathan Shobrook,他目前是美国一家电商公司的软件工程师。

之前 GitHub 上的热门项目 Rebound,也是出自他手,已经获得 3.5k 星。

更多信息可戳下方链接了解~ 

相关链接:
[1]https://github.com/shobrook/communities
[2]https://www.reddit.com/r/MachineLearning/comments/lozys9/p_i_made_communities_a_library_of_clustering/




福利

入门Python的最强三件套《ThinkPython》、《简明Python教程》、《Python进阶》的PDF电子版已打包提供给大家,关注下方公众号,在后台回复关键字P3」即可获取。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/112180
 
291 次点击