联邦学习——基于聚类抽样进行客户选择_联邦学习小白的博客-CSDN ...

一、节点选择策略

文章提到，目前大多数的节点选择策略都需要额外的server-clients通信代价，且无法实现无偏抽样。作者的观点是，FedAvg和MD抽样是仅有的能保持最小server-clients通信代价的节点选择策略。

1、FedAvg

我们知道FedAvg算法在每轮聚合时都只选择部分节点进行聚合，但它的选择方式是随机的，这将导致有偏抽样，且一些具有独特数据分布的客户可能难以被选中，进而影响全局模型的收敛。

multinomial distribution(MD)抽样的节点选择概率与该节点的相对样本数量（样本数量在所有客户样本数量中的比例）相关。实验证明，MD抽样的表现优于FedAvg，且可实现无偏抽样。
文章提到“据我们所知，FedAvg和MD抽样是保持最小sever-client通信的唯一方案。并且MD抽样已经被证明可以使FL达到最佳状态”
但MD抽样在节点选择过程中仍存在较大的差异，具体来讲，比如抽样m次，MD中客户被抽中的次数为0-m，这可能使每一轮参与聚合的客户的数据分布与上一轮的存在巨大差异，且一些客户可能从头到尾未被抽到， 进而降低了一些客户的代表性，并使全局模型的收敛存在较大的不稳定性 。

3、聚类抽样

聚类抽样是一种对MD抽样进行改进的新的无偏客户抽样方案，在保持最小的sever-clients通信代价的基础上，保证更小的节点选择差异性。同时为提高模型聚合时每个客户的代表性，聚类抽样保证了那些具有独特数据分布的客户可以被选中，从而实现更平滑、更快速的全局模型收敛。
聚类抽样和MD抽样的不同在于，MD根据 相同的客户分布

2、MD抽样的收敛边界

聚类抽样是在MD的基础上进行优化的，文章证明了聚类抽样在实现更小的聚合权重、更高的客户代表性的同时，能实现无偏抽样，且具有与DM相同的收敛边界。
关于MD的收敛性分析我就直接贴原文了，其中三个假设都是SGD分析和联邦优化常用的，基于这些假设证明了MD的收敛边界。

3、聚类抽样的收敛边界

文章进一步证明，采用聚类抽样进行节点选择的FedAvg只要满足假设1-3和命题1，就可以实现与采用MD抽样进行节点选择的FedAvg相同的收敛边界。并且，聚类抽样还能实现更快更平滑的收敛。后续实验证明，面对IID数据时，聚类抽样和MD几乎收敛于同一最小值，而面对Non-IID时，聚类抽样则可以收敛至更小值。

四、聚类抽样相对于MD抽样的优点

聚类抽样不仅可以实现和MD抽样相同的收敛边界，还能实现更平滑更快的收敛，在Non-IID情况下，聚类抽样实际上能收敛至更小值
聚类抽样可以减少客户的聚合权重方差。
使用聚类抽样，每个客户被抽样的概率更高，因此在整个FL过程中得到更好的代表性。增加客户代表性可确保具有独特分布的客户更有可能被抽中，并可能实现更平滑和更快的FL收敛。

这些改进对于具有异构联邦数据集的FL应用非常重要。

五、两种聚类抽样算法

满足命题1的聚类抽样算法有很多，文章提出了两种算法，分别是“基于样本数量”和“基于模型相似度”的聚类抽样。

1、基于样本数量的聚类抽样

得结合Algorithm 1 和 Figure 3来理解。
其实很简单，主要分四步：

每个客户的样本数量为
按顺序将每个客户的样本放入m个分布，多的就放到下一个，也就是Figure 3那样。
根据客户在每个分布中的样本数量定义其在该分布中被抽样的概率
每个分布抽一个客户，共抽样m个客户。

文章证明了通过Algorithm 1 进行抽样，相比于MD中每个客户最多能被抽样m次，聚类抽样中每个客户被抽中的次数最高为ceil(m $)+2，这能提高客户的代表性并降低节点选择的差异性（被抽样的次数相差不大）。$
并且这一抽样方案是符合命题1的，也就是说，Algorithm 1 是无偏抽样。

2、基于相似性的聚类抽样

相似性的定义 ：文章中提出的相似性是基于“代表性梯度”的，“代表性梯度”就是客户的本地模型和全局模型的差异。
这个算法与“基于样本数量”的聚类抽样很像，只不过“基于相似性”的聚类抽样允许聚类数量K可以不等于分布个数m。同样得结合Algorith 2 和Figure 4进行理解。
当k=m时，就可以应用和算法1的相同推理。
当k>m时，就考虑对多出来的k-m个聚类进行重新分配。
具体可以分为以下几步：

首先计算每个客户的“代表性梯度”，根据“代表性梯度”，通过层次聚类将客户聚成k个类，且k≥m。（关于客户数据量的定义和算法1一样）
聚类结果为{ $\leqM）$
将前m个类分别置于m个分布
剩下的k-m个类依次填充这m个分布
根据客户在每个分布中的样本数量定义其在该分布中被抽样的概率
每个分布抽一个客户，共抽样m个客户。

由于分布是由“代表性梯度”产生的相似树获得的，因此该方案基于客户的相似度提升了客户的代表性。

算法2不需要共享客户的梯度，只需要共享“代表性梯度”，这在实现和标准FL相同的通信代价的同时，保证了客户的隐私。

可以采用任何层次聚类算法进行聚类。

即使是在有大量客户的情况下，算法2的时间复杂度问题也不大。因为在聚合了新的全局模型之后，服务器可以对客户进行抽样，并将全局模型传给客户。在等待本地训练完成的同时，服务器可以预估新的划分（把每个聚类放入各分布中）。

当每个客户的样本量占比
 1、 IID情况下

对比MD、Algorithm 1、Algorithm 2、Target四种抽样方案，其中Target是聚类抽样的一种理想情况，需要提前获得客户的数据分布，所以在实际应用中并不可行，但可以作为一种对算法的优化目标。
数据集：MNIST
客户端设计：共100个客户，每个客户有500train，100test，这600条样本为同一个数字，且每个数字分配给10个用户，也就是100个客户可以聚成10个类。

2、Non-IID情况下

对比MD、Algorithm 1、Algorithm 2
数据集：CIFAR10
客户端设计：采用迪利克雷分布(a越小，异构性越强)对CIFAR10进行划分并分配给100个客户，其中10，30，30，20，10个客户分别具备100、250、500、750、1000条训练数据和20、50、100、150、200条测试数据（训练数据的1/5）。

Algorithm 1和Algorithm 2都能实现更小的权重方差，并以此提高了客户的代表性。并通过实验证明两个算法都可以在Non-IID数据集下实现更快更平稳的收敛性质。
《Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Federated Learning》针对目前联邦学习中的客户选择策略存在的偏倚问题、server-client通信和训练稳定性问题，这篇文章提出采用聚类抽样的方法进行客户选择，并证明了聚类抽样能提高用户的代表性，并减少不同客户聚合时的权重差异。本文提出了基于样本数量和模型相似性的两种聚合抽样方法，并通过实验证明，采用聚类抽样的方法 1. 论文地址： [2105.05883v2] Clustered Sampling: Low-Variance and Improved Representativity for Clients Selection in Federated Learning (arxiv.org)
本文所要解决的问题是异构客户端资源（数据资源：规模过大/小、计算能力：有快有慢、无线通信条件：模型参数传输时长差异）——延长服务器的聚合、更新步骤，进而降低模型训练的效率。为解决上述问题，作者提出了FedCS框架，相较于传统的模型，其创新点在于增加了 Resource Request步骤，该步骤可以帮助移动边缘计算（MEC）服务器依据工人上传信息评估其“优劣”。针对上述三种异构情况，若某工人的本地数据集太大/小，计算能力弱、信道状况差则会被工人选择算法（贪婪）pass掉，进而保证全局模型训练效率。.

至此聚类相关的内容告一段落，前面十篇博客介绍了常见的几种聚类算法，也加入了一些代码实现。这篇博客来一个汇总的实例，分别创建圆形数据、月牙形数据、聚团数据以及随机数据，并测试不同数据在各种不同聚类算法中的聚类效果以及消耗时间。 import time import warnings import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt from sklearn import cluster from sklearn import datasets as ds from sklearn.neighbo

谱聚类是基于谱图理论基础上的一种聚类方法，与传统的聚类方法相比：具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。（但效率不高，实际工作中用的比较少）通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的；其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。谱聚类算法将数据集中的每个对象看做图的顶点 V，将顶点间的相似度量化为相应顶点连接边E的权值 w，这样就构成了一个基于相似度的无向加权图 G(V,E)，于是聚类问题就转换为图的划分问题。基于图的最优划分规则就是子图内的相似度最大，子图间的相似度最小。谱聚类的构建过程主要包含以下
本篇博文为数据挖掘算法系列的第一篇。现在对于Kmeans算法进行简单的介绍，Kmeans算法是属于无监督的学习的算法，并且是最基本、最简单的一种基于距离的聚类算法。下面简单说一下Kmeans算法的步骤：选随机选取K的簇中心（注意这个K是自己选择的）计算每个数据点离这K个簇中心的距离，然后将这个点划分到距离最小的簇中重新计算簇中心，即将每个簇的所有数据点相加求均值，将这个均值作为对应簇的新簇中心。重复2、3步，直到满足了你设置的停止算法迭代的条件注意：停止算法迭代的条件一般有三个：没有（或最小数目）对象被重新分配给不同的聚类。没有（或最小数目）聚类中心再发生变化。用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别基于位置信息的商业推送，新闻聚类，筛选排序图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段 1.2 定义聚类算法：一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。 1.3 聚类算法与分类算法最大的区别聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。 1.4 聚类算法api初步使用 sklearn.cluster.KMean
假设我们有一个在线零售商的顾客数据，其中包含顾客的购买历史、个人信息等。我们可以使用聚类算法对这些顾客进行细分，以更好地了解他们的购物行为和偏好，从而提高我们的市场营销策略。首先，我们需要选择一个合适的聚类算法，例如K-means 聚类算法。然后，我们需要对数据进行预处理，如标准化、缺失值填充等。接下来，我们可以使用聚类算法将顾客划分为不同的群组。每个群组代表一类具有相似购买行为和偏好的顾客。我们可以通过观察每个群组的特征来了解每个群组的典型顾客。例如，如果一个群组中的顾客都购买了相同类型的商品，那么我们可以推断这个群组的典型顾客可能是对这种商品感兴趣的人。最后，我们可以将每个群组的结果可视化，以便更好地理解每个群组的特点和区别。这样，我们就可以基于聚类算法得到客户细分的结果，并制定更加针对性的市场营销策略，以提高销售和顾客满意度。