机器学习算法/模型——有监督到无监督（聚类）：由KNN 到K ...

1. KNN（K-Nearest Neighbor）

注： 超参数 —— k 的取值大小，直接影响着KNN 算法的结果。

当取 k=3 时，根据多数选举法，预测结果为 B；但当 k=6 时，依然是根据多数选举法，预测结果就成为了 A。

k 是 KNN 算法唯一的超参数，因此，它对于 KNN 尤其重要。这一点和 KMeans 的 k 参数之于 KMeans，颇为神似。

聚类技术，一句话概括：聚类就是通过对样本静态特征的分析，把相似的对象分到同一个子集，属于一种无监督式学习算法。

所以这在本质上回到了不同样本之间的 相似性度量 （Similarity Measurement）。这时通常采用的方法就是计算样本间的 “距离” （distance)。

核心：把样本分配到离它最近的类中心所属的类，类中心由属于这个类的所有样本确定
本质：K代表的是K类，means代表的是中心。 K-means的本质就是确定K类的中心点，当找到了这些中心点也就完成了聚类。

K-means 是通过迭代的方式寻找K个簇（Cluster）的一种划分方案，使得聚类结果对应的代价函数最小。

K-Means算法实施需要满足两个前提：

根据分布的先验概率，求得K

种子点的选取要cunning，尽量地远一点

代价函数可以定义为各个样本距离所属簇中心点的误差平方和：

其中x _i 代表第i个样本，c _i 是x _i 所属于的簇，μ _ci 代表簇对应的中心点，M 是样本总数。

EM 算法
期望最大化（expectation-maximization，E-M）是一种非常强大的算法，应用于数据科学的很多场景中。k-means 是该算法的一个非常简单并且易于理解的应用。

EM 步骤

EM 可能不会达到全局最优结果
解决：用不同的初始值尝试很多遍

在 Scikit-Learn 中通过 n_init 参数（默认值是 10）设置执行次数。

必须提前告诉算法簇的数量（K 值）

解决：合理选择 K 值—— 手肘法