weka教程（五）-衍因智研云

weka教程（五）

admin 4 2025-02-13 14:57:08 编辑

6. 聚类分析原理与实现聚类分析中的“类”（cluster）和前面分类的“类”（class）是不同的，对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇，使得同一个簇的实例聚集在一个簇中心的周围，它们之间距离的比较近；而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说，这个距离通常指欧氏距离。现在我们对前面的“bank data”作聚类分析，使用最常见的K均值（K-means）算法。下面我们简单描述一下K均值聚类的步骤。K均值算法首先随机的指定K个簇中心。然后：1)将每个实例分配到距它最近的簇中心，得到K个簇；2)计分别计算各簇中所有实例的均值，把它们作为各簇新的簇中心。重复1)和2)，直到K个簇中心的位置都固定，簇的分配也固定。上述K均值算法只能处理数值型的属性，遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换，而且WEKA会自动对数值型的数据作标准化。因此，对于原始数据“bank-data.csv”，我们所做的预处理只是删去属性“id”，保存为ARFF格式后，修改属性“children”为分类型。这样得到的数据文件为“bank.arff”，含600条实例。用“Explorer”打开刚才得到的“bank.arff”，并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”，这是WEKA中实现K均值的算法。点击旁边的文本框，修改“numClusters”为6，说明我们希望把这600条实例聚成6类，即K=6。下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。选中“Cluster Mode”的“Use training set”，点击“Start”按钮，观察右边“Clusterer output”给出的聚类结果。也可以在左下角“Result list”中这次产生的结果上点右键，“View in separate window”在新窗口中浏览结果。结果解释首先我们注意到结果中有这么一行： Within cluster sum of squared errors: 1604.7416693522332这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样；实际上如果把“seed”参数改一下，得到的这个数值就可能会不一样。我们应该多尝试几个seed，并采纳这个数值最小的那个结果。例如我让“seed”取100，就得到Within cluster sum of squared errors: 1555.6241507629218我该取后面这个。当然再尝试几个seed，这个数值可能会更小。接下来“Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性，簇中心就是它的均值（Mean）；分类型的就是它的众数（Mode），也就是说这个属性上取值为众数值的实例最多。对于数值型的属性，还给出了它在各个簇里的标准差（Std Devs）。最后的“Clustered Instances”是各个簇中实例的数目及百分比。为了观察可视化的聚类结果，我们在左下方“Result list”列出的结果上右击，点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标，第二行的“color”是散点图着色的依据，默认是根据不同的簇“Cluster”给实例标上不同的颜色。可以在这里点“Save”把聚类结果保存成ARFF文件。在这个新的ARFF文件中，“instance_number”属性表示某实例的编号，“Cluster”属性表示聚类算法给出的该实例所在的簇。

感谢关注

weka教程（五）

NC重磅！CellChat：单细胞通讯分析工具！

159 2024-12-18

weka教程（五）

【2600+】生物信息分析书推荐

如何利用DAVID做富集分析

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

如何通过科研用人工智能工具与技术创新提升科研管理效率？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

科研样品管理，生物医药科研的基石

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

如何通过智能科研工具提升研究效率与数据分析助力科研创新

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

如何利用人工智能提升智能科研工具的数据可视化效果以优化科研效率？

掌握DNA重组技术，如何提升转化效率以成功构建高效重组蛋白？

智能科研工具如何提升工作总结效率与科研创新能力

深度学习与生物医药AI大模型如何重塑药物研发的未来？

热门文章

如何通过科研用人工智能工具与技术创新提升科研管理效率？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

科研样品管理，生物医药科研的基石

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

如何通过智能科研工具提升研究效率与数据分析助力科研创新

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

如何利用人工智能提升智能科研工具的数据可视化效果以优化科研效率？

掌握DNA重组技术，如何提升转化效率以成功构建高效重组蛋白？

智能科研工具如何提升工作总结效率与科研创新能力

深度学习与生物医药AI大模型如何重塑药物研发的未来？

最新文章

找到基因序列如何得到引物，揭秘科学背后的秘密

知道引物序列如何计算退火温度，探索科学的乐趣

SMART蛋白质结构域注释的20年(附用法）

最全、最干的生信干货强势来袭

别让“铜死亡”成为你的“痛点”

微生物多样性分析神器Qiime的centos 6.7的安装历程

知道引物序列如何查片段大小，揭示基因组秘密

weka教程（五）

李笑来老师说：付费就是捡便宜

dna复制的引物为什么是rna, 揭秘其关键作用

热门标签