永利官网博士生闫杰于2024年7月12日-14日参加了由中国现场统计研究会、概率统计学会、全国工业统计学教学研究会、中国商业统计学会和IMS China联合组织,云南大学数学与统计学院、云南省统计建模与数据分析重点实验室、云南省应用统计学会承办的“第二届全国统计与数据科学联合会议”。该会议旨在促进统计与数据科学领域国内外学术交流,引领创新的学术文化,推动“政用产学研”结合,以国家战略需求为导向,为建设世界科技强国提供有力的统计学与数据科学支撑。联合会议每年7月中旬举行,会期2-3天。
7月12日下午,闫杰同学在分会场汇报了题为《Elevating Federated Clustering: Deep Generative Models and Contrastive Learning Strategies》的联邦聚类系列论文。该系列文章由永利官网张忠元教授指导完成。此次参会获得yl7703永利官网研究生学术交流支持计划的资助。
联邦聚类的意义在于通过分布式数据处理与隐私保护技术,解决跨设备、跨组织的非独立同分布数据聚类问题,提升数据处理效率与安全性。传统聚类方法通常假设数据可以集中到中央服务器上进行处理,但在许多实际应用中,数据分布在多个独立的客户端,隐私保护要求限制了这些本地数据的共享与集中处理。因此,联邦聚类应运而生,使多个客户端能够在不共享原始数据的情况下协同完成数据分组任务。现有的联邦聚类方法通常是传统聚类方法的拓展,例如拓展于k-means(KM)和fuzzy c-means(FCM)的k-FED和FFCM。然而,客户端之间的数据分布往往并不是独立同分布的,这会导致模型性能欠佳,特别是在高维数据处理方面。为此,我们首先探索了将联邦聚类与深度生成模型相结合的可能。通过在生成的数据上执行基于自编码器的深度聚类方法,我们可以使模型免受非独立同分布问题的影响,显著提升其在高维数据上的表现。然而,尽管如此,由于自编码器的表示学习能力不足,以及生成数据可能带来的隐私风险,这一结合方式的聚类质量仍与最先进的集中式聚类方法存在显著差距。进而,我们将联邦聚类与对比学习模型相结合,并采用经典的联邦平均框架。通过学习更有利于聚类的表示,某些联邦场景中的表现得到了显著改善。然而,我们的实证和理论分析表明,随着非独立同分布水平的增加,学习到的表示在多个维度上往往会出现相关性增强的问题,导致性能下降且不稳定。为解决这一问题,我们引入了一种去相关正则化器,旨在有效缓解非独立同分布问题的负面影响。在多项实验证据中,去相关正则化器显著提升了聚类性能。在最显著的情况下,归一化互信息(NMI)得分提升高达0.32。此外,从实际应用的角度来看,这些方法在应对设备故障问题时也表现出色。报告结束后,评委老师从论文选题、模型设计、实验设计等方面对本文进行了点评并提出建议。
返校后,闫杰同学于2024年9月7日在沙河校区主教207教室做了参会系列论文的校内公开报告。报告中,学术讨论气氛热烈,与学院的老师和同学们深入探讨了联邦聚类及联邦学习的发展动向,并分享了会议中的收获与思考。
闫杰同学表示,通过参加此次研究会,既拓展了学术视野,深化了对联邦聚类前沿课题的理解,也更加清晰了未来研究的路径。同时,自己在交流中意识到,联邦聚类作为一个重要的研究方向,仍未得到广泛的关注。基于此,我们团队创建了一个开源库,汇总了相关文献与代码,期望能为学术界和产业界提供有益的参考,助推联邦聚类领域的进步与繁荣。
撰稿人:闫杰
审稿人:邓露 张忠元