当前位置: 首页 > Web前端 > HTML

CSCE474-874:数据挖掘导论

时间:2023-04-02 15:17:19 HTML

CSCE474/874:数据挖掘简介2021年春季家庭作业32021年3月2日作业实施k-means算法执行聚类并将你的结果与Weka的结果进行比较。?假设所有属性都是连续变量。?你的程序必须允许数字要指定为输入的簇(k)。?您的程序必须允许将epsilon(距簇中心的距离总和的变化)指定为输入。?您的程序必须允许将迭代次数指定为输入.如果达到迭代次数或者距离平方和(SSD)的总和的变化低于epsilon,您的程序应该停止。将算法的运行时间绘制为簇数、维度数和数据集的大小(交易数量)。绘制聚类优度作为聚类数量的函数,并确定最佳聚类数量。比较将你的算法的性能与Weka的算法进行比较,并总结你的结果。对于这项任务,你将团队合作。使用您将要为项目处理的域中的数据集。如果数据不合适,你可以使用Wekadataset中的一个。所有代码必须由你的团队成员编写。您不得使用来自任何其他来源的任何代码,包括其他学生和互联网。截止日期该作业于3月16日到期,价值100分。提交一份报告以及您的程序列表,测试运行产生的输出画布上的文件。确保您已上传一份已签名的捐款表格副本。准备并提交以下两个文件:?您的报告名为“Lastname1_Lastname2.pdf”,格式为pdf。签名的贡献表格应该用作报告的封面。?一个名为“Lastname1_Lastname2.zip”的zip文件,其中包含其他所有内容(您的程序,从th生成的输出e运行测试文件等)。您必须包含一个描述程序用法的README文件。确保您的实施可以在CSE服务器上成功执行。评分指南实施k-means算法以在数据集中执行聚类。(50分)?您的实施将使用您在README文件中提供的命令在cse.unl.edu服务器上进行测试。(30分)?在报告中,您应该写一段关于您的程序设计的内容(10分)将算法的运行时间绘制为集群数、维数和数据集大小(事务数)的函数。(20分)?在报告中,你应该写一个段落来总结观察结果并对其进行详细说明。绘制聚类优度作为聚类数量函数的图,并确定最佳聚类数量。(20分)?在报告中,你应该写一段话来总结观察并对其进行阐述。比较绩效将你的算法与Weka的算法进行比较并总结你的结果。(10分)?总结差异(如果有的话)并详细说明(为什么/如何)。WX:代码帮助