当前位置: 首页 > 后端技术 > Python

AMS315数据分析方法详解

时间:2023-03-25 20:30:08 Python

AMS315数据分析,2019年春季第一份计算作业第一份报告将于3月26日星期二提交,但可以在4月2日之前提交而不会受到处罚。这份报告价值60个考试分。请记住还有第二个项目要来,所以你应该尽快完成第一个项目。请按照班级黑板上的说明通过电子邮件提交您的项目。详细投稿信息在线。项目1有两个部分。该项目共有三个文件。其中两份文件用于A部分,一份文件用于B部分。这些文件标有您的StonyBrookID号码的最后四位数字。PartAPartA分20分。A部分的两个文件各包含一列受试者ID和一列因变量值或自变量值。您的第一个任务是按主题ID对这两个文件进行排序并合并它们。你不应该只使用“剪切和粘贴”来合并你的数据。其次,您需要处理丢失的数据。您的报告应包含至少具有一个自变量值或因变量值的受试者ID的数量。它还应包括具有自变量值的受试者ID的数量计数、具有因变量值的受试者ID的数量计数、具有自变量和因变量的受试者ID的数量计数值,以及具有至少一个自变量值或因变量值的受试者ID的数量。您的第二个任务是估算缺失值。有许多丢失数据的程序。统计软件包通常在软件中具有插补算法。例如,R有5种不同的算法可用。您可以选择除列表删除之外的任何算法。在报告中指定您的选择。通常,插补方法的选择如果缺失数据的比例为30%或更少,则对结果几乎没有影响。然后,您应该使用您选择的统计包来找到拟合线性模型。PartBPartB值40分。B部分的数据文件包含一行对应每个受试者ID。该行将包含受试者ID、自变量的值和因变量的值。可能需要对IV或DV或两者进行转换。您应该阅读文本以获取有关拟合模型的建议。应应用失配(LOF)测试。您有责任找到重复(或接近重复)的自变量值。也就是说,您应该将附近重复的数据分到一个级别。例如,假设和。虽然没有完全重复的x值,但您可以将这些点合并到一组几乎重复的点中。即选择平均x值作为binning后的x值。那么您的分箱数据将是和。现在,在对所有接近重复的值进行分箱后,对数据集执行LOF测试。您必须提交一份关于问题A的一页报告和一份关于问题B的一页报告。每份报告应包含四个部分。引言应包含对问题的陈述和论文的目的。这部分很简单:您的问题是恢复用于根据自变量值生成因变量值的函数。您收到的数据将由模拟程序生成。第二部分应该描述你的方法。具体来说,文件是如何合并的,用于执行统计分析的程序,是否使用线性回归和其他程序,例如失拟检验,数据中存在多少缺失数据,以及处理缺失的程序数据。第三部分应该包含你的结果:因变量的变异分数是多少解释、方差分析表、拟合函数、斜率的置信区间和斜率为零的零假设检验。第四部分应该是结论和讨论。本节应侧重于“大局”问题。变量之间是否存在关联?它有多重要?也就是说,r平方值是多少。你的拟合函数是什么?您可以提交更长的计算机工作和程序附录。重要提示:简单地提交您的计算机输出是不可接受的,并且将获得0分。您必须提交正式报告才能开始获得非零学分。对上学期的评论进行评分确保您在报告中关注“大局”问题。例如,您选择的拟合数据的函数是什么。您是否考虑了您收到的所有观察结果?你的结果有意义吗?确保你编辑你的发现以专注于你的最终模式湖。在B部分报告其他模型的一个有用示例是报告没有转换的模型的r平方以建立比较基础。避免在报表中放置大量代码。这些可以放在附录中。即使在这里,将您报告的代码编辑为您用于获取最终报告的实际代码也很有价值。A部分Deductions-5r-squared的错误解释-5缺失数据的不正确或不完整的计算-5没有缺失DV值的报告-5不完整和仓促的报告。-5缺失数据的列表删除报告-5插补方法的不完整报告-10无缺失数据报告-10缺失数据报告不完整的列表删除-10无插补方法报告-10观察次数不正确-10无结论-10无拟合函数报告-15缺失数据处理错误PartBDeductions-5报告多,代码少。-5错误转换-5混淆语句拟合函数和缺失方差分析表-5呈现除最终模型以外的模型的结果。-5最终转换模型中的残差图不令人满意-5未考虑转换IV。-5未报告来自方差分析表的细节。-10未说明拟合函数-10拟合函数中使用的转换不清楚-10未考虑转换类的说明-10仅考虑一种转换-10报告不完整且仓促。-10不完整的方法部分-10没有失拟检验的报告-10关于失拟检验的错误结论-10错误地使用回归检验作为失拟检验-10没有讨论转换结果-10没有讨论模型的充分性-20Anova表错误-20反转IV和DV-20当需要从散点图中明显看出时未考虑转换-30错误的假设决策-40未报告结果-40将DV和IV组合成最终的IV示例报告这里是一个样本代表排序。请记住,这只是第一个项目应该是什么样子的一般概念。您不得复制并粘贴它以作为更改了数字值的报告提交。这种行为是剽窃,你将获得0分。简介目标是找到描述问题A中数据的模型。使用未知线性函数的模拟程序用于生成数据。方法论为了解决问题A,我们使用了统计软件包SPSS和MicrosoftExcel电子表格程序。原始数据文件随Excel格式的两个数据表一起提供。一个数据表有观察的ID及其相关的自变量值,另一个数据表有ID和相关的因变量值。自变量数据文件共有710个ID#为1~729的自变量值,因变量值共有690个因变量值ID#范围从1到730。我们首先将两个文件中的数据按ID#升序排序,然后使用Excel合并文件。我们接下来使用列表删除来删除40个缺少自变量值或因变量值的条目。最后,我们将两个文件合并为一个文件,其中包含三列:ID、IV和DV。有670个条目具有这两个值,ID#范围从1到729。然后将数据导入SPSS。我们假设我们的数据是线性回归,但为了找到更好的拟合,我们还将因变量转换为DV^2、Sqrt(DV)并将自变量转换为IV^2、Sqrt(IV)、1/IV和ln(IV).结果模型Y=B+B1X的拟合函数为DV=20.966IV+2123.719,解释了99.9%的方差。斜率的95%置信区间为[20.914,21.019]。截距的95%置信区间为[2068.988,2178.450]。方差分析选项卡le如下所示,自变量和因变量之间的关联非常显着(p=0.000)。表1方差分析表DV回归IV(n=670)ANOVAa模型平方和Df均方FSig.1回归25021381100.435125021381100.435617186.738.000b残差27081402.66466840541.022合计25048462503.099669a.因变量:DVb。预测变量:(常数),IV结论对于问题A,自变量和因变量之间的关联非常显着(p=0.000),解释了99.9%的因变量变异。残差与预测值的关系图证实了该模型的有效性。报告结束注意:对于B部分,请报告您执行的转换,以及使用您决定的转换的模型。WX:代码帮助