悉尼大学BUSS6002Assignment1课程作业分析题意:处理房价数据,建立模型预测房价分析:1)用计算机处理数据,需要找出可能不合理或错误的项目存在于数据中并加以论证,解释变量之间的关系。2)回答下列问题:如果要建立房价回归模型,是否应包括截取项;多变量是否是数据集中的潜在问题;如果只能使用三个变量,那三个变量最能预测房价;建立了由这三个变量组成的回归模型。3)对得到的模型进行标定;解释选择使用EDA的意义,并展示结果;比较新旧模型,解释为什么要用校正系数来比较模型;解释为什么新模型是合理的。4)讲解如何用科学的数据处理进行建模和评价,并选择一个过程模型作答;如果另一家公司考虑在某个地方投资,请说明获得的模型是否可以选择另一个地方。对您获得的任何结果进行完整解释和解释的最终报告。没有解释的输出将获得零分。您还需要提交可以重现报告结果的代码,因为可重现性是数据科学的关键组成部分。不提交您的代码将导致50%的作业标记丢失。请注意,个人之间的剽窃对于作业标记来说总是显而易见的,并且可以很容易地被Turnitin检测到。作业的呈现是作业的一部分。您的报告展示和代码提交将有10分。报告不应超过10页,包括文本、图形、表格、插入代码的小部分等。考虑最好和最结构化的方式来展示您的工作,总结实施的程序,支持您的结果/发现并证明您工作的原创性。您将提供您的代码作为单独提交给报告;但是,您可以在必要时在报告中插入一小段代码。您的代码提交没有长度限制,但是代码演示会分配标记,因此请尽可能使您的代码简洁,并在必要时添加注释以解释您的逻辑和目的每个代码段。确保删除任何不必要的代码,并确保您的代码可以无错运行。带小数点的数字应报告到第三个小数点。项目描述和数据集假设您是一家房地产投资公司的数据科学家。该公司正在评估在美国投资住房重建的地点。为此,该公司已确定西雅图的几个潜在地点来购买现有房屋,这些房屋将被拆除以便为重建腾出空间。为了估算所涉及的成本,该公司需要了解其需要购买的房屋的当前市场价值se。你正在从事一个旨在建立模型来估算房价的项目。西雅图的评估部门自2014年以来一直在收集有关房屋销售价格和每所售出房屋特征的数据。您已获得原始数据库“house.db”的副本(一个SQLite文件)以及数据字典文件“house_dict.txt”的访问权限。您可以从BUSS6002Canvas站点下载数据集和详细的数据集描述。提示:要列出数据库中的所有表,您可以使用以下查询SELECTnameFROMsqlite_masterWHEREtype='table'ORDERBYname;Task1Tostartyouranalysis,youwish执行全面的EDA以帮助您更好地理解给定的数据集。您在此任务中获得的结果将用于告知您的建模选择。要求:a。检查并处理给定数据集中的任何缺失数据(如果有的话)。b。寻找并删除任何可能会影响的潜在异常值(如果有的话)等你的造型。证明你的答案是正确的。通过适当的绘图可视化解释变量和目标变量之间的关系。报告你的分析和发现。任务2假设你现在想建立一个原型模型来预测房屋销售价格,这将被展示给更广泛的团队。因此,它需要让非专家容易理解,这意味着您只能使用模型中的几个变量作为起点。为了对您的建模选择做出明智的决定,您需要回答以下问题:a。假设您想建立一个线性回归模型来预测房屋销售价格,您是否希望在您的模型中包含一个截距项?仔细解释你的答案。你认为多重共线性可能是给定数据集的潜在问题吗?使用你对变量的理解来证明你的答案是正确的,并使用适当的数值测量来验证你的假设。解释你的决定根据您的发现继续进行。如果你只想用三个变量来预测房价,你会选择哪三个变量?仔细论证你的选择并解释你的选择标准。d.使用您选择的三个变量构建线性回归模型(使用原始变量,即未设计的变量用于此任务)。报告和解释你的回归结果。执行残差诊断以衡量拟合优度。报告您的发现。任务3到目前为止,您构建的模型提供了房价的近似估算。但是,要准确估算重建计划的成本,您必须能够尽可能准确地估算房价。您现在的目标是改进您的模型尽可能多地通过特征工程和特征选择。您可以考虑所有变量并根据需要对变量应用适当的转换。要求:a。你的模型应该有一个最小的调整dR平方为75%。如果您的模型无法达到75%的调整R平方,请报告您可以获得的最佳模型。使用EDA证明您选择的特征工程策略并展示您的结果。将您的新模型与您在任务2中构建的模型的AdjustedR-Squared进行比较。解释为什么你应该在这里使用AdjustedR-Squared来比较两个模型。提供残差分析来证明为什么你的新模型更合理。任务4假设你已经完成了你的分析,现在你需要向你的经理报告并反思你在你的项目中试验了什么:a。根据您对前三个问题的回答,反映您如何利用数据科学过程模型进行建模和模型评估。只选择一种进程模型(CRISP-DM或SnailShell)来回答这个问题。解释问题的每个部分如何与流程模型的不同阶段保持一致.b.该公司也在考虑在其他地点进行重建项目。请评论您构建的模型是否可以应用于其他地点。证明你的答案。
