当前位置: 首页 > 科技观察

赶快存起来!109道数据科学面试题及答案,你绝对不能错过的宝库!

时间:2023-03-20 13:07:10 科技观察

不管你是拥有数万经验值的“老手”,还是初出茅庐但才华横溢的“新手”,面试官总能“卡住你”。在面试过程中,面试官的问题可能涉及面很广,这不仅考验面试官的技能和知识,也体现了面试官的沟通能力。面试官会通过一系列的问题来衡量你的数据统计、编程、数据建模能力,而这些问题是专门设计来要求你集中注意力,逼迫你在压力下展示自己的工作状态的。良好的准备是数据科学事业成功的关键,这当然包括面试过程。怎样才能不被面试官“莫名其妙”?如何在数据科学面试中脱颖而出?小新特地整理了这次你要准备的所有数据科学面试题,包括国内外109道面试题及答案,都是面试官在科学面试中遇到的数据真题,作为最后给大家的福利oftheyear~收入囊中~现在,我们把数据科学家会遇到的面试题分为六大类:统计类、编程类、建模类、行为类、文化类、解题类。StatisticsProgrammingGeneralQuestionsBigDataPythonRLanguageStructuredQueryLanguage(SQL)ModelingBehaviorCultureFitProblemSolvingAbility来源:UnsplashDataStatisticsInterviewQuestionsStatisticalComputing是数据科学家通过原始数据建模过程做出预测和建议。没有出色的统计学知识,很难成为一名成功的数据科学家。因此,一个好的面试官很可能会通过一些面向统计的数据科学问题来测试你对该领域的理解。那么面试官最好准备一些基本的统计问题,这样才能为数据面试做更充分的准备。以下是我们用谷歌搜索的一些常见统计问题:1.什么是中心极限定理?它为什么如此重要?“假设,我们有兴趣估算所有人的平均身高。收集世界上每个人的数据是不可能的。虽然我们不能测量每个人的身高,但我们仍然可以对一些人进行抽样。那么问题就变成了,你怎么看从这个单一样本推断出的整个人群的平均身高呢,中心极限定理其实就是在讨论这个问题。2、什么是抽样?你知道多少种抽样方法?“数据抽样是一种统计分析技术,用于选择、操作和分析具有代表性的数据点子集,以识别正在测试的更大数据集中的模式和趋势。”3。I型错误和II型错误有什么区别?”I型错误发生在原假设为真但被拒绝时。II型错误发生在原假设为假但错误地未能被拒绝时。4.什么是线性回归?P值、系数和R平方这三个术语是什么意思?它们有多重要?线性回归是快速预测分析的好工具。例如,价格取决于许多因素,例如它的大小或位置。要查看这些变量之间的关系,我们需要建立一个线性回归模型,该模型预测变量之间的最佳拟合线,并可以帮助推导出这两个因素之间是否存在正相关或负相关。5.假设是什么线性回归要求?有四个主要假设:因变量和回归变量之间存在线性关系,这意味着您正在创建的模型实际上拟合了数据。误差或残差数据呈正态分布且相互独立。解释变量之间存在最小的多重共线性。同方差性。这意味着回归线周围的方差对于预测变量的所有值都是相同的。6.什么是统计交互作用?“基本上,相互作用是指一个因素(输入变量)对因变量(输出变量)的影响在另一个因素的不同水平上不同。7.什么是选择偏差?“选择(或“抽样”)偏差发生当为建模收集和准备的样本数据具有不代表模型将在某种意义上预测的真实未来的特征时。也就是说,当一部分数据被系统地(即非随机地)排除在分析之外时,就会发生主动选择偏差。“8.非高斯分布是什么样的?”高斯分布是指数分布族的一部分,但还有许多其他分布使用起来非常方便。研究深度学习的人如果有扎实的统计学基础,可以更熟练地应用这些分布。“9.什么是二项式概率公式?”二项分布的概率包括:n次独立试验中每个可能的成功次数的概率,每次试验都会发生的概率(希腊字母pi)。》在Glassdoor*上找到的数据科学面试题的类似例子:*Glassdoor是美国的一个职场社区,做商业评论和求职。P值是多少?如果有差异(较大,有三百万期望值)你如何理解数据集P值的变化?Wayfair*公司(一家主要销售家具和家居用品的美国电子商务公司。)决定不再为其一半以上的在线客户提供电话客服。为什么会这样?如何巧妙地应用一些计算技巧来更快地计算出逆矩阵??然后,面试官会要求你在白板上当场写下你的解决方案。对于后一个问题,这里有几个例子。以“doingmakestheguideline”为指导truth”,网站围绕核心概念展开了许多具有挑战性的问题,也是面试中的常见问题。资料来源:Unsplash一般问题您最擅长哪种编程语言和环境?您最喜欢的统计软件的优点和缺点是什么?展示你的原始算法。描述您参与大量编程组件的数据科学项目经历。你从那次经历中学到了什么?您是否为任何开源项目做出过贡献?上一个项目中完成的代码。大数据1.Hadoop框架的两个主要组成部分?Hadoop分布式文件系统(HDFS)、MapReduce(编程模型)和另一个资源协调器(YARN)。2.尽可能简洁地解释MapReduce是如何工作的。“MapReduce是一种编程模型,可以使用商品硬件在计算机集群上对大型数据集进行分布式处理。HadoopMapReduce首先执行数据映射,这涉及将大型文件拆分为多个部分以生成另一组数据。”3。如何处理一长串数字?4.假设有一个大数据集。您将如何处理异常值、缺失值和数据转换?蟒蛇1。您最熟悉的模块和数据库是什么?他们有什么特点?你喜欢什么,讨厌什么?2.Python是如何管理内存的?在Python中,内存在私有堆空间中进行管理,这意味着所有Python对象和数据结构都位于私有堆中。但是,程序管理员无法访问此私人空间。相反,Python解释器将处理它。同时,核心应用程序编程接口(API)允许程序员使用一些Python工具来编写代码。内存管理器将为Python对象分配堆空间,而内置的垃圾收集器会回收所有未使用的内存并释放内存以使其在堆上可用。3.Python支持哪些数据类型?“Python内置的,或者说标准的数据类型可以分为几类。按照Python官方文档中使用的层次结构模式,即数值类型、序列、集合和映射。”4.Python中的元组和列表有什么区别?“除了元组是不可变的,语句的应用也有区别。”R语言1.R语言中有哪些不同类型的排序算法?有插入、选择和冒泡排序算法。在这里阅读更多。2.R中有哪些不同的数据对象?“R语言可以将数值存储为不同的核心数据类型(在R术语中称为模式);这些类型包括数字(整数和双精度)、字符和逻辑符号。”3.你最熟悉的软件包有哪些?你认为你喜欢他们的哪些特点,讨厌哪些特点?4.如何访问名为M的矩阵的第2列和第4行中的元素?“我们可以使用方括号索引访问矩阵中的元素。可以通过var[row,column]访问元素。”5.用于将R对象存储到文件中的命令是什么?save(x,file="x.Rdata")6.结合使用Hadoop和R进行数据分析的最佳方式是什么?《Hadoop和R在大数据的可视化和分析上是相辅相成的。有四种不同的方法可以将Hadoop和R结合起来使用7.R语言中,如何将连续变量分成不同的组或层次?8.写一个函数在R语言,其作用是让一个向量的均值代替向量中的缺失值。.例如,面试官会给你一个表格,让你提取相关数据,然后按照你认为合适的方式对数据进行筛选和排序,最后展示你的发现。如果你不准备在面试环境中这样做,ModeAnalytics提供了一个有趣的SQL使用介绍,将通过交互式SQL环境教你命令。1.SQL中的组函数有什么用?举一些组函数的例子。组函数是获取数据集汇总统计信息的必要方法。COUNT、MAX、MIN、AVG、SUM和DISTINCT是组函数。2、innerjoin、leftjoin、rightjoin和union的区别。》在维恩图中,交集是左右表的匹配部分,当左表有匹配且右表无效时,生成左结果集。右结果集和左结果set是相对的,merge是指全部3.合并(UNION)的作用是什么?合并和完全合并(UNIONALL)有什么区别?》合并会删除重复的记录,即结果相同的列,而完全合并不会删除重复项。4、SQL、MySQL、SQLServer有什么区别?1:Oracle公司的关系数据库管理系统。2:IBM信息管理部的一个产品系列。3:加州大学计算机科学系开发的基于POSTGRES4.2版的对象关系型数据库管理系统5、如果表单包含重复行,查询结果是否默认显示重复值?如何从查询结果中消除重复行?是的。使用DISTINCT语句是消除重复行的一种方法。有关特定代码片段的其他SQL问题,请查看Toptal创建的资源。在Glassdoor上找到的类似数据科学面试问题的示例:评估Python函数。SQL查询分为自连接和内部查询。可以用解析查询来解决Question。资料来源:UnsplashModeling数据建模是数据科学家为公司创造价值的方式。将数据转化为可预测、可操作的信息很困难,在与潜在雇主讨论时更是如此。练习描述您过去建立模型的经验:您使用了哪些技术,遇到了哪些挑战您不会用模型背后的相关理论和假设给面试官留下深刻印象。那么请浏览以下问题进行练习,并不是所有的问题都会出现在你的面试中,你不需要掌握所有的技巧。这些问题更多的是帮助你重新熟悉过去学过的建模技术。1.你如何为过去的雇主或客户设计模型?2.你最喜欢的数据可视化工作技术是什么?3.如何从五个维度有效呈现数据?4.什么是k-neighbors和K-means算法?与?k-NN(最接近k的缩写)不同,是一种分类算法,其中k是描述影响给定观察分类的相邻数据点数量的整数。K-means算法是一种聚类算法,其中k是描述从给定数据创建的聚类数量的整数。5.如何建立Logistic回归分析模型?6.你用过时间序列模型吗?你了解时滞的互相关吗?7.解释80/20规则并说明其在模型验证中的重要性。“人们通常倾向于以80%和20%的分割(80%的训练集,20%的测试集)开始建模,然后再次将训练集分成80%和20%的分割来创建验证集。”8。解释什么是精确率和召回率,它们与ROC曲线有什么关系?召回率表示真实值在模型中被记录为正值的比率。准确性描述了积极预测的正确频率。ROC曲线显示了模型召回率和特异度之间的关系:特异度是衡量模型中记录为负数的真负值的比例。召回率、精确率和ROC是用于衡量给定分类模型有用程度的指标。9.解释L1和L2正则化方法的区别。“使用L1正则化技术的回归模型称为套索回归(LassoRegression),使用L2的回归模型称为岭回归。两者的关键区别在于惩罚因子。”10、什么是根本原因分析法?“我们都害怕老板问'为什么收入下降?'的会议。更糟糕的是,我们对此一无所知。业务发展迅速,但您想确切地知道是什么推动了这些变化,尤其是意想不到的变化.了解变化的根本原因被称为根本原因分析。11.什么是哈希表冲突?"如果键值的范围大于哈希表的大小(通常是这种情况),那么我们必须考虑到两个不同的记录,以及两组不同的答案,将哈希到相同的可能性表索引。实际上有几种不同的方法可以解决这个问题。在哈希腊表中,这样的解决方案称为碰撞解决方案。“12.什么是精确检验?”在精确(显着)检验中,可以满足导出检验统计量的所有分布假设,而在近似检验中,可以通过使样本量足够大来获得足够接近的近似值。接下来是显着性检验,其错误拒绝率始终等于检验的显着性水平。例如,在显着性水平为5%的精确检验中,从长远来看,只有5%的时间拒绝真实的原假设。13.在你看来,设计机器学习模型时,模型性能和模型准确率哪个更重要?这是这个问题的答案。14.如何处理一个不平衡的数据集进行预测,比如在负类比正类多很多的情况下?15.如何使用多元回归来验证您创建的生成预测模型的量化结果?16.两个模型的准确性和计算性能具有可比性。选择哪种型号进行生产,为什么?17.如何处理稀疏性?18.开发一个准确率为90%的解决方案需要5天,还是开发一个100%准确的解决方案需要10天?19.一般情况下线性模型失效的情况有哪些20.你认为50棵小决策树比一棵大决策树好吗?为什么?21.修改算法时,你怎么知道你的修改是否比什么都不做有所改进?22.假阳性太多好还是假阴性太多好?这取决于几个因素。Glassdoor上找到的一个类似数据科学面试题的例子:Effectiveclassification,分类标准是10000人一组,他们的共同特征是消费过类似的产品。学术问题总能找到答案。请回忆一下每个基本算法的一两个特征:神经网络、随机森林、支持向量机、线性回归。你会如何调整随机森林?想象一下这样的场景:我签了保密协议,所以不能透露太多细节。但是面试官问了一个开放式的问题,里面包含算法的设计、应用。资料来源:UnsplashPastBehavior雇主非常喜欢行为问题。因为这些问题不仅可以揭示受试者的工作经历,还可以揭示他们的工作态度,以及受试者对一个团队的影响。从这些问题出发,面试官想了解面试官过去是如何应对这些环境的,他们是如何最大限度地发挥自己的作用的,从这些经历中他们能学到什么。那么行为问题通常分为以下几类:团队合作领导力冲突应对问题解决面对失败真实案例来回答这些问题。请注意,当您被要求陈述以前的经历时,请确保您是在讲故事,并且简洁而有逻辑地讲述您的详细经历非常重要。例如:“我被要求做X,我做了A、B、C,我认为正确答案应该是Y。”当然,如果你能突出你与数据科学相关的经历,这些问题将表明你是优秀数据科学家的Greattime。以下是一些具体问题:描述一次您主动工作的经历。描述一次你需要克服困难的情况。描述一次您解决争议的经历。描述一次你失败的经历,以及你从中学到了什么。描述您简历中列出的工作经历。你为什么选择那份工作?你最喜欢这份工作的什么。描述您在小组工作经历中克服的挑战。当你从事一份不好玩的工作时,你会怎么做?你如何激励自己完成它?过去您是如何让客户满意或开心的?您在上一份工作中引以为豪的事情。当你的私人生活干扰你的工作时你会怎么做?在Glassdoor上找到的类似数据科学面试问题的例子:看看那个混蛋发给我的这封电子邮件,你会如何处理这种情况?(他实际上让我检查了他的收件箱,然后让我看到一封来自公司另一部门的非常重要的电子邮件。)你如何通过数据改变世界?来源:UnsplashCulturefit如果面试官提出以下问题,那么他们主要是想了解你是谁,以及你将如何融入公司的环境。他们正在衡量您对数据科学及其公司的兴趣从何而来。看看下面的问题并想出你的最佳答案,但在回答问题时一定要诚实。没有理由不做你自己。这些问题没有标准答案,但可以肯定的是,好的答案源于自信的沟通。1.你最钦佩哪位数据科学家?你最欣赏哪些初创企业?有很多伟大的数据科学家可供选择,了解更多有关世界顶级数据科学家的一些有趣事实。2.你认为成为一名优秀的数据科学家需要具备哪些素质?3.你是如何对数据科学产生兴趣的?4.举几个数据科学中最佳应用的例子。5.你最近读的数据科学书籍或文章是什么?您参加的最新数据挖掘会议、网络研讨会、课程、研讨会、培训有哪些?如果您最近没有读过一本好的数据科学书籍,Springboard提供了最佳数据科学书籍列表。6、你想参与我们公司的哪个项目?7、你认为你能给团队带来哪些独特的能力?8、如果没有限制,你最想获得什么数据?9.你想过自己开公司吗?它基于什么想法或概念?10.你的兴趣爱好有哪些是你的简历没有表达出来的?11.您对未来20年的五个主要预测?12.你今天在做什么??或者你这周、上周做了什么?13.如果你中了百万的彩票,你会用这笔钱做什么?14.大多数人不同意但你坚信的一件事?15.你不同意哪些性格特征?16.在数据科学之外你对什么感兴趣?Glassdoor上发现的类似数据科学面试问题的示例:您重视企业的五个原因。如果你可以拥有一种超能力,那会是什么?解决问题在数据科学面试中,面试官有时会想测试你解决问题的能力。通常这些问题都是开放式的,你会如何解决X?一般来说,这个X会是你面试的公司需要解决的问题。例如,Yelp面试官询问求职者如何修正Yelp*上的虚假评论。*美国最大的评论网站。一些提示:首先,不要害怕提问。面试官想衡量你的批判性思维能力,提出问题来解决不确定性是每个数据科学家都应该具备的。另外,如果这个问题提供了一个机会来展示你的白板代码或原理图的能力,不要浪费它,展示你自己。它不仅展示了您的专业技能,还通过不同的交流方式展示了您的思维过程。记得展示你的思考过程,对于面试官来说,过程比结果更重要。1.你是怎么想出识别作弊的方法的?2.一条Yelp评论获得了多少“帮助”?3、如何判断一个账户为多个消费者支付的情况?4.您想发送一百万封电子邮件。如何优化传输过程?以及如何优化响应?5、一个100000行100列的数据集,其中一个是待解问题的因变量。如何快速确定哪一列有助于预测因变量?想出两个选项,然后像我五岁时一样向我解释。6、如何检测那些恶意的虚假评论和虚假账号?这是展示您对机器学习算法的掌握程度的好时机,尤其是情感分析算法和文本分析算法。展示您对欺诈行为的了解,这些虚假账户通常有哪些异常行为?7.如何对100万个关键字执行聚类算法?假设有1000万个数据点,每个数据点包含2个关键词词,需要衡量两个关键词的相似度。首先,您将如何创建一个包含1000万个数据点的表单?8.如何优化网络蜘蛛使其运行得更快、提取更好的信息、更好地汇总信息以创建更清晰的数据库?在Glassdoor上找到的类似数据科学面试问题的例子:假设你有一家咖啡店,你如何扩大客户数量?你如何根据已知的消费记录来预测未来的消费?取出一个,取出另一个,然后将它们绑起来。那么桶中环的估价是多少呢?来源:Unsplash结论没有100%成功的途径。只有不断努力,提升自己的方方面面,才能更加自信,才能表现不凡!祝大家好运~