当前位置: 首页 > 科技观察

开发求职面试必问:3个超难案例分析答案汇总!

时间:2023-03-14 22:51:35 科技观察

本文转载自公众号《核心阅读》(ID:AI_Discovery)。我第一次遇到案例研究问题是在与德勤经理的模拟面试中。面试官问我如何判断instagram上各种故事的成功与否。我回答说A/B测试会很有效,但是面试官告诉我公司没有这个能力,所以我得想其他办法。我愣住了,因为没有别的办法。案例研究已经成为数据科学和产品开发工作面试中不可或缺的一部分,是决定候选人是否合格的关键。这些面试的目的是模拟公司现有的产品,测试应聘者的反应能力、解决问题的能力以及有效应对障碍的能力。通常,案例研究问题分为三种类型:产品相关模型相关业务相关让我们从一些问题开始。请注意,这些问题没有确切的正确答案,但更多的是评估是否可以做出现实的假设以及在这些假设中提出解决方案。无需详细介绍,本文的主要目的是提供一个大纲或要点来回答这些类型的问题。问题1假设您经营一个电子商务网站,其中包含数百万个产品列表,并且想要消除可能在不同类别下列出的重复产品名称。举个例子,有两个不同的产品名称,iPhoneX和AppleiPhone10(它们指的是一个东西,但为什么需要两个名称?)。再举个例子,亚马逊正在以不同的名称销售相同的N-95口罩,例如:COVID-19口罩N-95口罩你的任务是将所有重复的名称更改为通用名称。但首先,您需要找到那些重名的产品。你会怎么做?我的解决方案是:这个问题可以通过两种方式解决。使用所有产品的给定图像来提取粒度特征,并对这些特征进行聚类。粒度这个词很重要,因为必须对特定项目的不同版本进行分类,它们之间存在细微差别。因此,提取底层特征很重要。例如,假设只从每个图像中提取高级特征并进行聚类。算法会将所有iPhone归为一类,所有三星归为一类,依此类推。但是我们希望所有的iPhoneX都在一个集群里,其他机型在一个集群里。然而,iPhoneX和iPhone11的图像差异很小,因此必须提取颗粒特征来提高聚类算法的性能。但是万一面试官反驳:如果有些产品根本就没有图片怎么办?您可以对每个产品的描述进行聚类并对其进行分类。先对描述进行数据清洗,然后使用TF-IDF或者NLP中其他类似的方法,再进行聚类。资料来源:Unsplash问题2假设您仍在为网站工作,您有一个大型数据库,其中每一行代表一个页面视图。一个网站不止一页。如何区分机器账号和真实用户?我的解决办法是:基本上都是用机器账号来提取网站的数据,肯定有很多的pageviews,而且每次pageview的持续时间会很短,因为它的信息可以很快被提取出来。另一方面,真实用户访问的页面相对较少,并且在每个页面上花费的时间更多。除了上述两个假设之外,我们可以做的另一个假设是通过IP地址或其他设备签名来跟踪每个唯一访问者。使用SQL或任何其他查询语言来查找访问的页面总数、总页面查看时间以及每个访问者的平均页面查看时间。然后,可以使用基于上述指标的聚类算法,将机器账户和真实用户分为两个集群。问题3来源:unsplash假设你是LinkedIn项目组的一名数据分析师。假设您有一个新闻源排名算法(我们都知道,当每个用户登录时,他们会看到一个新闻源,其中包含使用排名算法排序的各种文章)。您如何衡量新闻源算法的成功?我的解决方案:第一步是提出指标来评估算法的有效性。基准指标可以是点击率。然而,更好的指标,如分享和评论,可以评估内容的吸引力。面试官可能会提出以下问题来测试思考的深度:如果上述指标有的上升了,有的下降了怎么办?你会怎么做?您认为哪个指标更重要?我坚信Linkedin的观点在这里非常重要。如果他们试图从商业角度评估算法,点击率将是一个更重要的指标,但如果评估纯粹从用户体验的角度来看,评论将是一个重要指标。现在,回答你在模拟面试中遇到的问题。如何判断Instagram上的故事是否成功?我们都知道ins故事可以让用户在24小时内与他人分享照片和视频。用户的好友可以看到、回复和分享这些故事。我认为此功能试图实现两个目标。用户保留——确保用户再次回到平台。参与度——确保用户更多地使用该功能。SaitejaKura想提出这样的指标:每个用户发布的平均故事每个用户平均观看的故事除了上述两个指标之外,另一个对评估故事是否成功至关重要的指标是发布多个故事的用户百分比。回答案例研究问题不仅需要技术知识,还需要对业务需求有深刻的理解。创造高效和企业友好的产品一直主导着市场。我坚信发展商业视角来解决现实世界问题的重要性。