当前位置: 首页 > 科技观察

网站可靠性工程师(SRE)7个常见求职面试问题

时间:2023-03-21 14:00:18 科技观察

【.com快译】如今网站可靠性工程师(SRE)供不应求,职位空缺数以万计。如果在招聘网站Indeed上搜索美国的SRE职位空缺,最新的搜索结果有9475个SRE职位空缺。随着各行各业的组织都希望提高其系统的性能和可靠性——无论是面向客户的服务还是关键的内部应用程序——站点可靠性工程师(SRE)都在努力满足需求。准备SRE面试可能比其他IT部门的工作更难。即使起源于传统的IT运营和DevOps团队,SRE对于许多企业来说仍然是一个新的领域和角色。他们的软技能与他们的技术技能一样重要。什么是SRE?DevOpsInstitute首席研究官EvelineOehrlich对SRE的作用给出了这样的定义:“站点可靠性是Google最先提出的一种服务管理方法,这是一种后期的大型系统运维实践,其工程师专注于运维。”他指出,“SRE通常是执行现场操作的软件工程师。SRE应用现场原则来管理可用性、延迟、性能、效率、变更管理、监控、紧急响应和容量规划,以创建和他们的用户。他们还可以充当技术支持工程师,使用监控、容量和优化自动化工具提供支持。他们的重点是满足可用性、性能、安全性和可维护性的非功能性需求。”如何准备站点可靠性工程师(SRE)工作面试Nobl9首席运营官KitMerker说:“凭借技术技能和经验,SRE的作用实际上是帮助其他人权衡取舍并减轻强加给他们的压力。快速安全地交付产品的压力。每个组织都存在这种冲突,一方面需要新功能,另一方面又需要安全性、良好性和稳定性。”在一些组织中,尤其是那些流程和文化根深蒂固的组织,人际交往能力或各种软技能可能是工作中最难的部分。Harness的CTORaviLachhman表示:“站点可靠性工程的兴起表明技术对我们的日常生活产生了重大影响。与DevOps类似,SRE具有更多技能,组织需要启用和促进SRE文化和实践。”认为SRE是超级英雄是不切实际的想法。Lachhman说,这确实会发生,但SRE真正关心的是确保不会发生停机,他们更关心的是正常运行时间。“SRE被视为行业专家,可以帮助提高组织系统的稳健性和可靠性,并就其实践和架构提供建议,”Lachhman说。但是,鉴于SRE在许多组织中仍然是一个新角色,无法确定其位置。SRE具有值得信赖的专家地位,这意味着与组织中的团队和个人密切合作。这个角色既是社会的,也是技术的。“SRE通常是那些有说服力的人物,他们的影响力超出了计算机系统,延伸到了社会领域,”Merker说。“那是因为人是任何系统中最重要的部分,而不是代码或服务。”求职者在申请SRE职位时需要牢记如何回答这些问题;以下是站点可靠性工程师(SRE)的7个工作面试问题的解释和答案。问题1:您如何确定团队应该开发新功能还是减少技术债务?SRE在协调开发新功能和减少技术债务之间的紧张关系方面发挥着越来越重要的作用:大多数组织总是面临这两个问题。虽然这个问题可能源于技术决策,但它说明了SRE的社会性质。这是Merker最喜欢问的问题之一,他故意不限成员名额,因为他想更多地了解候选人以获得更多数据和背景。Merker说,“如果对如何回答问题有严格的规定,我可能不会对候选人的回答感到满意。我正在寻找的是他们对客户和业务的好奇心、他们对组织中各种角色的理解,以及他们获取数据以支持不同观点的能力。”对于SRE候选人来说,这个问题是一个展示他们如何处理看似无法克服的问题的机会。他们需要回答以下问题:例如,您如何设置人们可以同意并努力工作的优先事项?技术债务什么时候可以接受(或不可避免)?在利益之间进行调解,为一些不可能的问题找到切实可行的答案。虽然没有确切的正确答案,但真正重要的是找到答案的过程。”问题二:SLOs和SLIs如何设置,必要时如何调整?服务水平目标(SLO)和服务水平指标(SLI)是衡量SRE的基本指标。SLO是特定应用程序的目标。SLI是针对这些目标的实际性能衡量标准。Lachhman指出,SRE功能通常是定义和完善SLO和SLI的核心。通常,开发人员不一定了解他们构建和维护的应用程序的规范或基准,特别是如果SRE是新加入的。招聘经理应该深入研究候选人如何识别和定义SLO和SLI;并且,作为候选人,请准备好回答这些指标的使用方式。此外,请确保您可以讨论一个经过深思熟虑的过程,以便随着时间的推移重新评估和优化这些指标。“与任何指标一样,它们需要不断发展,并且就SLO/SLI的变更进行协商非常重要,”Lachhman说。问题3:可观察性的三个要素中哪一个对您来说最重要?你觉得有必要更关注哪一个?可观察性的三大支柱是日志记录、指标和跟踪。总体而言,可观察性是SRE领域的固有特征。“测量系统的科学是吸引SRE的核心,”Lachhman说,他指出站点可靠性工程中的四个信号作为思考这个问题的基础。Lachhman说,“哪个因素将帮助您确定最佳信号?这些因素最终将指导您的SLO/SLI测量。对一个或多个因素表现出兴趣将表明您已准备好发挥自己的作用。”通常,衡量在任何SRE角色中都至关重要,因此如果您希望从另一个IT领域担任此角色,请记住这一点:这是一门数据驱动的学科。问题4:您过去是如何实施流程改进和其他变更的?SRE中的“E”代表工程师,尽管SRE具有技术技能。但与其他IT专业人员相比,这个角色需要更多的软技能和变革推动者功能。“虽然SRE职位是一个工程角色,但它并不是人们认为的工程角色,”DevOpsInstitute的Oehrlich说。虽然一些组织已经建立了现有的监控实践、呼叫程序和其他标准流程,但SRE现有的工作方式应该得到深思熟虑和挑战。这需要创造力和毅力。”创造力和坚韧实际上是SRE的关键特征,尤其是在应对自我意识、变革的文化阻力和其他挑战时。“作为招聘经理,我会询问求职者在哪些方面表现出这些品质,他们是如何做到的,以及他们取得了什么成就,”Oehrlich说。“问题5:你如何平衡团队中不同管理部门的愿望和需求?Oehrlich指出,这项工作的另一个关键目标以SRE的名义出现:可靠性。不同的组织和不同的客户群对可靠性反应最好。对途径有不同的看法。即使在DevOps社区内部也存在意见和分歧。“有上游(开发)和下游(运营)任务、流程和程序需要理解、利用或可能改变,”Oehrlich说.这意味着有时上游和下游所有者可能会保护已经存在的东西。这就是DevOps和SRE的角色经常重叠的原因。“扎实的技术知识、真正的改进意愿以及专注于任务而不是自我,是SRE的所有基本特征,”Oehrlich说。作为招聘经理,我将重点关注求职者希望如何在开发和运营之间工作。“问题6:如何客户体验或员工体验会影响您的SRE策略吗?招聘经理和SRE都应该注意这个警告信号:整天谈论指标是可以的,但不要将这些指标与客户或内部用户结果联系起来。”Oehrlich说:“出色的平均恢复时间(MTTR)和会议服务水平目标(SLO)不会自动提高客户或员工的满意度。SRE需要从外到内思考,并将SLO、SLA和SLI转化为重要的东西。“SRE通常需要精通脚本、编排等领域,和监控。但他们需要知道这些技术如何解决严格技术范围之外的问题。”Oehrlich说:“我们见过的最好的SRE是那些可以将外部视角(即客户和员工体验)纳入可靠的可观察性和监控策略的SRE,慢慢转变为主动的客户和员工体验。因此,询问他们在客户体验(CX)和员工体验(EX)管理方面的专业知识可能是个好主意。“问题7:你如何学习和跟上行业趋势和工具链的发展?关于学习和专业发展的问题在IT面试中相对常见,但它们在SRE世界中有一个特定的目的:它们可以告知候选人他们的一些你拥有的知识很快就会过时。Lachhman说:“有时候,新技术总是被用来解决传统问题,但也可能会有新的挑战。作为专家,SRE需要紧跟趋势和技术进步。”DevOps和各种开源项目,SRE这个新兴领域值得探索。有许多致力于SRE的社区。GitHub上的AwesomeSRE存储库提供了一个资源列表。原标题:7个顶级站点可靠性工程师(SRE)求职面试题,作者:KevinCasey