前几天谷歌云(GoogleCloud)服务宕机和性能下降问题很快得到修复,最终对客户的影响有限,但还是提醒客户一定要强加给供应商.提高云可靠性的压力更大。3月11日,两项谷歌云服务中断:谷歌云控制台,客户用来管理他们的账户和项目;和CloudDataflow,一种用于处理批处理和流数据的服务。根据Google的事后分析,由于其最新版本的GoogleCloud配额系统中的代码更改,CloudConsole有4个小时不可用。该错误导致系统回退到较低的速率限制,导致请求被拒绝。另一个导致系统延迟超过19小时的CloudDataflow问题已于3月12日得到彻底解决。谷歌表示,崩溃原因仍在调查中。同时,谷歌云存储在3月12日出现了长达4小时的高错误率,波及所有地区。根据事后的说法,该问题源于谷歌网站可靠性工程师(SRE)采取的措施。3月11日,谷歌SRE发现连接到谷歌元数据内部Blob存储服务的存储使用量激增。为了减少这种使用,SRE进行了配置更改,使查找博客数据所在位置的系统部分过载,增加的负载最终导致“级联故障”,Google表示。与GoogleAppEngine相关的中断导致BlobStoreAPI和AppEngine部署出现问题,该问题也持续了大约四个小时。报道称,谷歌还计划改进其隔离存储服务区域的方式,以避免未来全球爆发谷歌云服务中断。总体云可靠性仍然是一个大目标所有云服务提供商都会遇到停机时间。然而,鉴于谷歌云在市场份额上远远落后于AWS和Azure,它特别需要解决这个问题。ConstellationResearch分析师HolgerMueller表示,这是一个买方市场,虽然谷歌的快速补救和透明度对客户也很有价值,但客户将寻找最可靠的选择。然而,一些客户可能会担心,在详细说明谷歌云存储中断的报告中,谷歌指的是在区域之间增加更多的隔离。“区域隔离是云正常运行时间和弹性的关键,如果供应商不能做到这一点,那将令人担忧,”Mueller说。最好的方法是等待它再次失败。IDC分析师StephenElliot表示,通过使用先进的管理、编排和负载平衡技术,随着时间的推移,计划外的云服务中断应该会??减少。他说:“这是企业客户期望的一般参数。”
