嘉宾介绍 奇虎李红亮360网络运维总监。2007年加入360公司,现拥有11年网络及网络安全工作经验,拥有CISSP和CCNP证书,带领团队实现了奇虎360网络架构从1000台服务器到10万台服务器的跨越发展。 2007年我加入360公司时,360公司的服务器数量是1000台。经过不同的发展阶段,现已达到10万台服务器。下面,我将根据公司服务器发展的不同阶段,分享在网络建设和运维过程中遇到的挑战、陷阱、经验和收获。 Stage1.1-1000台服务器规模 1.要求:奇虎早期做社区搜索,规模不大。业务部门的要求是网络能流畅运行。 2。人员:无专职网络工程师 3。架构:核心和接入两层结构,我们采用星型结构。 4。挑战:工作量大,工作的方方面面都要接触。 5.陷阱:网络设备有缺陷,机房不靠谱。如果购买了有缺陷的网络设备,会给网络带来很大的运营压力。如果遇到不靠谱的机房,根据我的经验,机房泡水的频率大概是3年左右。大家需要特别注意的是空调冷凝水泄漏,危害很大。 6。经验:绑定有实力的设备厂商,尤其适合小规模的小公司。 二期,1000-5000台服务器规模 1.要求:可靠性高 2。人员:专职网络工程师(CCIE)2名以上 3。架构:简单的两层结构/多个数据中心,其中数据中心通过光纤互连。 4。挑战:工作量大,业务部门需求增加,工作压力增大。 5.陷阱:业务复杂性挑战网络设备。例如,业务部门根据实际业务发展,对网络提出特殊要求。经常中断的光纤需要可靠的供应商。例如,某年7月,光纤被剪断22次。如果出现这种情况,网络运维人员就会崩溃。不知道网络已关闭是一个很大的挑战。网络运维部门需要比业务部门更早发现网络问题。 6。经验:与厂商沟通业务场景时,一定要选择有余量的网络设备。 不要将网络设备的数据索引范围设置得太严格。选择靠谱的传输和光纤供应商搭建网络监控告警平台 三期,5000-10000台服务器规模 1.要求:高可靠性/不丢包 2。人员:网络工程师/如果网络架构师超过5人,现阶段至少要整合一名网络架构师角色。 3。架构:大型数据中心/异地多数据中心。这里所说的大型数据中心的一个数据中心,必须有2-3千台服务器的规模。 4。挑战:工作量大,压力大。这个阶段,一个人的工作量是非常大的。如果你过了这个阶段,你将成为部门的精英。人事失误增多。 随着业务需求的增加,网络运维人员的数量也相对增多,这必然会增加人员误操作的概率。一旦出现情况,网络运维人员可能无法向业务部门交代。网络设备故障越来越多 5。陷阱:业务冲击网络设备极限,企业上线搜索,Hadoop集群大概率丢包。 一个搜索请求会在集群的数百台服务器上进行,结果会同时到达端口,远超10毫秒1.25MByte的端口处理限制。这种情况下,如果switchbufferdown了,肯定会出现丢包的情况。这种情况是我们遇到的一个“坑”。 6。经验:扩大人员规模。 随着远程业务的发展,您的人员需要经常出差。但出差工作效果不高,时间浪费在路上,通讯成本增加。解决这个问题的方法是增加员工人数。找有经验的网络架构师 网络架构师建议找5万台以上服务器规模的公司,可以节省大量试错成本,快速找到合适的资源,你懂的!明确日常操作规范,避免误操作概率。专业的网络管理软件。 特别关注日常网络设备的上百个状态,如电源、风扇、温度等,***可以随时关注这些数据的状态,有情况可以及时报警一种情况。整理一份准确的设备登记清单是列名审核的必要工作,需要详细记录每台设备的机号、场地、设备运行信息。 如果前期这项工作没有做好,当网络设备规模达到10000台时,后期的设备注册工作会非常繁重。我们花了大约半年的时间来整理这些名单。如果有企业需要上市,一定要注意提前做好这方面的工作。#p# 第四期,10000-50000台服务器规模 公司上线搜索,生意火爆。 1。要求:稳定/灵活 2。人员:团队分工明确,包括建设、架构、运维。 3。架构:超大规模数据中心,实现多站点、多点、大带宽互连。 4。挑战:业务对网络的稳定性提出了更高的要求,不能经常断网丢包。 由于基数增加,设备故障频发。2014年,360损坏了十几台网络设备。这种情况还是很严重的。缩短网络设备故障的修复时间是网络运维工程师面临的挑战。上市审核 5.陷阱:厂商之间的激烈竞争会给网络运维工程师带来压力。 6。心得:明确网络设备的测试标准 各厂商竞争激烈,设备之间有比较。最好的解决办法是明确网络设备的测试标准。所有设备必须通过我们的测试标准才能进入采购流程。消除架构设计中的单点故障,包括设备故障,甚至光纤和路由故障。 多条线路通过一根光纤。如遇野蛮施工,会出现多点中断,影响很大。因此,网络工程师必须通过技术保障来避免这种情况的发生。制定备件库和应急预案,列出可能存在故障风险的设备,一一检查,或更换其他设备,放入备件库。网络建设、运维自动化提上日程。 第五阶段,50,000-100,000台服务器规模 公司已完成上市,网络基础设施建设资金充足,业务发展空间更大。 1。需求:弹性/前瞻性/可视性 (1)弹性业务部门对网络需求不明确。网络运维人员需要自发考虑网络灵活性以更好地适应业务发展,或者根据不同部门不同的业务发展情况调整内部设备的部署。 (2)前瞻性作为网络架构师或网络运维负责人,需要预判业务的发展方向,提前做好网络准备,安排好工作时序。 (3)业务部门可视化,实现网络运行的实时可视化,比如某业务的日常流量分布情况。 2。人员:团队分工/梯队建设 团队分工更加明确,需要人员梯队建设。 3。架构:超大规模云数据中心 一个云数据中心定位在10000多台服务器的规模。多站点多点光传输网络自带BGP服务 4。挑战:预见企业和行业的发展方向支撑业务弹性 5.陷阱:SDN(ServiceDefinedNetwork) SDN这个概念很流行,个人认为有误导之嫌;厂商为了做SDN而做SDN,没有明确的目的。这部分建议其他公司在做SDN的时候,应该提前考虑业务对网络的真正需求是什么,然后哪些现有网络不能满足业务的需求。可以清楚地看到,传统网络无法满足对云和网络虚拟化的需求。它需要通过将一些技术置于SDN之下来满足。这是一个更好的发展方向。 6。体验:通过自动化工具提高人员工作效率提供网络可视化界面,提前打好基础,更好看清网络运行情况。对于更细粒度的故障监控,考虑是否实现精细化运维的一个点。BGP路由优化 当你的路由运行在国内运营商(移动、电信、联通)的网络上时,测试好像网络是通的,但是国外的网络接口可能有问题运营商,导致国外用户无法访问360的BGP网络资源。这里推荐两个工具,一个是Lookingglass,一个大的运营商可以用这个工具从他的AP网络中查看你的BGP路由收集情况,如果你没有得到这个服务,你需要和运营商沟通。例如,我们在美国的Sprint就遇到了这个问题。在业务运营期间,有用户反映我们的网络有问题。另一个工具是RADb,需要根据IP地址注册。欧洲的小运营商都认可这个工具,一年的费用在400美元左右。 总结与讨论 1.老板重视网络团队吗? 开玩笑说,网络有问题老板会关注网络的。其实老板应该更关注公司的业务,因为网络是为了适应公司业务的发展规模而诞生的,而网络运维工程师的职责就是提供优质的网络。 2。做好网络工作难吗? 领导对人脉的重视程度是一方面。不管网络基础如何,做好网络并不难,只要做好两件事,一是找靠谱的人,二是找靠谱的设备。比什么都简单。
