网站地图

墨客学术服务平台

当前位置: 主页 > 大学教育 >

远程办公是巨头游戏?十倍扩容,他们如何做到百万级并发流量

时间:2020-03-06 09:47人气:来源: 网络整理

  据说,远程办公工具是2020年的第一个风口。

  疫情发生后,除了Zoom这样深耕视频会议多年的软件,钉钉、企业微信、飞书等一大批互联网巨头也开通了免费服务,凭借着自身庞大的资源四处招揽用户。

  1月31日,远程办公开启第一天,钉钉、企业微信就因为扩容没做好,扛不住庞大流量,系统陷入奔溃。这些大厂很快可以加服务器,进行技术调整,还能将一场宕机危机转化成一次产品曝光机会。

  面对此次考验,此前没有太多发声的“小公司”却不容有失,在云视频会议领域扎根十多年的全时云就是其中之一。

  CTO 赵元军告诉CSDN(CSDNnews),“这个公司有个特点,就是随时准备好,要做就要做好,把产品性能和客户体验放到首位。之前我们认为可以免费开100方,就开100方,然后我们发现200方准备好了,那就去开200方。”

  一句话,要稳。无论是做技术、产品还是应对疫情,全时云都显得比较稳。

  十倍流量的冲击

  1月25日,大年初一,全时云研发团队开始着手应对疫情的预案。

  首要工作是后台服务的扩容。一方面,全时云有数万付费客户,而像顺丰、万达这种大企业内部就有数万帐号,他们在正常时期一天会开数十万分钟的会议,但现在的需求可以达到数百万分钟。另一方面还要考虑数量激增的免费注册新用户。

  问题来了,需要扩容到什么量级才合适?

  初三到初六期间,全时云的系统每天早上10点到10点半是流量峰值,在稳步增长,而初七远程办公首日用户流量会出现爆发性增长,所以他们预估了一个10倍的扩容量级。

  扩容也不是一次到位。赵元军称,他们在大年初三对新用户免费开放了100方的容量,但他们低估了用户量的增长,在加固后台服务能力一周后,又把免费容量扩大到200方。而全时云系统是具有横向扩容能力分布式技术架构,他们还安排了备份扩容的机器。

  随后,研发团队梳理了技术系统可能存在的风险,以防在流量爆发性增长时确保不出故障,全时云团队不会容忍用户体验出问题。

  大年初三,数十名运维团队的工程师就全部进入高强度的工作状态。运维总监欧阳华称,他们团队做的最多的是对系统进行“找茬补缺”,因为从用户注册到登陆开会是个系统过程,任何一个堵点都会影响整体用户体验,他们必须第一时间就定位到问题,然后及时修复。

  他们还预估了最坏的状况,做了灾备演练。比如系统出问题时,让客户的会议通道从一个机房调换到另一个机房,在新环境继续使用。

  而对产品团队而言,他们需要及时了解客户使用时出现的bug,然后反馈给研发快速解决问题。何思颖领导的整个产品团队几乎都投入到前线客服的战线,“每天每个人多则50通电话,少则10通电话,收集客户反馈的使用体验问题,然后在在更新版本中去解决。”

  根据目前的流量数据,赵元军透露,远程办公开启后,全时云系统每天有百万级并发量。“事实证明,我们的用户增长量差不多就是10多倍。”

  云视频会议技术架构设计

  10倍容量拉长到一、两年,一个研发团队可以很从容的去应对,但是放在一周内解决并非易事。

  对所有产品来说,稳定性、可靠、可用是最基本要求。

  那么云视频会议的特点是什么?赵元军总结了两点:数据量特别大,网络上大约80%的流量可能来源于视频。实时性要求高,尤其是互动型视频会议,技术难度远远高于直播,后者至少允许延时、后台缓存。

  基于这两大特点,他认为视频系统技术架构设计要遵循三大原则:

  首先,系统要分布式、可扩展。比如一场会议有1000人,每个人看1080P视频,总共要用掉大约1.5G流量,更好的网卡要花更多钱,如果不想花更多钱,又想保证基本流量,就需要架构设计上把一场会议的传输分到不同的服务器,这样能够保证数据服务的高可用性,不同的用户都能有更好体验。

  其次,系统要有网络感知能力。随着用户量增加,要保证网络使用稳定,可能需要产品的网络感知能力来了解带宽、丢包率、延时等情况,然后去调整发包策略、编码策略。

  最后,系统易用性要好。与用户使用体验相关,比如桌面共享文件实时接收、色彩还原度调整、背景音降噪、回声消除、音量自动增益等细节功能的打磨。

  而要应对疫情期间这样高流量的冲击,他们需要克服两大技术挑战。一是高并发问题。二是弱网络问题,赵元军解释,全国各个组织都有远程开会需求,不光全时云机房、数据中心会面临压力,网络运营商的压力也很大,这时产品可能会面临丢包、延时、抖动等一系列问题的考验。



本类导航

sitemap | sitemap