仪电人工智能创新院以技术研发为主业,研发团队规模在30人左右,IT预算有限,没有专门的机房基础设施和IT运维人员,业务也比较分散。这些特点要求企业积极探索业界先进的敏捷式IT架构,满足灵活的业务发展需要。公司成立3年来,从无到有,实践出了一套适合中小企业基于混合云的敏捷开发IT架构,本文将结合本地与公有云的混合云架构搭建,敏捷开发的服务搭建和数据安全防护三个方面展开详细探讨。最后分析并展示了应用效果:预计创新院用于IT的年成本五年内可降低约46.7%;实现了整体IT架构年平均故障间隔时间(MTBF)3000小时以上,年平均故障修复时间(MTTR)降到2小时,年安全等级事故数量为0;同时在预警及恢复等方面也取得了很好的效果。
基于混合云的敏捷开发IT架构
基于混合云的敏捷开发的IT架构,充分采用各组成方的优势。混合云中的本地硬件资源能够保护数据隐私,混合云中的公有云具有弹性计算能力,稳定的网络服务,冗余安全的储存服务和智能服务,敏捷开发工具链赋予研发工作快速迭代能力,使之跟上项目需求变化。整体IT架构充分享用了现代IT技术在数字化,智能化方面发展的技术成果,总体计划分为三个方面:

第一个方面:实现混合云的架构搭建,通过本地和公有云端的网络中心并联技术,打造一个焕然一新的异构资源平台,兼顾本地和公有云的优势;
第二个方面:基础服务的搭建,基础服务的建设可以分为办公服务、研发服务、生产服务三种基础服务,贯穿日常办公、研发、测试和生产运行的全生命周期基础服务;
第三个方面:数据安全防护,网络安全防护提供研发、测试、办公、生产多个维度的网路隔离,实时的网络安全防护和定期病毒检查机制,备份服务提供云上和本地的双重数据保护机制。
结合以上的总体规划,设计了具体实施方法:
(图1 整体网络架构图)
1.混合云架构搭建阶段
创新院初创,对于IT资源的需求变化比较大,本地到底需要建设多大规模的服务器集群几乎不可能准确预测。随着项目数量的增加,项目进行的不同阶段,需求量往往会出现很大波动,因此这种使用方式比较适合混合云。对于稳定需求的资源采用本地方式,对于弹性的资源需求采用公有云的方式进行补充。混合云搭建过程中,主要考虑如下两点:
(1)混合云网络中心互联
如图1本地数据中心和云端数据中心分别属于两个独立的局域网络,为了实现混合云的架构,通过S2S隧道协议实现本地和公有云网络互通,连接两地资源池,同时通过网路访问策略的配置,可以实现高效的网络互通和必要的隔离。使得在办公区域和云端资源实现透明的相互访问,极大地方便了资源的使用。
(2)混合云计算,存储等资源调度
本地资源主要用来做开发,测试验证和数据隐私要求比较高的生产服务,云端资源通过弹性伸缩,提供按需付费的可靠生产服务。在资源调度层面,通过业界最流行的K8S+容器化平台做统一化资源调度管理,能够自动实现计算资源的高可用,充分利用异构资源的优势。
2.基础服务搭建阶段:
当人员开始增加时,需要搭建基础服务对于邮件、研发等进行管理,对于以研发型的公司还需要对于生产环境和开发环境进行隔离,以保持环境的稳定性。基于这样的需求,本阶段完成如下工作:
(图2 研发服务)
(1)办公基础服务
基础办公软件的服务,全面SaaS化,通过office365多人协同办公服务,实现无纸化,高效化办公。人员的变化只需要增加/删除帐号即可,不用对软件以及后端的服务进行维护,非常适合中小团队的办公需求。
(2)研发基础服务
研发基础服务是实现敏捷开发的重要环节,搭建自己的DEVOPS工具链,充分利用业界最流行工具搭建本地的私有工具链,如图2研发服务中的代码管理工具GitLab,持续集成和部署工具jenkins,敏捷项目管理工具JIRA,文档管理工具Wiki。这些工具都是业界主流的工具,使用方便,并且易于集成,出现问题时也有很多资源来帮助。在办公室内,研发人员对于研发基础服务的访问是透明的,可以通过域名直接访问对应的服务。当在家里远程办公时,需要通过研发VPN来访问研发服务。
(3)生产基础服务
生产网络与研发网络进行隔离,相互之间是通过云的网络隔离机制进行隔离,确保了生产环境不会被研发人员的意外操作破坏,并且生产环境有专门的生产VPN网关,运维人员对于生产网络的维护只能通过生产VPN进行。
3.数据安全防护阶段:
(1)网络安全
在办公室内访问本地和云端资源是完全透明的。并且研发人员、行政人员和访客接入的网络不同,他们能够连接的IT资源也不同。比如研发人员接入研发网络可以透明访问本地和云端的研发资源,而访客则没有这个权限,如图1中的无线网络配置所示。
在家里远程办公时,通过本地防火墙网关配置的VPN认证访问连接办公网络,隔离外部非法入侵,并且方便管理。进入办公网络后,就可以像在办公室一样自由访问本地和云端的资源,如图1中的VPN网关配置。
办公,研发,测试和生产网段隔离,每周定时进行网路安全漏洞扫描,充分保障各项工作稳定运行。
(2)双重备份
所有重要服务数据均在云端和本地实施双备份,遇到设备故障等原因导致数据损失后,可以及时备份恢复,保证公司数据资产安全。
敏捷式IT架构,满足灵活的业务发展需要
1.降低成本
针对传统的IT基础设施自建(下文简称自建)的方式,混合云方式有比较大的成本优势,它既可以使用公有云又可以使用本地资源,企业将应用程序和数据放在最适合的平台上,获得最佳的利益组合。
混合云方式VS自建方式费用对比详细计算如下:
以常用的服务器举例,配置:
因数据安全需求,必须维护一套本地计算环境,不能使用全部上云,公司在实际使用中需要2台上述服务器(按市场价12.9万元计算)以保障基本使用,服务请求峰值时需将硬件资源提高至8台,实体服务器折旧按3年计算,运维人员按照2万元/人月计算(出于简化计算考虑,没有考虑用电制冷等费用)。
同等规格云服务器按照12.1万每年,30%的使用率计算(云服务器在不使用时可以关机节省费用)。
以此类推,可绘制成本对比图如下:
(图3 成本对比图)
创新院在实践过程中发现,在IT架构云化推动下,对比自建服务器集群,公司用于IT的年成本一年可降低约70.1%,五年可降低成本约46.7%。
2.提高资源扩展效率
该种计算集群需要具备高可用性,且能随着负载的变化动态调整的能力。如果只使用自建服务器则会导致在性能伸缩方面存在局限,采用混合云后,可以弹性伸缩按需取用,自动释放,提高资源的利用率,有效降低成本且无需投入大量人力来调整计算资源,节约了人力成本和时间成本。
3.提高服务可靠性
在实践过程中,公司通过IT基于混合云的敏捷开发架构实现了年平均故障间隔时间(MTBF)3000小时以上,年平均故障修复时间(MTTR)降到2小时,安全等级事故数量为0。
云端具有多路供电、恒温恒湿系统,引入集群技术、容错技术及负载均衡技术等措施确保计算持续可用,重删比可达30:1,长期保留备份数据也无需大量存储空间的高容灾云资源等优良特性。
这样由云端、网络、终端组成的云计算系统具备极高的可靠性和安全性,计算可用性非常高。
4.预警及恢复
通过IT基于混合云的敏捷开发架构,公司可实现数据的备份、容灾、归档、复制、快照、迁移一体化集成;公司将本地备份,异地备份,云备份一体化融合;软硬件实时监控,备份软件运行状态全程监控,运行情况可审计。
通过混合云的IT架构,可保障平均故障修复时间(MTTR)降到2小时,也可将配置策略将备份数据加密上传至云端,实现云灾备,以实现服务故障无感知恢复。
项目经验总结
创新院在自建基于混合云的敏捷开发的IT架构过程中,也遇到了很多难点和痛点,其中的难点主要是技术架构调整,带来的整体复杂度的升级,前期建设过程中会需要更多的基础服务的搭建,需要软硬件的全方面支撑才能够顺利推进。痛点在于转型之初的阵痛期,架构调整之后带来的不适应,增加了学习成本,刚开始运行时可能很难看到效果,需要明确目标,结合实际情况来做适当调整优化。
建议首先考虑云端的服务,是否能够满足需求,尽量不要采购本地资源,会带来后期很多的维护成本,其次考虑业务的地域特性,选择有本地节点的公有云,以获得更好的性能和服务,最后IT架构的数字化转型是一把手工程,需要公司决策层的大力支持,这样才能更快地适应新的架构。
【企业简介】
2018年9月17日,徐汇区政府、上海仪电集团、微软公司在上海市政府的见证下于2018年世界人工智能大会上共同签署了合作备忘录,宣布成立微软亚洲研究院(上海)和微软-仪电人工智能创新院(上海仪电人工智能创新院有限公司)。2019年5月24日,上海市领导为两院揭牌时寄语两院发挥各自技术优势,加强资源整合对接,打造上海本地的“创新引擎”,为上海建设具有全球影响力的科创中心和卓越的全球城市奠定坚实基础。2020年7月8日,创新院正式入驻西岸国际人工智能中心投入实体化运营。
上海仪电人工智能创新院有限公司是上海仪电集团投资设立,面向政产学研合作执行人工智能项目的工作平台和开发平台。通过制定多层次人才培养计划,致力于引进和扶持人工智能领域的高精尖人才,帮助上海加强人工智能人才梯队建立;通过人工智能关键共性技术研发与转化,助力企业、高校和科研院所等实现AI研发、实训环境的快速部署和构建,致力将前沿的基础研究成果转化应用于城市建设和运营。
【专家点评语】
没有可靠IT基础架构的数字化转型就如空中楼阁。确实如仪电人工智能创新院所说,IT架构的数字化转型是一把手工程,需要公司决策层的大力支持,这样才能更快地适应新的架构。仪电人工智能创新院在IT预算有限,且没有专门的机房基础设施和IT运维人员的情况下,搭建了基于混合云的敏捷开发IT架构,难能可贵,也探索和积累了宝贵的经验。
——百度人工智能产业赋能中心负责人 魏宗凯