第359章 高可用指标、系统集成与优化(1/1)
言情小说吧【www.yqxsb.com】第一时间更新《科技革命,从1984开始》最新章节。
秦奕微微点头,条理清晰地介绍起来:“高可用指标大致涵盖基础可用性、业务连续性、数据一致性、性能与容量这四大方面,此外,还需配套相应的高可用性验证方法。”
“先说基础可用性指标。可用性百分比,指的是系统在指定时间内提供服务的时间占比,通过 1 减去计划外停机时间与总运行时间的比值,再乘以 100% 计算得出。光讲概念可能不太直观,我举几个例子。”
“一个可用性 99% 的系统,一年 365 天里,停机时间不超过 3.65 天,这类系统适用于非关键的内部工具,而可用性 99.9% 的系统,每年停机 8.76 小时,企业级 ERp 系统常用这类标准。”
“我认为,机场运行控制中心整体可用性至少要达到 99.99%,也就是一年不可用时间不超过 1 小时。其中,协同决策系统、应急响应等关键子系统,应朝着 99.999% 的标准努力,年停机时间需要能控制在 5 分钟以内。”
“平均故障间隔时间,反映系统两次故障之间的稳定运行时长,常作为硬件选型的参考。就像咱们讨论的企业级专用存储,其平均故障间隔时间通常要求不少于 200 万小时。要是磁盘矩阵的间隔时长超过这个标准,就说明它的可靠性更有保障。”
“行啊。” 吴松英点了点头,“那我后续重点关注下,看看你提出的磁盘矩阵方案,在这项指标上是不是更可靠。”
“哈哈,那吴市长你就期待一下吧。”秦奕接着说道,“剩下的最后一个基础可用性指标,平均修复时间是系统从故障发生到恢复的平均时长,这里定义的修复包括检测、诊断、修复、验证的整个流程。”
“这项指标主要用于指导我们快速恢复服务。”
“在故障发生之前,我们首先得想办法通过监控或者其他什么方式了解系统的整体运行状态,这样在故障发生之后运维人员能快速定位故障位置,同时在定位到故障之后,运维人员需要优先采用一些方式绕过故障硬件,恢复服务,而非急着彻底修复硬件。”
“接着是业务连续性指标,主要包括恢复时间目标和恢复点目标。前者指灾难发生后,系统恢复到可接受服务水平的最大容忍时间;后者则是灾难恢复时,允许的数据丢失量时间窗口。”
“这两项指标,对系统降级功能的设计起着指导作用。”
“一般来说,一个系统功能繁杂。以机场运行控制中心为例,除核心的航班、机位调度功能外,还会开发一些方便旅客的非核心商务功能。一旦系统崩溃,我们就得优先调配硬件资源,恢复航班、机位调度功能。”
“至于商务功能,我们可以等后续备份硬件到位,再进行恢复……”
随后,秦奕又向吴松英介绍了数据一致性、性能和容量指标的相关内容,并指出,一些系统还存在与自身业务紧密相关的其他指标。比如行李处理系统就有局部故障容忍指标,这指标要求单分拣机故障不影响系统整体运行,让系统整体具备一定的隔离性。
“你讲得这些指标很系统也很体系化,但是……”吴松英看着指标后面简略的可行性验证方法,眉头紧皱,“这验证方法似乎太过简略了。”
秦奕挠了挠头,解释道:“可行性验证方法,一般采用故障注入的方式,而不同的系统可能会有不同的故障,不同故障对系统造成的影响也不尽相同。”
“机场运行控制中心算是新兴系统,目前还没有契合该系统的完整测试样例,所以,我只能参照一般软件系统,确定验证方法,也就局限于断电、断网、关机等操作,不过您放心,在研发过程中,我们会逐步积累经验,完善相关验证方法。”
“明白。” 吴松英继续问道,“那系统原型通过验证之后,计划的下一步是什么?”
“系统原型通过验证后,第三步要推进系统集成与优化。” 秦奕回应道,“机场运行控制中心就如同机场的大脑,统一协调航班调度,合理各种资源,保障机场有序运行,但机场的正常运转,离不开一系列核心运营类子系统。”
“航班信息显示系统能实时为旅客和工作人员提供航班动态和行李转盘信息。离港控制系统管理着旅客值机、登机的整个流程。行李处理系统实现行李的自动化分拣与全程追踪,减少行李丢失、错拿的情况。”
“还有空管协同决策系统、机坪管理系统、资源管理系统和货运管理系统这些系统都需要与机场运行控制中心进行交互。另外机场运行控制中心还需与空管、航空公司、海关边检部门和气象部门等大量外部单位的系统对接。”
“所以,提前定义好系统间的交互协议十分关键,只有这样才能为后续与其他系统交互做好充分准备。”
“至于系统优化方面,主要从功能细节、数据处理和算法设计这几方面着手。”
“在功能细节上,现阶段我们已能将原型系统交付给工作人员试用,工作人员在使用过程中,大概率会发现一些与预期不符的操作,我们可以收集他们的使用体验,听取他们的意见,针对他们关注的地方,在功能和交互设计上进行优化。”
“除了功能优化,数据处理的优化也至关重要。”
“在数据存储环节,诸如空管、航空公司这些不同的外部系统数据格式大概率会存在差异,极易导致信息延迟或错误,因此,我们需要统一数据接口标准,确保各系统间的数据能在机场运行控制中心这里以统一的方式共享给有需要的用户。”
“同时我们也应该构建中央数据仓库,将航班动态、资源状态、气象信息等多源数据整合起来,打破数据壁垒,让各部门都能获取全面、准确的数据。”
“可以的话,我还希望搭建一个高效的数据存储架构,我们可能需要采用分布式存储技术,将不同类型的数据合理分布在多个存储节点上。这样一来,当系统需要调用数据时,能快速定位并获取,极大提升数据访问速度。”
“在数据质量治理上,我们需要根据不同类型的数据建设一定的数据验证机制,像航班时刻、机位占用状态等关键数据,我们要去除重复、错误以及不完整的数据,避免因‘脏数据’引发误判,影响机场正常运营。”
“此外我们还建立数据异常报警机制,一旦出现机位分配冲突、行李系统宕机等异常情况,系统能及时发出警报,以便我们迅速响应,妥善处理。”
“在数据传输环节,有条件的话也应该引入加密与压缩技术。”
“机场与外部单位系统对接时,数据传输频繁且涉及敏感信息,如旅客身份信息、航班安全信息等。通过加密技术,能防止数据在传输过程中被窃取或篡改;压缩技术则可减少数据传输量,降低网络带宽压力,确保数据快速、安全地传输。”
“另外算法设计的优化也需要在不同核心场景上不断迭代以提高相关指标。”
“当然,这么多集成和优化的内容不可能在短时间内完成,因而第三步,我们后续会制定一个比较长期的规划,打算分阶段、按步骤,逐步达成各个既定目标。与此同时,计划的第四步 —— 建立运维与应急体系,也会同步推进 。”