智慧民航案例展示:浦东机场信息系统智能化运控平台的建设与应用压

  为了深化民航智慧化建设•★=•,民航资源网启■动▽☆☆▼“2019智慧民航优秀解决方案暨应用案例▼▲•…”征集及◆评选活动▽…=▲,寻找创新•践行企业分享先进经验●△…•。目前已经收到了来自▪航空公司-■◇、机场○▽◁◁、技术供应▷商▼投递的大量案例○▼●,民航资源网将陆续展示分享▪◆○★△。

  上海浦东国际机场于▪▼1999年建成通航○◁◇▽•,发展至2019年已拥有两个航站楼▼☆、两座卫星厅★○◁•◇●,旅客年吞吐量约7千万人次••-▷▪。浦东机场新的枢纽战略周期从◇▪◆▼“扩大规模▪▲○”为主转变为◆=○□•“打造品质●○◇▼★”为主◇…▲,上海■国际机场股份有●限公司(简称••••▷○“公司◇▽◁”)作为大型复合•国际■枢纽的管理者和机场综合服务的整合者■▲○▽,业务拓展将主要围绕建设大型国际航空枢纽□◁…◁•▼、提高运行▲效率▪•▪◁▷□、提升服•务能级★▲、推进管理改革等中心工作展开…★。随着浦东机场枢纽建设稳步推•◇进…☆◆,公司对安▷全服务▷★-□、运营效率▲■、内部管理等各方面要求不断提▽升▲▲▷▲•。

  机◇电信息保障◇部隶属于上海国际机场股份有限公◇司=■○■▽,是一家信息技术保障□单位▽■▼•,其下系统运行中心主要负责包括离港=☆◇、网络=◇=●◁、航显◁•□★◇、集成■▷-、门禁▪○▼……、监控◁…-、广播等30多套信◇●□息=系★统的运维★▲◆、管理工作••,业务范围包○括▪前端设备维◇护●□•■○、网络设备及服务器等△◁▽=●。如何确保系▼统■▪、设备的高效-运行-是系统日常运维★=▲、管理的重中之重•◁◇◁,实际工作中也遇到了亟待解决的难点问题▲…△▪•。

  (1)各自系统都配备独立的监控工具■▷•,分别安装在业务系统终端上☆=,较大▪量的监控终端导致资源浪费=□○•,同时也受到安装空间的限制=▲-◇。

  (2)按照信息安全的要求▷★◁,监控终端的操作系统和业务软件均需要部署复杂密码■▼▲••,案例展示一且需定期更-新▼□◇○,运维人◁员需要熟记大量账户▲=▪、密码•▪▲。

  各系■统前端设备及网络设备遍布机场各个角落▷★,300多台重要服务器主要分布在两个航站楼和各大主机房▽▷△,数量大■-★□◁▪、点位散■=◆•☆◆,并且随着□卫星厅建成投运和新信息系统的增设▼▲△,各类■设备不断递增中◇•★▲■○。而多数系统监控工具没有自动告警机制●▼…△◆…,无法实时发出异常告警◁▷,需要人-工巡检发现问◆题□○-○▷。

  对网络设备和服务器的巡检☆•◆□▲-,系统运行中心技术人员需要登录到交换机或者服务器上查看各个性能指标▼▪,一个设备的人▲均检查需要3分钟左右△▼;至2019年▪☆△★,交换机和服务器数量已超过2000台▷□•,每次全面巡检一次需要约6000分钟(100小时)=□。

  机房日常检=查只能通过人工现场巡●检-▼•-●,对机房温湿度数据□■■=○、UPS▼☆●、空调状态▷•▲、有无漏水等□▽情况进行现场◁确认…▲◇=。每个弱电间至少需要耗时3分-▲钟★=●=,核心◆机房至•少30分钟★▲▽■▪■,一天□只▷能巡检一次▼…△…☆。且故障发★生时=▼,很有可能不在巡检时间段内△▷□◆△◆,从而导致机房◁▲◁、弱电间环境等问题无法及时发现和处理■■▽•。

  信息系统的正常运行需要服务器相关硬件□■=…•、数据库=…-…•、应用软件•▲▲■△▷、网络设备★■▲、光纤线路等各个◁环节□的支撑■★,一旦发生复杂•故障◇●○▷-,技术人员只能依靠运维经验进行各个环节的排▷故▲=,缺少便◁捷的工具辅★助定位故障▷=☆●,技术人员对现场运维工作面临以下压力▲-▲▲◇:

  从历史故障数据统计结果看=-■☆▼▷,一个复杂故障准确定位时间大概需要30分钟以上▷◁☆▷•◁。根据2017年运行科室的案例故障定位及处理时■间统计如下表所示○☆:

  业务系统自动化展现效果不足□•,需要人工干预••□;技术人员缺乏预判故障风险能力■…•,面对故障隐患主要依靠=人工巡检…-==▷、定期维护的方式来进行预防-☆•,费时费力且无法实现实时主动监控◆□▪▷◇◇。

  浦东机场航班密度越来越高-○▽■,基本处于24小时不停航的状态•▷=,面对用户对业务系统的高可用◁性需▽•求◆●◁▪☆☆,被动等待故▪障发生•=,事后处理的运维模式势必◇影响航班的正常运行△▽◁◇■。因此★◁◆◇●,浦东◇机场技术人员急需…一套全面•-☆▪◁、成熟的预警•机制来解决以上难点□◆=☆◆,从海量历史故障数据中提取有价值的数据来产▽生合理的预警信息■=▽☆□▪,降低故障率★☆•▼、提高系统可用性☆•、延长业务◁连◆续性▲●▽▽◇▪。

  面对以上痛点和运维难点■-■=•,机电信息保障部以△◁•◆“智慧机场…☆▼•”理念为指导•▽,信息化技★术●为基础◇●▲●,于2016年开始筹备信息系统的智能化运控平台建设▽•□◇◆,从而全面提升上海浦东机场各类信息系统整体运行服务质量水平□△○。

  智能化运控平台依据浦东机场运维管理规范和实际管理需求▷…▲,结合业内标准和最佳实践▪▷△◇,通过实施•先进的运维和监控管理工具▲▼◁-●▽,建立以服务为导向的运维监控管理平台◇•,实现对机场IT网络-内的设备和系统进行集中监控与展现◆☆;实现系统运行维护的自动化与规范化=…;实现运•维工作透明化▲◁、可视化▽-◇▼•◁、流程化☆•、制度化和可○○控■-化▪○;同时促进日常运维工作效率和水平的不断■提升▼•★▪,保证运行维护工作的高质=□▲◆、高效开展…■★■。

  运维平台采用分-层◁▼▽-□、模块化的设计技术-□▽◇…▽,模块与□模块▽…、层与层之间松散耦合△▽▷,各模块可▷独立部署••★□★、升级扩容●★▷,既相互独立□工☆作…◁◁○,也具备良好的耦合性-…△-▼,形成一体化监控系□统□•□-☆。监控系统具备良好的开放性☆▲★●,支持快速▽●融合第三方监控工具●◆○…-,实现资产配置与告警事件的自动抽取与集中展现等=▷。监控○系◆统具备▽▽良好的扩展性…★=□,管理范围△▪■◆▼、管理深度和管理功△能均支持平滑升◇◁级和扩展▷•★•,满足不断发展的运维管理需求◆●。监控平台主要由▼资源配置管理□•…▷▼■、集中监控管▪理•=•■=◇、综合管理三大部分组●成☆□▼▲,实现★△▲■“监=■…▼、管-●•=■、控-▼”一体化的运■◇维管•理■■解决方□案•●。系统总体架构如下图1所示●◆▽…◇:

  集中监控管理部分主要对生产环境中IT基础设施的集中监控管理▽○,包括传输网络▪设备■▲==▼▪、主机/虚▽拟机◆▪▽▽、存储设备★●=、安全设备▼•、实战应◁用系统等性能采集和事■件处理•◆▽▲■,并利用监控可视化平台提供大屏展现等能力□•■=••,同时支持与第三方系统集成能力•-◆◁,比如云平台的集成接入等▽▽▪=★●。

  综合管理部分包…括统一运维门户■★◇▷、报表平台○▼▪■□、全文检索•☆、权限•管▽理及▼分级管○理等主要模块▲◁▪◇,以保证平台不同角色的运维人员可以通过▲浏览器访问到自身职责对应的功能和视图●◁◇△,是信息的集中呈现窗口和日常工作平台•△•。

  资源配置管理部分将运维监控和软件▽▼○◁、硬件基础信息有效结合★•■◆★☆,将分散的视频资源●•、网络资源▼…☆▽■、主机资源▪•●◆◇、虚拟机资=△源▼△◁、数据库资源◇-■•▽=、中间件资源○…▪•、存储资源▷=★…、业务系统●等整合在一起•▷●▲,通过关联将资产配置信息丰富化●●-。并且能够很好的适应云计▼算▪▷○、虚拟化技术的应用•□■□,能够快速适应虚◁拟化基础架构的变化▼…○▲•▪,能够从数据建模☆●▲、数据收集与维护和数据分析•应用三个◆方面实现对资产和配置数据的管理■•◇。

  运•维平台主要包括3大类数据☆▼▪◁=,告警监控数据◁▷、性能监控数据▽○▷=▪、资产配置数据◇★▷△□,通过性能管理库与资产-管理库的数据交互=◆□•◇▼,经分析处理后形成可供使◆用与展现的标准数据…★▼◇、报表抽-取数据和流程数据○◇-▪●○。数据经过标准化处理后…○○▼=,将分别提供给运维服务流程作为流程运转的关键数据△◆□▼▽,提供给集中展现功能进行直观▲◆▲、动态的信息展现●-。

  智能化运控平台实现了对网络设备★▪▽▲□、服务器应▲用…▪◁、云平台以及机房环境监控的综合集中监控▪■•,不再需要通过各自独立的监控工具检查系统□=、设备的性能和状态▷○…-,提高了运维效率-…◆。

  ——网络监控管理功能模块主要包括网络故障监控模块◇○◇、网络性能监控模块☆•=★◁、网络拓扑管□▼☆理模块▪■◁、网络☆配置管理模块○▲•、网络安全管●理模块等•▽…-。

  ——服务器资源监控主要包含除基础网络之外的服务器相关资▲源△★▷▲□◆,包括主机◆★▷•、数据库▷◁、中间件◇★△、通用服务▲等■◆▼▪▼◆,并能从业务角▽度出发◇==,将上述分散的资源进行逻辑组合★▷,构建业务逻辑模-型☆•▼,实现业务层面监控◆…□●■。

  ——完成与原有机房监控管理系统的=集成建设◁•…•,内容包含☆◆□:机房环境…监控系统的机房设备设施及监控资源★的基本信息○▽•■=◆;机房环境监控系统的机房设备设施运行状态信息…■;机房环境监控系统的机房设备设施运行监控指标信▲息=□;机房环境监控系统的故障告警信息等-★◁…。

  IT运控平台通过视图的方式呈现▪☆■-,包括基础动环○▽▼□…、网络架构◇★、服务器设备•=▲●★、云平台★…▼★…•、业务服务等方面的○信息-□■,通过资源分组组件▪○▲、统计分析数-◇据▷◁•、运行评估数据的形式在同一界面全屏显示●▲★=,监控内容和数据资源支持以3D空间视图的方式呈现•◇★◁△=,支持通过动态动画交互呈现□▪○▪•◆,并可通过第三方分屏工具投放到监控大屏幕上展示◁◆-。如下=图所示□◁△◁-△,为运维综合分析数据的3D呈现如下图 2-▼. 所示▲-★★…○:

  网络可视化实现对主干网□▲=…▼、离港网◆••■…•、安防■网等三大生产网络的核心★•★○、汇聚网络设备运行情况进行实时展示▽□★•□☆。同时按△网络□分▲区◆▲▼○-▪、网络分层对各类网络设备和资源进行可视化展现◇-◆。实现全局总览和局部重点关注••◆,也可独立显示当前层级的网络拓扑结构★☆★△●☆。系统的网络可视化呈现支持对网络运行统计数据▪▪-、网络健康度分析评估数据的可视化展现▷◁◁▼▲,另外还支持对网络设备的在线▲状态◆☆◇◇…-、设备运▷行性能指标△▷★□、故障告警等各类运行态势数据的实时展现▪☆•▪◇▽,如下图3所示◆■:

  信息系统可视化支持多维度■○□△•◆、层次化来展现业务系统的组成和运行态势◇★▽☆,提供基于应用系统整体运行态势监控视图◇◁☆,也提供基于应用系统基础架构组…成关系的业◁务逻辑监控展现视图◆…◇。另外…◁,信息系统资源可○视化呈现视图实现•对机场各类设备设▲施根据所属系统★-◇、分布位置等进行分类统计和可视化展现■▲▷▪▽,综合展现系统运●行中心所负责维护管理的资源的整体情况•▲◆。目前接☆入了离港•-▼◆-、航显▪○、广播◆▽■、CCTV●▼•◁、门禁•△▼、呼叫▽中心等▼10多个■信息系统•▲▽■△,300多台服务器▼◆,展示示●例◁如下图4所示◆■◆◁:

  

  监控智能化主要体现为两点=◆:一是故障实时告警▷•;二是运行•态势提前预警▷★-■◇●,预警功能分为网络和应用两个层面◁○=■。

  智能化运控平台一旦监测到系统设备或应用的异常▪▪△•□●,可以根据各系统设置的轮巡时间最快发现异常并实时发出告警△=▽,告警的发出提供声光效果设置☆■▷◇□▲,不再依赖人工查看◁☆。告警信息将包括◇故障的设备◆信息•△•、所在机房等数据自动生成报修工单推送至移动端▽▽☆=•。

  提前预警根据系统历史数据□▲,结合大数据算法=★▲★,评估系统未…来的运行趋势○△◇-•◇,将故障发生的可能性提前进行警示○★▽▷,目前主要实现了网络的健康度分▷析和应用的健康度分析▼◇…◇:

  ①网络健康◁度分析评估支持对机场整体网络☆▷、分区网络◆及网络设备进行健康度评估○▷◆▽◆•。网络设备的健康度分析评估从设备所处☆网络位置▲…◆◆、设备使用年限▼☆□、设备故障□记录◆◆、设备性能负载◆•△△、设备流量负载▲○☆◆☆□、支撑业务=应用等维度进行综合分析■□○★。通过各维度权重分值进行加权计算设备所得健康度●△◆▲▷…。

  ②应用健康度分析评估支持对机场各业务应用系统及应用支持资源的健▲康度评估…◇。业务应用分析可以统计在一定时间段内○…☆◁△■,关键应用系统☆可用性●○▷△■■、宕机次数▪•-◆★、宕机时长■★▽•▷☆、运行趋势等以直观对比形式☆呈=现出来◇★。根据设备监控指标历史监控数据•▪□◁,对系统资•…源性能态势进行预测□-●。

  ——智能化运控平台生成告警△□…、发出报=▽修=工单•-▽○☆□,运维人员△可以在移动端实时接收故障位置▲●•、故障设备等信息后根据自身位置进行就近接单▲▼。

  ——在▷线运维支持功能◆•☆,已完成的工单信息□形成运维经验共享知识库◆★▷☆,运维人员可以●得到历史故障处理信息的在线支持○●◁■▽;也可以与其他技术人员连线支持★○,并通过关□联照片的上传等进•行互动说明■▲。

  ——巡检保养工单▪自适应生成○◆▲-,根据当日□巡检内容-…=■,按照不同▲系统○☆◇、不同区域的设备生成就近最合理的路线○■。

  ——备品备件联动管理▽○,故障处理需要使用备品备件时在对应工单☆填写使用情况▲■▪,自动关联至管理库进行登记▽--、扣除等□◆。

  ——绩效考核量化支持◆=☆▽◁,签到功能提供人员是■否到岗情况○▲,每个报修工单★会根据处理的故障复杂程度进行不同=的分值设置◁▪…,处理人员会得到相应的分值●◁◆■•=,为工作量化◁考核提•供依据等○▼■▷▽。

  运控平台通过实时监控网络性能▽▪•●▽▲、分析应用状态等手段●△•◁,评估系统整体健康度•☆▪…◇,实现系统运行数据一体化○★,全局掌握系统的健康水平=◆△••。

  平台对网络设备实时监测▼☆□,并对设备性能进◆行评估●△………,设备性能监控指•标包括▷-☆▼•△:在线状态◁-■▽-◁、Ping延时☆△△…、CPU•…•□、RAM△▼•●•▷、端口状态•□□▼•、端口速率•▷●=◁、端口包速▽▲▼、端口丢○包率…■◇◇■、端口错包率等●□◁。

  通过Agent方式和多种协议方式管理和监测系统服务器硬件▷指标和-操作系统□■▼○○,支持…不同操作系统的服务器▽◆★…◁、小机的运行状态☆和性能数据□▲☆■,包括服务器的基本信息▪◇◁、CP…U负载△◇、内存▷利用◇率●△▽、应用进程-•◁○▪▷、文件系统△■◁-●、磁盘空间◇□■和吞吐◁…▪、事件△◇、网卡和日志•等▼信息的分●…析与监控•●▲●,收集▪系统日志信●息等▽◇○◇,最终形成各业务系统的总体健康△◇★“体检报告▷▼”-■,如下图◇5所★示△■:

  预警是▽根据健康体检数据△=,结合历史故障数据和历史体检数据分析系统当前运行趋势□•▼◁☆○,对不平滑数据进行实施预警•••★,人工干预◁▼◆,提前遏止故障萌芽▲•-。

  预警功能的实现▽•=●,能够提▼前发现网◁络设备或服务器端的异常◇▼◇★•▼,提醒技术人员进行分析▷◁△、确认■◁▲,并采取相应的预防◆○●▪○、干预措施=•△▼▼▪,在用户无感知的情□况下快速定位○▪、快速解决▲-◁■▽。

  自智能化运控平台☆上线至今=★…•◇,通过平台告警快速定位区域性故障▼■◆,平台预警提前干预的处理方式△★…◁△-,减少了•故障数量★▽▷☆●,提升▲了系统的安全性能☆□▽●,延长了业务=的连续性▪◆★••▲,从而☆进一步提…升了用•户的使用体验△▽•○△=。以航显系统为例-•,平台建▲成后故障量较之前明显下降•…△★○-,如图6所示==□:

  智能化运控平台上线多台汇聚层△△、核心层▷▪•★△◆、接入层的交换机进行集中监▼控▼○○,一旦●设备发生故障●☆•=■•,最迟将在10分钟内发出告警△●◆•▲★;告警信息关联设▲备☆•,从系▼统架▪构层面●☆◆☆☆,可以定位到系统的不同层面•◇□◁◆,例如服务器□…,中间件◆☆-,还是网络▷-设备○◆,从物理位置层▪面▪▽…,可以定位到具体机房▪☆。重大故▪障发生后定位故障的时间由原先的30分钟缩短为5分钟••,实现了故障快速定位△◁★,提升系统管控能力□=▪•=、提高用户体验☆▽□◁。

  终端点位散的系统或系统使用非高峰时段发生服务器端故障时●△□●◇◁,智能化运控平台能通过网络设备◆△-◇、系统应用状态以及机•房环境数据的实时监测△○☆★☆、综合信息显示▽▪…☆▼,帮助运维人员对接报故障进行原因关联预判▪▽-•■,能够◇更快速地处理解决问题●★▲-◁。以安防类系统CCTV和门禁系统为例▷◁●,根据平台发出◆的相关告警提前发现设备下线=-•□■、网络设备端口下线或服务器相关进程异常等▽▪•,快速定位故障点◆◇◇☆,区域化故障平均处理时间减少约30分钟▷-。智能化运控平台的建设进一步优化了业务流程◆▷•▷▲,同时缩短了故障处理排除闭环时间★○◁▼●■,具体对比▼信息如图7所示▷•▪:

  ★□▽“平安机场●△○●◇=、绿色机场■★▲■、智慧机场○☆、人文机场★•◆•◁”的四☆型机场建设-★中●□▲,智慧机场建设是关键支撑□▼◁。浦东机场机电信息保障部借助前沿科技…■●,推动▷建设了智能化运控平台•◆,将系统运维防线前移△■▪=◁,在-•▲◆“预△◁▲”字上◇…▪下功夫▼■▽◇◆●,扎紧▽●▷○◇“预防◆●▲、预警▲◆◇◇、预控◆▽•▽”的篱笆○△,提高■了业▼务系统的连续■性◁◁●▲,也加强了现场的一体化管控能力□▲◆▲。

  未来□=◁▽,浦东机场的▷技▷…术保障团队将继续挖掘信息系统智能化运控平台的潜力▽▷●◁,在架构☆设计已具备○良好开放性和统一性的基础上☆-▷▪■,继续深入机房监控▲-▼☆,新增▪核心■△机房目视化管理模块★▲,将进出机房人员作业全监控△★▲…;考虑引入网络流量监控▼▽△◆▲•,做出安全分△析△●•,实现网络信息安全态势感知的△新功能○▪◆,努力将浦东机场打造成▲-“国内最好•◆=◆△☆、世界一流●▽”的智慧机场●•★。智慧民航案例展示:浦东机场信息系统智能化运控平台的建设与应用压滤机入料泵的安装图百盈体育在线投注


上一篇:2020年网络数据安全合规性评估入选优秀案例系列展示之三br淘宝开放平

下一篇:宁波日报社数字报刊平台