行业背景
发展要求
近年来,在若干*策指引下,医院信息化管理系统、电子病历系统、区域医疗信息互联互通等重点工作逐步得到完善。国家卫医院的评审和评级种类,明确了验收细则和时间点,考核日趋严格。例如,卫健委要求到年,全医院电子病历应用水平平均级别分别达到3级和4级,智慧服务力争达到2级和3级,智慧管理争达到1级和2级,能够支撑线上线下一体化的医疗服务新模式。实现“以评带建,以评促改”。
由于,“互联互通+医院+精细化管理=医院各类系统的融合度、复杂度将持续加大”,评审的趋严直接给信息中心的IT运维带来巨大压力及困难。
安全要求
年12月1日起,网络安全等级保护2.0相关标准正式实施,实现对新技术、新应用安全保护对象和安全保护领域的全覆盖,医院纷纷上云,虚拟化的安全防护尤为重要,因此等保2.0尤其强调网络安全防护,强化“一个中心,三重防护”的安全保护体系。
等保要求的提升,给医院信息系统的安全工作迎来新挑战。因为随着信息技术的不断发展,特别是云计算、物联网等新技术的不断涌现和应用,在带给医疗行业快速、便捷的同时,也让边界防护变得模糊,黑客攻击、勒索软件、蠕虫病*以及系统漏洞导致的数据丢失与业医院亟待解决的难题。如何实现全方位主动防御、动态防御、整体医院的挑战,“十四五”期间,5G等新型网络基础设施也面临着更高安全要求。
因此,医院信息中心,不但要承接越来越多的系统运维压力,还要按照等保要求,提升安全防护能力,已然分身乏术。
运维现状
目前,为响应国家*策,简化看病就医流程,打通医疗大数据,医院管理,医院一整套业务流程囊括了预约挂号系统、电子病历系统、检验化验系统、影像平台系统、财务信息系统等一系列相关系统,医院主要患诊数据的互联互通
但由于各类系统需要同时对接患者、医生、医院各科室等多个端口,医院运行的神经中枢。对各系统的稳定性要求极高,一旦某套系统出现故障,会整体业务流程造成影响。
因此,医院系统覆盖的业务量,互通紧密度,都导致信息中心有大量且琐碎的运维工作,而医院最多也就10人左右的运维团队,80%医院只有3-5人的运维人员,医院只有2-3人,剩下的就更少。面对如此庞杂的系统运维工作,疲于奔命,效果还不好。
需求描述
医院
集中管理需求:医院建设推进,医院已经完成HIS、LIS、PACS、EMR、体检系统、统一支付等核心业务系统的建设,且已配套一定规模的网络、服务器、动环等系统。各厂商独立监控、数据割裂,缺乏统一监管工具。
问题发现需求:新业务系统上线检测、现有系统问题排查都是信息中心事后发现问题,且仰赖人工摸排、摸排时间长、问题处理效率低下,运维管理工作成效不显著。
根因定位需求:医院已经不满足于只是发现问题,他们需要排查到问题的根源,提高问题处置的精准度,因此对异常检测、日志审计能力要求较高。
医院
集中管理需求:随着医院业务扩展和信息化建设的持续深入,尤其疫情促使医院提速业务线上化进程,上新应用和现有系统优化需求较多,IT系统运行的稳定性、可靠性问题较多。加之只有2-3人的运维人员,无论技术能力+数量都无法满足当下运维工作需要。评审达标需求:为能升医院,需要达到相关安全评审标准,运维监控是达标要求的一部分。
医院运维安全
目前,由于等保2.0的要求提升,依据《医院信息化建设标准与规范(试行)》、《卫生行业信息安全等级保护工作的指导意见》等规定,医院完成网络安全体系中堡垒机和日志审计、网络管理控制系统的建设,医院医疗网络目前无网络安全体系中堡垒机和日志审计、网络管理控制系统安全设备。
关键目标
运维安全管理能够提供集账号管理、身份认证、单点登录、资源授权、访问控制和操作审计为一体的运维安全审计服务;能够对服务器、网络设备、安全设备、数据库等资产的运维操作过程进行有效的运维操作审计,使运维审计由事件审计提升为操作内容审;通过内控管理平台的事前预防、事中控制和事后审计来全面解决运维安全问题。
日志审计能够实时医院网络中不同厂商不同种类的安全设备、网络设备、主机、操作系统、生产业务系统的日志信息,协助技术人员进行安全分析及合规审计,及时、有效地发现异常安全事件及审计违规;能够提供众多基于日志分析的强大功能,如安全日志的集中采集、分析挖掘、合规审计、实时监控及安全告警等,为安全事件的分析、溯源提供有力支撑;医院实际运维分析需求及审计合规需求,是医院日常信息安全工作的重要支撑平台。
网络医院园区网络的新一代网络管理控制系统,是集管理、控制和分析功能于一体的网络自动化与智能化平台;能够提供园区网络的全生命周期自动化、基于大数据和AI的故障智能闭环能力,医院降低运维成本,医院数字化转型,让医院网络管理更自动、网络运维更智能。
痛点分析
定位问题难:医院带有华为网络监控系统(医院网络、交换机情况),但对物理服务器的硬件信息、操作系统、服务中间件、移动端应用和数据库等缺乏有效统一管理手段,难以主动发现问题与故障。无法满足现有IT设备的运维监控要求。
问题发现滞后:门诊楼、住院楼等用户通过专网访问各类业务系统,之间的网络链路情况、系统访问可用性、响应时间等缺乏有效手段进行实时感知,往往接收到投诉后才进行排查,耗时耗力,还效果不被认可。需要借助工具提升异常检测的准确率。
运维负荷高:只有3-5人配置,日常运维通过人工方式进行机房巡检,通过观察设备指示灯判断故障,对服务器、网络等基础设施层以及应用业务层无巡检。疲于奔命,无法满足现有IT设备的运维监控要求
新系统上线:医院处于上新系统时期,可能出现比较多不确定因素。需要利用apm通过抓取服务端的数据,将异常数据医院验证新系统性能的指标评判,希望业务问题能够直接定位,辅助新系统调优,需要直接部署在生产环境中。
资源管理难:医院数据中心对服务器CPU、内存等计算资源,磁盘空间、磁盘I/O等存储资源大多没有有效方法实现科学管理及规划,对系统应用节点和数据的各项性能参数配置等数据把控不足。
告警风暴:医院带有动环、基础设施监控,医院业务系统复杂,会产生过多告警信息,使运维人员淹没在告警风暴中无从判断原因。
厂商监控独立:虽然有部分厂商可以提供监控工具,但各工具之间相对独立,仅能提供自有产品的状态监测。缺少对核心业务系统(如:HIS、PACS等)全链路进行监控,当业务系统发生异常时仅能从设备层和系统层分析问题,很难定位到业务或应用的问题根因。
安全评审要求不达标:由于等保2.0医院的信息化安全要求标准,医院需要根据相应安全评审要求,利用运维监控平台进行支撑。
网络性能不稳定:医院都仰赖网络,医院,一旦出现网络性能问题,就必然导致大面积的业务瘫痪,所以网络性能的监控及安全风险评估,都是重中之重。医院运维项目普遍预算有限,NPM价格相对较高,比较难cover住成本,所以卖的不多。
产品列表
DOIM:私有化部署,主要围绕客户HIS、LIS、PACS系统涉及到的设备层,包括数据库、操作系统、服务器硬件、存储磁盘阵列、数据库和虚拟化平台等进行统一监控。
APM:私有化部署,主要围绕HIS\EMR\LIS\PACS\体检系统\统一支付系统等核心后端应用进行监控检测。在测试场景中、生产环境中均有部署。
DOLA:主要依托云智慧在智能算法、日志分析方面的能力,医院在业务系统运维监控方面做好事前预防工作,减少问题发现和故障排除的时长,提升异常检测的准确率。日志分散在各类服务器主机、容器、网络设备中,需通过CDC进行日志的采集,采集对象是IAAS层所有设备。
DOEM:通过邮件、第三方Push等方式进行告警通知。
整体方案
云智慧提供面向“智慧医疗”领域的一体化智慧运维实践。应用场景包含主动监控、快速排障、集中告警、价值呈现、集中管理、日志分析、主动巡检、服务管理。此外,云智慧一体化智能运维监控方案拥有全栈监控、自主可控、成熟方案、大量实践、以客户为中心、全国服务网络、算法能力领先、ITILv4官方认证等核心优势。
整体架构设计
下图为云智慧一体化智能运维解决方案整体架构设计。
主要应用场景
全栈监控
通过Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、串口、ODBC/JDBC、自定义SQL、URL、WMI、Java连接等方式对上百家厂商的服务器、网络设备、操作系统、存储、虚拟化、中间件、数据库、Web服务等资源的配置数据和指标数据进行统一采集。最终实现资源管理与拓扑管理。
资源管理:包括网络设备管理、主机管理、数据库管理、中间件管理、存储管理、硬件管理、标准服务管理、日志管理(syslog、snmptrap)。拓扑管理:具有自动网络拓扑的功能,采用先进的网络拓扑发现算法和数据采集协议实现网络拓扑发现,包括基于路由层链接生成网络拓扑图;基于网段的连接生成物理网络拓扑图;基于VLAN和子网生成各子网逻辑拓扑图。
此外,全栈监控还包含实现以下监控目标:
一体化监控:内置+种开箱即用资源模型、+监控指标,能全面快速地对接上百家厂商的老旧设备、IT资源、动环设施、IOT设备,以此进行集中式采集监控和告警管理,同时支持对接其他系统数据。
异构云环境管理:采用云模式架构设计,利用云节点的采集处理器和代理方式,实现在多种云异构模式下,跨平台/网络/安全策略/域对主流云厂商的IT资源进行统一监控和集中管理,监控范围可扩展。
国产化适配:支持主流国产化设备、操作系统、数据库、中间件的建模和指标采集监控,不限于达梦、金碟、保兰德、人大金仓、达梦、东方通、神通、麒麟、飞腾等,自研数据库不受国际环境影响。
开箱即用:拥有数百种开箱即用指标采集和CI数据采集模型,采集Sever端的搭建最快可在几分钟内完成,使用简单方便。
全年天7*24小时实时展示各项资源和应用系统的整体运行情况,通过智能化运维使原来错综复杂的运维管理工作变的简单和轻松,真正实现职责分明、安全高效、稳定可靠、智能管控的目标。
集中管理
IP地址管理。通过IP地址管理功能可以帮助数据中心合理的对网络地址的日常及长期使用做出规划,提高网络安全性。
通过工具定时扫表,发现网段中的IP地址的状态。包括:使用中、未使用、管理IP、保留IP等。根据IP地址状态进行实时归类,以视图的方式呈现,根据不同的颜色区分不同状态,实时统计,保障网络地址的合理使用。
快速排障
应用拓扑自动发现:全自动发现应用所有技术栈及其关联关系,帮助用户从宏观把握一个应用及其关联应用的整体状态以及请求数、响应时间、错误等的变化趋势,快速定位各层级问题。
针对单次请求,通过基本信息和业务拓扑发现潜在问题,追踪慢元素和堆栈详情,分析错误和异常信息及堆栈,分析SQL语句、API调用与请求参数等的执行情况。
日志分析
日志审计主要依托云智慧在智能算法、日志分析方面的能力,医院采集、整合、分析分散在各类服务器主机、容器、网络设备中的日志,在业务系统运维监控方面做好事前预防工作,减少问题发现和故障排除的时长,提升异常检测的准确率。
集中告警
告警管理能根据告警相关的基本规则,通告自动学习的算法能力,如:集群合并、IP合并等把同一时间与该告警相关的告警进行了聚合。此外,通过对告警的智能分析,用户可以避免无效告警、告警风暴的发生,快速对故障的排查和定位,全面提升告警管理能力。
告警收敛,识别有效告警:对短时间内大量发生的重复告警和无效告警进行压缩、去重,识别有效告警。
告警聚合,协助帮助定位问题:包含根据集群合并、根据IP合并、根据网段合并、根据异常种类合并、根据宿主机与虚拟机的关系合并。
下图为一站式智能告警故障排查和定位的场景,通告示例图可看到是Oracle数据发生了故。云智慧根据海量的告警进行收敛识别,发现了关于Oracle表空间、进程、实例、死锁的5条告警。与此同时,根据告警相关的基本规则,通告自动学习的算法能力,如:集群合并、IP合并等把同一时间与该告警相关的告警进行了聚合。最后通过告警与指标关联,查看当前该告警的指标趋势发现可能是死锁引起的问题。
通过对告警的智能分析,用户可以避免无效告警、告警风暴的发生,快速对故障的排查和定位,全面提升告警管理能力。
主动巡检
为预防事故的发生,运维人员需要每天对大量设备逐一巡检。在传统运维模式下,运维人员必须依次登录设备完成巡检,不仅耗费大量的时间,而且手工操作的方式容易出错。自动巡检可以通过快速聚焦问题以此提升效率。
医院可根据实际需要在自动化作业场景中添加相应的场景,并将操作和编排任务与运维场景关联。
内置多种常见的操作系统、数据库、中间件等巡检模版,能够满足日常巡检需求。
支持灵活配置巡检指标以及阈值,高亮展示异常指标,异常情况一目了然。
支持定时执行策略、巡检通知、自定义邮件模版以及邮件附件类型,保证巡检任务有计划地执行。
价值呈现
基础资源监控:通过大屏医院各应用时应用端口的可用情况及端口健康情况。
网络质量监控:对网络时延、丢包率等关键性能指标进行监控及大屏展示。
应用性能监控:通过大屏医院各应用时应用端口的可用情况及端口健康情况。
数据库健康度监控:对数据库可用情况、数据容量、数据库关键性能指标进行监控及大屏展示。
服务管理
云智慧是通过AXELOS(ITIL版权所有方)认证的中国首家官方授权的IT服务管理咨询合作伙伴(ACP)。这意味着在行业内,云智慧将能为有意愿引入ITIL的企业提供更加权威的IT服务管理咨询与服务,并进一步加强该理论的本地化实践。因此,云智慧的现有产品框架也是遵循新一代ITIL理念打造的。
智能客服:利用自然语言识别技术,帮助用户解决常见问题,快速响应用户的同时极大减少运维工程师工作量;
坐席监控:可实时查看坐席的接待数、对话数、平均响应时间、平均对话时长、消息总数等信息和某个坐席的详情数据;
移动提单:灵活地对接企业