企业运维系统建立初探(4)
2017-06-24 01:00
导读:(3)事件自动化处理 可以对各类事件信息进行逻辑判定, 并做出相应的动作, 如及时删除不必要的信息、完成不同事件之间的关联、对严重事件采用明显的
(3)事件自动化处理
可以对各类事件信息进行逻辑判定, 并做出相应的动作, 如及时删除不必要的信息、完成不同事件之间的关联、对严重事件采用明显的声音报警、自动升级警告级别假如严重事件在一段时间内没有人响应、发送邮件进行自动通知等等。
(4)可用性的计算方法
根据故障树分析FTA(Fault Tree Analysis)方法,结合可用性的计算方法,来计算服务的可用性。
组件可用率的计算方法:组件可用率 = (AST-DT)/AST*100%
AST——约定服务时间(Agreed service time)
DT——在约定时间内的实际停机时间(Actual downtime)
(5)可用性的评估指标
通常我们采用下面几个指标来对可用性进行评估:
①均匀无故障时间(MTBF-Mean Time Between Falures),它指的是从某次事故修复到下次事故发生之间的均匀间隔时间,又称为正常运营时间(Uptime),它是用来描述服务的可靠性。
②均匀修复时间(MTTR-Mean Time To Repair),它指的是事故发生到服务恢复之间的均匀间隔时间,又称为停机时间(Downtime),它是用来描述服务的可维护性和适用性。
3.业务关联层
业务影响分析, 基于CFIA等分析法,定义事件和业务系统的关联关系, 自动找到故障所影响的业务和服务, 并根据关联结果创建新的服务事件报警。
4.呈现层
提供基于Web方式的监控视图, 可以为不同的治理职员提供不同的监控窗口, 以实时监控相关的事件信息, 事件窗口可以通过分组显示不同类型、级别、源、时间段内的事件信息, 治理员可以一目了然的看到目前是否有事件发生, 级别如何, 并对事件进行一系列的处理工作。
5.报表处理层
各种监控信息存储在关系数据库中,可以利用报表工具进行信息统计分析,天生各种格式的报表。
(科教作文网http://zw.nseAc.com)
报表应用可以与实时故障监视环境实现无缝集成,为运维提供一种长期的综合视图。报表应用帮助治理职员了解其各种基础设施在各种不同期间的行为特点,从不同设备、系统和服务的层次上对各种基础架构的长期行为特点进行查看和分析。
(六)运维系统的设计要求
1.基于ITIL框架设计, 结构先进
运维系统的设计要求基于ITIL的框架, ITIL的框架是最佳实践的结晶。
2.可扩展性
假如需要一个新的展示层或者事件关联,必须能够无缝扩充或集成到现有的治理框架中。为了保证随着系统架构的延伸扩展而产生的越来越多的事件信息的处理性能,在任意一个层次增加都不会影响整体框架结构。
3.集成性
集成企业现有以及未来可能要扩充的设备和治理系统。假如需要增加新的监控对象,则最多只需简单地增加一个探针,或增加一个新的关联层 。
4.集中化
已经处理的事件(重复压缩和事件关联)集中在一个地方。因此治理员可以共享整个系统的事件信息。
5.关联
由于事件关联功能在整个系统治理中是分布的,因此为一个新服务增加新的事件关联是非常轻易的。
6.冗余
数据显示层和关联层的设计将考虑冗余设计,当任何一个服务器失败,数据采集层的探针将会自动切换到另一个服务器。
综上所述,运维系统的设计,主要从两个方面来实现,一是治理流程的设计,二是系统监控的设计,通过上面的描述,我们看到,系统监控的作用:当系统出现故障时通过对系统各个层面的监控以及事件的关联,能够保证快速定位故障,从而快速解决故障,使得故障对业务的影响降到最小,同时通过对系统性能的监控,进行预警,可以做到防范于未然,防范故障于萌芽状态,保证系统的可用性;而规范的治理流程,保证所有的题目在每一个阶段得到有效的处理。