三、基于大数据平台的日志分析和多维报表
基于大数据平台,提供日志的采集和聚合处理,通过日志关联分析帮助准确全面定位提升效能和满意度,智能预测和预警,为科学决策提供量化依据。
将采集到的网络监控数据、机房数据、
服务器和云环境监控数据以及摄像头报警数据集中起来,数据汇集之后生成PMDB性能管理库,在根据业务应用的特征,建立不同的模型进行相应的算法分析。
根据不同的资源类来定义KPI指标,建模目的就是方便快速分析,为资源管理、告警管理、集中化展现等其他模块提供数据分析模型的支撑。
数据采集有两种类型,一种是被动的,一种是主动的。
采集业务相关指标,可以对数据进行预处理,做一些有效性的标签识别,比如这个信息和指标是不是你关注的,对不友好的日志进行格式化处理。
性能指标的计算,要跟业务进行
协同,从业务的角度来定义。设置的
阈值,有些场景是固定的,也有的场景是动态的。固定阈值就相当于资源使用率,肯定有一个上限的。动态阈值像一些性能曲线,CPU的利用率、页面响应、图片加载等这些是可以使用动态阈值的,根据历史数据来计算出这个动态阈值,某一时刻的历史峰值,根据这些合理计算出在那个时刻到底需要多少资源。
根据上面的阈值会有一个报警的事件,任何事件产生都是基于时间的,故障的定位肯定也要基于时间找到相关的日志和发生的事件。
事件诊断一直是运维领域一个很重要的工作,事件和时序的相关性不仅可以为事件诊断提供很好的启发,而且在帮助我们进行根因分析时也能提供很好的线索。某个时间段出现的故障,都会产生一些相关的事件,对它们进行筛选和过滤是能够详细捕捉到故障和定位到根因的。
在事件诊断和处理中,是不是需要引入算法,我觉得是有必要的,如果能提高效率和提高解决问题的能力,一切探索都是值得的。
也有一些运维界的朋友们花了很多时间和精力,去学习和研究算法,我认为不必过于纠结算法, 简单了解一下开源的这些算法,知道这些算法的输入和输出是什么,能解决运维中哪些实际问题,以及组合起来又能解决什么问题,方便我们合理的应用它就可以了,这样会对更快落地智能运维起到事半功倍的效果。
数据的汇聚处理就是把采集到的数据有机的关联起来,压缩、过滤形成标准化的信息。数据导入则可以通过全量的HDFS和增量的Kafka来实现。
基于大数据平台的多维报表,根据自己的需要,按照日、周、月来生成运维报告,发送给管理层的领导,这些数据是他们比较关心的,比较清晰的图示出在这些时段发生了哪些问题,造成了多大面的影响,然后决定相关的资源是否进行扩充,相应的业务部署是否需要调整。
综合展示比较关注的则是性能分析、容量分析和自动化配置。比如今年采购了500TB
存储,我用了多少,明年还需要扩容多少,业务增长量会有多少,这个都影响到企业的采购计划。根据业务的实际进行评估,来推算出明年大概需要买多少TB的存储。
四、IT监控管理平台发展
IT监控管理的发展大概有三代,从上世纪九十年代至今,第一代是以网络为中心,在这个时期咱们提供比较多的都是基于网络的监控和故障发现,带宽管理和服务水平协议。
第二代监控就是以监控IT基础设施为中心,看到比较多的就是主机、存储、操作系统、
中间件、数据库等各类基础资源的监控。
第三代监控以IT应用为中心,针对比较高度复杂的交易,需要实现面向用户体验和面向应用高可用性的实时监测和故障的智能诊断,运维人员必须高屋建瓴、全面谋划,有能力提供一个全局性、高效健壮、标准规范、自动化的监控解决方案并加以实现。
五、故障管理及自治自愈
这是我们每天收到的告警情况统计,在没有自动化和智能化之前,我和大家一样心态是焦虑和崩溃的。
如何从错综复杂的运维监控数据中得出我们所需要的信息和结果,一句话就是分辨和精炼,提取真正需要关注的信息,从而减少每天的告警信息量。
目标就是简、智、深。
简就是要确保业务和SLA服务级别,出现问题要及时响应、自动分析和优化,把处理的流程精简和高效组合起来,让问题匹配正确的场景,找到正确的人,在第一时间正确处理。
机器学习主要就是突出智,这个需要大量的数据来训练,故障出现的形态是千奇百怪,对故障的历史数据进行场景分类和标注,不断用模式识别和数据来训练机器识别和分析,然后让机器自动准确判断。
当然标注不能完全靠人,也需要通过机器来自动进行关键词标注,而标注的合理性就需要人为进行判断,然后再利用到机器学习上,这样才能真正辅助我们做一些决策。
基于架构、工程师的经验和概率来做到收敛告警事件,基于规范和分工产生告警事件发送到对的人,基于数据和模型来提高事件的处理能力。很多事件有的工程师处理的特别快,反之如果对这个故障不熟悉的人可能花费的时间就很长。这就需要构建一个策略知识库,让其他人来参考和学习,提高同类场景事件处理的能力。
智能运维的终极,实现的目标就是减少对人的依赖,逐步信任机器,实现机器的自判、自断和自决。
技术都是在不断的进步,AI技术将来会解决很多的一些需要花费大量人力和时间才能解决的事情,但是AI不是一个很纯粹的技术,它也需要结合具体的企业场景和业务,通过计算驱动和数据驱动,才能产生一个真正可用的产品。
智能运维技术在企业的落地,不是一蹴而就的,是一个渐进和价值普及的过程。
我们可以看到,智能运维技术已经成为新运维演化的一个开端,可以预见在更高效和更多的平台实践之后,智能运维还将为整个IT领域注入更多新鲜和活力,在未来发展和壮大下去,成为引领潮流的重要性力量!
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。