e-works数字化企业网  »  文章频道  »  基础信息化  »  终端和服务器

服务器性能优化的正确姿势

2017/8/21    来源:高效运维    作者:汪伟      
关键字:服务器  汪伟  
运维工作中除了要维持平台的稳定运行以外,还得对服务器的性能进行优化,让服务器发挥出良好的工作性能是稳定运行的基础。腾讯互娱DBA团队的汪伟(simon)在这一领域里整理出了一套性能优化的资料为大家在性能优化提供充足的方向。
    概述
 
    什么是性能?
 
    性能最通俗的衡量指标就是“时间”,CPU的使用率指的是CPU用于计算的时间占比,磁盘使用率指的是磁盘操作的时间占比。
 
    当CPU使用率100%时,意味着有部分请求来不及计算,响应时间增加或者超时;
 
    当磁盘使用率100%时,意味着有部分请求需要等待IO操作,响应时间也会增加或者超时。
 
    换言之,所有的操作都在理想的时间内,就不存在“性能优化“的问题。我们在分析性能的时候,总是会首先要找到是什么引起响应时间变慢了,对应单机性能的分析,一般我们会将目光锁定在CPU和IO上,因为对于应用程序一般分为CPU bound型和IO。
 
    bound型,即计算密集型或者读写密集型;至于内存,其性能因素往往也会反映到CPU或者IO上,因为内存的设计初衷就是提高内核指令和应用程序的读写性能。
 
    当内存不足,系统可能进行大量的交换操作,这时候磁盘可能成为瓶颈;而缺页、内存分配、释放、复制、内存地址空间映射等等问题又可能引起CPU的瓶颈;更严重的情况是直接影响功能,这个就不仅仅是性能的问题了。
 
    性能优化并不是一个孤立的课题,除了响应时间的考虑,我们往往还需要综合功能完整性、安全性等等方面的问题。
 
    性能分析的基础
 
    性能优化需要厚实的基础知识:
 
  • 操作系统
 
    操作系统管理着应用程序所需要的所有资源,例如CPU和IO,当任何一个组件出现问题,我们的分析也是基于操作系统的,例如文件系统类型,磁盘类型,磁盘raid类型都需要操作系统管理和支持。
 
  • 系统编程技术
 
    系统编程技术涉及到我们如何使用系统资源,例如对IO的操作我们可以使用buffering I/O,也可以使用Direct IO,可以采用同步的方式,也可以采用异步的方式,可以使用多进程,也可以使用多线程的方式。懂得不同编程技术的原理,有利于问题的分析。
 
  • 应用程序
 
    例如数据库组件的数据类型、引擎、索引、复制、配置参数、备份、高可用等等都可能是性能问题的元凶。
 
    性能分析的方法论
 
    问题分析方面,各类方法论如金字塔思维、5W2H、麦肯锡七步法等等。套用5W2H方法,可以提出性能分析的几个问题
 
  • What-现象的表现是什么样的

  • When-什么时候发生

  • Why-为什么会发生

  • Where-哪个地方发生的问题

  • How much-耗费了多少资源,问题解决后能减少多少资源耗用

  • How to do-怎么解决问题
 
    但是这些只能给出方向,性能分析需要找到原因需要更具体的方法,怎么解决一个问题也需要更加具体的方式。
 
    Brendan Gregg在《性能之巅:洞悉系统、企业与云计算》第二章中讲到大量的方法,比较突出的如Use方法、负载特征归纳、性能监控、静态性能调优、延时分析、工具法等等。
 
    其中工具法最具体,但是工具法也有自己的限制,如磁盘的饱和度,在磁盘使用率100%的时候,磁盘的负载可能还可以继续增加。在实际分析问题中,负载特征归纳更有指导意义,静态跟踪和动态跟踪让我们更容易更直观发现问题。
 
服务器性能优化的正确姿势
 
    CPU
 
    认识CPU
 
    CPU本身的架构和内核调度器的架构这里不做详细讲述,具体可以参考操作系统类书籍。但是仍然需要清楚一些概念:
 
  • 处理器


  • 硬件线程

  • CPU内存缓存

  • 时钟频率

  • 每指令周期数CPI和每周期指令数IPC

  • CPU指令

  • 使用率

  • 用户时间/内核时间

  • 调度器

  • 运行队列

  • 抢占

  • 多进程

  • 多线程

  • 字长
 
    针对应用程序,我们通常关注的是内核CPU调度器功能和性能
 
服务器性能优化的正确姿势
 
    线程的状态分析主要是分析线程的时间用在什么地方,而线程状态的分类一般分为:
 
    on-CPU:执行中,执行中的时间通常又分为用户态时间user和系统态时间sys。
 
    off-CPU:等待下一轮上CPU,或者等待I/O、锁、换页等等,其状态可以细分为可执行、匿名换页、睡眠、锁、空闲等状态。
 
    如果大量时间花在CPU上,对CPU的剖析能够迅速解释原因;如果系统时间大量处于off-cpu状态,定位问题就会费时很多。
 

责任编辑:李欢
本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。
e-works
官方微信
掌上
信息化
编辑推荐
新闻推荐
博客推荐
视频推荐