虚拟化环境下的统一运维论文
1 概述
伴随着信息技术的不断发展,信息系统运维的概念已经非常普及,根据自动化运维服务商Puppet labs发布的2013运维报告显示,采用自动化运维后,完成部署的速度提高很多倍,减少50%失败概率,恢复系统的速度提高12倍,国内外的互联网公司都在开发自己的运维软件,国内大型互联网公司阿里巴巴、百度、网易等都有专门的运维体系研究部门。运维管理在高校领域处于逐步实验阶段,国内一些高校已经重视虚拟化应用及运维服务工作,大多采用自主研发与整合工具相结合的方式实现,在运维服务专业化、流程化、规范化方面取得了不同程度的成果。
2 运维的现状
随着学校信息化建设的发展,信息门户、学工管理、教务管理、校园卡管理、迎新离校、支付平台等系统相继投入使用,系统基础平台的稳定可用性显得更加重要,学校信息系统支撑平台主要以Vmware虚拟化平台为主,通过虚拟化技术实现了硬件整合管理和可高用性、改善业务可靠性、优化系统部署、降低设备能耗特点,但虚拟化管理平台的管理只涉及主机统级别,应用系统业务的管理需要各利用各自独立的工具来管理,运维管理整体上基本处于“半自动”状态。突出的有以下问题:定位实际故障点的效率低,故障修复缺乏自动化、流程化响应机制,缺乏事件监控、诊断、故障响应的有效运维工具;系统配置变更需人工操作工作量大,缺乏集中的主机、虚拟机、应用业务等的监控和预警机制;信息系统基础设备没有统一配置管理信息库,信息登记混乱常造成设备配置信息的冲突。系统的可用性与运维管理有着紧密联系,当前运维工作的重心放在应用检查、部署上线、服务器配置、数据备份、故障搜索处理等方面。
3 统一运维的设想
统一运维平台规划以信息系统基础设施及应用系统的全局统一管理为出发点,实现配置批量变更、故障自定义修复、定期自动巡检、信息集中管理等功能,考虑到免费运维系统功能有限、大公司自主研发技术很难获取,计划采用开源软件、Vm?ware管理平台的功能接口和开发相结合的方式来实现统一运维。
系统规划实现的主要功能包括以下几项:集中化管理信息系统基础架构中的服务器、虚拟机、应用系统、网络设备、存储、应用等配置资源;通过预先定义主机系统、虚机系统、通用应用的模板及配置脚本,实现主机系统、虚机系统与应用系统的统一配置管理与自动化部署,保证配置变更在规范的流程下有序。准确地执行;实现主机状态、应用状态、应用业务、负载性能、存储状态等信息的统一监控与预警,通过预定义故障状态与系统巡检计划实现自动化检查及修复;建立统一的日志中心库,采集来自基础设备及应用的日志信息,在日志系统上配置基于应用流程的相关性规则,对日志信息进行有效性预处理,将有效及紧急的日志的集中展示,实现基础设备的日志信息的集中化管理及智能化汇总。
4 系统的'设计与实现
ITIL即IT基础架构库(Information Technology InfrastructureLibrary,信息技术基础架构库)为设计IT服务管理架构提供了一个客观、严谨、可量化的标准和规范,参考ITIL2中服务支持部分,设计与实现统一运维的5项功能模块。资源配置管理系统发布管理配置变更管理事件预警处理问题跟踪管理。
4.1 资源配置管理
建立符合的统一运维管理架要求的配置管理数据库,将多处的数据源合并至统一视图中,配置信息库提供IT基础架构的逻辑模型,定义、识别、控制基础设施与应用服务的部件,对资源信息按技术参数,属主,关系等属性进行存取,记录每个资源的唯一标识名、主机状态、硬件信息、位置、功能用途、网络配置等技术参数信息及资源间的属主关系,按照基础设施与应用业务的依赖性信息完成关系属性的建立,在配置信息库的基础上开发资源配置管理程序,实现记录配置信息的状态采集、记录、整合、检验、变更等功能。
4.2系统发布管理
发布管理是将经过实际应用测试的新增配置与系统在环境进行分发,通过流程化实现系统与配置信息的发布、交付、分发。具体到实际环境中是Vmware中的虚拟机发布管理,通过调用Vmware管理平台提供的接口及工具包,实现统一化、流程化的虚拟机申请与管理功能,将虚拟化平台中虚拟机的创建、发布、交付、回收等功能集成到运维平台。
4.3 配置变更管理
配置变更要求以受控方式在最短时间内完成基础架构或应用服务配置变更,在变更实施过程中使用标准化、自动化的方法,以将由变更所导致的业务中断影响减小到最低。学校信息系统所使用的操作系统平台分为Windows与Linux二类,同类环境的配置变更非常类似,经过测试选择Puppet(开源的基于Ruby的自动化系统配置管理工具)来实现自动化的配置变更管理,Puppet支持DNS设置、系统参数、系统更新、主机名规则变更、批量系统的密码修改、防火墙策略变更等配置的自动下发,管理程序读取指令及配置管理信息库中设备的配置,通过调管理端来实现配置批量自动分发变更,反馈信息来记录或变更管理配置息。
4.4 事件预警处理
在确定事件类型、优先级的前提下,实现快速的服务恢复与应用切换,实现服务器级故障自动修复依赖监控预警信息,信息系统平台中需要预警处理的设备包括基础设备、Vmware平台、虚拟主机、应用系统等,使用免费工具作为信息采集低层服务端工具,数据采集使用SNMP协议、SSH访问与自定义脚本相结合的方式,预警方式使用SNMP Trap与邮件告警,通过开发程序来读取采集到状态数据和警告信息汇总到统一的数据库,定义主机或应用的错误类型代码及相应故障事件的触发规则、运行流程、修复脚本或指令,当故障事件发生时管理平台依据来源及事件标识读取事件响应配置并发出指令,事件故障主机或关联主机根据指令主动执行流程化修复指令,执行修复指令的结果被反馈回管理平台,管理平台将结果记录入配置信息库或发出进一步修复指令。
4.5 问题跟踪管理
问题跟踪管理利用logstash,redis等日志采集工具来收集问题信息及日志,管理平台对日志信息按照应用类型与业务逻辑关系进行分类过滤,形成可用的、有针对性的日志事件数据,管理平台根据日志信息分析IT基础架构的薄弱环节并确定引起问题发生的故障根源,管理人员利用管理平台制定解决事故的方案和防止事故再次发生的措施。
5 进一步的思考
规划统一运维平台管理几百台服务器与应用,考虑运维管理的高效化与信息安全预防的标准化,系统设计在通用性与扩展性还有许多要继续改进,在自动化部方面应用系统的类型较多且自动化管理工具欠缺,如何实现应用系统软件的自动化配置是继续关注,故障巡检方面要深一步考虑如何实现精确、有效的故障恢复策略,缺少考虑多人使用平台时的授权机制与安全审计模块。
【虚拟化环境下的统一运维论文】相关文章:
1.电力运维合一论文
4.运维团队口号