云环境监控系统的设计与实现

发布时间:2015-02-12 11:25:01   来源:文档文库   
字号:

云环境监控系统的设计和实现

摘要:

近年来,随着基础设施要通过网络对外进行提供服务,更好的为用户构建属于他们的系统和应用,于是便要求平台的可靠性是至关重要的,面对这个问题,便需要将监控系统这一项技术引入到云计算平台上,从而实现对云端的物理资源及服务资源,硬件资源和软件资源进行监控,保证正常运行。经过分析研究,在现有的云平台上通过集成开源软件技术设计了云环境监控系统。该系统主要通过性能监控和故障监控方面对云平台进行监控。性能及故障监控的技术运用共同构成云环境监控体系,从而使管理者能够实时了解掌握云平台的运行情况,并且及时处理突发状况,进而给用户提供更好的服务体验。

关键词:云计算;云平台;性能监控;故障检测

1云平台构建技术和监控技术

1.1 云平台的构建技术

在云构建过程中,所涉及的技术领域比较广泛,根据制造云构建的几个不同阶段,主要分为以下几个部分:

资源分类与平台规范:指支持建造云平台运行的相关标准与规范的制定。

资源感知和适配技术:指软硬件资源的感知过程中所涉及的有关技术。

资源的云服务化技术:指虚拟的资源在服务化过程中的封装、发布过程所涉及的相关技术。

资源虚拟接入技术:指资源在虚拟化过程中需要涉及的有关技术。

云服务的综合管理技术:指支撑建造云平台运行的核心技术。

支持多终端的管理可视化终端的交互技术:指能够支持各类资源、用户的终端设备和建造云平台交互的可视化界面的技术。

1.2 云平台的监控技术

云监控(Cloud Monitoring),是基于云计算平台应用的监控服务、监控网络、监控平台的一种技术与平台。它是一个开放性的监控平台,可进行实时监控站点与服务器,并提供很多种警告方式(例如:短信,邮件,QQ等)从而保证及时预警。

云监控系统是一个安防子系统向客户信息系统的核心业务部分转换,面向客户需求的云监控整体架构包括云终端、云平台和云业务的三层架构,其核心是以多媒体数据中心为主要组成部分的云平台。以下列出了云监控的主要组成部分及特点:

1)云终端

以网络摄像机为代表,支持多网络接口,充分实现和网络、存储和计算资源的结合,支持端到端的多媒体信息存储和传输,并且可以作为云计算的终端,提高整体的系统性能和系统可靠性。

2)云平台

a) 云存储:高可靠存储虚拟化,可集中的分布式部署、面向资源的管理和资源利用率,能够实现面向多媒体存储特征进行建造设计,如数据安全性和实现简单的多媒体存储架构,从而在保证整体可靠性基础上降低存储成本,减少维护使用费用。

b) 云交换:与网络的深度融合,便于高效、简洁、可靠的通过标准的IP 网络获取、共享、传递各种多媒体信息,实现终端到终端的多媒体信息高效交互传输,简化整体架构,提高系统可靠性。

c) 云计算:分布式计算和自动化管理,能够跨平台、分布式集群化部署,提升整体计算资源利用率和计算分析,实现计算成本的降低。

3)云业务

通过空间的各个终端就可以对对象进行操控和访问;这种性能符合客户安全管理与生产管理的融合趋势,成为客户业务、生产、管理的重要可视化手段。

2 云环境监控系统中的性能监控和故障监控

2.1 云环境监控系统中的性能监控

在云环境的监控中的性能监控尤为重要,它主要包括以下几个方面:

1)健康度:包括检查选项有:云服务器CPU高负载率是否超标(CPU高负载:云服务器CPU利用率大于80%CPU高负载率:(CPU高负载的云服务器数量/总的云服务器数量)* 100)、云服务器内存高负载率是否超标(内存高负载:云服务器内存利用率大于90%;内存高负载率:(内存高负载的云服务器数量/总的云服务器数量)* 100)、云服务器磁盘高负载率是否超标(磁盘高负载:云服务器磁盘利用率大于90%;磁盘高负载率:(磁盘高负载的云服务器数量/总的云服务器数量)* 100)、云服务器网络高负载率是否超标(网络高负载:云服务器网络利用率大于90%;网络高负载率: (网络高负载的云服务器数量/总的云服务器数量)* 100)、云服务器IO延时是否超标(IO延时:磁盘IO的平均等待时间大于200ms ,单位ms)、云数据库实例空间容量高负载率是否超标(容量高负载:云数据库实例的空间占用率大于80%;容量高负载率:(容量高负载的云数据库实例数量/总的云数据库实例数量)* 100)、云数据库慢查询率是否超标 (慢查询率:(慢查询的次数/总查询次数)* 100)、NoSQL高速存储超时率超标(超时率:(连接超时的次数/总连接次数)* 100)、是否有配置告警接收人、是否有告警发生等内容。

2)云服务器概况,其中的监控指标包括:服务器类型(开发者申请云服务机器时,选定的类型)、服务器数量(开发者实际申请的云服务器机器的数量)、负载分析(云服务器一天内的峰值负载(maxCPU利用率,内存使用率)),当峰值负载大于等于80%即为高负载,小于等于20%为低负载,其他为正常负载)。

3)云数据库概况,其中的监控指标包括:实例类型(开发者申请云数据库时,选定的云数据库实例的类型)、实例个数(开发者实际申请的云数据库实例个数)、负载分析(云数据库每个实例在一天内的峰值负载(max(空间占用率,(访问量/访问上限)*100,连接使用率)),当峰值负载大于等于80%为高负载,小于等于20%为低负载,其他为正常负载)。

4)NoSQL高速存储概况,其中的监控指标包括:表空间(已占用的NoSQL高速存储的总空间)、使用空间(实际使用的空间)、负载分析(NoSQL高速存储每个实例在一天内的峰值负载(max(使用空间/占用空间,每秒访问次数/(占用空间/1GB*10000))),当峰值负载大于等于80%为高负载,小于等于20%为低负载,其他为正常负载)。

2.2 云环境监控系统中的故障监控

云环境监控系统中的故障监控包括基础故障检测后的报警服务,监控内容有:

1ping不可达(ping服务器往目标机器的每个IP各发10ping包,如果服务器没有收到任何目标机器IP返回的数据包,则发出ping不可达告警);

2CPU持续高负载(云服务器的CPU利用率持续30分钟大于95%);

3)硬盘使用率预警/告警(检查磁盘分区的已使用空间,当已使用空间大于等于90%,且磁盘剩余空间小于5G时,触发告警);

4)内存不足告警(分析swap_inswap_out,有一个指标超过20,并且持续15分钟触发告警。只有当swap_inswap_out的值为0时,才判断为告警恢复);

5)云数据库连接使用率告警(云数据库的连接使用率超过95%,发出告警。云数据库的连接使用率达到100%后,会导致新的云数据库连接失败。当连接使用率低于90%,告警恢复。云数据库连接使用率指已建立的连接数占最大连接数的百分比,不同类型的实例的最大连接数不同);

6)设备重启告警(云服务器因异常导致重启);

7)服务可用率告警(开发者在云拨测中,配置拨测任务时会配置告警方案,当实际可用率低于告警方案中配置的值,且持续时间长于配置的值时,会产生服务可用率告警);

8)云数据库磁盘空间使用率告警(云数据库空间使用率超过90%就会触发告警)等。

参考文献:

[1] 王春雁. 云计算首获安全防护,“安全云”横空出世——趋势科技正式发布云安全3.0[J]. 中国教育信息化,2010,(15). .

{2] “云安全”推动安全行业改变[J]. 计算机与网络,2009,(14).

{3}张艾斌云计算模式与云安全问题研究[J]. 科协论坛(下半月),2010,(6)

{4}李雪重新思考你的终端安全——趋势科技云安全2.0正式发布[J]. 信息安全与通信保密,2009,(9).

本文来源:https://www.2haoxitong.net/k/doc/8116d5dbdd3383c4bb4cd2ec.html

《云环境监控系统的设计与实现.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式