智能网络运维平台方案建议书

发布时间:   来源:文档文库   
字号:

智能网络运维平台
方案建议书





1综合管理的必要性..............................................................................................................................32系统概述..............................................................................................................................................33系统结构..............................................................................................................................................3
3.1系统逻辑结构...........................................................................................................................33.2系统组网...................................................................................................................................5
3.2.1集中管理模式................................................................................................................63.2.2分级管理模式................................................................................................................6
4主要功能..............................................................................................................................................7
4.1网络管理...................................................................................................................................7
4.1.1网络拓扑发现................................................................................................................74.1.2链路状态显示................................................................................................................94.1.3故障显示........................................................................................................................94.1.4跨地域的多层网络监控..............................................................................................104.2性能监测管理.........................................................................................................................10
4.2.1网络设备监测管理......................................................................................................114.2.2服务器监测管理..........................................................................................................144.2.3数据库监测管理..........................................................................................................174.2.4性能实时和历史图表..................................................................................................194.2.5性能预警......................................................................................................................224.2.6性能监视参数的拓展..................................................................................................234.3故障管理.................................................................................................................................23
4.3.1告警自动通知..............................................................................................................244.3.2告警分析与统计..........................................................................................................244.3.3告警处理......................................................................................................................254.3.4故障告警源..................................................................................................................274.4设备管理.................................................................................................................................28
4.4.1形象直观的设备图标..................................................................................................284.4.2设备快照及设备管理提示信息..................................................................................294.4.3设备活动进程及安装软件的查看..............................................................................304.4.4设备机架面板..............................................................................................................314.4.5网络设备端口分布管理查询......................................................................................324.4.6交换机端口详细信息查询...........................................................................................324.4桌面安全管理.........................................................................................................................33
4.4.1储存设备管理..............................................................................................................334.4.2终端外设控制..............................................................................................................334.4.3终端操作监控..............................................................................................................344.5报表管理.................................................................................................................................345系统特点............................................................................................................................................36


1综合管理的必要性
随着IT的不断发展,众多行业从其自身业务发展的角度出发,加强了网络信息化建设力度,在其网络基础上开展电子商务、企业资源计划(ERP、办公自动化(OA等业务内容。而在这一发展过程中,逐步发现除了要依靠网络设备本身和网络架构的可靠性之外,管理和安全成为了关键环节。当前,网络系统的结构复杂和规模庞大,即要保证网络系统的正常运作,又需要保证业务系统的正常工作,传统的各自独立的“分立式”系统已经无法满足复杂的IT系统的管理要求,综合管理平台已经成为大势所趋的方向。
2系统概述
内网运维综合管理系统是一套全中文网络运维与安全管理系统,是一套在充分调研了国内网络现状以及网络管理方式,采用目前为止最先进的网络管理技术,以用户的网络、线路以及服务器、路由器、交换机、计算机等等的日常运作管理为着眼点,独立研发的完全适应于高、中端网络管理软件领域需求的一套优秀、可靠、先进的网络设备资源与应用服务资源、全中文、通用管理系统,为广大客户从根本上解决了困扰已久的网络管理难的棘手问题,并且很有效的帮助网络管理人员从根本上提高网络利用率和网络服务的质量。
3系统结构
3.1系统逻辑结构
系统监测层包括网络管理、应用管理、设备管理、桌面管理,是监测底层的被管对象层,实现对网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;同时自动收集、过滤、关联和分析各种管理功能产生的故障事件,实现对故障的快速定位

和处理;对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为网络性能优化提供科学依据。
用户层是整个系统呈现,是运维管理平台的人机交互接口,系统集中运行展现提供集中的直观的监控呈现、快速发现和分析各类运行隐患,提供了运行一览、网络拓扑、业务拓扑、负载分析、告警台、统计分析等多种监测视图,通过集中化的有机的组合各种视图,为不同角色的人员提供完整的运维管理工作界面。运维服务管理层将人、技术与流程进行有效地融合,实




















而知识库能自动实现运维知识的积累、沉淀和共享,从而降低IT运维管理对个人的依赖。至上而下的IT运维管理平台能为IT服务管理提供足够的管理元素,帮助管理者从不同的角度、不同层面去了解系统运维状况,为领导决策提供科学依据,同时生成多种工作记录,领导可对IT运维管理人员的绩效进行客观的评估,从而帮助用户实现对IT服务基础支撑系统的透彻管控。
监测层和用户层通过统一的资源库和子系统接口来进行有机的融合,同时系统提供了单点登录和统一认证的支持,确保从上到下的操作是必须经过统一登录认证和操作审计的。其他集

成接口系统包括系统数据交换接口和分布式数据采集接口,通过系统数据交换接口,可以建立多层系统部署的数据交换,同时也可以和异构系统集成,通过分布式数据采集接口可以实现数据的远程采集。

1系统逻辑结构框图
3.2系统组网
系统能够方便地满足用户在网络运维管理中的组网需求。依据目前的管理要求,在网络运维管理系统实施过程中通常采用的组网模式有两种:集中管理模式和分级管理模式。
集中管理模式适用于统一网管中心的网络,这个网络可能规模很大,也可能是一个园
区网络,但其只有一个管理中心。
分级管理模式则是针对企业级、电信级网络建设和管理的实际需求提供的一种分布式
管理模式,在这种模式中,网络管理不仅有中心,而且还有各级分中心,管理过程也是实行分级分范围管理,以满足实际运行维护的需求。
系统很容易实现上述两种网络运维管理的组网模式,依据实际需求构架不同的网管结构,两种组网模式分别如下图所示。

3.2.1集中管理模式

2系统集中管理示意图
3.2.2分级管理模式

3系统分级管理示意图

4主要功能
4.1网络管理
4.1.1网络拓扑发现
系统能够采用多种算法、迅速搜索整个网络内的所有节点、自动勾画出整个网络的准确物理拓扑图,包括设备间的冗余连接、备份连接、均衡负载连接,网络用户可以为每条设备间连接加以注释,为每台设备设置中文设备名称,监测网络中每台设备的名称、IP地址、类型、厂商等,并能够自动辨别线路连接类型。提供拓扑图的编辑功能,可以在已发现的拓扑图上进行编辑修改连接关系。同时,根据拓扑所反应的对象,系统呈现给用户的拓扑分为网络拓扑、物理拓扑和子网拓扑。
网络拓扑是根据网络层的角度来分析和展现的,表达了被管网络各个子网之间的连接关系

4系统网络拓扑图示例
物理拓扑是反映被管网络的实际连接的二层网络拓扑图。


5系统物理拓扑图示例
子网拓扑是从网络链路层角度进行分析并给出的逻辑拓扑结构。


6系统子网拓扑图示例
4.1.2链路状态显示
系统在网络拓扑发现结束后,会自动地画出设备间的连接关系,即链路,同时对链路的连接状态进行监视和管理,可对指定链路设定告警阈值,如链路带宽占用率阈值、链路速率阈值等,在链路连接发生故障或达到告警阈值时时,链路以颜色的改变提醒网络管理人员,并产生相关告警。
用户可直观的从链路提示信息中获取到该链路的基本信息,包括:该链路的源设备IP地址、源端口、目的设备的IP地址、目的端口以及该链路实时的进出流量、错误率、丢包率等。如下图所示:

7系统链路及相关参数显示示例
4.1.3故障显示
拓扑图上所显示的各被管对象的颜色可以直接反映出其内部被监控对象的状态。如绿色表示用户所关心的对象正常运行,黄色表示警告信息,红色表示严重错误。


7系统拓扑图故障显示示例
4.1.4跨地域的多层网络监控
通过采用多层网络管理机制,可以在总部网络管理中心直接调阅各下属单位的网络实时物理网络拓扑结构,各个层次相对独立,上级部门在需要时可以对下级部门进行管理,保证了整个网络管理的统一性和完整性。
4.2性能监测管理
性能监测管理能够帮助网络管理员监测网络及设备的性能,分析和确定网络及设备的性能瓶颈,为网络及设备的性能优化提供可行的参考。例如可以对指定的端口进行流量监视,从而判断出网络流量瓶颈等问题。
系统能够监视的性能参数包含:
网络设备性能参数:包括路由器、交换机、防火墙等网络设备的CPU、内存使用率,
各端口进出流量、丢包率、错包率、带宽使用率、设备响应时间等信息;

服务器性能参数:包括各类应用服务器设备的CPU、内存、硬盘空间使用率等运行信
息,以及其上运行的应用程序和相关服务性能信息,如应用和服务的响应时间、系统资源使用情况、自身性能指标、服务可用性等;
数据库性能参数:包括对各种主流数据库(如ORACLEDB2SybaseSQLserver
Mysql等)的基本参数、文件系统、表空间、碎片、死锁、消耗大cpuSQL、占用长时间的SQL等状态信息。
4.2.1网络设备监测管理
从各个方面对网络设备进行监测和管理,包括网络设备的可用性、设备性能、流量管理和业务分析等。网络设备包括各种类型的交换机、路由器、防火墙、VoIP网关设备和其他启用了SNMP协议的网络设备。
(1设备基本信息
设备的基本信息包括设备名称、设备类型、设备厂商、设备节点合法性(是否登记为合法设备)IP状态(是否在线)、是否支持SNMP及设备OID等信息不可修改;允许用户修改的基本信息有:设备别名、主标识IP、设备等级(是否重要设备)、只读Community、可写Community、设备描述等。


9设备基本信息图示
(2设备流量监测
监测设备端口的数据流量情况,及时发现异常的网络流量。监视对象包括端口入速率、端口出速率、端口入单播帧速、端口出单播帧速、端口入广播帧速、端口出广播帧速等。

10监测设备端口的数据流量情况


11设备端口的实时流量图示
(3端口丢包率监测
可通过检测端口通讯链路的稳定性、抖动率,及时发现系统隐患,保证业务正常。

12端口丢包率监测情况

4.2.2服务器监测管理
为确保企业关键主机、服务器设备的高速、稳定运转,系统可从多个方面对主机服务器的硬件设备及操作系统进行监控管理和性能管理。
系统通过高度集成的服务器管理模块对服务器的CPU、内存、硬盘、网卡等硬件的关键运行参数,以及软件和应用程序的进程、服务、端口等的运行状况,对系统日志进行分类扫描查询。通过数据采集和分析,系统能够及时对影响服务器运行性能的故障事件发送报警,并采取相应的故障处理措施,保证服务器的正常安全运行。
(1基础性能监测CPU性能监测
通过线性指标能够了解到服务器系统CPU资源占用情况。


13服务器CPU资源占用情况
内存使用情况监测

通过线性指标能够了解到服务器系统内存资源占用情况。

14服务器内存使用情况
磁盘使用情况监测
通过柱状图能够了解到服务器系统磁盘空间占用情况。


14服务器磁盘使用情况
(2服务进程监测
服务监测
监控服务的运行及变化情况,用来判断服务是否正常

15服务运行状态监测图示
进程监控
监控进程中线程的性质,CPU、内存的使用情况,分析进程的安全状态。


16进程运行状态监测图示
4.2.3数据库监测管理
全面智能的监测各种与数据库应用相关的服务。对OracleSQLServerMysql等数据库从应用可用性、系统资源占用和数据库性能指标三个方面提供全面的监测管理策略,确保数据库的运行正常。
可监测数据库的关键参数,如数据库系统设计的文件存储空间、系统资源的使用率、配置情况、数据库当前的各种资源情况、监控数据库进程的状态、进程所占内存空间、可用性等。
(1数据库基本信息
包括文件系统、碎片、死锁、消耗大cpuSQL、占用长时间的SQL等。

17数据库基本信息监测图示

2)数据库表空间数据库表空间的使用信息。

18数据库表空间监测图示
3)数据库文件I/O数据库的文件读写信息。


18数据库文件I/O监测图示
4.2.4性能实时和历史图表
系统对于所监视设备性能参数,均提供两种性能图表(历史性能图表和实时性能图表)供用户查看及分析。

19历史CPU利用率统计示意图



20实时CPU利用率示意图

20历史端口接收流量示意图


21实时端口接收流量示意图
系统同时为用户提供了多种性能参数的统计报表,便于网络管理员获悉网络及设备的各种性能情况,以便更有效地评估和优化网络及设备的性能。详情请参看“报表”章节。
4.2.5性能预警
对于网络及设备的性能监视是网络管理的一个重要的功能,同时如何做好故障发生前的性能预警,在故障发生前通知网管人员及时予以处理,也是网管性能管理的一个关键环节。系统的性能管理功能和故障管理功能的结合,可以为网络及设备的性能做相应的预警,在监视某性能参数超过预置的门限时,产生告警,及时地通知网络管理人员。
系统可以针对主机资源参数,如CPU使用率,内存使用率等设定合理的门限值,在性
能越界的时候给出性能预警。

21主机资源预警示意图
系统可以针对网络性能参数,如进出流量,错误率、丢包率等设定合理的门限值,在
性能越界的时候给出性能预警。对于网络性能参数的性能预警,不仅仅只是针对整个设备,同时对于设备上的端口也可以做更为细化的门限和性能预警设置,比如交换机,既可以对交换机总流量进行性能预警,同时也可以对其相应的端口做门限设置后性能预警。


22网络性能预警设置示意图
系统可以针对所监视的应用程序和相关服务,如响应时间等设定合理的门限值,在性
能越界的时候给出性能预警。

23网络服务预警事件示意图
4.2.6性能监视参数的拓展
系统除了提供对于设备常用相关性能参数的监视外,同时也为用户提供了灵活简便地性能监视参数拓展的功能,用户可以根据实际管理维护工作的需要进行相关性能监视参数的拓展与添加。
4.3故障管理
故障管理系统是管理骨干网和子网络的设备、网络和业务所出现的故障;帮助网管人员采集、统计和分析来自网络各方面的报警信息和故障信息,准确预警、定位和解决网络中的故障。

4.3.1告警自动通知
故障发生时系统将视告警严重等级的不同,分别以红、橙、黄、粉红、绿五种颜色及
不同的图标代表。

24故障等级示意图
除了常见的声光告警以外,系统还提供发送邮件、手机短信等告警通知方式。

25邮件告警设置示意图
4.3.2告警分析与统计
告警上报的同时,系统能实现故障根源性分析,从众多的告警噪声中剥离出真正的告
警源。

提供当前和历史告警统计,可以针对不同的过滤条件进行统计(比如:发生的时间段,
严重等级,告警消息,IP地址等),并提供相应的统计报表。

26故障统计示意图
4.3.3告警处理
系统提供对于各种告警的处理功能,包括:查看告警的详细信息、添加告警注释、告
警的确认、告警的清除、告警的删除、告警的查找以及对于历史告警信息的统计查询

功能。

27告警详细信息显示窗口
系统提供的告警逐步升级的功能,可以帮助管理员依据预先设定的条件规则对所发生
的关键性告警进行进一步的追踪和提醒,比如当某设备上指定类型的告警在规定的时间内未解决时,可以自动升级为更高严重等级的告警,并扩大通知网络管理人员的范围等等。
系统提供告警依赖性(或关联性)的设置,可以防止与发生故障的设备相关联的设备
在此设备已经发生故障时,系统还对其关联设备进行无谓的轮询,造成系统性能的下降。
系统同时对设备上已知原因的告警提供抑制的功能,可以帮助管理员根据告警的严重
程度及时间上的计划做出合理的故障解决安排。
为了防止不同客户端同时进行告警确认等操作,系统采用了对象加锁的方式完成并发

控制。

28故障告警处理设置图示
4.3.4故障告警源
系统能够通过多种方式实时采集和监测以下几大类型的告警或事件信息:
设备的告警:直接来自设备本身的告警;如:CPU过负荷,内存不足、交换机某端口
断掉等等。
应用服务的告警:监视的关键应用服务发生故障时所产生的告警,如:服务运行状态、
响应时间等等不正常。
性能的告警:当设备某个性能指标超出预先设定的门限时,系统触发性能告警。如:
设备主机资源参数、端口流量、端口丢包率等等超过预先设置的门限值等。通信连接告警:当某一设备持续一定时间不响应网管系统时,网管系统生成的该设备
的通信连接告警等。
安全管理类告警:违反系统对于安全管理的设置规则后的告警,如:IPMAC绑定,
MAC和端口绑定后,非法盗用IP等等的告警;同时也包括网管系统本身在与用户网络中网络安全设备或系统做过信息管理集成配置后,网络安全设备或系统产生的事件

和告警。
4.4设备管理
系统不仅能够实时监控路由器、交换机、服务器等设备的运行和管理状态,包括设备故障以及主机网络性能参数等等,同时也从设备图标、设备快照、设备管理提示信息、设备面板、设备类型拓展、设备性能参数监视拓展等方面做了更为用户化的设计与增强,以满足用户对于管理操作直观、简便、全面、灵活和具有可拓展性等方面的要求。
4.4.1形象直观的设备图标
系统对于不同厂商不同型号不同操作系统等的设备都以不同的个性化图标来显示,用户可以直观地从设备图标上就获悉该设备是哪个厂商哪种类型的什么设备,同时还能从反映设备工作状态的图标中获知目前设备是否正常,是否有告警,以及设备的SNMP代理服务是否已经启动等等,如下图所示:


29设备图标示例
4.4.2设备快照及设备管理提示信息
系统的设备快照功能可以帮助用户以直观形象的图形化界面实时获取设备当前的基本管理信息,包括:设备名称、IP地址、网络掩码、类型、分类、系统描述、所运行的服务名称,服务的状态、服务占有的端口、服务响应的时间、接口的基本信息以及主机资源参数的基本信息,如下图所示:

30设备快照
用户同时也可以通过移动鼠标到相应的设备上,实时直观地获取设备的管理提示信息,包括:设备地址、设备类型、主机资源参数以及使用人员、所属部门等手工资产维护信息等。如下图所示:


31设备信息示例
4.4.3设备活动进程及安装软件的查看
系统提供的对于设备活动进程以及已安装软件的查看功能,既可以作为管理员管理服务器、关键主机等设备的一个管理对象,同时也可以作为网络或设备发生异常时,辅助管理员进行故障分析的一种手段,比如:某台关键服务器的流量异常增大,产生告警,管理员可以通过对其活动进程的查看初步了解该服务器目前正在运行的进程,以初步确定造成流量异常增大的可能原因等等。如下图所示:


本文来源:https://www.2haoxitong.net/k/doc/6f8b0bfb81eb6294dd88d0d233d4b14e85243e90.html

《智能网络运维平台方案建议书.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式