首页    数据类型解决方案    高可用解决方案
高可用解决方案

高可用解决方案




JXCluster系统高可用解决方案


























 

一、系统高可用解决方案        

1.应用背景        

2.集群技术简介        

3.JXCLUSTER高可用方案建议        

3.1产品概要        

3.2现状分析        

3.3需求分析        

3.4高可用方案建议        

3.4.1系统结构示意图:        

3.4.2工作原理        

3.4.3集群的生命周期        

3.4.4服务器监视        

3.4.5失效切换机制        

3.4.6失效切换资源        

3.4.7保护的应用和服务        

3.5JXCLUSTER高可用解决方案的关键特性        



一、系统高可用解决方案

1.应用背景 

在计算机系统大量普及使用的今天,许多关键性的商务应用被部署到WindowsLinux平台上,如企业数据OracleSQL Server,组件系Exchange Server等等。这些关键应用对企业的运营和发展起着至关重要的作用,一旦发生宕机故障或应用停机,将给企业带来巨大的经济损失。在一些行业,当业务系统发生宕机故障时,每小时所损失的费用可达到成百上千万美元。以金融服务行业为例,跟金融业务相关的关键应用或者在线的信用卡交易活动会因为系统的宕机故障而每小时损数百万美元。

各行业由于业务系统宕机而损失的费用如下表所示:


关键应用

每秒损失费用

呼叫中心

$27,000

ERP

$13,000

电子商务

$10,000

网络银行

$7,000

客户服务中心

$3,700

ATM/POS/EFT

$3,500

电信

$1,000

Source: The Standish Group International, Inc. © 2001

可见,对那些需要保障信息安全,和提供不间断的各种服务的企业来说,系统的容错性和不间断性显得尤为重要。如何保障企业的各种关键应用持续运营,达到企业永续经营的良性循环,已成为当今企业IT领域急需解决的关键问题。因此,必须采取适当的措施来确保计算机系统的容错性和不间断性,以维护系统的高可用性和高安全性,提高企业形象,争取更多的客户,保证对客户的承诺,减少人工操作错误、达到系统可用性和可靠性为99.999%

2.集群技术简介

什么是集群系统



集群技术是将多台服务器联在一起组成一个透明的系统,这些服务器之间互相共享资源,如IP数据或应用软件等。最终用户来说,可把这个集群系统当作一个虚拟的服务器来使用。集群中的某台服务器由于软件或硬件原因发生故障时,集群系统可以IP、应用软件等资源切换到其他健康的服务器上,即另外的服务器立即取代该故障机的职责,继续为用户提供服务使整个系统能连续不间断的对外提供服务从而为企24x365的关键业务提供了可靠的保障。

导入集群系统的效果


通过集群技术的运用,可以为用户带来如下好处:

·       高可靠性

        保证集群系统上的关键数据和业务的运行连续性及可被访问。

·       高可用(Availability)

        缩短系统故障的平均修复时间,减低系统故障带来的恶劣影响和经济损失。

·       高扩展性(Scalability)

        集群系统可根据业务需求灵活增加服务器节点,从而提高了集群的处理性能。

·       减低客户/服务器架构的系统维护成本

·       避免单点故障

3.JXCLUSTER高可用方案建议 


3.1产品概要

 根据系统高可用性和高可靠性的市场需求,我公司推出了基于集群技术的高可用性解决方--JXCLUSTERJXCLUSTER是支windows平台的专业集群中间件软,不论是低成本的镜像型集群系统,还是大规模的外挂磁盘阵列的共享型集群系统,都可轻松构建,并可以保护几乎所有的关键应用。JXCLUSTER可以为企业24x7天的关键业务应用提供强大的安全保障。

·       24小时´365天,永不停机的商务系统

 windows服务器作为数据库服务器广泛应用于企业的主干系统中,另外随Internet应用的普及,WWW服务器e市场中也占据着主导地位,所以,一旦服务器发生宕机由此所造成的损失将是非常惊人的。JXCLUSTER提供24小时´365天运作方式将可靠地保护业务的关键数据,保证了数据中心的连续运作和应用的高可用性。

·       提供最多32节点的集群模式

支持共享磁盘型和镜像型这两种集群模式。共享磁盘型可构筑最多32个节点的集群系统,适用于大规模企业级系统。镜像磁盘型基于非单点失效结构(shared-nothing),无需价格高昂的共享磁盘,只要使2台服务器即可轻松构筑低成本的集群系统,适用于中小规模系统。

·       提供良好的系统扩展性

伴随业务的扩大可动态追加服务器节点,最多能支持到32个服务器节点,能够构筑符合业务形态的弹性系统。




·       操作简便的集群管理工具

提供标准GUI用户界面和基Web的跨平台控制终端这两种集群管理方式,极大的方便了系统管理员的操作和管理。


3.2现状分析

n                      当前现状

五十二台服务器,每16台服务器共享盘阵,2台服务器运行不同应用。当前现状,没有部署高可用集群。如果出现故障,将导致系统停止,影响员工正常办公,造成重大经济损失。文件服务器运行环境为WINDOWS2003操作系统,希望能够将运行系统部署为高可用集群系统,保护各系统不间断运行。

(可用根据用户环境补充)

3.3需求分析   

企业的业务系统是通过计算机与网络来实现的。其数据是比其他软硬件设备更为宝贵的资源。这就对系统的可用性和性能提出了很高的要求。然而往往是设计时层层设防、费尽心机,却又常常因为主交换机的故障、服务器的故障甚至是电源的故障而导致整个系统陷入瘫痪。

信息系统的高可用性通常在下列情况下会受到影响:

1.系统缺:即计算机系统自身的不可靠因素,如:宕机、软件缺陷、硬件老化、病毒和管理引起的异常失败等;

2.系统维护和升级,需要安装新的硬件或软件而正常关机。

3.自然灾(包括人为破)

高可靠性软件必须为这三种情况提供不间断的系统服务。

结合用户的情况,文件服务器系统关系着每一位员工,是企业正常经营和运转的关键业务系统,这样的重要地位IT部门提出很高要求,保证系7×24×365不间断运行,并且保持系统高效性能目前,这样的关键系统仍然是单机状态,很难保证硬件及软件不发生故障,这种潜在的故障对企业将是非常危险的 而服务器随着用户数增加,负载压力将有可能导致系统瘫痪。加之设备老化和性能落后等现状已经无法保证系统高可用要求,系统改造是当务之急。

     

3.4高可用方案建议

结合上述情况下,-AS公司在充分研究现代信息系统安全技术基础上,结合我公司现有产品提供了提升系统高可用解决方案技术建议书,为应用系统备份,灾难恢复提供了坚实的保障。

52台服务器,
16台服务器共享盘阵分为一组,每个集群组中2台服务器做为独立运行的一个双机热备系统,运行不同应用,数据库系统或者其他的应用系统,并部署双机热备软件。一台作为主服务器运行应用系统,另外一台作为备份服务器。在正常情况下,主服务器运行,当主服务器出现异常或故障,由备份服务器接管服务。对于硬件没有严格要求,但要保证服务器性能能够完全能够满足使用要求,这样才能有效的提高工作效率

集群系统构成示意图:

3.4.1系统结构示意图:

img1

3.4.2工作原理

·       单向备份工作模式

根据用户需求,建议把集群配置为单向备份工作模式。此案中为11备份工作模式。集群中的1台服务器作为主服务器运行生产系统,另外一台服务器做备份服务器,状态为待机状态。当工作中服务器出现异常情况,无法运行,根据软件切换策略,及时切换到备份服务器中。由备份服务器接管服务。由于2台服务器同时共享磁盘阵列,备份服务器将无缝接管原来服务。

·       1+1备份工作原理

JXCLUSTER将用户数据存储于共享磁盘(Share Disk)上。在11的工作

模式下,1Server作为活动服务器,另1台服务器可以作为任何一台活动服务器的备

份服务器(根据切换策略而定),当数据库服务器WEB服务器任何一台发生故障(包括

各种软硬件故),备份服务器通过心跳路径侦测到其中一台服务器的故障并自动接管所有

该服务器上的资源(IP地址、数据库服务或其他应用程序、用户数据、计算机名等等)和共享磁盘上的数据,并继续运行数据库服务或其他应用程序。对于客户端来说这种接管过程是不可见的,用户感觉不到这种故障切换,可以继续使用备份服务器提供的服务。待异常服务器修复后,可选择通过手工或自动方式将所有已切换到备份服务器的资源切换回到该服务器,并且恢复对共享磁盘上数据的访问。

此方案特点,通过采SAN架构的共享磁盘阵列方式可以大大提高系统的可靠性。并有灵活的扩展性WINDOWS平台下最多可以支持32台服务器做集群,而且切换策略非常灵活。并且我们可以在任何一台服务器或者是客户机上,通过浏览器,在一个界面中管理所有的双机系统,极大的方便了客户对于集群系统状态的监视,如果可以配合系统综合监控解决方案,则可以全面的监控到不仅仅是集群可以监控的故障,还可以监控整个网络系统中所有的设备的运行使用情况,为一个庞大的机房系统提高安全及可靠的保障,具体的系统综合监控解决方案请见后面的描述。


3.4.3集群的生命周期

img2

构成集群的服务器相互监视,发生服务器宕机时,待机服务器就会继承宕机服务器上的业务,继续提供对外服务。这种继承的动作称为失效切换Failover。双方服务器可以各自运行不同的业务,互为对方的待机节点。

宕机的服务器恢复后,失效切换过来的业务要返回到原来的服务器,这叫做故障恢(Failback)。通过故障恢复可以完全恢复到原来的状态。


3.4.4服务器监视

服务器之间利用心跳通信相互监视运行状态。服务器间的心跳通信通过公网和私网进行,从而实现了心跳的冗余化。并且可以增加心跳线,即使1根心跳线断开了,也可以继续服务器的监视 JXCLUSTER也预备了防止心跳线多重故障的措施,即通过使用共享磁盘分区COM端口来最终确认对方服务器是否真正宕机,可避免发生误切换。从而极大地提高了系统的可靠性。


3.4.5失效切换机制

 查出服务器宕机后,将宕机的服务器使用的资(磁盘IP地址)转移到其他服务器上,在该服务器上启动应用程/服务。此时,同时进行转移的资源的集合,被称作失效切换组。从使用者角度看,可以将失效切换组看作是虚拟计算机。

从故障发生到失效切换结束为止所需的时间根据服务器的硬件配置和机器性能不同而有所不同。以下是切换流程的简单示意:

img3

3.4.6失效切换资源

 JXCLUSTER中,包含在失效切换组中的资源主要有以下几种。当发生失效切换时,以切资源组为单位进行切换,即整个资源组都被切换到其他的服务器上。

·       共享

磁盘分/镜像磁盘分区

应用程序为保存继承数据所用的磁盘分区。        

·       IP地址(即浮IP

客户端通过使用浮IP地址与服务器上的业务进行连接,使客户端无须注意失效切换引起的业务执行位(服务)的变化,从而达到了对外服务的高度透明。

·       虚拟计算机名

虚拟计算机名跟浮IP一一对应,客户端既可以通过浮IP来访问业务也可用虚拟计算机名来访问服务器上运行的业务。

·       应用程序或服(即对客户端提供服务的业)

可由JXCLUSTER保护的应用程序或服务种类齐全,几乎涵盖了目WindowsLinux平台上所有主流的应用和服务,OracleAppache,IIS,SQLServer等等。除了这些主流应用和服务之外,对用户自己开发订制的任意应用程序和服务都可作保护。

·       共享文件夹

·       打印机

等等。


3.4.7保护的应用和服务

 JXCLUSTER for windows X2.0可以保护大量的应用程序和服务,几乎涵盖了

windows平台上所有主流的应用和服务。

Ø                      数据库

- Oracle/SQL Server/DB2Sybase/Mysql/Pervasive.SQL

Ø                      网络服务器

        - IIS

- ExpressMail

- dbMail

Ø                      备份工具

        - NetBackup 

- Backup Exec

Ø                      其他

        - 文件共享File Share

- 打印机共(Printer Share)

- HULFT6 WIN-CL

等等。


除了以上列出的这些主流应用和服务之外,JXCLUSTER对用户自己开发订制的任意应用程序和服务都可作一定程度的监控和保护。

3.5JXCLUSTER高可用解决方案的关键特性

 JXCLUSTER以下几方面的关键技术,为用户的关键业务系统提供强大的高可用性、高可靠性和灵活的扩展性

·       支持多平台

JXCLUSTER支持目前国内几乎所有主流WindowsLinux操作系统平,Windows Server,RedHatTurbo linux, MIRACLELINUX,Novell SUSE LINUX,RedFlag,包括众多国产Linux操作系统等。

·       支持x86ARM64位架构的服务器和操作系统平台

·       灵活的系统扩展性

支持服务器节点扩展,可灵活适应用户业务的需求,最多可扩展32个节点;

·       自动监测

        JXCLUSTER可自动检测和恢复服务器和应用程序的故障不仅可以监视服务器故障,还可以监IP地址、磁盘设备、用户应用程序等等各种资源的故障。当检测出故障时,JXCLUSTER根据事先制定的切换策略,自动把应用程序和其他故障资源以失效切换组为单位切换到其他的服务器上,并继续正常地对外提供服务。

·       多种心跳监测方式

提供网(/)COM(RS-232C)、磁盘心跳3种心跳方式,更加提高了集群系统的可靠性。

·       支持单通路、多通路盘柜。

·       JXCLUSTER不仅可以监控硬件故障,还可以监控软件和操作系统故障。

·       支持多4种的集群工作模式,客户可根据系统需求,任意配置单方向、双方向N+1N备份方式,极大满足客户的业务配置要求。

·       支持多种存储技(SCSI,RAID,IDEFibre ChannelSAN)

·       轻松构建集群

JXCLUSTER提供集群简易构筑工具Trekking Tool,可预先配置集群的各种参数,当创建集群时只需在构成集群的一台服务器上读入存有配置信息的软盘,其他的服务器便可自动获取集群信息并加入到该集群中,这样就可以同时完成多台服务器的设置,实现了平滑导入,大大方便了系统管理员的操作。

·       在镜像解决方案中,提供JXCLUSTER FastSync Option(即差分备份模),可直接2台服务器的镜像盘中的差分数据进行恢复,而不必通过全Copy来做恢复,大幅缩短了镜像恢复所需的时间,提高了镜像恢复的性能。

·       VERITAS Volume Manager结合使用,共享磁盘可以使用动态磁,从而实现共享磁盘的软Raid Volume

·       支持最新Linux内核系列。

·       ext2ext3ext4xfsjfsreiserfs文件系统,提高了集群系统的可靠性。

·       减少系统资源占用

JXCLUSTERServer端的各构成模块都作了彻底的改变,使常驻模块减少到了最低限,大大减少了对系统资源的占用。

·       直接KernelDriverHeatbeat,当系统处于高负荷状态时,可大大提高耐久性。

·       简单易用的图形用户接口,轻松管理集群系统;

·       GUI管理工具外,还提供了基Web浏览器的状态监视服务,用户在任何一台机器上访问集群的虚IP地址即可监视集群的运行状况;

·       那些对网络分区症状(裂脑)未进行支持的集群软件,将无法区分通信线路故障和服务器故障,可能出现多个服务器访问同一资源而导致用户数据被破坏这种灾难性后果。而JXCLUSTER中,可及时判断裂脑症状并作相应处理;

·       通过编Group中的脚本,即可轻松实现应用程序的切换;

·       提供操作简便Script Wizard,让用户轻松配置脚本;

·       除了对应用程序和服务的常规级别的监视(所谓常规监视即进程死活级别的监),

JXCLUSTER还提供了一系列监视选项产品,Database Agent,Internet Server Agent, LAN Agent, File Server Agent等,这些监视选项产品可JXCLUSTER上运行的数据库等应用程序和服务的僵死状(Stall)进行监,从而为用户的关键业务系统提供了更深层次的保护。