Clusters.ppt [Modo De Compatibilidad] - UPM

Transcription

AgendaFACULTAD DE INFORMÁTICAUNIVERSIDAD POLITÉCNICA DE MADRIDIntroducción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de Trabajo Una Solución de AltaDisponibilidad de Negocio paraun Servicio de Base de DatosJesús Angulo Arribas4 de Junio de 2008Introducción Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos2AgendaEl objetivo del proyecto es el diseño de unaarquitectura de alta disponibilidad para elentorno de bases de datos.Dentro de un Plan de Continuidad de Negociogglobal de los servicios críticos de laorganización, consolidados en una arquitecturade tres niveles: Web, Servidor de Aplicacionesy Bases de Datos4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosIntroducción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de Trabajo 34 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos41

Arquitectura InicialSituación Inicial (I) Un Cluster de 2 nodos en el CPD Principal, con117 instancias de Oracle 8i y 9iSolución de disponibilidad:Un Cluster Oracle HA (failover). Fallo de un nodoimplica la Indisponibilidad del 50% del servicioRecuperación automática en minutosLos clientes Oracle necesitan reconexión Recuperación ante Desastres:Replicación asíncrona en CPD Secundario (a 17 Km.)Recuperación manual en 4 horas del 100% de BBDDNecesidad de recursos de reserva4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos5Situación Inicial (II) Se dispone de recursos COD (Capacidad BajoDemanda) de CPU y Memoria para asumir lacarga de trabajo en modo degradado:Introducción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de TrabajoRendimiento del Cluster en modo degradadoRendimiento en caso de desastreEl servidor de reserva asume el 50% de la carga detrabajo4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos6 Ante fallo de un nodo: se asume el 75% de la cargade trabajo Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosAgendaFallo de un nodo del clusterDesastre en CPD Principal 4 de Junio de 200874 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos82

Requisitos de la Propuesta (I) Requisitos de la Propuesta (II) Disponibilidad de la arquitectura propuesta:99,99%Solución de continuidad de negocio:Aumentar la capacidad de proceso en un 40%Que se permita crecimientos futuros sin cambio deSistemasSe valora aumentar la capacidad en CODTiempo de recuperación inferior a 4 horasPProporcionariell mayor automatismottiposibleibl a llasolución Escalabilidad de la capacidad de proceso: Flexibilidad y capacidad de gestión de lasolución: Software de base:Funcionalidades de copia y réplica de datos:Mejorar el mantenimiento de la plataformaRAID por HardwareReplicación asíncrona basada en cabina de discos(True Copy)4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosSistema operativo Solaris 9Gestor de base de datos Oracle 9i94 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos10AgendaPlanes de Continuidad de NegocioIntroducción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de Trabajo 4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos11Fases de un PCN [BCI,05]:1.Conocimiento de laorganización 2.3.4.5.BIA: RTO y RPORAEstrategia de Continuidadde NegocioImplementación del PCNDesarrollo cultura deContinuidad de NegocioPruebas y mantenimientodel PCN Estrategias de Continuidad deNegocio:Potenciar la Disponibilidad delos componentesBackup y recuperación decintaReplicación de DatosSíncrona o AsíncronaCluster Extendido Cluster Local Extendido 10KmMetro Cluster 80-100Km Cluster Geográfico 100Km Con mirroringCon replicación4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos123

Planes de Continuidad de NegocioPlanes de Continuidad de NegocioEstrategia Tecnológica según RPO y RTOEstrategia Tecnológica según RPO y RTOSemsDíasHorasMinsSegsPunto de Recuperación sTiempo de Recuperación RTODíasHorasMinsSegsSegsPunto de Recuperación RPOCluster ExtendidoMinsReplicaciónPeriodica Migración ManualReplicaciónAsíncronaRestauracióndesde cintaBackup en CintaUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos 13Componentes HW de un Cluster4 de Junio de 2008Restauracióndesde cintaReplicaciónPeriodicaRPO Inicial: MinutosRTO Inicial: 4 horas4 de Junio de 2008SemsCluster ExtendidoReplicaciónSpíncronaBackup en Cinta DíasTiempo de Recuperación RTOMigración ManualReplicaciónAsíncronaHorasUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosRPO Inicial: MinutosRTO Inicial: 4 horas4 de Junio de 2008 RPO Requerido: MinutosRTO Requerido: 4 horasUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos14Componentes de un Cluster154 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos164

Componentes de un Cluster4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosComponentes de un Cluster174 de Junio de 20081.2.3.Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos18Recuperación Cluster - Oracle HADistribución de Carga en un Cluster4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos19Detección del falloReorganización de la pertenencia al clusterTransferencia de la propiedad de los discos4 de Junio de 20084.5.6.Reinicio de base de datosRecuperación de aplicación y base de datosRecuperación de clientesUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos205

Dispositivo de Quorum en Clusters4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos21Dispositivo de Quorum en Clusters4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosClusters ExtendidosCluster Extendido LocalCluster Extendido Local 10Km Metro Cluster 50-80Km Con mirroringC replicaciónConliió Cluster Geográfico o Global 100Km4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos2322Cluster ExtendidoLocal(Campus Cluster)NodosExtendidosRedes Ethernet yFC ExtendidasFibra MultimodoDistanciamáxima: 500metros4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos246

Cluster Extendido Local – SAN Ext. Cluster ExtendidoLocal(Campus Cluster)Redes Ethernet ySAN ExtendidaPuertos Switchconfigurados enmodo ISL ( InterSwitch Link)Fibra MultimodoDistanciamáxima: 500metros4 de Junio de 2008 Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos25Metro Cluster Cluster ExtendidoLocal(Campus Cluster)Redes Ethernet ySAN ExtendidaPuertos Switchconfigurados enmodo ISL ( InterSwitch Link)Fibra MonomodoDistanciamáxima: 10 km4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos26Metro Cluster con ReplicaciónMetro Cluter(Campus Cluster)Redes Ethernetey SAN ExtendidaPuertos Switchconfigurados enmodo ISL ( InterSwitch Link)DWDM sobreFibra Oscura(Monomodo)Distancia máximaDWDM: 200 kmDistancia máximade un cluster: 5080 km4 de Junio de 2008Cluster Extendido Local – SAN Ext.Fibra Monomodo 10 km Metro CluterRedes EthernetExtendidaNo se necesitaSAN ExtendidaReplicaciónSíncronaReplicación:pSW sobre IPHW sobre FCo IP Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos27Distancia máximade repclicaciónSóncrona: 50-80km4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos287

Cluster Geográfico o Global cción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de Trabajo SW sobre IPHW sobre IP(FC) Distancia máximade repclicaciónAsíncrona:Ilimitada4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos29Arquitectura Propuesta Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos30Solución Propuesta (I)Gestor de BBDDOracle 9i RAC2 cluster de OracleRAC ExtendidosSe añaden 2servidores Sun Fire25KSe aumenta lacapacidad deproceso deProducción y CODSe extienden redesprivadas y deproducciónSe reutilizan loscomponentes de lainfraestructura actual4 de Junio de 20084 de Junio de 2008 2 cluster de Oracle 9i RAC Extendidos ActivoActivo¿Por qué Oracle RAC?Oracle RAC permite tener múltiples instancias contrauna base de datosEn caso de fallo proporciona automatismo ytransparencia (clientes OCI) en la recuperación de laBBDDRecuperación del servicio en menos de 1 minuto ¿Por qué Oracle RAC Extendido?Proporciona una solución de recuperación dedesastres. El mismo servicio corriendo en 2 CPDsUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos314 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos328

Solución Propuesta (II) Arquitectura Cluster Oracle RAC¿Por qué 2 cluster de Oracle RAC de 2nodos?Un 25% de perdida de rendimiento con 4nodosSe mejora el mantenimiento de la plataforma Impactos en Rendimiento:Paso de Oracle a Oracle RAC: 10%Paso de Oracle RAC a Oracle RACExtendido: 10%4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos33Recuperación de Oracle RAC1.2.3.4 de Junio de 2008 4 de Junio de 200834Modelo de DisponibilidadDetección del falloReorganización pertenencia al clusterRecuperación de base de datosUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos35MTBF: Tiempo Medio EntreFallos del servidor (Nodo)MTTR 1: Tiempo Medio deReparación de un nodoMTTR 2: Tiempo Medio deReparación de dos nodosRecovery Time: Tiempo quelleva la reconfiguración completadel clusterNode Rejoin Time: Tiempopara agregar un nodo al clusterp: Probabilidad dereconfiguración con éxito delclustera: Incremento en porcentaje de latasa de fallo (MTBF) del nodosuperviviente, debido alincremento de la carga de trabajo4 de Junio de 2008ParámetroSETPARAMETROS 1SETPARAMETROS 2MTBF4000 horas3000 horasMTTR 11 hora1 horaMTTR 22 horas4 horasRecovery Time60 segundos60 segundosNode Rejoin Time20 segundos20 segundosp0,990,98a0,20,2Disponibilidad del Sistema0,999980,99993Tiempo Anual deIndisponibilidad11 minutosy 13 segundos36 minutosy 8 segundosUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos369

Recuperación ante DesastresModelo de Disponibilidad (II) Análisis Diferencial: decrementodel 10% de todos los parámetrosOrden decreciente deimportancia:pMTBFMTTR 2, Recovery TimeNode Rejoin TimeMTTR 1,, aParámetroComportamiento de la Arquitectura PropuestaSETPARAMETROS 1SETPARAMETROS 2MTBF11,2811,29MTTR 1-0,13-0,14MTTR 2-4,82-7,87Recovery Time-3.90-1.61Node Rejoin Time-1,29-0,52p462377a-0,023-0,025Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos Posibles casos de desastre o fallo múltiple contemplados:Fallo en una Cabina de discosFallo de las líneas de comunicacionesDesastre en un CPD37Recuperación ante Desastres (II) Recuperación de Desastres y Fallos Múltiples:50% automática50% manual en 4 horasReglasRegla 1: Si hay un fallo en un nodo, reducir al mínimo la probabilidad de queno tenga éxito la reconfiguración del clusterRegla 2: Reducir al mínimo los fallos en un nodoRegla 3: Si hay un fallo de reconfiguración (haciendo que todo el cluster secaiga) reducir al mínimo el tiempo necesario para que el cluster vuelva a sufuncionamiento normalRegla 4: En caso de éxito en la reconfiguración del cluster, reducir al mínimo laduración de la reconfiguración4 de Junio de 2008 Se plantea una distribución las BBDD alternativa para mejorar ladisponibilidad en caso de desastre: Ubicar todas las BBDD de un mismo cluster, en la misma cabina dediscosConfigurar el Dispositivo de Quórum del cluster en la misma cabina dediscos que las BBDDSe penaliza tiempo de respuesta del 100% de operaciones de un nodoDe media el 66-67% de las BBDD se recuperarían automáticamente4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos38Fallo en líneas de comunicacionesPosibles casos de desastre:SF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-B (25%)BD-C (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-BR-AR-DR-CFallo en una Cabina de discos: Recuperación: Automática 50% y Manual 50% 4 horasAlternativa: Automática 50% y Manual 50% 4 horasFallo de las líneas de comunicaciones (*):( ): Recuperación: Automática 50% y Manual 50% 4 horasAlternativa: Automática 100%Desastre en un CPD: Recuperación: Automática 25%, Manual 25% en 30 minutosy Manual 50% 4 horasAlternativa: Automática 50% y Manual 50% 4 horas4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos39AAAFuncionamiento NormalFuncionamiento CorrectoFallo de ComponenteElemento AfectadoVoto de Quorum en RAC-1Voto de Quorum en RAC-24 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos4010

Fallo en líneas de comunicacionesSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-B (25%)BD-C (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-BR-AR-DR-CAAAFuncionamiento NormalFuncionamiento CorrectoFallo de ComponenteElemento AfectadoVoto de Quorum en RAC-1Voto de Quorum en RAC-24 de Junio de 2008Fallo en líneas de comunicacionesSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-B (25%)BD-C (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-BR-AR-DR-CSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-B (25%)BD-C (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-BR-BR-DR-DFallo Líneas de Comunicación entre CPDsAAAUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos41Fallo en líneas de comunicaciones.Con Arquitectura AlternativaSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-C (25%)BD-B (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-CR-AR-DR-BFuncionamiento NormalFuncionamiento CorrectoFallo de ComponenteElemento AfectadoVoto de Quorum en RAC-1Voto de Quorum en RAC-24 de Junio de 20084 de Junio de 2008AAAUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosFallo Líneas de Comunicación entre CPDsSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-B (25%)BD-C (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-BR-AR-DR-CRecuperación Sevicios de BBDDBBDD A:BBDD B:BBDD C:BBDD D:25%25%25%25%Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosAutomático 4 horas 4 horasAutomático42Fallo en líneas de comunicaciones.Con Arquitectura AlternativaSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-C (25%)BD-B (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-CR-AR-DR-BAAAFuncionamiento NormalFuncionamiento CorrectoFallo de ComponenteElemento AfectadoVoto de Quorum en RAC-1Voto de Quorum en RAC-2SF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-B (25%)BD-C (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-BR-BR-DR-D43Funcionamiento NormalFuncionamiento CorrectoFallo de ComponenteElemento AfectadoVoto de Quorum en RAC-1Voto de Quorum en RAC-24 de Junio de 2008SF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-C (25%)BD-B (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-CR-AR-DR-BFallo Líneas de Comunicación entre CPDsUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos4411

Fallo en líneas de comunicaciones.Con Arquitectura AlternativaAgendaIntroducción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de Trabajo SF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-C (25%)BD-B (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-CR-AR-DR-BAAAFuncionamiento NormalFuncionamiento CorrectoFallo de ComponenteElemento AfectadoVoto de Quorum en RAC-1Voto de Quorum en RAC-24 de Junio de 2008SF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-C (25%)BD-B (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-CR-AR-DR-BFallo Líneas de Comunicación entre CPDsSF15K-1SF15K-2RAC-1 N1RAC-1 N2A1R. PrivadaA2B1B2SF25K-1SF25K-2RAC-2 N1RAC-2 N2C1R. PrivadaC2D1D29980V 19980V-1DWDM9980V 29980V-2BD-A (25%)BD-C (25%)BD-B (25%)BD-D (25%)QD RAC-1 SAN Ext. QD RAC-2R-CR-AR-DR-BRecuperación Sevicios de BBDDBBDD A:BBDD B:BBDD C:BBDD omáticoUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos45Resultados (I) 4 de Junio de 2008 Disponibilidad de la arquitectura: 99,99%Solución de Continuidad de Negocio.Recuperación de Desastres y Fallos Múltiples: Software de base:Gestor de BBDD Oracle 9i RAC 9.2Sistema Operativo Solaris 9 9/04RAID Hardware y réplica (True Copy) de cabina dediscosUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosFlexibilidad y capacidad de gestión :Se mejora el mantenimiento preventivo y reactivo de laplataforma sin parada de servicioFuncionalidades de copia y réplica de datos:4 de Junio de 2008Escalabilidad de la capacidad de proceso:112 procesadores USIV . Aumento de la capacidad de procesoen un 40%, incluido impacto por Oracle RAC ExtendidoLa capacidad de recursos COD permite absorber el 100% de lacarga de trabajo ante fallos simples o en caso de desastreHasta 80 procesadores adicionales. Y en un futuro actualizarlospor procesadores más potentes50% automática50% manual en 4 horas 46Resultados (II)52 minutos de parada al añoRecuperación automática en menos de 1 minuto Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos474 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos4812

Conclusiones. DisponibilidadAgendaComparación con Situación InicialIntroducción Situación Inicial Requisitos de la Propuesta Planes de Continuidad de Negocio Solución Propuesta Resultados Conclusiones y Líneas Futuras de Trabajo 4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos49Conclusiones Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosSolución Propuesta: Disponibilidad 99,99%(52 minutos/año) Recuperación Cluster:AutomáticaAt átiTiempo: Orden demagnitud en minutos Recuperación deDesastres:100% Manual en 4 horas4 de Junio de 2008AutomáticaAt átiTiempo: Orden demagnitud en segundos Recuperación deDesastres:50% automática50% manual en 4 horasUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos50Líneas Futuras De Trabajo1) Pasar a 2 Clusters de OracleHA2) Se creara un tercer Cluster(particionando los servidores)con Oracle 9i RAC y 4instancias, para probar laarquitecturait tpropuesta:tSe mejora significativamente la disponibilidaddel servicio de BBDDSe cumplen los requisitos de proyectoLa arquitectura propuesta reutiliza todos losrecursos actuales del cliente, reduciendo elcoste de migración a la nueva arquitectura4 de Junio de 2008Situación Inicial: Disponibilidad: 99,9%( 8,75 horas/año) Recuperación Cluster:Funcionalidades en generalDisponibilidad de la soluciónReconexión de clientes,funcionalidad TAF de OracleRendimiento de Oracle RACExtendido514 de Junio de 2008Configuración de Oracle RACen modo activo-activo oactivo-latenteEn base a estas pruebas, sies necesario, se aplicarán lascorrecciones oportunas a laarquitectura propuesta3) Migración de las instanciasOracle 8i a Oracle 9i, comopaso previo a la migración aOracle 9i RACUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos5213

Introducción Gracias Jesús Angulo ArribasEl objetivo del proyecto es el diseño de una arquitecturade alta disponibilidad para el entorno de bases de datos.Dentro de un Plan de Continuidad de Negocio global delos servicios críticos de la organización, consolidados enuna arquitectura de tres niveles: Web, Servidor deA liAplicacionesiyBBases dde DDatostEn el diseño de la solución participa: El propio cliente,Oracle y SunEl equipo de Sun esta formado por: Un coordinador delproyecto y, especialistas en Clusters y SO, Base deDatos Oracle y Sistemas de Almacenamiento4 de Junio de 2008Recuperación ante Desastres (I) Recuperación de Desastres y Fallos Múltiples: Ubicar todas las BBDD de un mismo cluster, en la misma cabinade discosConfigurar el Dispositivo de Quórum del cluster en la mismacabina de discos que las BBDDSe penaliza tiempo de respuesta del 100% de las operacionesen uno de los dos nodos de cada clusterDe media el 66-67% de las BBDD se recuperaríanautomáticamenteUna Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosDisponibilidad de la arquitectura: 99,99%52 minutos de parada al añoRecuperación automática en menos de 1 minutoSe plantea una distribución las BBDD alternativa paramejorar la disponibilidad en caso de desastre:4 de Junio de 200854Resultados (I)50% automática50% manual en 4 horas Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos55Solución de Continuidad de Negocio.Recuperación de Desastres y Fallos Múltiples:50% automática50% manual en 4 horas Funcionalidades de copia y réplica de datos:RAID Hardware y réplica (True Copy) de cabina dediscos4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos5614

Resultados (II) Resultados (III)Escalabilidad de la capacidad de proceso: 112 procesadores USIV . Aumento de la capacidadde proceso en un 40%, incluido impacto por OracleRAC ExtendidoLa capacidad de recursos COD permite absorber el100% de la carga de trabajo ante fallos simples o encaso de desastreHasta 80 procesadores adicionales. Y en un futuroactualizarlos por procesadores más potentes Gestor de BBDD Oracle 9i RAC 9.2Sistema Operativo Solaris 9 9/04Sun Cluster 3.1 8/05Software de Veritas Storage Foundation Cluster FileSystem 4.0, que incluye los productos: Flexibilidad y capacidad de gestión : Se mejora el mantenimiento preventivo y reactivo dela plataforma sin parada de servicio4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosSoftware de base:57Sistema de Ficheros Veritas Cluster File System 4.0Gestor de Volúmenes Veritas Cluster Volume Manager 4.0Software TrueCopy para la replicación entre lascabinas de disco Hitachi 9980V4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de Datos58Líneas Futuras De TrabajoRecomendaciones y Alternativas FACULTAD DE INFORMÁTICAUNIVERSIDAD POLITÉCNICA DE MADRIDRecomendaciones:Dispositivo de quórum en tercer CPDActualización a Sun Cluster 3.2, permite Dispositivode Quórum sobre un servidor Solaris con acceso IP Alternativas:BBDD de un mismo cluster en una única cabina dediscos, junto con DQ: Aumenta la disponibilidad antedesastresConfigurar Oracle RAC en Activo-Latente, para evitarparte de la latencia del RAC extendidoClusters Oracle RAC Locales: Mejora el rendimiento,pero disminuye la disponibilidad ante desastres4 de Junio de 2008Una Solución de Alta Disponibilidad deNegocio para un Servicio de Base de DatosUna Solución de AltaDisponibilidad de Negocio paraun Servicio de Base de DatosDefensa Proyecto Fin de CarreraAutor: Jesús Angulo ArribasTutora: Pilar Herrero Martín5915

4 de Junio de 2008 Negocio para un Servicio de Base de Datos 34 Recuperación de Oracle RAC 1. Detección del fallo 2. Reorganización pertenencia al cluster 3. Recuperación de base de datos Una Solución de Alta Disponibilidad de 4 de Junio de 2008Negocio para un Servicio de Base de Datos 35 Modelo de Disponibilidad MTBF: Tiempo Medio Entre