Luiz Antônio Reis Silva PROPOSTA DE METODOLOGIA PARA O EMPREGO . - UFRJ

Transcription

1Universidade Federal do Rio de JaneiroNúcleo de Computação EletrônicaLuiz Antônio Reis SilvaPROPOSTA DE METODOLOGIA PARA O EMPREGOOTIMIZADO DA REDUNDÂNCIA EM BUSCA DA ALTADISPONIBILIDADE E DA MÁXIMA CONFIABILIDADE EMREDES.Rio de Janeiro – RJ2007

2LUIZ ANTÔNIO REIS SILVAPROPOSTA DE METODOLOGIA PARA O EMPREGOOTIMIZADO DA REDUNDÂNCIA EM BUSCA DA ALTADISPONIBILIDADE E DA MÁXIMA CONFIABILIDADE EMREDES.Monografia apresentada para obtenção do título de especialistaem Gerência de Redes de Computadores no Curso de PósGraduação Lato Sensu em Gerência de Redes de Computadorese Tecnologia Internet do Núcleo de Computação Eletrônica daUniversidade Federal do Rio de Janeiro – NCE / UFRJ .Orientador :Prof. Moacyr H. Cruz de Azevedo, M.Sc.,UFRJ, BrasilRio de Janeiro – RJ2007

4Apesar de simples, mas por ter exigido um valoroso esforço, dedico estetrabalho à Deus por permitir que pessoas próximas permanecessem maispróximas e que outras pessoas não tão próximas se aproximassem e, damesma forma, contribuíssem com um voluntário e bem vindo apoio.

5AGRADECIMENTOSAgradeço a DEUS por ter a quem agradecer e por ainda poder abraçar a quase todos.Agradeço aos meus pais por mostrarem o caminho e ainda retirarem pesadas pedras.Agradeço a minha esposa e filha por serem o colírio do espírito no regresso tardio.Agradeço as minhas irmãs e sobrinhos por mostrarem na luta, momentos de paz.Agradeço a professores e todos os amigos de profissão pela parceria no calor da batalha.Agradeço ao Comando do Material de Fuzileiros Navais pela oportunidade e pelas “armas”.Agradeço à MARINHA DO BRASIL por saber separar os Homens dos meninos maiores.Agradeço ao BRASIL por ser o meu País e pela coragem de insistir em dar certo, como eu.

uros.O InCor tem uma rede com total redundância, sem um ponto de falha. "Nossos doisswitches 3Com 4007 estão operando 24 x 7, se um deles tiver qualquer falha o outrocontinua em operação," descreve Gutierrez. "Nós precisamos da rede o tempo todo no arporque monitoramos os sinais vitais dos pacientes. A segurança de nossos pacientes é nossamaior prioridade e nossa rede nos suporta com a disponibilidade das informações todo otempo." ”Informa Marco Gutierrez, Diretor Técnico do InCor.Nome: HOSPITAL InCor — Instituto do Coração.Localização: São Paulo, Brasil.Nº de funcionários/pontos de rede: 2.500/1.500.Nº de sites: 2.Segmento de Mercado: tml.

7RESUMOSILVA, Luiz Antônio Reis. PROPOSTA DE METODOLOGIA PARA O EMPREGOOTIMIZADO DA REDUNDÂNCIA EM BUSCA DA ALTA DISPONIBILIDADE EDA MÁXIMA CONFIABILIDADE EM REDES. Monografia (Especialização emGerência de Redes e Tecnologia Internet). Núcleo de Computação Eletrônica, UniversidadeFederal do Rio de Janeiro. Rio de Janeiro, 2007.Este trabalho se propõe a apresentar a necessidade de se obter um alto nível dedisponibilidade e de confiabilidade dos serviços oferecidos por uma rede local e comoalcançar este objetivo através do recurso da redundância. Com este intuito, é exposta aorientação técnica para a elaboração de uma ferramenta de apoio ao emprego da redundânciachamada Planilha de Prioridades de SPOF (Single Point of Failure) (PPS). A proposta éutilizar a PPS para consulta e apoio à decisão de onde, como e a que custo aplicar, de formaracionalizada, o recurso da redundância e assim contribuir para mitigar os prejuízos que oscitados SPOF podem produzir. Neste sentido, são levantados para cada SPOF identificado:os Riscos que a falha do SPOF representam; a respectiva Prioridade na eliminação; aDisponibilidade do componente (SPOF), de acordo com os princípios de MTBF (MeanTime Between Failures) e MTTR (Mean Time To Recover); e as Linhas de Ação, que são asalternativas de emprego do recurso da redundância de forma a reduzir ou eliminar os Riscos.As Linhas de Ação, preferencialmente, serão simuladas e testadas, das mais simples às maiscomplexas, de forma que seus resultados possam ser avaliados, registrados na PPS e osCustos estimados. Inicialmente, no Referencial Teórico, são mencionados alguns conceitos edefinições, cuja compreensão é de relevante interesse para o acompanhamento do raciocínioaplicado. Considerando a oportunidade e a atualidade do assunto, é demonstrado orelacionamento prático do tema central com o conceito de Qualidade de Serviço. Da mesmaforma são expostas algumas importantes técnicas de aplicação do recurso da redundância,hoje encontradas no mercado. Na Metodologia de Pesquisa são definidas as fases a seremcumpridas para se montar a PPS. Posteriormente, na Descrição de Caso, é descrito ummodelo de instalação que será avaliado no capítulo seguinte, a fim de elaborar a PPS. Assim,é apreciada a possibilidade de, com a adequação do recurso da redundância às necessidadesexpostas na PPS, otimizar a busca por uma rede de dados mais disponível e confiável.

8ABSTRACTSILVA, Luiz Antônio Reis. PROPOSTA DE METODOLOGIA PARA O EMPREGOOTIMIZADO DA REDUNDÂNCIA EM BUSCA DA ALTA DISPONIBILIDADE EDA MÁXIMA CONFIABILIDADE EM REDES. Monografia (Especialização emGerência de Redes e Tecnologia Internet). Núcleo de Computação Eletrônica, UniversidadeFederal do Rio de Janeiro. Rio de Janeiro, 2007.The purpose of this paper is to show the necessity of have a high level of availabilityand trustworthy in a local area network service and how to reach that aim using redundancy.At this way, is exposed a technical orientation that will permit to elaborate a support tool forthe redundancy application called Planilha de Prioridades de SPOF (Single Point of Failure)- Table of SPOF Priority (PPS). The proposal is use the PPS for consultation and to supportthe decision making of where, how and how much is to rationally apply the redundancyresource and then contribute to moderate the negative results that can be provoked by SPOF.In PPS are defined, for each identified SPOF: the Risks that the failure of SPOF represents;the Priority of elimination; the Availability of the component, considering MTBF (MeanTime Between Failures) and MTTR (Mean Time To Recover); and the Action Lines that arealternatives to apply redundancy resource, in order to reduce risks or to eliminate then. TheAction Lines will be preferentially simulated and tested, from the less complex to the most,in order to enable the valuation results, cost estimation and registration in the PPS. Initially,some important conceptions and definitions are mentioned in Theoretician Referential,because their comprehension is interesting to accompany the applied reasoning. Consideringthe opportunity, is demonstrate the practical relationship among the subject and QoS. Someimportant redundancy resource application technics, nowadays commercial used, are shown.In Research Methodology the phases to construct PPS are defined. After that, in CaseDescription, a model of network installation is described, this model will be evaluate in thenext chapter, in order to elaborate the PPS. Therefore, is appreciate the possibility of, withappropriation of the redundancy resource to the PPS necessities, optimize the search of amaximum trustworthy and high availability network.

9LISTA DE FIGURASFigura 1Figura 2Figura 3Figura 4Figura 5Figura 6Figura 7- Sistema de alta disponibilidade com redundância de servidores e RAID- Sistema de Balanceamento de Carga entre servidores via balanceador- Cluster de Alta Disponibilidade- Operação do HSRP- Operação do VRRP- Exemplo de dois firewalls, fw1 e fw2- Módulo de Interface da fonte redundante do CISCO 3725 e sua posiçãono chassiFigura 8 - Esquema básico de uma rede com roteador e servidor como SPOFFigura 9 - Arquitetura clássica de um sistema dual-node de alta disponibilidadeFigura 10 - Exemplo de Seção de Rede para avaliaçãoFigura 11 - Exemplo de Seção de Rede com recursos redundantesPágina2425283132343639414349

10LISTA DE QUADROSQuadro 1 Quadro 2 Quadro 3 Quadro 4 Quadro 5 Quadro 6 Quadro 7 -Níveis de Alta Disponibilidade - Fonte www.wikipedia.org.brServidores passíveis de receberem redundânciaExemplo de PPSMontagem PPS – Colunas: Identificação e ComponenteMontagem PPS – Colunas: Identificação, Disponibilidade e RiscosMontagem PPS – Colunas: Identificação e Linhas de AçãoMontagem PPS – Colunas: Identificação, Execução/Testes, Custos ePrioridadesQuadro 8 - Planilha de Prioridades de SPOF - ConcluídaPágina1835424445464750

11LISTA DE ABREVIATURAS E IUPSUTPVDCVPNVRRPWANAddress Resolution ProtocolCommon Address Redundancy ProtocolDemilitarized ZoneEstação de TrabalhoExequível e AceitávelfirewallGateway Load Balancing ProtocolHigh AvailabilityHigh Definition TelevisionHot Standby Router ProtocolGateway Load Balancing ProtocolInternet Engineering Task ForceInternet ProtocolICMP Router Discovery ProtocolLinha de AçãoLocal Área NetworkMedia Access ControlMega ByteMedium Time Between FailuresMedium Time To RecoverOpen Shortest Path FirstPlanilha de Prioridades de SPOFRedundant Array of Inexpensive DisksRouting Information ProtocolRedundant Power SupplyService Level AgreementServer Load BalancingSingle Point Of FailureSingle Router ModeSingle System ImageUninterruptable Power SupplyUnshielded Twisted PairVolts Direct CurrentVirtual Private NetwareVirtual Router Redundancy ProtocolWide Área Network

ONFIABILIDADE211.0 INTRODUÇÃO1.1 MOTIVAÇÃO1.2 OBJETIVO1.3 RELEVÂNCIA1.4 CONTRIBUIÇÃO2.0 REFERENCIAL TEÓRICO2.1 DEFINIÇÃO BÁSICA DE LAN2.2 DEFINIÇÃO BÁSICA DE DISPONIBILIDADE2.2.1 Tempo Médio entre Falhas (MTBF)2.2.2 Tempo Médio de Recuperação2.2.3 Avaliação da Disponibilidade2.3 DEFINIÇÃO BÁSICA DE CONFIABILIDADE2.3.1 Reconfiguração Após Falhas2.3.2 Degradação Amena2.3.3 Tolerância a Falhas2.4 ACORDO DE NÍVEL DE SERVIÇODA2.5 INFLUÊNCIA DA DISPONIBILIDADENOS QUESITOS DE QOS2.5.1 Atraso Fim-a-Fim2.5.2 Variação do Atraso (Jitter)2.5.3 Perda de Pacotes2.5.4 Largura de Banda2.6 REDUNDÂNCIA – EM BUSCA DE ALTA DISPONIBILIDADE E DEMÁXIMA CONFIABILIDADE2.6.1 Redundant Array of Inexpensive Disks (RAID)2.6.1.1 Tipos de RAID2.6.2 Balanceamento de Carga (Load Balance)2.6.3 Cluster2.6.3.1 Tipos de Cluster2.6.3.1.1 Alta Disponibilidade (High Availability (HA) and Failover)2.6.3.1.2 Balanceamento de carga (Load Balance)2.6.3.1.3 Combinação HA & Load Balance,2.6.3.1.4 Processamento Distribuído ou Processamento Paralelo2.6.3.2 Razões Para Utilização de Cluster2.6.4 Redundância de Roteadores2.6.4.1 Estabelecimento de Redundância de Roteadores2121222222232324262626262727272828

132.6.4.1.1 Proxy Address Resolution Protocol2.6.4.1.2 Default Gateway2.6.4.1.3 Dynamic Routing Protocol2.6.4.1.4 Dynamic Host Configuration Protocol2.6.4.2 Protocolos de Redundância Aplicados a Roteadores2.6.4.2.1 ICMP Router Discovery Protocol (IRDP)2.6.4.2.2 Hot Standby Router Protocol (HSRP)2.7.2.3standbyrouterRedundancyprotocol (hsrp)2.6.4.2.3hotVirtualRouterProtocol (VRRP)2.6.4.2.4 Gateway Load Balancing Protocol (GLBP)2.6.4.2.5 Single Router Mode (SRM) Redundancy2.6.4.2.6 Common Address Redundancy Protocol (CARP)2.6.4.2.7 Redundância de Firewall Utilizando CARP2.6.5 Redundância de Servidores2.6.5.1 Server Load Balancing (SLB)2.6.6 Redundância no Suprimento de Força2.6.7 Protocolo IEEE 802.1D – Spanning Tree3.0 METODOLOGIA DE PESQUISA3.1 TIPO DE PESQUISA3.2 PROPOSTA DE LEVANTAMENTO TÉCNICO3.2.1 Avaliação da Instalação3.2.2 Identificação de Single Point of Failure (SPOF)3.2.3 Estabelecimento de Disponibilidades e Riscos3.2.4 Estabelecimento de Linhas de Ação3.2.5 Execução, Testes, Custos e Prioridades3.2.6 Análise e Conclusão3.2.7 Elaboração da Planilha de Prioridades de SPOF (PPS)4 DESCRIÇÃO DE CASO5 ANÁLISE DE CASO5.1 AVALIAÇÃO DA INSTALAÇÃO5.2 IDENTIFICAÇÃO DE SPOF5.3 ESTABELECIMENTO DE DISPONIBILIDADES E RISCOS5.4 ESTABELECIMENTO DE LINHAS DE AÇÃO5.5 EXECUÇÃO, TESTES, CUSTOS E PRIORIDADES5.6 ANÁLISE E CONCLUSÃO6 CONCLUSÃO6.1 CONTRIBUIÇÃO6.2 LIMITAÇÕES DA PESQUISA6.3 TRABALHOS 73838383839394040404143444444454646485151515152

141 INTRODUÇÃO1.1 MOTIVAÇÃOO avanço tecnológico hoje observado acaba por estabelecer definitivamente adependência operacional e administrativa das instituições em relação à sua estrutura de redesde comunicação. Ao possuir a capacidade praticamente ilimitada de conexões e absorverfuncionalidades como armazenagem de dados, suporte a tráfego de dados, áudio e vídeo deforma convergente, além de um conjunto diversificado de aplicações simultâneas, a rededeve atender a quesitos básicos como: desempenho, segurança, disponibilidade,confiabilidade, entre outros. Apesar de não se tratar de conceitos compartimentados, massim inter-relacionados, as propriedades “disponibilidade” e “confiabilidade” serão aquitratadas de forma mais específica. Isto se deve ao fato de que, ao adotar o recurso daredundância, tema central desta monografia, procura-se principalmente agregar uma altadisponibilidade e máxima confiabilidade aos serviços prestados por uma LAN.Origem: Wikipedia, http://pt.wikipedia.org. 20/06/07“Redundância é o meio mais eficaz de obter-se um sistema de alta disponibilidade.A redundância de interfaces de rede, de CPU, de servidores, de fontes de alimentaçãointerna mantém o perfeito funcionamento do sistema mesmo em caso de falhas decomponentes ou sobrecargas do sistema.”São apresentados os estudos que, pela forma diversificada de abordagem da aplicaçãoda redundância, contribuíram de forma relevante para o desenvolvimento deste trabalho:-GARANTIA DE DISPONIBILIDADE EM AMBIENTE PEER – TO - PEERUTILIZANDO REPLICAÇÃO COORDENADA.José Nogueira D Almeida Júnior.Universidade Federal do Rio de Janeiro, COPPE – 2005.-UM PROTOCOLO TOLERANTE A FALHAS PARA DISSEMINAÇÃO DEDADOS EM REDES DE SENSORES SEM FIO.Bruno Ávila Galvão.Universidade Federal do Rio de Janeiro, NCE – 2005.-DETECÇÃO E DIAGNÓSTICO DE FALHAS EM ROBÔS MANIPULADORESVIA REDES NEURAIS ARTIFICIAIS.Renato Tinós.Universidade de São Paulo – SP – 1999.-SOBREVIVÊNCIA EM REDES ÓPTICAS TRANSPARENTES.Marco Dias Dutra Bicudo.Universidade Federal do Rio de Janeiro, COPPE – 2005.

151.2 OBJETIVOÉ evidente que a perfeita funcionalidade de uma LAN envolve a observação lidade2;escalabilidade3;disponibilidade4; desempenho; confiabilidade5 entre outros. Neste estudo, pretende-sedemonstrar que a crescente exigência quanto à disponibilidade e à confiabilidadeoperacionais de uma estrutura de rede de comunicações podem ser alcançadas através daaplicação otimizada do recurso da redundância.A confiabilidade original de componentes dos Sistemas de Informação pode serrelativamente insuficiente para um serviço crítico. Para garantir a ausência de interrupçõesde serviço muitas vezes é necessário dispor de recursos redundantes que entrem emfuncionamento, automaticamente gerenciados pela previsibilidade lógica, quando da falhade um dos componentes em produção.Nesta linha de raciocínio, fica naturalmente exposto o seguinte questionamento:Como viabilizar o emprego otimizado da redundância de componentes críticos deuma rede local estruturada, de forma a obter alta disponibilidade e máximaconfiabilidade dos serviços e recursos oferecidos pela mesma?1.3 RELEVÂNCIAO tema proposto é de relevante importância prática, uma vez que poderá estimularmaior reflexão sobre a adoção de métodos, protocolos e plataformas físicas e lógicas quepriorizem não apenas o estabelecimento de conexões em rede, mas também a adequadaconfiabilidade e disponibilidade da estrutura em questão.Teoricamente, quanto maior a redundância aplicada, menos pontos de falha existirão emenor será a probabilidade de interrupções no serviço. Há poucos anos tais sistemas erammuito dispendiosos, a redundância necessária gerava gastos, impelindo uma intensa buscapor soluções alternativas de menor custo. Houve a necessidade de abordagens e de pesquisasmais dedicadas. Então, começaram a surgir alternativas mais viáveis e tecnicamenteevoluídas, como sistemas construídos com hardware acessível, altamente escaláveis e decusto mínimo.1É o termo para uma rede que é composta de várias partes que podem ser trocadas, assim um sistemapode ser dividido em vários subsistemas;2Atributo que caracteriza a facilidade de modificação ou adaptação de uma rede;3Habilidade de manipular uma porção crescente de trabalho de forma uniforme, ou estar preparadopara o crescimento do mesmo;4Capacidade de estar disponível para uso;5Probabilidade de um item desempenhar uma função, sob condições específicas, de forma confiável;

16São cada vez mais comuns para as aplicações em rede o uso de termos como “24 x 7”e “24 x 7 x 365”, referindo-se às horas do dia, dias da semana e dias do ano em que osserviços devem permanecer disponibilizados. Assim, justifica-se uma avaliação maisdetalhada da aplicação do recurso da redundância, que praticamente viabiliza adisponibilidade integral dos serviços confiáveis de uma LAN. Desta forma, propõe-se queseja considerado como fator condicionante e determinante para a aceitação de um projetoconcluído, a previsão de disponibilidade e confiabilidade máximas dos serviços prestadospela rede.Segundo Kurose (2001, apud ANDERSON KARING, 2002, p. 1), devido ao fato deuma rede de computadores consistir de muitas partes complexas de hardware e software,tais como links, equipamentos, pontes, roteadores e outros dispositivos, quando centenas oumilhares destes dispositivos são conectados uns aos outros para formar uma rede, é de seesperar que componentes irão eventualmente funcionar mal, que elementos de rede poderãoser desconfigurados, que recursos da rede serão superutilizados, ou que componentes de redeirão simplesmente “quebrar”.O raciocínio acima exposto é de fato confirmado pelas restrições técnicas presentes nagrande maioria das instalações hoje existentes. Porém, existem sedimentados investimentosem redundância da forma como é aqui apresentada, sendo um importante recurso utilizadona busca da adequação técnica da rede, nos atuais padrões de confiabilidade edisponibilidade exigidos.1.4 CONTRIBUIÇÃOEm resposta ao questionamento exposto no item 1.2 e em complemento dasinformações aqui constantes, pretende-se oferecer exemplos de aplicações em que autilização da redundância colabora de forma determinante para a adequada operação da rede.A contribuição básica é, diante do quadro a ser exposto com exemplos de técnicasatualizadas, oferecer apoio a decisão de como, quando e onde aplicar o recurso daredundância.Atualmente são encontrados diversos cenários que exercem certa “pressão” sobre aconfiabilidade e a disponibilidade dos backbones dos provedores. Serviços críticos queenvolvem operacionalização de hospitais, movimentações financeiras, automação industrial,entre outras aplicações em tempo real, exigem risco zero de inoperância.É real a possibilidade lógica e física de aperfeiçoar a qualidade dos serviços prestadospor uma rede através de adições, verificações e ajustes de redundância. Fatores diretamente

17ligados a QoS como: Atraso Fim-a-Fim, Variação do Atraso (Jitter), Perda de Pacotes eLargura de Banda, podem ser positivamente influenciados. Entretanto, existem restriçõespara as instalações já existentes, pois a partir de um determinado ponto, que envolvemfatores relevantes principalmente como o custo, a complexidade de gerência e demanutenção do equipamento, em último caso, apenas um projeto completamente novo podeoferecer resultados satisfatórios.

182 REFERENCIAL TEÓRICOA redundância é um tema extremamente amplo e com possibilidades de exploraçãoilimitadas. Pretende-se, neste estudo, manter o foco nos principais componentes físicos deuma LAN e na respectiva lógica empregada na implementação da redundância dosmesmos. Para haver um adequado acompanhamento do raciocínio aplicado no estudo emquestão, alguns princípios básicos são externados neste capítulo.2.1 DEFINIÇÃO BÁSICA DE LANPode-se caracterizar uma rede local como sendo uma rede que permite a interconexãode equipamentos de comunicação de dados numa pequena região (SOARES 1995). Sãoredes privadas contidas em um único edifício ou campus universitário com até algunsquilômetros de extensão (TANENBAUM-2003).2.2 DEFINIÇÃO BÁSICA DE DISPONIBILIDADEÉ a capacidade que um recurso possui de estar pronto para uso. Neste contexto, umsistema de alta disponibilidade (HA) será um sistema informático resistente a falhas desoftware, hardware e de energia, cujo objetivo é manter os serviços disponibilizados o maiorde tempo possível.Disponibilidade é uma palavra comum entre os fornecedores de serviço. Com oacompanhamento adequado é possível definir a disponibilidade de um recurso (link,hardware, serviço, etc.) e, a partir desta definição, passar a medir e compreender osresultados. Pode-se, então, planejar os investimentos, aferir multas contratuais, bem comocompreender o atendimento prestado por uma equipe e assim promover ações de melhoria.O Quadro 1 ilustra um dos termos de comparação geralmente utilizado na avaliação desoluções HA: níveis de disponibilidade, segundo os tempos de indisponibilidade(downtime). Foram excluídos deste quadro os tempos de downtime estimados usados paramanutenção ou reconfiguração dos sistemas, que são alheios às soluções e muito variáveis.Quadro 1 - Níveis de Alta Disponibilidade – Fonte www.wikipedia.org.brDisponibilidade (%)95%96%97%98%99%99,9%99,99%99,999%Downtime/ano18 dias 6:00:0014 dias 14:24:0010 dias 22:48:007 dias 7:12:003 dias 15:36:000 dia 8:45:35.990 dia 0:52:33.600 dia 0:05:15.36Downtime/mês1 dia 12:00:001 dia 4:48:000 dia 21:36:000 dia 14:24:000 dia 7:12:000 dia 0:43:11.990 dia 0:04:19.200 dia 0:00:25.92

192.2.1 Tempo Médio entre Falhas (MTBF)O tempo médio entre falhas é o intervalo médio de tempo, geralmente medido emhoras, entre duas falhas consecutivas. Está relacionado com a confiabilidade decomponentes e o nível de redundância aplicado. Para obter este tempo basta levantar todasas paradas do dispositivo que se pretende avaliar e, utilizando recursos de estatística, comouma média aritmética , aplicar os valores obtidos e assim terá o MTBF.2.2.2 Tempo Médio de Recuperação (MTTR)O tempo médio de recuperação é o tempo médio de recuperação de problemas quetenham tornado indisponível um serviço ou a rede como um todo. Pode ser diminuído com oauxílio de redundância, mecanismos de autoteste e diagnósticos preventivos, além deexecução de uma manutenção eficiente. Independentemente da solução adotada, existesempre um MTTR, também definido como o espaço de tempo (médio) que decorre entre aocorrência do problema e a total recuperação do sistema ao seu estado operacional.Procedendo-se do mesmo modo para obter o MTBF, será obtido o MTTR.2.2.3 Avaliação da DisponibilidadeGeralmente, quanto maior a exigência de disponibilidade, maior a necessidade deredundância e o custo das soluções, tudo depende do tipo de serviço que se pretende manterdisponível. Por exemplo: um operador de telecomunicações exigirá o mais elevado nível dedisponibilidade de seus serviços, sob pena de perder os seus clientes, no caso do sistemasofrer falhas constantes. No entanto, uma empresa com horário de trabalho normal poderáconsiderar que 90% de disponibilidade serão suficientes. Salienta-se que o nível dedisponibilidade mensal é, naturalmente, menor que o anual, não considerando-se o valormédio, mas sim o absoluto. Efetivamente, para se obter um nível de disponibilidade mensalde 97%, significa que o serviço fica inativo 3% do tempo, ou seja, durante 21,6 horas das720 horas de um mês. Esta mesma indisponibilidade de 21,6 horas, considerada no total dehoras de um ano, ou seja, 8.640 horas, representaria 0.25% do tempo total inativo, assim,neste patamar o nível anual de disponibilidade seria de 99,75% [10].A disponibilidade pode ser medida da seguinte forma:Disponibilidade ((MTBF) / (MTBF MTTR)).100% onde:MTBF (Mean Time Between Failures) é o tempo médio entre a ocorrência de falhas eMTTR (Mean Time To Recover) é o tempo médio de reparo.Exemplificando : Se um servidor pára a cada 12 dias durante 02 horas em média, temos que:MTBF 12 x 24 288 horas; e MTTR 2 horas; então :

20Disponibilidade ((288) / 288 2)) . 100% 99,31 %.Desta forma, os efeitos decorrentes da indisponibilidade podem ser estimados.É importante ressaltar que quanto maior o índice de disponibilidade exigido, maioresserão os investimentos e consequentemente os custos envolvidos.2.3 DEFINIÇÃO BÁSICA DE CONFIABILIDADEÉ a probabilidade de um item desempenhar uma função, sob condições especificas, deforma confiável. O termo “confiabilidade” se traduz lexicograficamente como a qualidadeou o estado daquilo em que se pode confiar, que é justamente o que se pretende obter deuma rede de dados, nos atuais padrões de desenvolvimento tecnológico. Apesar de seremtermos diferentes, a confiabilidade, assim como a disponibilidade, também pode ser avaliadaatravés da observação e controle dos princípios técnicos como: MTBF e MTTR.O básico para se compreender a grande diferença entre disponibilidade econfiabilidade é o fato de que não há como um serviço ser confiável se ele não estiverdisponível. Ou seja, o primeiro quesito a ser cumprido para verificar se um serviço éconfiável é que ele esteja disponível.2.3.1 Reconfiguração Após FalhasReconfiguração após falhas é a propriedade que o sistema deve possuir de, durante omenor tempo de latência6 possível, ser reconfigurado, automaticamente ou não, voltando aoperar normalmente após o problema. Requer que caminhos redundantes sejam acionadostão logo ocorra a falha ou esta seja detectada. A rede deve ser tolerante a falhas transientesou permanentes causadas por hardware/software, de forma que tais falhas causem apenasuma confusão momentânea, resolvida em algum nível de reiniciação. Falhas de algunscomponentes críticos ou destruição de programas poderão não ser resolvidas sem recursosde redundância.2.3.2 Degradação AmenaDegradação amena mede a capacidade da rede continuar operando na presença defalhas, embora com um desempenho menor. É geralmente dependente da aplicação.2.3.3 Tolerância a FalhasÉ a propriedade desejável de uma rede de comunicações que permite que a mesmapermaneça operando adequadamente mesmo após falhas em alguns de seus componentes. Sesua qualidade de operação diminui, a queda é proporcional à severidade da falha. A6É a diferença de tempo entre a percepção da necessidade de reconfiguração e o momento em queseus efeitos tornam-se perceptíveis;

21tolerância a falhas é uma propriedade prioritária em sistemas de alta disponibilidade ou emaplicações críticas. Consiste, basicamente, em ter hardware redundante que entra emfuncionamento automaticamente após a detecção de falha no hardware principal.2.4 ACORDO DE NÍVEL DE SERVIÇOUm Acordo de Nível de Serviço (ANS ou SLA (Service Level Agreement)) é a parte decontrato de serviços entre duas ou mais entidades no qual o nível da prestação de serviço édefinido formalmente. Na prática, o termo é usado no contexto de tempo de entregas de umserviço ou de um desempenho específico. Por exemplo, se a Empresa ‘A’ contratar um nívelde serviço de entregas de 95% em menos de 24 horas à Empresa ‘B’, esta terá que fazer nomínimo 95% de todas as entregas de sua incumbência, em menos de 24 horas. O SLA temrelação direta com a disponibilidade e a confiabilidade do serviço oferecido.2.5 INFLUÊNCIA DA DISPONIBILIDADE E DA CONFIABILIDADE NOS QUESITOSDE QOSComo forma de observar a influência técnica que a adequação às exigências deconfiabilidade e disponibilidade de uma rede pode exercer na Qualidade de Serviço obtida,cabe aqui a menção do conceito de QoS e dos quesitos relacionados.Qualidade de Serviço é, resumidamente, a capacidade da rede de prover um melhorserviço a tráfego selecionado, operando sobre diferentes tecnologias. Algo que pode-semedir e definir políticas. Os quesitos de QoS são monitorados de forma a fornecerem osparâmetros necessários para o devido acompanhamento do desempenho dos serviços darede. Se a redundância é uma ferramenta utilizada para diminuir ou evitar interrupções dosserviços de rede, é previsível que esta colabore de forma significativa na obtenção demelhores índices de QoS na mesma rede. Neste sentido, abaixo são expostos os quesitosbásicos de QoS.2.5.1 Atraso fim-a-fimTrata-se do tempo que um pacote precisa para transcorrer do seu ponto de origem até oponto de destino. Se neste percurso os SPOF (Single Point of Failure – explicado no item3.2.2) identificados receberem recursos redundantes de forma a minimizar o risco de falha, otempo de transcurso do pacote será otimizado.2.5.2 Variação do Atraso (Jitter)Variação de atraso que poderá existir entre pares de pacotes que trafegam na rede.Trata-se da variação na cadência do tráfego de pacotes, extremamente prejudicial para áudioou vídeo. Uma das formas de minimizar a variação de atraso é a utilização de buffer, quearmazena os dados a medida que eles chegam e os encaminha para a aplicação a uma mesma

22cadência. Uma rajada ou tráfego intenso poderá estourar buffers, causar perdas de pacotes ea consequente queda de QoS. Dentro do princípio da redundância, recursos lógicos comospanning-tree ou links resilientes (explicados nos itens 2.6.7 e 2.6.8) colaboram no sentidode evitar o jitter.2.5.3 Perda de PacotesPerda de pacotes se dá quando um determinado pacote, por razões diversas, não atingeo seu destino corretamente. Aplicações como voz e vídeo são extremamente sensíveis à estaperda. Assim como foi tratada nos itens anteriores, a identificação e eliminação de SPOFminimizam a perda de pacotes e elevam a qualidade do serviço.2.5.4 Largura de BandaÉ a capacidade de transmissão de dados que um determinado meio possui. É acapacidade máxima de transmissão deste meio. Este quesito também pode ser positivamenteinfluenciado, neste caso pelo recurso de Load Balance, explicado no item 2.6.3.1.2.2.6 REDUNDÂNCIA - EM BUSCA DE ALTA DISPONIBILIDADE E DE

2.6.4.2.4 Gateway Load Balancing Protocol (GLBP) 32 2.6.4.2.5 Single Router Mode (SRM) Redundancy 2.6.4.2.6 Common Address Redundancy Protocol (CARP) 33 33 2.6.4.2.7 Redundância de Firewall Utilizando CARP 34 2.6.5 Redundância de Servidores 35 2.6.5.1 Server Load Balancing (SLB) 35 2.6.6 Redundância no Suprimento de Força 35 2.6.7