Tolerância a falhas

Em computação, tolerância a falhas (do inglês failover) é a comutação para um computador servidor, sistema,^[1] componente de hardware ou rede redundante ou em modo de espera em caso de falha ou finalização anormal daquele ativo previamente. Tolerância a falhas e transição (switchover) são essencialmente a mesma operação, exceto pelo fato de que a tolerância a falhas é automática e normalmente opera sem aviso, enquanto a transição requer intervenção humana.

Projetistas de sistemas normalmente fornecem a capacidade de tolerância a falhas nos servidores, sistemas ou redes que necessitam de disponibilidade contínua - o termo usado é alta disponibilidade - e um alto grau de confiabilidade.

No nível de servidor, a automação de tolerância a falhas normalmente usa um sistema "heartbeat" que conecta dois servidores, por meio da utilização de um cabo separado (por exemplo, portas/cabos seriais RS-232) ou uma conexão de rede. Enquanto um "pulso" ou "batimento cardíaco" regular, continua entre o servidor principal e o segundo servidor, o segundo servidor não vai trazer seus sistemas online. Também pode haver um terceiro servidor de "peças de reposição", que tem de executar componentes de reposição para computação ágil (hot) para evitar tempo de inatividade. O segundo servidor retoma o trabalho do primeiro logo que se detecta uma alteração no "pulsação" da primeira máquina. Alguns sistemas têm a capacidade de enviar uma notificação de tolerância a falhas.

Alguns sistemas, intencionalmente, não são tolerantes a falhas de forma totalmente automática, mas requerem intervenção humana. Esta configuração de "automatizado com a aprovação manual" é executada automaticamente uma vez que um ser humano tenha aprovado a tolerância a falhas.

Failback é o processo de restauração de um sistema, componente ou serviço em um estado anterior ao de falha, retornando ao seu estado original (estado funcional).

O uso de software de virtualização permitiu práticas de tolerância a falhas se tornarem menos dependentes de hardware físico.(virtualização).

História[editar | editar código-fonte]

O termo "tolerância a falhas", embora provavelmente em uso por engenheiros há muito mais tempo, pode ser encontrado em um relatório da NASA^[2] desclassificado em 1962. O termo "transição" (switchover) pode ser encontrado na década de 1950,^[3] ao descrever "Sistemas em Modo e Espera" "quentes" e "frios", com o significado atual da transição imediata para um sistema em execução (quente) e transição lenta para um sistema que precisa de inicialização (frio). Procedimentos de conferência de 1957 descreve os sistemas de computador com Transição de Emergência (isto é, tolerância a falhas) e Tolerância a falhas Agendada (para manutenção).^[4]

Ver também[editar | editar código-fonte]

Referências

↑ For application-level failover, see for example Jayaswal, Kailash (2005). «27». Administering Data Centers: Servers, Storage, And Voice Over IP. [S.l.]: Wiley-India. p. 364. ISBN 978-81-265-0688-0. Consultado em 7 de agosto de 2009. Although it is impossible to prevent some data loss during an application failover, certain steps can [...] minimize it. .
↑ NASA Postlaunch Memorandum Report for Mercury-Atlas, June 15, 1962.
↑ Petroleum Engineer for Management - Volume 31 - Page D-40
↑ Proceedings of the Western Joint Computer Conference, Macmillan 1957

Este artigo sobre redes de computadores é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[1] For application-level failover, see for example Jayaswal, Kailash (2005). «27». Administering Data Centers: Servers, Storage, And Voice Over IP. [S.l.]: Wiley-India. p. 364. ISBN 978-81-265-0688-0. Consultado em 7 de agosto de 2009. Although it is impossible to prevent some data loss during an application failover, certain steps can [...] minimize it. .

[2] NASA Postlaunch Memorandum Report for Mercury-Atlas, June 15, 1962.

[3] Petroleum Engineer for Management - Volume 31 - Page D-40

[4] Proceedings of the Western Joint Computer Conference, Macmillan 1957

[1]

[2]

[3]

[4]