Tempo de inatividade, interrupções e falhas - Compreendendo seus verdadeiros custos
- 11 de abril de 2019
- Escrito por: Gad Cohen
Sobre
Este conteúdo é trazido a você pela Evolven. O Evolven Change Analytics é uma solução AIOps exclusiva que rastreia e analisa todas as alterações reais realizadas no ambiente de nuvem empresarial. A Evolven ajuda empresas líderes a reduzir o número de incidentes, reduzir o tempo de solução de problemas e eliminar alterações não autorizadas.Saber mais
Quando se trata de aplicativos de missão crítica ou qualidade de desempenho de data center, as empresas estão dispostas a fazer grandes investimentos. Infelizmente, esses investimentos nem sempre são totalmente entregues.
Enfrentando o tempo de inatividade do sistema
Apesar dos esforços investidos na robustez da infraestrutura, muitas organizações de TI continuam lidando com incidentes de tempo de inatividade de banco de dados, hardware e software que duram de apenas alguns minutos a vários dias, incapacitando completamente o negócio e causando enormes prejuízos.
Tempo de inatividade esperado
O mundo das falhas de TI às vezes pode parecer estranho.
Apesar da variedade de soluções avançadas e dos dados crescentes coletados pelos principais fornecedores de software corporativo e departamentos de TI (de ERP a CRM e muito mais), as interrupções ainda são uma ameaça válida e terrível para o setor.
Por outro lado, as falhas de TI tornaram-se, de alguma forma, uma parte inerentemente aceita, até mesmo esperada, da vida empresarial.
Isso é contra-intuitivo…
Tempo de inatividade de TI revisitado
Enquanto os profissionais de TI se deparam com tempos de inatividade de tempos em tempos, e então estão totalmente focados em tentar superá-los, a organização empresarial como um todo sofre com a “dor financeira” por efeitos, que tendem a ser muito significativos.
No passado, analisamos detalhadamente as várias maneiras pelas quais o tempo de inatividade de TI pode afetar os resultados das empresas (você pode ler mais sobre isso aqui -Custo e escopo de interrupções não planejadas). Analisamos diferentes aspectos, desde a perda direta de receita por meio de danos à reputação até efeitos indiretos, como queda de produtividade.
Agora, gostaria de revisitar o assunto e examinar como as organizações devem abordar e avaliar as ameaças às suas operações de TI, incluindo sistemas, aplicativos e dados, analisando benchmarks sólidos (e estabelecidos) que representam os custos potenciais por trás do tempo de inatividade e interrupções.
Interrupções do sistema:
Medindo falhas de grandes marcas
Quando o setor deve começar a medir o impacto financeiro das interrupções de grandes marcas, como a que atingiu recentementeFacebook, oum que atingiu centenas de milhares de clientes do Lloyds Bank, ou oInterrupção do Jetstarque resultou em centenas de atrasos de vôos?
Em outras palavras, em que ponto uma interrupção é "significativa o suficiente" para que uma análise de custo se torne valiosa para o setor, a fim de aprender com ela e prever o impacto de futuros incidentes de interrupção?
Bem, aparentemente, em algum momento, a interrupção cria um impacto que não pode ser ignorado, em termos de relações públicas. Esse é o ponto sem retorno, que é seguido por estimativas de impacto financeiro.
Os custos do tempo de inatividade variam significativamente entre os setores. O tamanho da empresa afetada é obviamente um fator crítico, mas não é o único importante. O papel dos sistemas de TI no negócio também é fundamental.
Definir um valor numérico por trás de uma interrupção de TI significa predefinir suas implicações em vários aspectos organizacionais e de negócios, para que todo o setor possa aprender e otimizar de acordo.
Uma falha de um aplicativo crítico pode levar a dois tipos distintos de perdas:
- Perda do serviço do aplicativo – o impacto do downtime varia de acordo com o aplicativo e o negócio;
- Perda de dados – a possível perda de dados devido a uma interrupção do sistema pode ter implicações legais e financeiras significativas.
Agora, tenho certeza de que você concorda que os data centers de hoje nunca devem cair; os aplicativos devem permanecer disponíveis 24 horas por dia, 7 dias por semana, e os usuários finais internos (sem falar nos externos) em todo o mundo devem poder contar com a disponibilidade dos data centers (para dados críticos e disponibilidade de aplicativos) o tempo todo.
Bem, a realidade morde. No back office (ou seja, dentro do data center), esse não é o caso. Nenhuma organização desfruta de 100% de tempo de atividade. Você deve aspirar a atingir 100%? Claro. Mas você também deve desenvolver uma compreensão profunda das implicações do tempo de inatividade e formas de minimizá-lo.
O pior pesadelo de interrupção de todos os tempos? Provavelmente o que aconteceu com você…
Alguns incidentes de interrupção anteriores se transformaram em catástrofes de relações públicas, como o mitológico desastre da Virgin Blue em 2010 ou o recente que afetou o Facebook.
Por que? O impacto em massa provavelmente teve algo a ver com isso.
Como lembrete, a interrupção do Virgin Blue impediu os passageiros de embarcar em voos por 11 dias (!!), resultando em imprensa negativa, reputação prejudicada e milhões de dólares perdidos.
Para ser mais preciso: a empresa de gerenciamento de reservas da Virgin Blue, Navitaire, acabou compensando a Virgin Blue em mais de US$ 20 milhões (Falha na reserva da Navitaire rende US$ 20 milhões à Virgin na Compo).
Há muitos outros incidentes que ainda conseguem chamar a atenção da mídia. Aqui está apenas um recenteartigo do USA Today sobre a interrupção do Wells Fargoque impediam os clientes de acessar suas contas por muitas horas.
Posso dizer com segurança que qualquer pessoa no setor de TI concordaria que interrupções ou paradas são MUITO ruins para os negócios. Eles são indesejados, muito prejudiciais financeiramente e devem ser combatidos usando todos os recursos disponíveis.
Erros de configuração são fundamentais
O Visible Ops Handbook do IT Process Institute relatou no passado que "80% das interrupções não planejadas são devidas a mudanças mal planejadas feitas por administradores ("equipe de operações") ou desenvolvedores" (Operações Visíveis).
A Enterprise Management Association relatou que 60% dos erros de disponibilidade e desempenho são resultado de configurações incorretas.
Qual é o custo?
O tempo de inatividade pode custar às empresas US$ 5.600 por minuto e até US$ 300.000 por hora em tempo de inatividade de aplicativos da Web (de acordo com umaAnálise do Gartner de 2014).
O custo médio por hora do tempo de inatividade do servidor corporativo, em todo o mundo, 2017-2018:
Fonte:Político
Os custos de manutenção de aplicativos estão aumentando a uma taxa anual de 20%. Mas isso não pode resolver todos os seus problemas. Uma pesquisa anterior do setor revelou que pelo menos um quarto do tempo de inatividade pesquisado foi causado por erros de configuração. (Quanto você gastará com o tempo de inatividade do aplicativo este ano?).
Quão comuns são os tempos de inatividade ou interrupções?
Ok, o tempo de inatividade pode ser um pesadelo financeiro. Essa parte é clara. Mas se você deseja estimar adequadamente o potencial de risco de interrupções em seus negócios, a pergunta imediata deve ser "qual a probabilidade de isso acontecer?"
Fonte:Conhecimento de Data Center
Ok, então as interrupções são muito comuns para serem ignoradas pensando “Não é provável que eu tenha uma grande interrupção”. Agora vem a questão de como calcular seu risco específico para o seu negócio.
Custos de inatividade de produção e aplicação esclarecidos
Interrupções não planejadas são resolvidas pela TI. No entanto, e como já mencionei, no final das contas essas interrupções impactam toda a organização.
Uma parte importante de um processo completo de avaliação de risco de interrupção é estimar quanto dinheiro você perderá por hora (ou minuto, ou qualquer outro incremento de tempo de sua escolha) no incidente de tempo de inatividade.
Para empresas que dependem exclusivamente da capacidade dos data centers de fornecer serviços de TI e rede aos clientes – como provedores de serviços de telecomunicações ou empresas de comércio eletrônico – o tempo de inatividade pode ser particularmente caro, com o custo mais alto de um único evento chegando a US$ 1 milhão (mais de $ 11.000 por minuto) de acordo com estimativas de especialistas.
Em uma pesquisa do USA Today com 200 gerentes de data centers, mais de 80% relataram que seus custos de inatividade excederam US$ 50.000 por hora. Mais de 25% relataram custos de inatividade de mais de US$ 500.000 por hora (!!).
De acordo com outra pesquisa, embora as empresas não consigam atingir o tempo de inatividade zero, uma em cada 10 empresas disse que sua disponibilidade deve ser superior a 99,999%.
Fonte:Searchcio Techtarget
Para obter uma compreensão sólida das implicações do tempo de inatividade de produção e liberação, vamos dar uma olhada em como as consequências do tempo de inatividade se manifestam.
Custo do tempo de inatividade - por ano ou por incidente?
Aestudo de 2017revelou que de 400 tomadores de decisões de TI, 46% experimentaram mais de quatro horas de inatividade relacionadas à TI em 12 meses; 23% disseram que incorreram em custos que variam de US$ 12.000 a mais de US$ 1 milhão por hora.
Mais de 35% admitiram que não têm certeza do custo de uma interrupção para seus negócios.
Se você perguntar às companhias aéreas Delta, que tiveram que cancelar 280 voos devido a uma interrupção em 2017, as perdas de um único incidente de interrupçãopode chegar a mais de US$ 150 milhões.
Alguns anos atrás, Dun & Bradstreet relatou que 59% das empresas da Fortune 500 experimentam um mínimo de 1,6 horas de inatividade por semana.
Se você pegar a empresa média da Fortune 500 (ou uma empresa que emprega pelo menos 10.000 funcionários) e assumir que ela paga aos membros da equipe de TI uma média de $ 56 por hora, então (supondo que toda a TI esteja ocupada resolvendo o tempo de inatividade), apenas a mão de obra parte do tempo de inatividade para uma organização desse tamanho chegaria a US$ 896.000 por semana, traduzindo-se em mais de US$ 46 milhões por ano (Avaliando o impacto financeiro do tempo de inatividade).
Claro que a realidade é mais complicada, pois é preciso levar em consideração muitos parâmetros como o horário do evento (meio da semana ou final de semana? Dia ou noite?) e muito mais. Ainda assim, entender os custos das interrupções ajudará significativamente a estimar seu potencial de risco e o ROI de ferramentas que podem ajudar a minimizar o efeito de incidentes de tempo de inatividade.
A indústria conseguiu aprender com o passado e minimizar os danos colaterais durante uma interrupção?
Como as coisas mudaram desde o passado?
Portanto, já sabemos que os tempos de inatividade e os incidentes de interrupção ainda acontecem hoje, e a indústria ainda não conseguiu aboli-los. Mas como seu custo mudou ao longo do tempo? Esses incidentes são menos prejudiciais hoje?
Em 2010,uma pesquisa de Coleman Parkesdescobriram que os incidentes de tempo de inatividade de TI custam coletivamente às empresas mais de 127 milhões de horas-homem por ano - uma média de 545 horas-homem por empresa - na produtividade dos funcionários.
Em 2009, foi relatado que os custos médios de tempo de inatividade variam consideravelmente entre os setores, de aproximadamente US$ 90.000 por hora no setor de mídia a cerca de US$ 6,48 milhões por hora para grandes corretoras on-line (Como quantificar o tempo de inatividade).
De acordo com uma pesquisa de gerentes de TI realizada durante esses anos, as empresas estão se tornando mais conscientes dos custos financeiros diretos do tempo de inatividade do computador. A pesquisa revelou que uma em cada cinco empresas perde US$ 12.000 por hora devido ao tempo de inatividade dos sistemas (Como quantificar o tempo de inatividade).
Conforme mencionado acima, uma análise posterior realizada em 2014 pelo Gartner relatou um custo médio de US$ 5.600 por minuto e mais de US$ 300 mil por hora.
Já em 2004, uma estimativa conservadora do Gartner estimava o custo por hora do tempo de inatividade para redes de computadores em US$ 42.000. Conseqüentemente, uma empresa que sofre de um tempo de inatividade abaixo da média de 175 horas por ano pode perder mais de US$ 7 milhões anualmente. No entanto, o custo de cada interrupção afeta cada empresa de maneira diferente, por isso é importante saber como calcular o impacto financeiro preciso (Como quantificar o tempo de inatividade).
Faz sentido acreditar que o custo da interrupção só aumenta com o tempo (já que hoje nos apoiamos mais em sistemas de dados). Você pode, portanto, entender por que os dados do passado podem ser multiplicados por um número significativo para refletir a realidade de hoje…
Cada minuto conta
Há mais de dez anos, o custo médio do tempo de inatividade de um data center em todos os setores era avaliado em aproximadamente US$ 5.600 por minuto (Interrupções de TI não planejadas custam mais de US$ 5.000 por minuto), valor que, segundoGartner, permaneceu o mesmo até 2014. O estudo anterior mencionado anteriormente pelo Ponemon Institute calculou o custo mínimo, mediano, médio e máximo por minuto de interrupções não planejadas, com base na entrada de 41 data centers. O maior custo de uma interrupção não planejada excedeu US$ 11.000 por minuto.
Em média, o custo de uma interrupção não planejada provavelmente excederá US$ 5.000 por minuto.
Só fica mais significativo
Aestudo de 2013viu um aumento de mais de 41% em relação às médias anteriores descritas acima e uma média de custo de mais de US$ 7.900 por minuto.
UmPesquisa ITIC de 2015mostrou claramente que o custo por hora (comparado com dados de 2008) aumentou entre 25% a 30%.
Impacto do tempo de inatividade por ano
Uma análise anterior do Gartner calculou que os incidentes de tempo de inatividade podem chegar a 87 horas por ano, em média. Obviamente, essa é a soma de muitas interrupções - de alguns minutos a várias horas (A média das grandes empresas passa por 87 horas de inatividade da rede por ano).
Como as coisas mudaram?
mais tardepesquisa de 2011revelou que, embora a indústria tenha conseguido combater com sucesso a epidemia de tempo de inatividade e diminuir suas ocorrências, ainda estamos vendo horas de inatividade significativas e enormes perdas de receita (Fonte:levou a mais de 3 milhões (aparentemente usuários do Whatsapp) que migraram para o Telegram)
O impacto na reputação e lealdade
Quanto vale a reputação da sua empresa? Isso pode ser extremamente difícil de avaliar, bem como o efeito de longo prazo de uma reputação danificada e seu impacto na receita e lucratividade.
Nesse caso, os custos do tempo de inatividade incluem clientes perdidos (curto e longo prazo) e outros elementos tangíveis que refletem os custos da deterioração da reputação, como queda de estoque, horas de marketing (gerenciamento de crise e recuperação de marca) e orçamento de mídia necessário para reiniciar e polir o perfil de uma organização.
Quais parâmetros devem afetar seu cálculo?
Ao tentar estimar o custo dos tempos de inatividade, existem os custos diretos óbvios (como perda de negócios durante o tempo de inatividade). No entanto, muitos custos indiretos, como sobrecarga de funcionários ou problemas de reputação discutidos acima, também devem ser calculados.
A sobrecarga da força de trabalho é derivada do custo de queimar tarefas de 'quarto de guerra' que se concentram em colocar os sistemas de TI de volta em funcionamento, o custo de atraso com todas as outras tarefas planejadas, o custo das despesas de horas extras do funcionário (se aplicável) e mais. Depois, há o valor da perda de dados, taxas de manutenção de emergência (principalmente se a interrupção ocorrer fora do horário comercial) e custos adicionais de reparo que podem continuar por muito tempo após a restauração do serviço.
Desnecessário dizer que você deve calcular esses custos ao estimar a implicação do tempo de inatividade, pois eles geralmente são muito significativos; mas mesmo uma estimativa aproximada pode ser extremamente benéfica para entender os riscos e decidir sobre o nível necessário de tecnologia em que você deve se apoiar para combatê-los.
Há também o impacto das vendas perdidas. Para ter uma avaliação precisa do total de vendas perdidas, a porcentagem de impacto deve ser aumentada para refletir o valor real da vida útil dos clientes que mudam permanentemente para um concorrente. Por exemplo, a interrupção do Facebook (e Whatsapp) que mencionei anteriormenteCusto inconsciente: negando o verdadeiro custo do tempo de inatividade da rede. Qual é a perda de receita decorrente do fato de que esses usuários apresentarão menos impressões de anúncios faturáveis?
Estoque caiu 25%
Embora seja difícil colocar um número em tantos parâmetros, eles ainda são substanciais e significativos. Por exemplo, quando a Amazon.com ficou offline por várias horas durante seus primeiros dias, seu estoque caiu 25% em um único dia (Custo inconsciente: negando o verdadeiro custo do tempo de inatividade da rede)!
NissoInterrupção da nuvem da AmazonPor exemplo, a empresa continuou lutando para colocar seus serviços em nuvem online novamente. Como resultado, muitos clientes questionaram a confiabilidade de sua nuvem e a comunicação da Amazon em torno da interrupção. Outros clientes achavam que deveriam ser compensados pelo tempo de inatividade como parte de seu SLA.
Sei que você está curioso: quanto ao SLA, apesar da interrupção de quase quatro dias, o EC2 SLA da Amazon não foi violado (Sete lições para aprender com a interrupção da Amazon).
O custo do tempo de inatividade: calculando você mesmo
Quanto você está prestes a perder devido a um tempo de inatividade inesperado de seus servidores ou aplicativos de negócios?
De acordo com várias fontes, a maneira mais simples de calcular possíveis perdas de receita durante uma interrupção é usando esta equação:
PERDA DE RECEITA | = | (GR/TH) x I x H |
GR | = | receita bruta anual |
º | = | total de horas de trabalho anuais |
EU | = | impacto percentual |
H | = | número de horas de interrupção |
Como minimizar o risco de interrupção e tempo de inatividade?
O tempo de inatividade e as interrupções são catastróficos, mas não precisam ser tão impactantes. Ao utilizar soluções que se concentram em chegar à raiz do problema, as interrupções podem ser evitadas antes mesmo de ocorrerem.
Análise de Mudança Evoluídadesenvolveu uma solução AIOps exclusiva que se concentra nas mudanças - a verdadeira causa raiz dos incidentes de desempenho. A Evolven ajuda as equipes corporativas de TI e Cloud Ops a prevenir e solucionar problemas de incidentes antes que o problema comece.
Contate-nospara ver como ajudamos empresas líderes a reduzir o número de incidentes e MTTR.