Revista RTI Nº 238, Março de 2020
Artigo (Matéria de Capa)
Autor: Msc. Eng. Leônidas Vieira Júnior, da Specto Tecnologia
Incêndios em data centers podem levar a downtime, danificar ativos e prejudicar os clientes. Plataformas de monitoramento como o DCIM podem detectar rapidamente flutuações de temperatura, superaquecimento, curtos-circuitos e outros problemas capazes de colocar em risco a instalação, garantindo a segurança e disponibilidade das operações.
Um data center é uma forma segura de garantir altas taxas de disponibilidade de sistemas cruciais para as organizações, como acesso à Internet, sistemas integrados de gestão empresarial (ERP), transações bancárias online, sistemas de comércio eletrônico, pregões eletrônicos, banco de dados, etc. Trata-se de um ambiente controlado para abrigar equipamentos de TI, com condições ideais de temperatura e umidade, sistema automático de detecção e supressão de incêndio, controle e monitoramento de acesso físico e fornecimento energético ininterrupto e de qualidade.
De modo simplificado, podemos dizer que a infraestrutura física de um data center é composta basicamente de:
Já para a segurança e gestão de um data center, podemos acrescentar:
Este artigo trata da proteção e prevenção contra incêndio em data centers utilizando ferramentas DCIM. O ideal é sempre a prevenção, com medidas que evitem um possível desastre e a consequente interrupção (indisponibilidade) do data center.
A proteção envolve os aspectos construtivos, que vão de portas corta-fogo a cabeamento antichamas, além dos sistemas de proteção ativados para minimizar os estragos, como sprinklers e/ ou gases inertes, dentre outros.
A prevenção contra incêndios está embutida na própria essência de administrar um data center, ou seja, consiste em ter uma visão holística da saúde da instalação, com procedimentos e políticas para a gestão de riscos, através do conhecimento de todas as variáveis importantes, seus valores históricos, situação atual e tendência.
Tab. I - Registros de incêndios em data centers, no Brasil e no mundo
A tabela I apresenta um levantamento, feito por meio de pesquisas na Internet, de vários casos de incêndios em data centers. As causas (tabela II), são inferências de publicações na Internet de agências de notícias e blogs. Por isso, não têm o objetivo de serem exatas e sim dar uma percepção geral das principais causas.
Na era da informação, os itens mais valiosos deixaram de ser apenas os ativos físicos. Em data centers, além da velocidade, estabilidade e confiabilidade ( ou disponibilidade) dos seus serviços, a integridade física dos servidores deve ser mantida para preservar não somente o hardware de alto valor, mas também os dados lá armazenados ou em transição.
Um sistema de proteção contra incêndio deverá conter os aspectos construtivos de retardo de propagação de incêndio. As paredes, portas, tetos e pisos que separam ambientes em um data center têm a função agregada de retardar a propagação de incêndio de um local para outro. O tempo de retardo deve ser de no mínimo 1 hora. A tabela III apresenta a classificação dos tempos mínimos de retardo à propagação de chama esperados para um ambiente de data center.
O sistema de proteção também deve incluir os dispositivos de detecção, alarme e combate a incêndio (SDACI). Os principais elementos (figura 1) estão detalhados a seguir.
Existem diversas tecnologias para os sistemas automáticos de detecção. Todas têm o objetivo de indicar os princípios de incêndio:
• Dispositivos de detecção precoce de fumaça. São o estado da arte. Utilizam a tecnologia conhecida como ASD – Aspirating Smoke Detector. O ar é enviado ao interior de uma câmara através de uma rede de tubos de amostragem localizados nas áreas críticas mediante um aspirador de alta eficiência. Cada tubo de entrada possui um sensor que monitora as alterações no fluxo de ar nos tubos. No interior do dispositivo, uma amostra de ar passa pela câmara de detecção a laser por meio de um filtro de ar de dois estágios. O primeiro estágio remove partículas de poeira e sujeira da amostra de ar antes de entrar para a câmara de detecção a laser para análise.
Fig. 1 - Visualização dos sistema de detecção, alarme e combate a incêndio no sistema DCIM. Fonte: DataFaz
Composto por dispositivos que emitem alertas sonoros e luminosos diante de um potencial, ou já em andamento, incêndio.
Colocados em locais estratégicos para auxiliar, manualmente, em caso de extrema necessidade (por exemplo, saída de fuga impedida por chamas).
Quando pressionado, desliga imediatamente toda a energia do data center.
São os agentes que eliminam o incêndio (fogo):
Com base no guia RTI das empresas de hosting e colocation [16], no Brasil, de outubro 2019, fizemos uma análise da pesquisa sobre as tecnologias mais usadas, com os seguintes resultados:
Desta forma, conclui-se que 88% dos data centers apresentados no guia da RTI usam SDACI. Desses, 80% adotam o gás como supressor e 7,6% usam, provavelmente, água (tabela IV).
Apesar das evidentes vantagens do sistema de detecção ASD – Aspirating Smoke Detector e combate (supressão) com gases inertes (tipo FM-200 ou Novec 1230), há relatos na mídia especializada [12] [14],[15] que a liberação de gases em alta pressão tem produzido ruídos tão altos e potentes (na verdade uma onda de pressão se movendo pelo ambiente) que danificam servidores com disco rígido.
Segundo artigo do Uptime Institute [15], “incêndios originados em data centers são relativamente raros e geralmente são causados por erro humano durante testes e manutenção ou por falhas elétricas, que tendem a ser autoextinguíveis. Outros incêndios se espalham a partir de outros espaços. Nesses momentos, a necessidade de um sistema eficaz e funcional de combate a incêndios é óbvia, o qual deve fornecer segurança para as vidas e proteger equipamentos caros e dados de missão crítica. No entanto, o sistema de combate a incêndio pode representar um risco para as operações
quando ativado inadvertidamente durante os testes e a manutenção. Além disso, os sistemas de combate a incêndio, quando implantados, também podem causar danos em uma instalação”.
De acordo com a pesquisa do Uptime Institute 2017 [15], cerca de um terço dos data
centers sofreram uma descarga acidental do gás de supressão. De fato, na mesma pesquisa, os entrevistados tiveram três vezes mais chances de ter sofrido uma descarga acidental do que um incêndio real.
Sendo o erro humano, de longe, a causa mais comum de descarga acidental, aliado aos riscos de incêndios pelo alto consumo concentrado de energia e erros de operação, temos o seguinte cenário no Brasil:
Como contornar e minimizar esse cenário? Nossa sugestão está a seguir.
As principais causas de incêndio ou disparos acidentais em data centers são:
Tab. II - Resumo dos incêndios classificados por causa provável
Segue um relato interessante de um caso real [4]:
“Recebemos uma ligação urgente de um parceiro de negócios. Um de seus clientes teve um incêndio em um rack, em seu data center, e procurava uma solução para evitar a recorrência.
Quando nosso engenheiro os visitou, ele teve duas surpresas. Primeiro, eles não tinham absolutamente nenhum sistema de monitoramento no data center. Segundo, não tinham ideia do que causou o incêndio. Ele inspecionou o rack e ele parecia sobrecarregado, considerando sua densidade de potência. Ninguém na equipe poderia fornecer detalhes dos dispositivos colocados no rack. Eles nem tinham uma simples planilha. Não havia sensores de temperatura no rack ou corredor. Apenas alguns termômetros de sala, que eram monitorados manualmente”.
Muitos data centers no Brasil devem ter situações semelhantes, mantendo (por exemplo) o cadastro de ativos de cada rack em planilhas, bem melhor que o caso acima, mas certamente longe do ideal, que é ter algo integrado e automático.
Segundo [2], interrupções recentes de data center de alto nível de tecnologia trouxeram à tona novamente que, embora muitos investimentos tenham sido feitos em redundância, em equipamentos, instalações e recuperação de desastres, ainda existe grande dependência de operações manuais. Pesquisas indicaram que o erro humano é classificado como o segundo fator causal mais alto em interrupções no data center. Isso, por sua vez, foi atribuído à falha na adesão aos procedimentos operacionais padrão, que geralmente são bem definidos, mas esquecidos – ou pior, não informados à equipe operacional.
O autor sugere o que chama de políticas ou procedimentos DCIM para automatizar, controlar e gerenciar todas as operações em um data center, visando minimizar erros humanos que possam levar a riscos de incêndio ou disparos acidentais, ineficiência, indisponibilidade, falha de segurança e obsolescência não programada, entre outras.
Doze políticas são apresentadas em três grupos:
Para prevenir disparos acidentais, as políticas de escalar responsabilidades e de cronograma de manutenção preventiva estão mais alinhadas.
Tab. III - Tempos de retardo [1]
Como nosso foco aqui é prevenção de incêndio, vamos nos ater às políticas que mais se relacionam a esse escopo: alarmes; provisionamento/MAC (move-add-change); e carga em rack.
Essas três políticas, juntamente com o poder de monitoramento de ferramentas DCIM, contribuirão fortemente para minimizar erros humanos que possam levar a riscos de incêndio.
Ajuda a decidir quais dispositivos e parâmetros precisam ser monitorados e com qual frequência, definindo seus níveis de limite no sistema. Considere a temperatura operacional esperada e a faixa de umidade como exemplo. Idealmente, devemos incluir as faixas de temperatura e umidade operacionais no nível do dispositivo, do rack, no nível da linha; para cada corredor quente e frio e no nível da sala; para conforto geral da equipe operacional. Esse é um fator de decisão de alta prioridade, de acordo com a política de alarme do DCIM, para evitar fumaça, incêndio ou danos aos dispositivos.
As primeiras adoções do DCIM vieram de gerentes de data center que exigiam um único sistema de monitoramento para sua infraestrutura física e de TI. O monitoramento constante e automático do data center permite prever uma falha imediata e tomar medidas para evitar uma catástrofe.
Se soubermos que uma falha do UPS pode causar incêndio, é possível isolá-lo ou desligar o equipamento de TI conectado a ele, se recebermos sinais de perigo com antecedência através do monitoramento em tempo real.
A detecção rápida leva ter menos tempo de inatividade. Garantir o tempo de atividade do servidor é a função mais importante do data center. Quando as plataformas de monitoramento são conectadas aos sistemas de energia e refrigeração, podem ser evitados efeitos potencialmente negativos no data center. Por exemplo, quando a temperatura da sala do servidor é monitorada efetivamente usando soluções de supervisão de última geração, os gerentes podem garantir que os racks não excedam a temperatura máxima regulada pelas normas ou indicada pelos fabricantes.
Os gerentes podem usar essas ferramentas para detectar rapidamente flutuações de temperatura e, assim, minimizar focos de superaquecimento e impedir incêndio, ou outros problemas relacionados, no data center.
Demandas por novos serviços acontecem regularmente nos data centers, o que acarreta a necessidade de provisionamento de mais energia, espaço, refrigeração e portas de rede, tudo para atender novos clientes, demandas, aplicativos e ativos de TI. As operações de MAC (mover ativos, adicionar ativos, alterar ativos) exigem políticas bem definidas e devem ser realizadas com base nos procedimentos operacionais padrão, para que não se tenha provisionamento de recursos em excesso, levando o sistema a uma sobrecarga ou descontrole, e por consequência downtimes e até catástrofes como incêndios.
Ferramentas DCIM: auxiliam e automatizam as operações de MAC, ou seja, orquestram as etapas referentes à movimentação dos ativos dentro do data center, desde a sua aquisição, instalação, manutenção até o descarte consciente ao fim da vida útil. Com procedimentos, etapas bem definidas e responsabilidades associadas, torna-se possível garantir que todos os envolvidos saibam, concordem e apoiem as alterações propostas baseadas na política organizacional do data center.
Além de automatizar o processo, a solução torna possível manter a rastreabilidade, registro e histórico das operações realizadas. Gestores desses ambientes podem ter uma visão do que está ocorrendo no presente e projetar as movimentações futuras com base nas experiências passadas.
O escopo deve manter e monitorar carga de energia, temperatura, peso, espaço em U e alocação de propriedade. As violações de limites ou procedimentos precisam gerar avisos ou alertas aos operadores do ambiente, tudo feito de forma automatizada com apoio de ferramentas.
Durante a solicitação de aprovação do fluxo de trabalho (ordem de serviço) referente à instalação de um novo servidor na sala, o DCIM deve sugerir o melhor lugar de hospedagem, disponibilizando somente racks com capacidade energética capaz de suportar a carga desse novo ativo. Por exemplo: os racks com capacidade de energia de 8 kW, se já estiver hospedando uma carga de ativos de 7,5 kW, deverá rejeitar a opção para colocar um servidor de 900 W, ou seja, esse rack não deve aparecer como opção de hospedagem e, caso apareça, avisos de sobrecarga devem ser emitidos. Supondo que o operador ainda sim adicione servidor, fazendo com que a carga do rack ultrapasse os 8 kW, imediatamente um alerta crítico será enviado pela ferramenta a todos os envolvidos, conforme a política de responsabilidades.
Tab. IV - Uso de sistemas de detecção e combate a incêndios em data centers no Brasil
São definidas nas configurações de alarme. Se as temperaturas excederem os limites, os alertas serão enviados de forma automatizada aos envolvidos. Ferramentas DCIM permitem a coleta em tempo real de grandezas, como temperatura e umidade, e a granularidade do que será coletado pode ser definida durante o projeto de automação. Dispositivos físicos (sensores) localizados em racks e corredores, abaixo ou acima do piso elevado, podem ser utilizados na coleta, além dos próprios ativos (servidores) quando monitorados, disponibilizando tais informações. Monitoramento em tempo real, alertas personalizados, dados e histórico e mapas térmicos devem fazer parte da política de carga em rack.
Segundo relato [13] de empresa especializada em avaliação de riscos, no Brasil, após incêndio no data center da BrDigital em Porto Alegre, RS:
“Sempre pode ocorrer um curto-circuito decorrente de uma falha em algum componente, mas o mais comum é uma sobrecarga elétrica, numa régua por exemplo, muito comuns dentro dos racks, causando o princípio de incêndio por aquecimento. Situações desse tipo são facilmente identificadas mediante termografias nos quadros e conexões elétricas, o que também, infelizmente, não encontramos com frequência nas nossas avaliações de risco”.
Incêndios em data centers não são comuns, mas acontecem, como ficou bem demonstrado neste artigo e, ainda, temos o problema de disparos acidentais que podem levar a downtime, danificar ativos e prejudicar clientes, resultando em perdas para todos.
Sistema de proteção contra incêndio são como seguros de vida, melhor ter, mas o ideal é não usar.
Para não usar tanto o seguro de vida, quanto o sistema de proteção, temos de usar o máximo de prevenção, o que nos remete a DCIM. A ferramenta proporciona uma visão holística do data center, sua saúde e indicadores, permitindo integrar dois mundos em uma única ferramenta, o mundo da engenharia (facilities) e a área de TI.
O DCIM auxilia na gestão operacional dos data centers, com monitoramentos de alarmes, ativos, geradores, climatizadores, temperatura, umidade, fumaça, etc., seja de maneira a agir preventivamente, ou automaticamente em caso de variações bruscas que ultrapassem níveis preestabelecidos. A ferramenta ajuda na gestão estratégica do ambiente, permitindo simulações de crescimento, recomendações de hospedagem, padronizações de ativos entre outras atividades inerentes ao mundo de data centers. Referências:
REFERÊNCIAS
Cookie | Duração | Descrição |
---|---|---|
cookielawinfo-checkbox-analytics | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". |
cookielawinfo-checkbox-functional | 11 months | The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". |
cookielawinfo-checkbox-others | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other. |
cookielawinfo-checkbox-performance | 11 months | This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". |
viewed_cookie_policy | 11 months | The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. |