Pode um teste do plano de contingência provocar exatamente o que ele deveria evitar? Apesar de versões diferentes quanto às responsabilidades, não há dúvida que o acidente da usina nuclear de Chernobyl em 1986 foi provocado durante um teste do plano de contingência. Através desse triste exemplo, concluiremos com analogias e reflexões para nosso dia a dia na gestão de riscos.
Produção de calor (reator), controle (hastes) e resfriamento (condensadores)
Antecipamos num curto texto o funcionamento de uma usina nuclear cuja fonte de fatos citamos também no final desse texto (*). A fissão nuclear é a quebra do núcleo de um átomo cujo processo libera energia na forma de calor, numa reação em cadeia sucessiva e progressiva. Para redução dessa reação em cadeia, hastes de controle móveis (com carbono e boro, nesse exemplo de Chernobyl) são intercalados com o material radioativo (que sofre essa fissão). Esse calor gerado é capturado para formar o vapor que aciona as turbinas que por sua vez alimentam os geradores de energia elétrica. Um sistema de resfriamento completa todo o ciclo.
Sistema de resfriamento: bombeamento de água
Conforme o mesmo artigo citado, o sistema de resfriamento é baseado numa sequência de condensadores de troca sucessiva de temperatura de água quente ou vapor do calor gerado dentro do reator por água resfriada. E bombas devem manter a circulação desses fluxos de água.
O teste planejado
O teste citado consistia em manter o funcionamento dessas bombas mesmo num cenário de interrupção de sua habitual fonte de energia elétrica (1) por meio da substituição de fornecimento dessa energia a partir de geradores a diesel (2). Mas como o ligamento desses geradores a diesel não é imediato, as turbinas para geração de sua energia são acionadas pelo vapor gerado pelo reator e logo depois desconectados (3). A rotação inercial das turbinas (afinal, logo depois são desconectadas do vapor do reator) é um período com queda do volume de água bombeada. Já havia um desligamento de rotina para manutenção no dia 25 de abril de 1986. A ideia era aproveitar esse desligamento e realizar o teste com potência menor (700MW) que o habitual de 3,2GW, para reduzir riscos e ser mais seguro (!!). O teste deveria avaliar se durante o intervalo entre o desligamento do suprimento principal de energia e o pleno funcionamento dos geradores, a rotação inercial das turbinas seria suficiente para manter o sistema de resfriamento.
O teste executado: inconformidade com as normas
O ‘caminho feliz’ do teste consistia nas etapas descritas no diagrama em azul (4). Mas ao iniciar o teste com atraso, a redução da potência foi feita muito rápida (5), caindo a apenas 30MW. Foi decidido aumentar para 200MW (6) de forma igualmente rápida (7) e ainda retirando uma quantidade de hastes além do recomendado (8). Das 211 hastes de controle, 204 foram removidas, restando apenas 7 (guia técnico recomendava ao menos 15 dentro do núcleo do reator), lembrando que cada haste inserida no núcleo do reator funciona como um freio da fissão nuclear (Quanto maior a quantidade e mais profundamente inseridas, menor a reação e potência de geração de calor).
O teste executado: alta fração de vazio
Ao iniciar o teste, durante o intervalo da redução do volume de água bombeada, houve a formação de bolhas de vapor dentro do sistema de resfriamento (9). Esse projeto tinha uma já conhecida alta fração de vazio nos circuitos de água, isto é, alta formação de bolhas de vapor. A água ajuda a reduzir a velocidade de reação, mas o vapor pela óbvia menor densidade que a água, contribuirá para não gerar esse efeito redutor.
O teste executado: vulnerabilidade nas hastes de controle
Outra característica do projeto são as próprias hastes de controle, uma combinação (de baixo para cima) de grafite, uma parte oca do tubo preenchido com água e finalmente o carbono-boro (com propriedades efetivas de redução da velocidade da reação nuclear). O grafite na parte inferior acelera momentaneamente a reação durante o processo de inserção da haste de controle no núcleo, até que a parte superior com carbono-boro chegue à sua posição de completa inserção da haste de controle. O aumento na temperatura pode confundir quem não conhece tal comportamento, pois ao invés de reduzir, no início da colocação dessas hastes de controle a temperatura teria efeito contrário por um breve período de tempo.
Apesar de uma versão oficial atribuindo falha operacional e outra versão dos operadores atribuindo falha de projeto, há uma provável combinação das duas, cujos conceitos podemos associar ao nosso dia a dia, guardadas as devidas proporções quanto ao impacto catastrófico de uma usina nuclear:
Considerar riscos em testes
4: O teste foi conduzido por uma chefia com menor experiência no modelo de reator da usina. O ‘caminho feliz’ é o projeto planejado dentro da normalidade. Nele alocamos recursos e estimamos tempo de sua execução em condições ideais acrescidos de uma incerteza na forma dos conceitos de risco: a probabilidade de ocorrência e impacto no caso dessa materialização, tanto sofrendo ameaças como se beneficiando de oportunidades. Testes podem sofrer menor planejamento, tempo insuficiente ou alocação de recursos humanos menos experientes, com efeitos catastróficos no exemplo dado. Quando um teste é feito com condições ou equipamento ‘de produção’, os cuidados devem ser os mesmos de uma operação normal (voo experimental de um avião, teste de contingência em linhas de produção, etc).
Falha na execução: documentação/divulgação inadequada ou inconformidade operacional
5, 6, 7 e 8: Procedimentos executados inadequadamente. Segundo constam, normas de segurança não foram seguidas no episódio de Chernobyl, independentemente dos demais itens controversos entre a versão oficial e a versão dos operadores da usina.
A organização deve, dentro de sua alçada, evitar processos sem documentação, desatualizados, extensos demais, mal redigidos e sem acabamento visual algum. Deve divulga-los e facilitar seus acessos aos colaboradores adequados. Cabe à organização investir, estimular e sobretudo priorizar, afinal, é a corporação que define se banca ou não banca o custo de tempo de dedicação a essas tarefas, inclusive no seu aculturamento.
Caso todas medidas anteriores tenham sido adotadas e mesmo assim houver falha em segui-los, o monitoramento tempestivo por meio de indicadores ou auditoria periódica devem capturar essas eventuais inconformidades na execução operacional: para antecipar e evitar desastres ou para evidenciar falha operacional após os desastres.
Transparência, divulgação e melhoria contínua
9, 10 e 11: Desconhecimento de vulnerabilidades do projeto. Mesmo havendo vulnerabilidades em seus projetos e processos, eles devem ser reconhecidos e divulgados. Planejar investimentos em sua melhoria contínua e divulgar recomendações de precauções adicionais até que essa melhoria seja implementada. Isso visa evitar erros operacionais exatamente pelo desconhecimento dessas vulnerabilidades.
Riscos integrados e circulares retroalimentados
10 e 11: O calor fora de controle e a deformação das hastes afetaram-se de forma cíclica e recíproca. Com menos hastes de controle que o recomendado, em clara inconformidade com as normas de segurança, adicionado ao intervalo de tempo necessário para sua reintrodução, a colocação das hastes não foi feita a tempo com o calor já fora de controle. É um exemplo de riscos potencializados num efeito circular: o calor a mais de 2.000°C deformou as hastes que travaram na inserção, não sendo introduzidas por completo (lembrando que o carbono e boro ficavam na parte superior das hastes), impossibilitando reduzir a reação nuclear e respectivo calor, que era a finalidade da introdução dessas hastes. A continuada reação em cadeia só fez aumentar o calor até a explosão pela pressão do vapor.
Indicadores e monitoramento O engenheiro chefe afirmou também que medidores não acusavam anormalidade na temperatura, mas ainda um assunto controverso. Não se sabe se o acionamento do desligamento total foi antes ou depois da explosão. Sendo antes, significa que os operadores foram alertados da temperatura. Sendo depois, significaria que os operadores não teriam nenhuma indicação do calor fora de controle, desligando apenas já com a explosão consumada. Independentemente disso, nem é preciso dizer a importância de indicadores representarem na maior clareza, fidedignidade e brevidade possível a situação daquilo que é sua função representar.
Homologação de sistemas Novas versões de sistemas costumam ser testadas em ambientes segregados da produção. No entanto, muitas vezes as evidências para o usuário identificar se ele está injetando informações hipotéticas do teste realmente na base de homologação e não na de produção são muito sutis. Outro cenário pouco praticado é reproduzir a recuperação do backup, validar seus procedimentos e a integridade dessa restauração, comparando-a com a base de produção. A fim de aproveitamento como treinamento, muitas vezes esses testes são delegados a novos colaboradores. Recomenda-se apenas que sejam orientados para reproduzirem cenários suficientes e adequados para avaliação, ao invés de serem deixados à própria sorte. O histórico de falhas conhecido por usuários mais maduros na ferramenta torna assertiva a lista de inconformidades a serem testadas e quais resultados esperados para atestar a versão como apta para colocação em produção. O próprio processo de homologação de sistema deve ser normatizado com procedimentos de coleta de evidências seguindo uma lista de funcionalidades e cenários a serem testados, bem como seus respectivos resultados esperados.
Aculturamento em riscos estimulado após a materialização de tragédias
Enfim, a priorização no aculturamento em gestão de riscos muitas vezes ocorre apenas quando Chernobyl, Fukushima, P34, Mariana ou Brumadinho inundam as manchetes e fica perceptível o custo de indenizações, multas, perda de receita, estrago em reputação e imagem superando múltiplas vezes o custo do que não foi feito ou melhorado. Mas avaliar isso depois do impacto materializado é fácil. Difícil é convencer antes do estrago previsto, pois probabilidade avaliada como baixo geralmente é sinônimo de improvável. Ou porque decide-se correr o risco em função de custos, mesmo sendo considerado alto.
(*) Fonte da sequência de fatos: https://pt.wikipedia.org/wiki/Acidente_nuclear_de_Chernobil, também citada em nosso artigo anterior. Está alinhado com outros materiais mais resumidos disponíveis na rede, mas que adotamos por fornecer alguns detalhes técnicos adicionais.
Yoshio Hada
Todas publicações em http://b3bee.com.br/site/publicacoes/