Tolerância a Falhas:medidas
Taisy Silva Weber2005
Taisy Weber 2
Medidas
taxa de defeitoscurva da banheiratempos médios (mean times)
MTTF, MTBF, MTTRexemplos de cálculo de tempos médios
confiabilidadedisponibilidadecobertura Barry Johnson,
cap. 1, livro-texto Pradhan96
Taisy Weber 3
Comportamento ideal x real
ideal
real
t0 ttempo de vida
sem a ocorrência de qualquer defeito
reparo
t0 ttempo de vida
defeito
Taisy Weber 4
O que medir?
t0 treparoreparo
funcionamentofuncionamento funcionamento
tempo entre 2 defeitostempo até o primeiro defeito
com que freqüência ocorrem defeitos?qual o tempo entre um defeito e outro?qual o tempo até o primeiro defeito?qual o tempo gasto para reparar cada defeito?quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo?quais as chances do sistema estar funcionando em um determinado instante?
Taisy Weber 5
Taxa de defeitos
número esperado de defeitos em umdado período de tempo (failure rate)
com que freqüência ocorrem defeitos?
taxa de defeitosgeralmente assumido valor constantena verdade não é constanteboa aproximação: curva da banheira
unidade:defeitos por unidade de tempo
função:z(t) - hazard function, hazard rate ou taxa de defeitos
Taisy Weber 6
Curva da banheirafases de mortalidade infantil e envelhecimento muito pequenas comparadas ao período de vida útil
fase de envelhecimento
mortali-dadeinfantil
período de vida útil
taxa de defeitos(defeitos por unidade de tempo)
tempo
taxa de defeitosconstante
válido para hardware
Taisy Weber 7
Mortalidade infantil
alta taxa de defeitos que diminui rapidamente no tempo
componentes fracos e mal fabricados
burn-in: remoção de componentes fracosoperação acelerada de componentes antes de colocá-los no produto finalsó entram em operação componentes que sobreviveram à mortalidade infantil
mortalidade infantil é uma fase de curto período de duração
Taisy Weber 8
Envelhecimento
taxa de defeitos aumenta rapidamente com o tempo
devido ao desgaste físico do componenteconhecendo o início da fase de envelhecimento é possível substituir o componente
sistema volta a operar na fase de vida útil
envelhecimento é também uma fase de curto período de duração ideal é evitá-la
Taisy Weber 9
Tempo de vida útil
λ − taxa de defeitos constanteunidade: defeitos por horaλ corresponde ao tempo de vida útilessa fase apresenta um serviço mais previsível em relação a falhas
relação exponencial entre confiabilidade e tempo
usa λ − taxa de defeitos constanteválido para hardware
será visto mais adianteR(t) = e -λt
Taisy Weber 10
Curva da banheira em software
software comporta-se diferente do hardwaremelhor usar erros que falhas
erros são constantemente removidostaxa de defeitos continua caindo com o tempoconfiabilidade aumenta com o tempo
envelhecimento de software ?obsolescência dos programasalterações nas plataformas
exceto se forem efetuadas alterações, adaptações, mudança de plataforma (sisop e hardware)
Taisy Weber 11
Tempos médios
t0 treparoreparo
funcionamentofuncionamento funcionamento
tempo entre 2 defeitostempo até o primeiro defeito
com que freqüência ocorrem defeitos?qual o tempo entre um defeito e outro?qual o tempo até o primeiro defeito?qual o tempo gasto para reparar cada defeito?quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo?quais as chances do sistema estar funcionando em um determinado instante?
taxa de defeitos
Taisy Weber 12
Medidasmean time to failure
mean time between failures
mean time to repair
MTTFtempo esperado até a primeira ocorrência de defeito
MTTRtempo médio para reparo do sistema
MTBFtempo médio entre defeitos do sistema
Taisy Weber 13
MTTF - mean time to failure
tempo esperado de operação do sistema antes da ocorrência do primeiro defeito
exemplo:considera-se N sistemas idênticos colocados em operação a partir do tempo t=0mede-se o tempo de operação ti de cada um atéapresentar defeitoMTTF é o tempo médio de operação
NtMTTF i
N
i∑
=
=1
quanto maior a quantidade de amostras N, mais próximo do valor real será o MTTFestimado
Taisy Weber 14
MTTFtempo até defeito tempo até defeito tempo até defeito
t0 tfuncionamentofuncionamento funcionamento
para um único sistema o procedimento é semelhante:ti para a ser ∆ti , o intervalo de tempo em operação entre os defeitos, e N o número de defeitos
NtMTTF i
N
i∑
=
=1
ou MTTF = 1/λconsiderando R(t) = e -λt
Taisy Weber 15
MTTF: Exemplograndemente simplificado
t0 = 0 t1 = 6h t2 = 32h t3 = 48h
1h0,5h
tempo até 3º defeito (∆t3) = 15 htempo até 1º defeito (∆t1) = 6 h
tempo até 2º defeito (∆t2) = 25,5 h
MTTF = (∆t1+ ∆t2+ ∆t3) / nº defeitos MTTF = 46,5 / 3 = 15,5 htaxa de defeitos (λ) = 1/MTTF = 0,064 def/h
Taisy Weber 16
MTTR - mean time to repair
tempo médio de reparo do sistemadifícil de estimar
geralmente usa-se injeção de falhasinjeta-se uma falha de cada vez e mede-se o tempo
nova constante µtaxa de reparosµ = número de reparos por hora
em sistemas de alta disponibilidade, éimportante diminuir o tempo de reparo para aumentar a disponibilidade do sistema
MTTR = 1 µ
Taisy Weber 17
MTTR
Ri tempo de reparo da falha i
n número de falhas
t0 t
reparoreparo
MTTR = ∑ Ri/n ou MTTR = 1/µ sendo µ = taxa de reparon
i=1
quanto maior o número de amostras, melhor
Taisy Weber 18
MTTR: Exemplograndemente simplificado
t0 = 0 t1 = 6h t2 = 32h t3 = 48h
1h0,5h
tempo de reparo do 1º defeito (R1) = 0,5 htempo de reparo do 2º defeito (R2) = 1 h
MTTR = (R1+ R2) / nº reparos MTTR = 1,5 / 2
MTTR = 0,75 h
Taisy Weber 19
Mean Time Between Failure
MTBF = MTTF + MTTRdiferença numérica pequena em relação a MTTF
os tempos de operação são geralmente muito maiores que os tempos de reparona prática valores numéricos muito aproximados (tanto faz usar um como outro)
considera-se:reparo coloca sistema em condições ideais de operação se o MTBF for maior que o tempo
até obsolescência?
Taisy Weber 20
MTBF
t0 tfuncionamentofuncionamento funcionamento
tempo entre 2 defeitos
MTBF = ∑ ∆di/n ou MTBF = MTTF + MTTRn
i=1
Taisy Weber 21
MTBF: Exemplograndemente simplificado
t0 = 0 t1 = 6h t2 = 32h t3 = 48h
1h0,5h
tempo entre o início e o 1º defeito (∆d1) = 6 htempo entre 1º e 2º defeitos (∆d2) = 26 htempo entre 2º e 3º defeitos (∆d3) = 16h
MTBF = (∆d1+∆d2+∆d3)/nº defeitosMTBF = 48 / 3MTBF = 16 h
Taisy Weber 22
Demais medidas
tt0 reparoreparo
com que freqüência ocorrem defeitos?qual o tempo entre um defeito e outro?qual o tempo até o primeiro defeito?qual o tempo gasto para reparar cada defeito?quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo?quais as chances do sistema estar funcionando em um determinado instante?
funcionamentofuncionamento funcionamento
tempo entre 2 defeitostempo até o primeiro defeito
taxa de defeitosMTBF
MTTFMTTR
Taisy Weber 23
Confiabilidade e taxa de defeitos
N componentest0 tN componentes idênticos, operacionais em t0
Nf ( t ) número de componentes com defeito em t
No ( t ) núm. de componentes operacionais em t
R( t ) = No ( t ) / N = No ( t ) / (No ( t ) + Nf ( t ) )
confiabilidade: a probabilidade que um componente tenha sobrevivido no intervalo
Q(t) é a não confiabilidade
Q( t ) = Nf ( t ) / N = Nf ( t ) / (No ( t ) + Nf ( t ))
R( t ) = 1,0 - Q( t ) = 1 - Nf ( t ) / N
Taisy Weber 24
Confiabilidade e taxa de defeitosR( t ) = 1,0 - Q( t ) = 1 - Nf ( t ) / N
fazendo a diferencial da confiabilidade em relação ao tempodNf ( t ) / dt é a taxa instantâneaem que componentes estão falhando.Dividindo esta taxa por No( t )
dR( t )/dt = (- 1/N) dNf ( t ) / dtdNf ( t ) dt = (- N) dR( t ) / dt
z(t) = dNf ( t )/dt . 1/No( t ) = (- N/ No( t )) . dR( t )/dt R( t ) = No ( t ) / N
z(t) - hazard function ou taxa de defeitosz(t) = - 1/R(t) . dR( t )/dt dR( t )/dt = - R(t) . z(t)
R(t) = e - z(t)dtsolução geral dessa equação é
R(t) = e -λtconsiderando z(t) constante então:
Taisy Weber 25
Confiabilidadeprobabilidade de que um sistema funcione corretamente durante um intervalo de tempo [t0,t]
para um taxa de defeitos constante λ a confiabilidade R(t) varia exponencialmente em função do tempo
sistema na fase de vida útil: taxa de defeitos constante λ
R(t) = e- λt
é a mais usada relação entre confiabilidade e tempoválida principalmente para componentes eletrônicosdiscutível se vale para software:
conforme o software vai sendo usado, bugs vão sendo descobertos e a confiabilidade do software aumenta
exponential failure law
Taisy Weber 26
Confiabilidade:distribuição de Weibull
se taxa de defeitos varia com o tempoz(t) distribuição de Weibull
importante para modelagem de software onde a confiabilidade pode inclusive aumentar com o tempo
z(t) = αλ(λt)α-1 para α>0 e λ>0
R(t) = e –(λt)α
para α=1 z(t) = constante = λpara α>1 z(t) = aumenta com o tempopara α<1 z(t) = diminui com o tempo
α e λ são constantes que controlam a variação de z(t) no tempo
Taisy Weber 27
Confiabilidade
taxa de defeitos constantepara: α=1 λ=0,1
0
0,2
0,4
0,6
0,8
1
1 3 5 7 9 11 13 15 17 19
tempo
Taxa de defeitos Confiabilidade
confiabilidade diminui com o tempo
Taisy Weber 28
Confiabilidadetaxa de defeitos diminui com o tempopara: α=0,6 λ=0,1
0
0,2
0,4
0,6
0,8
1
1 3 5 7 9 11 13 15 17 19
tempo
Taxa de defeitos Confiabilidade
confiabilidade diminui com o tempomas não tão acentuadamente
Taisy Weber 29
Confiabilidadetaxa de defeitos aumenta linearmente com o tempopara: α=2 λ=0,1
00,20,40,60,8
11,2
1 3 5 7 9 11 13 15 17 19
tempo
Taxa de defeitos Confiabilidade
confiabilidade diminui com o tempo acentuadamente
Taisy Weber 30
Disponibilidade
probabilidade do sistema estar operacional no instante t (disponível para o trabalho útil)
alternância entre funcionamento e reparoA(t) = R(t) quando reparo tende a zero
lembrar que MTBF = MTTF + MTTRintuitivamente
A(t) = top / (top+ treparo)A(t):availability
toptempo de operação normal
treparo tempo de reparo
Taisy Weber 31
Disponibilidade
MTBF = MTTF + MTTRA(t) = top / (top+ treparo)
genericamenteA(t) = MTTF / (MTTF + MTTR)
nessa relação, o significado de alta disponibilidade fica mais claro
diminuindo o tempo médio de reparo, aumenta a disponibilidade
Taisy Weber 32
fault coverage Cobertura
cobertura de falhashabilidade do sistema de realizar detecção, confinamento, localização, recuperação ...habilidade do sistema de tolerar falhas
geralmente se refere a habilidade de realizar recuperação de falhas
significado matemático:probabilidade condicional que dada uma falha o sistema se recupere
extremamente difícil de calcular
significado intuitivo
Taisy Weber 33
Cobertura
geralmente assumido valor constantedeterminação:
listar falhas possíveis e falhas que o sistema pode tolerar e calcular o percentual
usada no modelo de Markovmuito usada também em experimentos de injeção de falhas
falhas simuladas são injetadas no sistema e se observa a reação do mecanismo de TF
relação entre falhas injetadas e falhas percebidas pelo mecanismo de TF
Taisy Weber 34
Problemas com medidas
defeitos são eventos aleatóriospodem demorar muito para ocorrer, não ocorrer ou ocorrer em um momento não apropriado
custo de avaliação experimental é altonecessária uma grande quantidade de amostrasnecessário tempo grande de avaliação
é importante avaliar durante o projeto do sistemainjeção de falhas
Taisy Weber 35
Bibliografia para medidas
capítulo de livroJohnson, Barry. An introduction to the design na analysis of the fault-tolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New Jersey, 1996
Top Related