IV Jornada Técnica de Electrotecnia Sistemas Tolerantes a ... · •Conclusão . Instituto...

32
Instituto Superior de Engenharia da Universidade do Algarve ISE Instituto Superior de Engenharia 09-06-2012 Tolerância a Falhas em Circuitos Integrados Nanométricos Jorge Semião INSTITUTO SUPERIOR DE ENGENHARIA Universidade do Algarve Faro, 23 de Maio de 2012 IV Jornada Técnica de Electrotecnia Sistemas Tolerantes a Falhas

Transcript of IV Jornada Técnica de Electrotecnia Sistemas Tolerantes a ... · •Conclusão . Instituto...

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior de

Engenharia

09-06-2012

Tolerância a Falhas em Circuitos

Integrados Nanométricos

Jorge Semião

INSTITUTO SUPERIOR DE ENGENHARIA

Universidade do Algarve

Faro, 23 de Maio de 2012

IV Jornada Técnica de Electrotecnia

Sistemas Tolerantes a Falhas

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 Tolerância a Falhas em Circuitos Integrados Nanométricos 2

Resumo

• Introdução

• Erros em Circuitos e Causas Possíveis

• Tolerância a Falhas em Sistemas Seguros

• Tolerância a Falhas em Nanotecnologias

• Investigação no ISE sobre Tolerância a Falhas

• Conclusão

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 3

Há sistemas que não podem falhar…

Introdução

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 4

Outros sistemas, aceitamos que errem…

Introdução

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 5

Introdução

• Tolerância a Falhas – É a capacidade para preservar o funcionamento correcto do

sistema, mesmo na presença de erros.

– O sistema evita erros, ou detecta erros e recupera deles sem ajuda externa

– Envolve: Redundância.

• Uma Falta – A violação de um pressuposto num sistema.

• Um Erro – É um estado dos dados internos que reflecte uma falta.

• Uma Falha – É um desvio das especificações observado do exterior.

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 6

Introdução

• Utilização de métodos tolerantes a falhas

– Tradicionalmente a tolerância a falhas era utilizada em sistemas onde a segurança é crítica

“Safety-critical applications”

– Sistemas electrónicos, electromecânicos, ou computorizados, cuja falha pode resultar em ferida ou morte de seres humanos.

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 7

Introdução

• A tradição já não é o que era…

– A miniaturização da electrónica traz consigo o aumento da probabilidade de ocorrência de falhas nos sistemas electrónicos

– A Tolerância a Falhas começa a ser utilizada em circuitos onde a segurança não é crítica

– A existência de circuitos tolerantes a falhas permite:

– Aceitar como bons circuitos que contêm algumas falhas

– Ultrapassar/evitar falhas durante a vida útil do circuito

São necessários novos métodos para aumentar a Tolerância a Falhas em circuitos de nanotecnologias

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 8

Erros em Circuitos

• Erros Permanentes – Podem ocorrer durante o processo de fabrico

Circuito descartado

– Podem ocorrer na vida útil do circuito

Circuito substituído

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

Erros em Circuitos

09-06-2012 9 Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 10

Erros em Circuitos

• Erros Intermitentes – Erros ocasionais, que se repetem em determinadas condições de

funcionamento

– Podem ser activados por mudanças de temperatura, tensão, etc.

– Normalmente precedem os erros permanentes

Chip temperature map

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 11

Erros em Circuitos

Muitos componentes falham cedo, devido a defeitos residuais latentes

Podem também terminar a sua vida devido ao envelhecimento.

No meio das duas regiões com alta mortalidade está o periodo de vida útil.

Tempo

Taxa

de

Falhas

Mortalidade

infantil

Fim de vida Vida Útil

(taxa de falhas baixa e

constante)

Mecânica

Electrónica

Normalmente devido a defeitos latentes

l

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 12

Erros em Circuitos

• Erros Transientes – Erros que ocorrem temporariamente

– São aleatórios e não produzem marcas permanentes nos circuitos

– Podem ser causados por factores externos (por exemplo a radiação), ou ruído de outras partes do circuito

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 13

Algumas Causas de Erros

• Diafonia (Crosstalk) – Interferência indesejada entre sinais

• Interferência Electromagnética (EMI) – Provoca variações em sinais, ou até na alimentação dos circuitos

• Variações do processo de fabricação – Afecta tamanhos dos transístores, condução, etc.

• Condições de operação e ambiente – Podem ser causados por factores externos (por exemplo a

radiação), ou ruído de outras partes do circuito

• Radiação – Soft errors, podendo ou não originar falhas (SEU, SET)

• Envelhecimento – Degradação lenta e cumulativa do funcionamento (BTI, HCI, etc.)

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 14 Tolerância a Falhas em Circuitos Integrados Nanométricos

• Radiação – Soft Errors

– Aumentam com redução da tecnologia

– Aumenta com altitude

Algumas Causas de Erros:

exemplo

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 15

Tolerância a Falhas em

Sistemas Seguros

• Tolerâncias a Falhas Estática

– A tolerância está construída na estrutura do sistema e é passiva

– Normalmente implica redundância:

– No hardware (ex.: Redundância Modular Tripla ou TMR)

– No tempo (ex.: repetir a execução para evitar erros)

– Na informação (ex.: repetir informação, ECC ou códigos de correcção de erros, como Hamming codes, bits de paridade, etc.)

– Híbrido (uma combinação das anteriores, ex.: Time Shared Triple Modular Redundancy - TSTMR)

– Utilizada em blocos críticos do sistema e não necessariamente no sistema todo

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 16

Tolerância a Falhas em

Sistemas Seguros

• Tolerâncias a Falhas Estática: exemplos

Tolerância a Falhas em Circuitos Integrados Nanométricos

Arquitectura

“Triple-Modular Redundancy” “Hamming codes with

4 data bits and 3 parity bits”

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 17

Tolerância a Falhas em

Sistemas Seguros

• Tolerâncias a Falhas Dinâmica

– É baseada em acções activa para prevenir a manifestação do erro

– Implica a utilização de um circuito de controlo especial e, eventualmente, de elementos de circuito especiais

– A operação pode ser dividida em 4 fases:

– Detecção da falta

– Localização da faulta

– Isolamento do erro

– Recuperação de falhas (pode envolver reconfiguração do circuito)

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 18

Tolerância a Falhas em

Sistemas Seguros

• Tolerâncias a Falhas Dinâmica: exemplos

Tolerância a Falhas em Circuitos Integrados Nanométricos

Arquitectura

“N-Redundancy with k-spare” Arquitectura

“Triple-duplex”

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 19

Tolerância a Falhas em

Sistemas Seguros

• Projecto de Sistemas Seguros

– Utilizar tecnologias estáveis, com processos controlados e bem experimentados (ex: tecnologias mais antigas)

– Utilizar grandes margens de segurança durante a operação (ex: frequências baixas)

– Utilizar redundância (ex: duplicar sinais, informação, hardware)

– Utilizar diversidade (ex: utilizar diferentes implementações do mesmo sistema, como acontece no software)

– O nível de tolerância é definido de acordo com: custo, área, erros admissíveis/corrigíveis

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 20

Tecnologias

Não-silício

Microelectrónica

em Silício

Nano electrónica em Silício

1 µm 100 nm 10 nm

1970 1980 2000 2010 2020

5 µm

Nanotecnologias

Tolerância a Falhas em Circuitos Integrados Nanométricos

• Aumenta a variabilidade – Variações grandes

entre circuitos iguais

– Maior vulnerabilidade

– Envelhecimento

– Sujeito a radiação

– etc. Inter and

Intra-die

Variations

10

100

1000

10000

1000 500 250 130 65 32

Technology Node (nm) # d

op

an

t ato

ms Source: Intel

Random dopant

fluctuation

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 21

• Em nanotecnologias, o aumento da variabilidade traz: – Incerteza no comportamento dos circuitos

– As variações a longo prazo, devido ao envelhecimento, são cumulativas e tornam-se relevantes

O Circuito tem maior probabilidade de Falhar!

Processo

de fabricação

Temperatura

Tensão de

alimentação

Envelhecimento

Nanotecnologias

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 22 Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias

• Projecto de Sistemas Mais Tolerantes a Falhas

– Utilizar redundância, mas com conta peso e medida

– Garantir que o aumento do Hardware não é proibitivo

– Utilizar Tolerância para aumentar as condições de funcionamento normal dos circuitos

– Utilizar métodos de tolerância a falhas para optimizar funcionamento (diminuir potência, aumentar desempenho)

– Os Métodos de Projecto de Circuitos Tolerantes a Falhas estão em franco desenvolvimento

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 23 Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 24

Q Q

Clock

Caminho crítico

Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias: exemplos

• Aumentar Tolerância a Variações de Processo, Tensão de Alimentação e Temperatura

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 25 Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias: exemplos

• Aumentar Tolerância a Variações de Processo, Tensão de Alimentação e Temperatura

– Inserir Buffers com atraso dinâmico para aumentar tolerância na captura dos sinais com maior atraso de propagação

Q Q

DDB

Clock

Caminho crítico Caminho não-crítico

Flip-flop crítico

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 26 Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias: exemplos

• Razor I

– Permite detectar sinais que cheguem atrasados, corrigindo capturas incorrectas

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 27 Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias: exemplos

• Razor II

– Permite detectar e corrigir erros provocados por variações PVT e Soft Errors

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 28 Tolerância a Falhas em Circuitos Integrados Nanométricos

Tolerância a Falhas em

Nanotecnologias: exemplos

• Predictive Fault Detection

– Prevê a ocorrência de erros de performance, alertando para a proximidade de ocorrência de falhas de desempenho

New library cell

FFj

OUT_CL

OUT_AS

ABC

PWD

Q

Aging

Sensor

Critical

Path

Programmable

Tg

Sensor ON/OFF

CLK

0 slack

CLKCLK/20

CLK

Observation interval

Illegal

OUT_CL

transition

OUT_CL CLK

th

SU

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

• Sensor de Performance

/ Sensor de Envelhecimento

– Flip-flop + DE + SC

– Inserção local

– Pouco incremento

de área e potência

– Não introduz atrasos

– Adapta-se a variações

de tensão, de

temperatura e ao

envelhecimento

09-06-2012 29

Investigação no ISE sobre

Tolerância a Falhas

Solução Inovadora

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 30

Conclusões

• A probabilidade de ocorrência de falhas em circuitos de nanotecnologias é cada vez maior

• Têm vindo a aumentar as práticas de projecto tolerante a falhas, mesmo para sistemas onde a segurança não é crítica (electrónica de consumo)

A Tolerância a Falhas será utilizada no futuro

em quase todas as aplicações electrónicas

• No futuro os sistemas tolerantes a falhas deverão poder recuperar de múltiplos erros simultâneos

Tolerância a Falhas em Circuitos Integrados Nanométricos

Instituto Superior de Engenharia da Universidade do Algarve

ISE Instituto Superior

de Engenharia

09-06-2012 31

Obrigado pela atenção!

Perguntas?

Tolerância a Falhas em Circuitos Integrados Nanométricos

… engenharia com futuro!

Instituto Superior de Engenharia