Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In...

Post on 10-Nov-2018

217 views 0 download

Transcript of Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In...

Biologia In Silico - Centro de Informática - UFPE

Ivan G. Costa Filhoigcf@cin.ufpe.br

Centro de InformáticaUniversidade Federal de Pernambuco

Pré-processamento e Normalização de Microarrays

Biologia In Silico - Centro de Informática - UFPE

Tópicos

• Microarrays e Ruídos• Aquisição dos dados de microarray

– análise da imagem– medição da expressão

• Pré-processamento e normalização– normalização dos dados

• inter e intra arrays

– filtros

Biologia In Silico - Centro de Informática - UFPE

Aquisição e Processamento de Dados

• Extração dos valores de expressão– identificação do spot– calcular intensidade

do sinal– normalizar valores

entre arrays– detecção de ruídos

Cond A Cond B Cond C

Gene 1 -1,1 0,1 1,5Gene 2 3,1 3,4 2,1

Gene 3 -2,2 -1,9 -3

... ... ...

BC

BC

A

Biologia In Silico - Centro de Informática - UFPE

Fontes de Variabilidade (1)

• Sistemáticos– quantidade total de RNA– transcriptase reversa– etiquetagem (label)– processo de escaneamento da imagem

• Efeitos similares em muitos dados– Técnicas de normalização

Biologia In Silico - Centro de Informática - UFPE

Fontes de Variabilidade (2)

• Estocásticos– defeito em sondas– deficiência do processo de detecção de

spots – cross-hibridização ou hibridização não

específica

• Efeitos específico de cada sonda– requerer modelos ruído

Biologia In Silico - Centro de Informática - UFPE

Fontes de Variabilidade (3)

Biologia In Silico - Centro de Informática - UFPE

Conceitos Basicos

Víes Ausencia de Víes

Ruido P

ouco Ruido

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma

• Processamento– Posicionamento dos grids

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma

• Processamento– Posicionamento dos grids

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma

• Processamento– Posicionamento dos grids– Identificação dos spots– Valor do background

Biologia In Silico - Centro de Informática - UFPE

Identificação Spots

• Identificar bordas

• Custoso, boa detecção do sinal

• Centralizar círculos

• Simples, baixa qualidade no sinal

Biologia In Silico - Centro de Informática - UFPE

Valor do Spot

Biologia In Silico - Centro de Informática - UFPE

Valor do Spot Saturação • Calibragem do scanner pode levar

muitos pixels a ter valores máximos– 16bits – 65,535

• Mediana resolve com poucos pontos saturados

• Usar NA no caso de vários valores

Biologia In Silico - Centro de Informática - UFPE

verde (cy5)

vermelho(cy3)

cDNA Leitura - Exemplo

• Imagem é dividida em 2 canais (verde e vermelho)

• Mediana da intensidade de cada circulo

• Expressão final é dada por

– cy3mediana/cy5mediana

20050

Biologia In Silico - Centro de Informática - UFPE

Detecção de Background

• Problemas:– falha na lavagem do

array, luminosidade, hibridização não específica

• Uso de intensidade local como sinal de background

Biologia In Silico - Centro de Informática - UFPE

verde (cy5)

vermelho(cy3)

cDNA Leitura - Exemplo

• Imagem é dividida em 2 canais (verde e vermelho)

• Inclusão de background na medida

• Expressão final é dada por– (cy3sinal-cy3background)/

(cy5sinal -cy5background)

20050

Biologia In Silico - Centro de Informática - UFPE

Leitura Affymetrix Exemplo

• Grid quadrado é usado para marcar sondas

• Expressão absoluta do gene

PMPM

MM

PMPMPM

PM1 = 300

PM1 = 0

PM2 = 2000

PM2 = 100

Biologia In Silico - Centro de Informática - UFPE

Leitura Affymetrix Exemplo

• Expressão absoluta do gene

• Formula original pode gerar valores negativos

PMPM

MM

PMPMPM

PM1 = 300

PM1 = 0

PM2 = 2000

PM2 = 100

Avg.diff=∑j∈A

w j PM j−MM j

∣A∣∑j∈A

w j

w j=1 if PM j−MM j00 if PM j−MM j0

Biologia In Silico - Centro de Informática - UFPE

Qualidade de Leitura • u

• Fontes de ruído– Defeito de fabricação, distribuição, erro no

processo de identificação do spot, bolha de ar, poeira, cabelo, buracos negros

• Qualidade do spot:– Luminosidade: razão do sinal/background – Uniformidade: variação da intensidade do

pixel– Morfologia: área, perímetro, forma circular– Tamanho do spot: numero de pixels

Biologia In Silico - Centro de Informática - UFPE

Qualidade de Leitura • u

• Ações:– Definir valores como NA (missing values)

•i.e. (cy3sinal-cy3background) < c– normalização locais para reduzir problemas

como poeira– usar indicadores de qualidade em estágios

posteriores da análise.

Biologia In Silico - Centro de Informática - UFPE

Normalização

Biologia In Silico - Centro de Informática - UFPE

Preliminares

Biologia In Silico - Centro de Informática - UFPE

Preliminares

Biologia In Silico - Centro de Informática - UFPE

Normalização

Biologia In Silico - Centro de Informática - UFPE

Normalização

microarrays

expre

ssão

Biologia In Silico - Centro de Informática - UFPE

Normalização

• Problemas– Intensidade dos canais, calibragem do

scanner, ...

• Princípios básicos– a maioria dos genes medidos mantem

mesma expressão– a quantidade total de RNA

apresentado é igual

Biologia In Silico - Centro de Informática - UFPE

Normalização

• Localização– Corrigir viés

espacial• Escala

– igualar variabilidade

• Os microarrays devem ter mesma escala e localização

{

Biologia In Silico - Centro de Informática - UFPE

Normalização Escalonamento

• Rescalonamento

Mediana é usada por ser mais robusto

• Todos arrays tem a mesma localização

enorm=enorm−medianaarray

Biologia In Silico - Centro de Informática - UFPE

Normalização Escalonamento (2)• Como medir o fator de escalonamento?

– todos os genes– genes house-keeping – controles spike-in

• Correção do Background– global - Usar 5% percentile– Local - ???

Biologia In Silico - Centro de Informática - UFPE

Controle de Qualidade

• Swirl data

log(red)/log(green)

Biologia In Silico - Centro de Informática - UFPE

Controle de Qualidade

Biologia In Silico - Centro de Informática - UFPE

Escalonamento Local

Aplicar escalonamento para cada sub-grid

Biologia In Silico - Centro de Informática - UFPE

Escalonamento Local

Biologia In Silico - Centro de Informática - UFPE

EscalonamentoProblemas Scatter Plot MA Plot

Normalização global → não leva efeitos de intensidade em consideração

Biologia In Silico - Centro de Informática - UFPE

Normalização Loess

• Existe um viés dependente da intensidade

Viés = f(x)• emed= f(x) + ereal

• Encontra f e calcular emed-f

• Calcular f com regressão local

Biologia In Silico - Centro de Informática - UFPE

Normalização LoessExemplo

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil• Todos os histogramas devem ser

identicos

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Biologia In Silico - Centro de Informática - UFPE

NormalizacaoEstabilizacao de Variancia• Usa transformacao arcsin ao invez

do log• Usa metodos de maxima

verossimilhanca para calcular valores de escalonamento e normalizacao

• Ussume um erro aditivo e multiplicativo

Biologia In Silico - Centro de Informática - UFPE

NormalizacaoEstabilizacao de Variancia

Biologia In Silico - Centro de Informática - UFPE

NormalizacaoEstabilizacao de Variancia

Biologia In Silico - Centro de Informática - UFPE

Normalizacoes

• A principio todas as normalizacoes retornam bom resultados– Escalonamento local– Loess– Quantil– Estabilizacao de variancia

Biologia In Silico - Centro de Informática - UFPE

Filtros

Biologia In Silico - Centro de Informática - UFPE

Filtros

• Problema no desing da sonda

Biologia In Silico - Centro de Informática - UFPE

Filtros

• Alguns genes nao hidridizam com suas sondas

• Problemas de confeccao da sonda• Solucoes

– Usar sondas multiplas– Filtrar genes com baixa expressao

• Ex. Em affymetrix genes com emed > 200

Biologia In Silico - Centro de Informática - UFPE

Conclusoes

• Pre-processamento – Obtenco dos dados– Requer varios niveis de checagem de

qualidade• Sonda, array, gene

– Exercicio importante na analise de dados!

Biologia In Silico - Centro de Informática - UFPE

Software

• Bioconductor– Implementa maioria dos metodos:

vsn, limma, affy, …

• Affymetrix, Agilent– tem software proprio implementando

metodos.

Biologia In Silico - Centro de Informática - UFPE

Agradecimentos

Slides foram retirados de apresentacoes de Christine Steinhof e Tim Beissbarth