Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas...

13
88 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 Pesquisa Análise Serial da EXPRESSÃO GÊNICA 1. Introdução acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente a demanda por metodologias que permitam sua iden- tificação funcional ou confirmação de homologia, além da elucidação dos padrões de expressão. Entretanto, a análise convencional de genes indivi- duais por northern ou transcrição reversa e reação em cadeia da polimerase (reverse-transcritption- polymerase chain reaction ou RT- PCR), apesar de precisa e robusta, não apresenta a eficiência e a rapidez (throughput) necessárias para acom- panhar o ritmo de seqüenciamento e descoberta de novos genes. Aborda- gens mais eficientes de análise da expressão gênica em nível genômico (genome-wide expression profiling) constituem-se num desafio presente na identificação e no estudo simultâ- neo de um grande número de genes envolvidos em diversos processos bi- ológicos, desde o desenvolvimento dos organismos até suas interações com fatores ambientais (Donson et al., 2002). A determinação da seqüência genômica completa de plantas supe- riores, tais como Arabidopsis thaliana (The Arabidopsis Genome Initiative, 2000) e quase total do arroz (Oryza sativa) (Yu et al., 2002; Goff et al., 2002) representa apenas o nível inici- al de elucidação da complexidade ge- nética. Apesar do intenso esforço de investigação nos últimos 15 anos, me- nos de 10% do total dos 25.540 genes Tercilio Calsa Junior Laboratório de Melhoramento de Plantas Centro de Energia Nuclear na Agricultura Universidade de São Paulo [email protected] Vagner Augusto Benedito Laboratório de Melhoramento de Plantas Centro de Energia Nuclear na Agricultura Universidade de São Paulo [email protected] Antonio Vargas de Oliveira Figueira Laboratório de Melhoramento de Plantas Centro de Energia Nuclear na Agricultura Universidade de São Paulo [email protected] Ilustrações cedidas pelos autores o d o t é m o d e s a B o ã ç a z i d i r b i H R C P o t n e m a i c n e ü q e S o p i T o d a h c e F o t r e b A o t r e b A e d a d i l i b i s n e S a d a r e d o M a t l A a t l a / a d a r e d o M e d a d i c i f i c e p s E a x i a B a t l A a t l A o ã s s e r p x E a d a d i d e M a v i t a l e R a v i t a l e R a t u l o s b A s o d a D r a r g e t n I e d e d a d i l i b i s s o P m i S o ã N m i S s o s r u c e R e d e d a d i s s e c e N s i a t n e m u r t s n I a t l A a x i a B a i d é M o h l a b a r T e d e d a d i s n e t n I a x i a B a t l A a t l A o t s u C o t l A o x i a B o t l A s o l p m e x E y a r r a o r c i m - o g i l O y a r r a o r c i m - A N D c P L F A - A N D c y a l p s i d l a i t n e r e f f i D E G A S S S P M Quadro 1. Comparação entre as principais tecnologias aplicadas à análise de expressão em nível genômico, adaptado de Breyne & Zabeau (2001). Análise Serial da Expressão Gênica (SAGE) na Genômica de Plantas

Transcript of Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas...

Page 1: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

88 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

Pesquisa

Análise Serial daEXPRESSÃO GÊNICA

1. Introdução

acúmulo exponencial deseqüências gênicas egenomas depositados embancos de dados públicosmundiais têm aumentado

consideravelmente a demanda pormetodologias que permitam sua iden-tificação funcional ou confirmação dehomologia, além da elucidação dospadrões de expressão. Entretanto, aanálise convencional de genes indivi-duais por northern ou transcriçãoreversa e reação em cadeia dapolimerase (reverse-transcritption-

polymerase chain reaction ou RT-PCR), apesar de precisa e robusta, nãoapresenta a eficiência e a rapidez(throughput) necessárias para acom-panhar o ritmo de seqüenciamento edescoberta de novos genes. Aborda-

gens mais eficientes de análise daexpressão gênica em nível genômico(genome-wide expression profiling)constituem-se num desafio presentena identificação e no estudo simultâ-neo de um grande número de genesenvolvidos em diversos processos bi-ológicos, desde o desenvolvimentodos organismos até suas interaçõescom fatores ambientais (Donson et al.,2002).

A determinação da seqüênciagenômica completa de plantas supe-riores, tais como Arabidopsis thaliana

(The Arabidopsis Genome Initiative,2000) e quase total do arroz (Oryza

sativa) (Yu et al., 2002; Goff et al.,2002) representa apenas o nível inici-al de elucidação da complexidade ge-nética. Apesar do intenso esforço deinvestigação nos últimos 15 anos, me-nos de 10% do total dos 25.540 genes

Tercilio Calsa JuniorLaboratório de Melhoramento de Plantas

Centro de Energia Nuclear na Agricultura

Universidade de São Paulo

[email protected]

Vagner Augusto BeneditoLaboratório de Melhoramento de Plantas

Centro de Energia Nuclear na Agricultura

Universidade de São Paulo

[email protected]

Antonio Vargas de Oliveira FigueiraLaboratório de Melhoramento de Plantas

Centro de Energia Nuclear na Agricultura

Universidade de São Paulo

[email protected]

Ilustrações cedidas pelos autores

odotémodesaB oãçazidirbiH RCP otnemaicneüqeS

opiT odahceF otrebA otrebA

edadilibisneS adaredoM atlA atla/adaredoM

edadicificepsE axiaB atlA atlA

oãsserpxEadadideM avitaleR avitaleR atulosbA

sodaDrargetnIededadilibissoP miS oãN miS

sosruceRededadisseceNsiatnemurtsnI

atlA axiaB aidéM

ohlabarTededadisnetnI axiaB atlA atlA

otsuC otlA oxiaB otlA

solpmexEyarraorcim-ogilOyarraorcim-ANDc

PLFA-ANDcyalpsidlaitnereffiD

EGASSSPM

Quadro 1. Comparação entre as principais tecnologias aplicadas à análise de expressão em nível genômico,

adaptado de Breyne & Zabeau (2001).

Análise Serial da Expressão Gênica (SAGE) na Genômica de Plantas

Page 2: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 89

Figura 1. Esquema geral da metodologia SAGE

Captura dos mRNAs(magnetic beads)

mRNA

mRNA

cDNA

Síntese do cDNA(fita dupla)

Clivagem com Enzimade Ancoragem(NlaIII-CATG)

cDNA

NlaIII

GTAC

Divisão em 2 frações eLigação dos Adaptadores

Ligase

GTAC

GTAC

A

B

Clivagem com Enzima deTagging(BsmFI)

Ligação dosditags ~100pb

Tipo IIs

A

A

A

A

GTAC

GTAC

BsmFI

BsmFI

DTP-1 CATG

GTAC

Tag

Tag CATG

GTAC

DTP-2

B

B

DTP-1 NlaIII Tag Tag NlaIII DTP-2

ditag ~26pb

ditag ~100pb(16h)

Amplificação dos. . . . . . ~100pb

DTP-1

DTP-1 DTP-2

DTP-2

Tag TagNlaIII NlaIII

NlaIII NlaIII

NlaIII NlaIII

Isolamento dos . . . . . ~26pb

DTP-1 DTP-2

CATG

CATG

CATG

CATG

CATG

CATGCATG

CATGCATG CATG

GTAC

GTAC

GTAC

GTAC

GTAC

GTAC

GTAC

GTACGTACGTAC

Concatâmero

Formação dos concatâmeros(concatenação)

Clonagem eSequenciamento

Contagem eAnotação dos

Tags

Calsa Jr T. (2004)

Tag Tag

Tag Tag

Tag Tag Tag Tag

Tag Tag

Tag Tag

Tag Tag

Tag Tag

Tag Tag Tag Tag Tag Tag

Tag Tag Tag Tag Tag Tag Tag Tag

de Arabidopsis já foram estudadosexperimentalmente, e o desafio futu-ro consiste em determinar a função detodos os genes remanescentes e suasinterações (Breyne & Zabeau, 2001;Donson et al., 2002). Portanto, novasabordagens são necessárias para de-tectar e anotar todos os genes de umaespécie (Yamada et al., 2003).

A análise espacial e temporal datranscrição é um aspecto preliminarimportante na genômica funcional. Aanálise da expressão gênica em nívelgenômico consiste em diversas abor-dagens iniciais para a caracterizaçãoem larga escala das funções gênicas(Breyne & Zabeau, 2001). A compa-ração entre perfis transcricionaiscontrastantes (genótipos; condiçõesfisiológicas ou ontológicas diversas)pode auxiliar na identificação dos genesresponsáveis pelo processo biológicoem estudo (Meyers et al., 2004).

Os maiores avanços nastecnologias de quantificação da ex-pressão gênica global ocorreram naúltima década; contudo, todas as

metodologias disponíveis apresentamlimitações específicas, e as diversastecnologias [ESTs (Expressed Sequence

Tags), macro e microarranjos (macro emicroarrays), RT-PCR, SAGE (Serial

Analysis of Gene Expression), MPSS(Massive Parallel Signature

Sequencing)] produzem plataformasde dados distintas, nem sempreinterconversíveis ou comparáveis.

Análise global

da expressão gênica

A primeira abordagem para sedeterminar de modo global os níveisde expressão gênica foi baseada noseqüenciamento massivo de transcri-tos (ESTs) (Adams et al., 1995), parti-cularmente útil para a descoberta denovos genes, mas extremamente tra-balhoso e dispendioso. Foram entãodesenvolvidas abordagens alternati-vas para a detecção e quantificação daexpressão gênica no nível genômico.De acordo com o princípiometodológico util izado, estas

tecnologias podem ser diferenciadasem três grupos: i) hibridização desondas, ii) seqüenciamento de regi-ões específicas de fragmentos de cDNA(tags) e iii) análise de fragmentos decDNA amplificados via PCR (Quadro1). Esses métodos de análise global daexpressão gênica também podem serclassificados em outras duas categori-as: como sistemas fechados, que ana-lisam seqüências já conhecidas, ouabertos, que não exigem o conheci-mento prévio das seqüências dosgenes em estudo. Os métodos porhibridização são fechados, enquantoos de análise de fragmentos de cDNAamplificados e aqueles viaseqüenciamento são caracteristicamen-te métodos abertos.

Os métodos baseados emhibridização (microarrays de clonesde cDNA ou de oligonucleotídeos sin-tetizados in situ) têm sido amplamen-te utilizados para a análise transcricionalem diversos organismos, incluindo plan-tas (Richmond & Somerville, 2000;Schaffer et al., 2000; Lockhart et al.,

Page 3: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

90 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

1996; Schena et al., 1996). Atualmen-te, esta análise é aplicada a um grupolimitado de espécies, geralmente na-quelas que já possuem seqüênciasgenômicas completas ou grandes quan-tidades de cDNA ou ESTs disponíveis,sendo comercialmente acessíveis ape-nas para Arabidopsis e arroz, ou atra-vés de consórcios acadêmicos paracevada, algodão, repolho, milho, bata-ta, tomate e trigo (Meyers et al., 2004).A maior vantagem da tecnologia demicroarrays consiste na análise con-junta de um grande número de se-qüências (até 50.000 transcritos) e napossibilidade de integração de gran-des conjuntos de dados oriundos dediversos experimentos. Apesar da suagrande utilidade e potencialidade, atecnologia de microarrays é limitadapelo alto custo dos equipamentos edisponibilidade de arranjos (manufa-turados in loco ou adquiridos comerci-almente), e por que geralmente ape-nas a fração seqüenciada dos genes ou

ESTs de um organismo poder ser estu-dada. Outras limitações incluem pro-blemas associados com a hibridizaçãocruzada entre transcritos e seqüências-alvo (causada pela intensa duplicaçãode genes observada em plantas, mes-mo em genomas simples como o deArabidopsis), além da restrita sensibi-lidade para transcritos pouco freqüen-tes (Meyers et al., 2004). Os mRNAsabundantes são sobre-representadosem bibliotecas de cDNA, enquantoque transcritos mais raros, dificilmenteclonados, não são amostrados, apesarde muitas vezes serem importantesgenes regulatórios. Como exemplo,estima-se que apenas 60% dos genesde Arabidopsis estejam representa-dos na coleção de ESTs disponívelpara esta espécie (Richmond &Somerville, 2000; Wortman et al.,2003).

O desenvolvimento demicroarranjos com toda a seqüênciagenômica (whole genome array –

WGA) permitirá suplantar algumasdessas limitações, transformando a téc-nica em um sistema aberto de análise.Yamada et al. (2003) mostraram que ouso de WGA em Arabidopsis levou àdetecção de transcritos oriundos deregiões do genoma não anotadas pre-viamente e permitiu a identificação de5.817 novos transcritos.

Entre os métodos abertos de aná-lise global de transcritos, várias técni-cas baseadas na eletroforese em geltêm sido amplamente utilizadas para adetecção e caracterização de genesexpressos diferencialmente, em com-binação com a PCR, como o differential

display (DDRT, Liang & Pardee, 1992),já detalhado por Carneiro & Dusi(2002). Entretanto, devido à baixasensibilidade do DDRT associada àfreqüente detecção de falso-positivos,novos métodos foram propostos, taiscomo cDNA-AFLP (Bachem etal.,1996); TOGA (Total Gene

Expression Analysis; Sutcliffe et al.,

Quadro 2. Comparações metodológicas entre as técnicas SAGE, Long-SAGE e RL-SAGE adaptado de Gowda et al.(2004).

n.d.: não-descrito

acitsíretcaraC/apatE )5991,.lateucselucleV(EGASEGAS-gnoL

)2002,.lateahaS(EGAS-LR

ANRmededaditnauQ g5 g2 gn05

serodatpadasoasANDcsodoãçagiL h2 .d.nh61

/sANDcoãtsegiD alN III h1 h1h5,2

sgatidoãçagiL h61 h5,2h61

sRCPedoremúN 003 .d.n 02

)bp631/001~(sgatidsodoãçacifiruP gnilooP EGAP%21, .d.n EGAP%21

)bp04/62~(sgatidsodoãçacifiruPEGAP%21 .d.n

EGAP%61

serodatpadasodoãçomeR.d.n .d.n

anidivatpertse

soremâtacnocsodoãtsegiD.d.n .d.n

U01 alN .nim1,Cº73,III

soremâtacnocsodoãçacifiruPEGAP%8 d.n

EGAP%6

senolcsodgnineercSsainôlocedRCP .d.n

sainôlocedRCP

otresniedoidémohnamaTbp005-003 .d.n

bp0001

oremâtacnoc/sgaT )bp41(22 .d.n )bp12(05

µ µ

Page 4: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 91

2000) e GeneCalling (Shimkets et al.,1999), todos fundamentados numamistura de cDNAs fracionada em con-juntos menores e amplificados emregiões específicas (tags). Estes tags

são posteriormente separados em géisde alta resolução, gerando padrõesúnicos de expressão gênica e permi-tindo a identificação de transcritosexpressos em condições contrastantes(bandas diferenciais). Pode-se citarcomo limitações do cDNA-AFLP a ne-cessidade de várias reações de PCRpara a obtenção de um padrão geralde expressão e, ao contrário dos de-mais tipos de métodos, os dados pro-duzidos não poderem ser prontamen-te mesclados ou comparados. Deforma geral, as técnicas baseadas empopulações subtrativas de cDNA sãoúteis para a análise comparativa entredois tipos ou condições celulares, masproduzem apenas um quadro relativoe parcial, sem informações de caráterabsoluto, além de não permitirem adetecção de transcritos expressos emníveis reduzidos. Porém, a construçãode banco de dados de referência deperfis de cDNA-AFLP a partir de aná-lises sistemáticas de transcritos sobvárias condições e estádios pode per-mitir a identificação de genes diferen-cialmente expressos por comparação,

de forma muito eficiente (Donson etal., 2002).

A tecnologia SAGE (Velculescu etal, 1995), ou análise serial da expres-são gênica, baseia-se na contagem emalta escala de regiões específicas (tags)constituídas por 9-10 bases, obtidas deuma população de transcritos. Estemétodo tem sido amplamente utiliza-do para análises de expressão gênicaem células e tecidos humanos e demamíferos, fungos, protozoários e al-gumas espécies vegetais (Velculescuet al., 2000; Lash et al., 2000) [Figura1]. Outra tecnologia desenvolvidarecentemente, o MPSS (Massive

Parallel Signature Sequencing)potencializa a solução para algumaslimitações da SAGE (Brenner et al.,2000). Entretanto, o MPSS é proprie-tário, tecnicamente complexo e decusto extremamente elevado, não seapresentando ainda disponível para amaior parte da comunidade científica(Brenner et al., 2000; Christensen etal., 2003; Meyers et al., 2004).

As principais vantagens da SAGEsão a medida absoluta da expressãogênica em vez de uma análise relativa,a geração de conjuntos de dados digi-tais passíveis de novas inclusões e omenor custo de seqüenciamento portranscrito amostrado. Diversas altera-

ções e otimizações da SAGE têm sidopublicadas, visando aumentar sua efi-ciência ou permitir sua aplicação emdeterminadas amostragenstranscricionais. Uma limitação nãoapenas da SAGE, mas como de qual-quer metodologia baseada em tags

comparando-se aos microarranjos, é ofato de o custo das replicações bioló-gicas ou técnicas ser proibitivo, levan-do a uma estimativa da variância paraos métodos com tags incompleta oupouco caracterizada (Meyers et al.,2004).

2. A Tecnologia SAGE

A análise serial da expressãogênica (SAGE; Velculescu et al., 1995)baseia-se em dois princípios (Figura1). Primeiramente, uma seqüência denucleotídeos (tag) de 9-10 pares debases (pb) possui informação suficien-te para a identificação de um transcritoúnico, pois uma seqüência de apenas9 pb pode distinguir 262.144 (49)transcritos, considerando uma distri-buição aleatória de bases, sendo queas estimativas indicam que os genomasde organismos superiores codificammuito menos que esse limite. Emsegundo lugar, a ligação(concatenação) dos tags permite a

Figura 2. Exemplo de estratégia de processamento dos dados obtidos via SAGE

Cromatogramas Análise da Qualidade do Sequenciamento

Arquivos PHD

Phred qualidade

redundância

visualização

Estatística

SAGEmap

SAGEnhaft(erros?)

eSAGE

Tags (sequência, frequência)

Phrap/CAP3

Comparações

Bancos de ESTAnotação

Consed

Page 5: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

92 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

análise eficiente dos transcritos de ummodo serial, pelo seqüenciamento demúltiplos tags contidos em um únicoclone. A análise serial dos tags deseqüência exige mecanismos para aidentificação dos limites de cada tag

(Figura 1). A principal desvantagemda SAGE é a necessidade deseqüenciamento de um grande núme-ro de tags para o monitoramento degenes raramente expressos. Alémdisso, os tags obtidos são curtos e,portanto, nem sempre distintos. Aidentificação de genes com base emseqüências curtas depende da dispo-nibilidade de bancos de ESTs devida-mente caracterizados, ou da seqüên-cia genômica.

Na técnica de SAGE, o DNA com-plementar (cDNA) é sintetizado a par-tir do mRNA utilizando-se como inici-ador uma seqüência oligo-d(T)

biotinilada. O cDNA de dupla fitaobtido é digerido com umaendonuclease (enzima deancoramento, NlaIII), a qual deve clivara maioria dos transcritos pelo menosuma vez. As enzimas de restrição comsítios de reconhecimento de 4 pb sãoutilizadas nesta fase, pois teoricamen-te clivam em média a cada 44 = 256bases, enquanto a maioria dos transcri-tos são consideravelmente maioresque isso. As frações dos cDNAs maispróximas às extremidades 3´ do cDNAsão capturadas por ligação da biotinados iniciadores poli-T empregados nasíntese do cDNA com a estreptavidinaligada a partículas magnéticas. Esteprocesso gera um sítio único em cadatranscrito que corresponde ao sítio derestrição NlaIII localizado mais próxi-mo da cauda poli-A. O cDNA é entãodividido em duas partes, sendo que

cada metade é ligada nas extremida-des a um adaptador distinto, mas am-bos contendo uma seqüência de reco-nhecimento para uma enzima de res-trição do tipo IIS (enzima para isola-mento dos tags ou enzima de tagging,FokI ou BsmFI). Essas endonucleasesclivam a uma distância definida dosseus sítios de reconhecimento, a qualpode variar de acordo com as condi-ções da reação (13 ou 14 pb no casoda BsmFI a 65ºC). Os adaptadores sãodesenhados de tal modo que aclivagem dos produtos da ligação pelaenzima de tagging resulte na liberaçãodos adaptadores ligados a um pedaçocurto de cDNA (9 a 10 pb mais o sítiode reconhecimento de NlaIII, CATG).As extremidades dos tags são repara-das por tratamento com a enzimaKlenow (fragmento maior da DNApolimerase I), tornando-se abruptas

Figura 3. Cromatogramas após seqüenciamento de clones SAGE.

Page 6: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 93

(blunt ends). Então, as duas fraçõessão ligadas e servem como molde paraa amplificação via PCR com iniciado-res que se anelam nos adaptadores. Aamplificação produz cDNA suficientepara as manipulações posteriores. Osprodutos da amplificação (~100 pb)contêm dois tags (um ditag = ~26 pb)ligados em suas regiões 3´, e sãoflanqueados por sítios de reconheci-mento (4 pb) pela enzima deancoramento (NlaIII) localizados nosadaptadores (40 pb cada). A clivagemdos produtos de amplificação comesta endonuclease permite o isola-mento dos ditags, separando-os dosadaptadores por eletroforese em gelnão-desnaturante de poliacrilamida(PAGE). Uma vez coletados, os ditags

são submetidos à ligação em série paraformação dos concatâmeros. Estes,por sua vez, são fracionados por tama-nho via eletroforese em gel de agaroseou poliacrilamida, coletando-se geral-mente as frações de 300-500 pb e de500-1000 pb, as quais são separada-mente submetidas à clonagem emvetor plasmidial linearizado com aenzima de restrição SphI, cuja extre-midade gerada é coesiva com a daenzima NlaIII. Desse modo, aclonagem dos concatâmeros e a sele-ção dos clones resultam na coleção detags da SAGE. O seqüenciamentounidirecional desses clones e oprocessamento dos dados resultantesdeterminam de forma serial a seqüên-cia e a freqüência dos tags, represen-tando a população de transcritosamostrada.

O número apropriado de tags aser seqüenciado depende dos objeti-vos de cada experimento, sendo in-versamente proporcional aos níveisexpressos dos transcritos em estudo,

sendo também função da viabilidadedo seqüenciamento de clones. Porexemplo, para a obtenção de umconjunto de 50.000 tags faz-se neces-sário seqüenciar cerca de 2.500 clones(considerando uma média de 20 tags

por concatâmero).

3. Avanços técnicos

De modo geral, a metodologiaSAGE original (Velculescu et al., 1995)tem sido empregada com diversasalterações visando aumentar a eficiên-cia e a aplicabilidade da técnica. Oprotocolo foi adaptado para a aplica-ção em amostras biológicas menores,denominado microSAGE (Datson etal., 1999). O microSAGE é simplifica-do devido à incorporação dos procedi-mentos em um único tubo (cujas pa-redes possuem adsorção específica),desde o isolamento do RNA até aliberação dos tags, além de um núme-ro maior de ciclos de PCR. Com asmodificações realizadas, foi possívelanalisar a expressão gênica a partir deamostras 500-5000 vezes menores doque necessário pelo protocolo origi-nal.

No procedimento original, a rea-ção de ligação dos adaptadores aoscDNAs clivados por NlaIII apresentauma tendência para a formação dehomodímeros (adaptador-adaptador ecDNA-cDNA), em detrimento da liga-ção desejável “adaptador-cDNA”, vitalpara a fidelidade da SAGE em repre-sentar a população de transcritosamostrada. Para maximizar a eficiên-cia desta etapa, foi proposta a utiliza-ção de adaptadores contendo o sítiode ligação metilado juntamente comuma mistura de T4 DNA Ligase eNlaIII, resultando numa reação de liga-

ção direcionada (So et al., 2004). As-sim, os homodímeros indesejáveiseventualmente formados na reaçãoseriam clivados em seguida, ao passoque os heterodímeros desejáveis, umavez formados, não seriam digeridospela NlaIII, que é sensível à metilação.Essa ligação direcional permite a ob-tenção quase unicamente deheterodímeros adaptador-cDNA, favo-recendo significativamente a clonageme representatividade de todos os trans-critos na coleção de tags.

A separação eficiente dos ditags

e dos adaptadores após a amplificaçãoe digestão também é crítica. A utiliza-ção de iniciadores biotinilados na am-plificação permite a remoção dosadaptadores com partículas magnéti-cas recobertas por estreptavidina(Powell, 1998). Esta estratégia resul-tou em maior rendimento de ditags eclones com maior número de tags porclone (até 39 em comparação à médiade 21 obtida com o protocolo origi-nal). Para a maior eficiência da SAGE,o máximo de informação deve serobtido a partir de cada clone visando-se minimizar o seqüenciamento. Al-ternativamente, foi proposta a purifi-cação dos ditags de 26 pb viacromatografia líquida de altaperformance (HPLC) utilizando colu-nas de poliestireno/divinilbenzeno etampão de acetato de tetraetilamôniocom fase móvel de acetonitrila (Nielsenet al., 2003). Verificou-se que, com-parativamente à purificação via PAGE,estes ditags apresentavam mínimacontaminação por adaptadores, maiorfacilidade de ligação e permitiam aformação de concatâmeros mais lon-gos. Uma outra sugestão mais simplese acessível para purificação dos ditags

é a separação por PAGE (16%) utili-

Quadro 3. Principais softwares disponíveis para extração e análise dos tags SAGE.

amargorP tupnI ecafretnI acitsítatsE osU aicnêrefeR

003EGAS qes. lacol eulav-P etneuqerf )7991(.lategnahZ

0002EGAS qes. lacol eulav-P etneuqerf )EGAS-I(.cnI,neGortivnI

EGASe dhp./qes.egixe,selpmis,lacol

sseccAtfosorciMeulav-P etnecserc )0002(sinnI&seilugraM

EGASU qes. enil-no eulav-P etnecserc )0002(.latenepmaKnav

tfahnEGAS dhp./qes. enil-no oãçiubirtsidadetsujA laicini )4002(.latehtrabssieB

Page 7: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

94 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

zando tampão de carregamento con-vencional contendo xileno-cianol eazul de bromofenol, sem coloraçãocom brometo de etídio (Mathupala &Sloan, 2002). A região do gel compre-endida entre os corantes é excisada,pois contém a banda composta pelosditags (26 pb), evitando-se a áreaonde se encontra o xileno-cianol, poiseste corante apresenta migração igualà banda dos adaptadores (40 pb) nes-tas condições.

A manipulação dos ditags, tãologo sejam purificados, deve ser feitaa 4°C para minimizar a ocorrência dedegradação preferencial dos fragmen-tos com maior %AT por desnaturaçãoem temperatura ambiente e em tam-pões com baixa concentração salina(Margulies et al., 2001). Isso incluidesde a excisão e eluição do gel depoliacrilamida (Mathupala & Sloan,2002) até a precipitação (em etanol,acetato de amônio e glicogênio), seca-gem, ressuspensão e armazenamentodos ditags (Margulies et al., 2001).

Um outro problema observadono protocolo original de SAGE se refe-re ao número de ditags concatenadosna reação de ligação(concatamerização). São formadosconcatâmeros de tamanho variado,sendo que os menores podem agre-gar-se e migrar juntamente com osmaiores durante a eletroforese, sendoentão co-purificados e também sub-metidos à concatenação. Foi propostauma fase de aquecimento logo após aconcatamerização e anterior àeletroforese, visando impedir a forma-ção de agregados contaminantes. Estamodificação rendeu concatâmerosclonados contendo em média 67 tags

(Kenzelmann & Muhlemann, 1999).A reação de concatamerização

(ligação a 4°C) pode ser controladapela aliquotagem periódica e análiseem gel de 1% agarose até que osconcatâmeros atinjam um tamanhomédio de 800 pb (Mathupala & Sloan,2002). Outra modificação propostapara aumentar a eficiência da clonagemem cerca de três vezes foi o tratamen-to dos concatâmeros com a enzima T4DNA polimerase, que torna as extre-midades abruptas (Khoel et al., 2003),uma vez que as extremidades coesivasdos concatâmeros podem não estarintactas devido a alguma atividadeexonuclease residual.

Ao contrário de alteraçõesmetodológicas localizadas, modifica-ções significativas do protocolo pa-drão surgiram mais recentemente(Gowda et al., 2004), conseguindoreduzir tanto a quantidade inicial demRNA utilizado (favorecendo a diges-tão completa dos transcritos) quanto onúmero de reações de PCR, simulta-neamente ao aumento do número declones obtidos. A baixa eficiência declonagem e o tamanho reduzido deinsertos geralmente associados à SAGEderivam principalmente da provávelcircularização dos concatâmeros du-rante sua formação (Gowda et al.,2004). A eficiência da SAGE é aumen-tada significativamente pela inclusãode uma digestão rápida dosconcatâmeros com a endonucleaseNlaIII (10 U, 37ºC, 1 minuto) anterior-mente à clonagem, assim como demodificações em outras reações para aobtenção dos ditags, constituindo oprotocolo da técnica RL-SAGE (Robust

Long SAGE; Gowda et al., 2004) (verQuadro 2). Apenas com a linearizaçãoparcial dos concatâmeros foi possívelreduzir em mais de 90% o número dePCRs necessários, além de se gerar até

4,5 milhões de tags a partir de5-10 ng de mRNA (Gowda etal., 2004).

4. Análise dos dados debibliotecas SAGE

Uma vez construída eseqüenciada uma bibliotecaSAGE, os dados (seqüência, fre-qüência e anotação dos tags)são utilizados em análises quali-tativas e quantitativas, de modoa se produzir um perfil de ex-

pressão gênica passível de compara-ção e interpretação biológica. Desta-ca-se aqui o fato de os dados SAGEserem digitais, não havendo a necessi-dade de armazenar os clones SAGEapós o seqüenciamento, tal qual érequerido nas bibliotecas de cDNA,por exemplo. Algumas estratégias deprocessamento dos dados da SAGEtêm sido aplicadas de acordo com oorganismo estudado, a disponibilidadedos respectivos bancos de dadosgenômicos e transcricionais, e obvia-mente as ferramentas de bioinformáticacompatíveis. As aplicações embioinformática têm papel essencial paraa SAGE em três funções básicas: extra-ção e gerenciamento dos dados; aná-lise estatística (distribuição e compa-rações); e anotação dos tags (Figura2).

Inicialmente, os cromatogramasde saída do analisador automático deDNA são submetidos à análise de qua-lidade para se estimar a eficiência econfiabilidade do seqüenciamento, as-sim como eventual contaminação porseqüências do vetor de clonagem. Osinsertos de clones SAGE possuem pa-drão de seqüência característico, ondedois tags (ditag) são flanqueados pelosítio da enzima de ancoramento (ge-ralmente NlaIII - CATG) (Figura 3).Em seguida, é utilizado um programade extração dos tags a partir dos arqui-vos de seqüenciamento. Para isso, amaioria dos programas disponíveis acei-tam como entrada os arquivos textogerados no seqüenciamento (exten-são .seq), ao passo que outros, maisrecentes, também admitem alternati-vamente os arquivos resultantes daanálise dos cromatogramas pelos pro-gramas Phred-Phrap (Ewing & Green,1998; Ewing et al., 1998) (extensão

sodaDedesaB somsinagrO ossecA oãçircseD

EGASemyzneGmoc.emyzneg.www sneipasomoH odavirp

esiamronsodicetsosorecnac

tenEGASgro.tenegas.www

suMsneipasomoHsulucsum

secymorahcaSeasiverec

ocilbúpesiamronsodicet

sosorecnac

pamEGASegas/vog.hin.mln.ibcn.www soiráV ocilbúp seõçidnoc/sopitsoiráv

PAGCeineGEGASgro.pagc.www sneipasomoH ocilbúp

esiamronsodicetsosorecnac

Quadro 4. Principais bases de dados SAGE disponíveis

Page 8: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 95

.phd) que incluem para cada basedefinida um valor de qualidade (Phredscore). Esta diferenciação está direta-mente ligada à redução de erros deseqüenciamento. Além do tipo dearquivo de entrada, os principais pro-gramas de extração de dados SAGEdistingüem-se também em outrosparâmetros (Quadro 3). Adicional-mente, outros programas têm sidodesenvolvidos para: detectar a pre-sença de erros potenciais nos conjun-tos de tags e suas contagens; analisarcomparativamente bibliotecas; auxili-ar o planejamento de experimentos; efacilitar a anotação dos tags origináriosde espécies modelo. São exemplos oPOWER_SAGE (Man et al., 2000);ExProView (Larsson et al., 2000); e o

SAGEScreen (Akmaev & Wang, 2004).Na etapa de extração dos tags é

computado o número de vezes quecada tag é encontrado. Após a extra-ção, o software gera uma tabulação daseqüência e da freqüência de cada tag,representando teoricamente cadatranscrito amostrado e sua abundância.Considerando-se o exemplo de fluxo-grama de análise (Figura 2), observa-se que arquivos resultantes da análisede qualidade do seqüenciamento(.phd) são utilizados para a extraçãodos tags (definição de suas seqüênci-as; contagens ou freqüências; conteú-do de GC; e comparações) pelo pro-grama eSAGE (Margulies & Innis,2000). O eSAGE também detecta econtabiliza o número de ditags dupli-

cados presente nas seqüências dosconcatâmeros, e extrai apenas tags

sem bases ambíguas, isto é, apenastags com todas as bases definidas (A,T, C ou G). As comparações entrebibliotecas podem ser conduzidas noeSAGE, o qual informa a significânciaestatística para cada variação de fre-qüência encontrada, determinada pe-los respectivos valores P (Audic &Claverie, 1997).

Um padrão transcricional obtidopode ser submetido a uma análise deverificação de erros potenciais, de acor-do com modelos estatísticos de distri-buição, minimizando a presença po-tencial de artefatos gerados tanto porvieses experimentais (viés ou bias deamplificação; degradação seletiva; du-

orenêG olocotorP oãçacilpA,sacigólodotemseõçaretlA

oãçatonAarapetnoFsgaT

/socinú/siatot( )sehctamacitsítatsE saicnêrefeR

sispodibarA

lanigirO oirfoaatsopseR sgatid sTSE+sANDc,ETmebp62 7633/94021/08212 rolav P oãzare )3002(.lategnuJ

lanigirO meoirfoaatsopseRnelóp

sgatid ,ETmebp62 ctam onhpamEGAS

7781/1224/37212 oãzar )3002(eeL&eeL

lanigirOainegsnartàatsopseR

)oãçircsnartedrotaf(

008~ puelacs ,'3GTAC,sRCPhctam sTSE+sANDc,otelpmoc 4133>/42011/52972 d rolav P )3002(.lateyhtravarkahC

lanigirOoaralucidaratsopseR

TNTsTSE+sANDc %07~/62742/70346 oãzar )3002(.latenamkE

EDAS e ralucidaramotpircsnarT

)-(SKIISBp,ANRmsonem nulb ,tIobM oãçatona,megarocnaarap

rop sgat mocamonegodsiautriv.sRTU

23802/87025/380441 rolav P )4002(.latesemaziF

azyrO

lanigirO a zorra.svodagalazorrAorieuqesed

sremirp sTSE+SANDc,sodalinitoib 7631/1295/22101 rolav P )9991(.latearumustaM

lanigirOedoãçudnI

asefededsomsinacem

,amonegonoãçatona,3MEGpeIIIalNoitísodmegacehc

sTSE+sANDc/oãçatneiro%07-03/0075/00101 rolav P )a3002(.latearumustaM

lanigirOahlofedamotpircsnarT

etnemese

adsetnasgitnocedesilánA,'3GTAC,oãçartxe hctam

-ilopmocsTSE+sANDc,otelpmocA

%05~/31351/91505 - )3002(.latesgnibbiG

EGASrepuSmocsadatcefnisahloF

aesirgehtropangaM

ocE (I51P sgat ,3MEGp,)bp22amoneg+sTSE+sANDc

-/6457/91121 oãzar )b3002(.latearumustaM

aeZ,azyrO EGAS-LRedrailofamotpircsnarTedsalutnâlpedezorra

ohlim

02,ANRmsonemotium uelacs psodlaicrapoãtsegid,sRCP

mocsoremâtacnoc IIIalN sANDc,amoneg+TSE+

0000052~ f %04-51/-/ - )4002(.lateadwoG

suniP lanigirO amelixodoãçarutaMsremirp otnemiceuqa,sodalinitoib

otnemanoicarf,soremâtacnocsodsTSE+sANDc,esoragame

88191/14624/558051 b oãzar c )2002(naeD&zneroL

Quadro 5. Principais aplicações da metodologia SAGE em organismos vegetais

a Velculescu et al. (1995).b estimado por amostragem.c razão de variação numérica entre a contagem de cada tag entre bibliotecas.d em relação aos tags de contagem > 1.E Virlon et al. (1999)f estimado pelo número de clones isolados e não seqüenciados.

Page 9: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

96 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

plicação de ditags) quanto por errosno seqüenciamento. Para se quantificara taxa potencial de erro experimental,pode-se utilizar concomitantementeao eSAGE a análise dos mesmos dadosna versão on-line do programaSAGEnhaft (Beissbarth et al., 2004;http://tagcalling.mbgproject.org/extract-library.html). Este, por suavez, retorna a contagem de cada tag

corrigida por um modelo teórico dedistribuição, que considera as informa-ções de qualidade do seqüenciamentocontidas no base-calling feito peloprograma Phred e a probabilidade decada base ser um erro dependendodas bases vizinhas e dos tags comseqüência similar. O objetivo é com-pensar as probabilidades de erro ex-perimental detectadas pela alteraçãoda freqüência do tag “errado” na bibli-oteca. A diferença entre a contagemobservada do tag e a sua contagemcorrigida é denominada taxa de erropotencial (∆). Em geral, observa-seque, da mesma forma que nas biblio-tecas SAGE existe uma grande quanti-dade de tags que aparecem poucasvezes, poucos tags aparecem muitasvezes. A maioria dos tags que apre-sentam D aparecem poucas vezes nabiblioteca e poucos tags que possuem∆ aparecem muitas vezes. O modelode ajuste SAGEnhaft pondera estatisti-camente o fato de quanto mais fre-qüente um tag estiver numa bibliote-ca, menor é a chance de ele ser umerro experimental e, portanto, maior éa chance de ele representar verdadei-ramente um gene expresso. Tags decontagem menor que 5 possuem au-mento significativo na probabilidadede erro, mas mesmo assim, os tags

menos freqüentes não são geralmenteexcluídos da SAGE em plantas, mes-mo porque podem chegar a perfazeraté cerca de 70% do total de tags

(Lorenz & Dean, 2002).

6. Anotação dos tags

A análise dos dados gerados noseqüenciamento de bibliotecas SAGEexige recursos que incluam métodosde análise e bases de dados específi-cas. Os bancos de dados SAGE dispo-níveis, alguns públicos e outros priva-dos (Quadro 4), concentram-se aindapara espécies-modelo animais, princi-

palmente humanos, camundongo eCaenorhabditis elegans, mas alguns jáincluem dados de espécies vegetais(http://www.ncbi.nlm.nih.gov/p r o j e c t s / S A G E /index.cgi?cmd=printstats).

A anotação dos tags SAGE diferedaquela usualmente empregada paraseqüenciamento de ESTs em dois as-pectos principais. Em primeiro lugar,o menor tamanho do tag SAGE (~10-14 pb) exige que sua identificaçãofundamente-se na identidade com-pleta, isto é, para haver associaçãoentre elas é necessário que as 10 ou 14bases (9-10 pb do tag e 4 pb do sítioda enzima NlaIII) sejam iguais à se-qüência encontrada. Em segundo lu-gar, a confiabilidade da anotação émaior quando esta é conduzida com-parativamente a um banco de seqüên-cias expressas (cDNAs) ou mesmo àseqüência do genoma. Todavia, da-dos genômicos e ou transcricionais deorganismos-modelo filogeneticamen-te próximos à espécie de interessepodem ser eventualmente utilizadospara a obtenção de uma anotaçãopreliminar. Neste contexto existe abase pública dos Gene Indices, listasde coleções de seqüências de cDNAanotadas e sistematicamente deposi-tadas no TIGR (The Institute of Geno-

me Research; www.tigr.org). Umaalternativa útil nos casos de organis-mos modelo já bastante estudados viaSAGE é a sua identificação em biblio-tecas SAGE já construídas, depositadase anotadas contra os acessos do Uni-Gene/NCBI (www.ncbi.nlm.nih.gov/UniGene). Esta busca pode ser reali-zada no banco de dados públicos debibliotecas SAGE denominado SAGE-map (www.ncbi.nlm.nih.gov/sage),específico para depósito e análise dedados SAGE no NCBI, integrado àcoleção de dados de expressão gênicado GenBank que inclui também infor-mações oriundas de microarranjos(GEO, Gene Expression Omnibus;Edgar et al. , 2002;www.ncbi.nlm.nih.gov/geo). Entre-tanto, a maioria dos bancos de dadosSAGE disponíveis não são de organis-mos vegetais, sendo principalmentede tecidos humanos e de Mus muscu-

lus, assim como as ferramentas on-

line para gerenciamento, análise eanotação dos tags SAGE. São exem-

plos o CGAP/SAGE Genie (Boon et al.,2002), SAGEnet (www.sagenet.org) eo The Mouse SAGE Site (Divina &Forejt, 2004). Mesmo o SAGEmapnão dispõe de recursos on-line quepermitam, por exemplo, realizar aanotação de uma coleção de tags emalta escala, de maneira similar ao pro-grama MegaBLAST. É possível obteros dados depositados no SAGEmap ecompará-los aos dados locais para suaanotação, pois muitos tags deposita-dos no SAGEmap já se encontramassociados a um cluster do UniGene jáanotado, com uma função presumívelatribuída.

Outra complicação na anotaçãode tags SAGE é o fato de alguns delesestarem ausentes até mesmo dogenoma de alguns organismos, comojá foi verificado em Arabidopsis

thaliana (Fizames et al., 2004). Atérecentemente, estes tags eram atribu-ídos a viés experimental, erros noseqüenciamento e simplesmente des-cartados, apesar de chegarem a perfa-zer até 40% do total dos tags obtidos.As razões para este aparente parado-xo têm sido parcialmente elucidadaspela detecção e prováveis funções demRNAs antisenso (Meyers et al., 2004),mas o isolamento significativo de inú-meros tags SAGE que sequer podemser encontrados nem mesmo nogenoma do organismo que lhes deuorigem é no mínimo intrigante, e abreas portas para novas linhas de pesqui-sa envolvendo a provável existênciade mecanismos ainda desconhecidosde processamento e regulação pós-transcricionais.

Finalmente, a anotação dos tags

de uma biblioteca SAGE é de naturezapresumível e preliminar. É comumocorrerem tags desconhecidos ou semanotação definida, assim como um tag

corresponder igualmente a mais deuma anotação. De modo geral, aidentificação dos tags com maior rele-vância para o fenômeno estudado con-duz à validação dos resultados portécnicas complementares a SAGE, taiscomo a GLGI (Chen et al., 2002), RT-PCR quantitativo ou northern blot eabre caminhos para estudos gênicosfuncionais.

7. Análise estatísticaA metodologia SAGE é considera-

Page 10: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 97

da como um sistema aberto em rela-ção ao gerenciamento e análise dostags devido aos diversos sistemas eferramentas disponíveis para a extra-ção e inclusão de novos tags, análisescomparativas e estatísticas e anotação,ou seja, associação de cada tag a umgene previamente conhecido (Tuteja& Tuteja, 2004). As inferências esta-tísticas dos dados SAGE devem serutilizadas sobre dois aspectos: i) de-tectar e ajustar eventuais erros atribu-ídos às etapas potencialmente ten-denciosas da metodologia SAGE (am-plificação; formação de ditags; eseqüenciamento); e ii) definir a proba-bilidade de uma determinada variaçãoencontrada na freqüência de um tag

entre bibliotecas distintas ser significa-tiva (P < 0,05), ou seja, não ser deriva-da do acaso.

Modelos matemáticos têm sidopropostos para detectar e corrigir er-ros potenciais presentes nos tags debibliotecas SAGE, considerando a pro-babilidade cumulativa de um determi-nado tag conter pelo menos uma baseerrônea originada de erros experimen-tais, em função das seqüências e dadistribuição dos tags que compõemuma determinada biblioteca. Stollberget al. (2000) e Colinge & Feger (2001)destacaram as conseqüências dos er-ros experimentais, em especial os deseqüenciamento, na interpretação dosresultados SAGE e, apesar de descrevê-los como inerentes à técnica, propuse-ram a utilização de programas capazesde identificar os tags com elevadaprobabilidade de erro, eliminá-los doconjunto de dados e ajustar novamen-te a freqüência dos tags remanescen-tes, com base em modelos de distri-buição (Poisson, binomial) estatistica-mente apropriados. Cai et al. (2004),e mais detalhadamente Akmaev &Wang (2004), também descreveramabordagens similares para contornaros erros experimentais da SAGE.Beissbarth et al. (2004) publicaramrecentemente um novo modelo esta-tístico para correção dos erros poten-ciais em bibliotecas SAGE, a partir dosvalores de qualidade atribuídos a cadabase (base-calling) pelo software Phred(Ewing & Green, 1998; Ewing et al.,1998) e de acordo com um modelo deajuste para distribuição de Poisson.Essa estratégia está disponibilizada para

uso on-line(tagcalling.mbgproject.org).Diversas ferramentas de

bioinfomática incorporaram testes es-tatísticos aplicáveis aos dados de bibli-otecas SAGE, nos quais o desconheci-mento da variância (uma vez que aSAGE é geralmente uma amostragemsem repetições) é compensado porsimulações ou fundamentado no pa-drão de distribuição dos tags (Tuteja &Tuteja, 2004; Vêncio et al., 2003). Acomparação entre os cinco principaistestes estatísticos utilizados para aferira significância entre as variações nafreqüência de tags entre bibliotecasSAGE (teste de Madden; SAGE300;Teste exato de Fisher; Teste Z; Testede Audic & Claverie) revelou conclu-sivamente que os métodos apresen-tam resultados muito similares quandoaplicados a um mesmo conjunto dedados (Ruijter et al., 2002). Em geral,os programas que comparam estatisti-camente bibliotecas SAGE utilizam oteste P (Audic & Claverie, 1997), in-cluindo o programa distribuído gratui-tamente eSAGE (Margulies & Innis,2000) e o serviço disponível on-line

USAGE (van Kampen et al., 2000).A anotação dos tags SAGE tem

sido conduzida pela busca da identida-de com outras seqüências já anotadas,geralmente ESTs ou mesmo tags SAGEque já tenham mostrado correspon-dência com seqüências expressas defunção atribuída, como no caso doSAGEmap anotado via UniGene(NCBI). Entretanto, os tags SAGEpodem eventualmente não ser longoso bastante para se obter um grau decorrespondência único para uma ano-tação adequada (Lee et al., 2002), e aextensão dos tags em ESTs maiorespor meio experimental pode ser ne-cessária (GLGI; Chen et al., 2002; vander Berg et al., 1999) para resolver aanotação dos tags de maior interesse.O uso da seqüência genômica com-pleta de um organismo para a anota-ção de seus tags SAGE tem sido apli-cada em algumas espécies modelo.Pleasance et al. (2003) obtiveram maioreficiência na anotação de tags compa-rando-os com coleções de tags

conceituais extraídos de transcritosteóricos, ou seja, de seqüências gênicascomputacionalmente obtidas a partirda análise da seqüência genômica deDrosophila melanogaster e

Caenorhabditis elegans.Recentemente, outra abordagem

mais estringente foi utilizada para aanotação de tags oriundos de bibliote-cas SAGE. Objetivando-se caracterizaro transcriptoma e facilitar a anotaçãodo genoma de células-tronco embrio-nárias de camundongo (Wei et al.,2004), foi descrita uma novametodologia para o isolamento das 20primeiras e das 20 últimas bases decada transcrito da amostra, através de5’LongSAGE (5’LS) e 3’LongSAGE(3’LS). O mapeamento dos tags 5’LSe 3’LS no genoma possibilitou a loca-lização, para cada gene analisado, dosítio de início da transcrição e depoliadenilação, respectivamente. Ain-da, utilizando cada par corresponden-te de tags (5’e 3’), foi verificado quemais de 90% dos tags analisados real-mente correspondiam ao primeiro eao último exon do respectivo gene, etambém, em 81% das tentativas, foipossível amplificar via RT-PCR o trans-crito completo usando-se como inicia-dores os tags 5’e 3’ correspondentes.

9. Aplicações em plantas -Exemplos e validação

experimental

Embora amplamente utilizadapara a análise geral de transcritos emlevedura (Velculescu et al., 1997) e naexpressão diferencial de genes emcélulas humanas normais ecancerígenas (Zhang et al., 1997;Polyak et al., 1997), a técnica de SAGEestá sendo adotada em espécies ve-getais mais lentamente. A aplicaçãomais importante em plantas é a iden-tificação de genes diferencialmenteexpressos, constituindo-se num méto-do adequado para a caracterização datranscrição em tecidos específicos ouem condições fisiológicas diversas(Matsumura et al., 1999). Outra eigualmente importante aplicação daSAGE é a indicação dos genes diferen-cialmente expressos para o isolamen-to de novos promotores para o contro-le de transgenes.

A disponibilidade de bancos dedados derivados da análise de cDNAsem larga escala consiste num pré-requisito importante para viabilizar aaplicação da SAGE em plantas, umavez que a anotação dos tags baseia-se

Page 11: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

98 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

em bancos pré-existentes, principal-mente de ESTs obtidos da região 3´dos mRNAs. A conclusão do ProjetoSUCEST/FAPESP tornou extremamen-te atrativa a aplicação da SAGE paraestudos em cana-de-açúcar, com umtotal de 291.689 transcritosseqüenciados, dos quais 259.325(88,9%) são de regiões 5´ e 32.364(11,1%) são de regiões 3´ (Vettore etal., 2003). Outros projetos deseqüenciamento de cDNA em outrasespécies já concluídos ou em anda-mento podem favorecer a expansãoda aplicação da SAGE em vegetais.

A SAGE vem sendo utilizada emanálises transcricionais em larga escalaem plantas de maneira crescente. Otrabalho pioneiro de Matsumura et al.(1999) usou a SAGE na definição deum perfil transcricional de Oryza sativa

e na identificação da expressão gênicadiferencial entre plântulas cultivadasem solo irrigado e em sequeiro. Desdeentão, diversas inovaçõesmetodológicas foram descritas visan-do aumentar a eficiência de clonageme, de forma especial, na extração eanotação dos tags SAGE oriundos deplantas (Quadro 5).

As principais incorporações àmetodologia SAGE em aplicações deanálise do transcriptoma de espéciesvegetais foram: a) uso de primers

biotinilados para amplificação e remo-ção dos adaptadores (Matsumura etal., 1999; Lorenz & Dean, 2002); b)aquecimento dos concatâmeros a 65°Cantes do fracionamento poreletroforese (Lorenz & Dean, 2002);c) manuseio dos ditags de 26 pb emtampão TE no gelo, com maior con-centração salina (Jung et al., 2003; Lee& Lee, 2003); d) uso de endonucleasesalternativas para a ancoragem (MboI)e tagging (MmeI, EcoP15I) para au-mentar a eficiência de amostragem eo tamanho do tag (Matsumura et al.,2003b; Fizames et al., 2004); e e)redução da quantidade inicial de mRNA(Fizames et al., 2004; Gowda et al.,2004) e de PCRs na etapa de amplifi-cação dos ditags de 100 pb (Gowda etal., 2004).

Dentre as técnicas utilizadas paravalidar experimentalmente, em me-nor escala, as variações de expressãogênica detectadas via SAGE em plan-tas, têm-se empregado principalmen-

te northern blot (Jung et al., 2003;Matsumura et al., 2003a; Chakravarthyet al., 2003); real-time RT-PCR (Ekmanet al., 2003); RT-PCR e 3’RACE-PCR(Matsumura et al., 1999). De modosignificativo, mesmo empregando di-versas técnicas de validação aplicadasem diversas espécies, na grande mai-oria das vezes as variações detectadaspor comparação entre bibliotecas SAGEforam confirmadas proporcionalmen-te pelos outros métodos de análise deexpressão gênica.

10. Conclusão e perspectivas

A eficiência e robustez datecnologia SAGE, já amplamente evi-denciada em inúmeras aplicações deanálises transcricionais em humanos eoutros mamíferos e animais modelo,fungos e plantas tendem a favorecersua utilização. Da mesma forma, aimplementação de ferramentas debioinformática mais dinâmicas e espe-cíficas para o gerenciamento, análise eanotação de dados SAGE, aliada aosavanços metodológicos noseqüenciamento e ao desenvolvimen-to de novas técnicas para validaçãoexperimental, tornarão a SAGE cadavez mais versátil na obtenção de res-postas sobre os mais variados proces-sos biológicos cuja regulação passepela transcrição. De forma comple-mentar às outras técnicas para análisetranscricional em escala genômica, aSAGE tem grandes contribuições a darnas etapas iniciais do complexo pano-rama da genômica funcional.

11. Literatura citada

Adams MD, Kerlavage A, FleischmannRD, Fuldner RA, Bult CJ, Lee NH,Kirkness EF, Weinstock KG,Gocayne JD, White, O (1995).Initial assessment of human genediversity and expression patternsbased upon 83 million nucleotidesof cDNA sequence. Nature, 377:3-174.

Akmaev VR, Wang CJ (2004).Correction of sequence-basedartifacts in serial analysis of geneexpression. Bioinformatics 20:1254-63.

Audic S, Claverie JM (1997). Thesignificance of digital gene

expression profiles. Genome Res.7: 986-995.

Bachem CW, van der Hoeven RS, deBruijn SM, Vreugdenhil D, ZabeauM, Visser RG (1996). Visualizationof differential gene expressionusing a novel method of RNAfingerprinting based on AFLP:analysis of gene expression duringpotato tuber development. PlantJ. 9: 745-53.

Beissbarth T, Hyde L, Smyth GK, JobC, Boon WM, Tan SS, Scott HS,Speed TP (2004). Statisticalmodeling of sequencing errors inSAGE libraries. Bioinformatics20(1): I31-I39.

Boon K, Osorio EC, Greenhut SF,Schaefer CF, Shoemaker J, PolyakK, Morin PJ, Buetow KH, StrausbergRL, De Souza SJ, Riggins GJ (2002).An anatomy of normal andmalignant gene expression. ProcNatl Acad Sci U S A 99: 11287-92.

Brenner S, Johnson M, Bridgham J,Golda G, Lloyd DH, Johnson D,Luo S, McCurdy S, Foy M, Ewan M,Roth R, George D, Eletr S, AlbrechtG, Vermaas E, Williams SR, MoonK, Burcham T, Pallas M, DuBridgeRB, Kirchner J, Fearon K, Mao J,Corcoran K (2000). Geneexpression analysis by massivelyparallel signature sequencing(MPSS) on microbead arrays. NatBiotechnol. 18: 630-4. Erratum in:Nat Biotechnol (2000) 18: 1021.

Breyne P, Zabeau M (2001). Genome-wide expression analysis of plantcell cycle modulated genes. CurrOpin Plant Biol. 4: 136-42.

Cai L, Huang H, Blackshaw S, Liu JS,Cepko C, Wong WH (2004).Clustering analysis of SAGE datausing a Poisson approach. GenomeBiol. 5: R51.

Carneiro VTC, Dusi DMA (2002).Apomixia. Biotecnologia Ciência& Desenvolvimento, 25: 36-42.

Chakravarthy S, Tuori RP, D’AscenzoMD, Fobert PR, Despres C, MartinGB (2003). The tomatotranscription factor Pti4 regulatesdefense-related gene expressionvia GCC box and non-GCC box ciselements. Plant Cell. 15: 3033-50.

Chen J, Lee S, Zhou G, Wang SM(2002). High-throughput GLGIprocedure for converting a large

Page 12: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004 99

number of serial analysis of geneexpression tag sequences into 3'complementary DNAs. GenesChromosomes Cancer 33: 252-61.

Christensen TM, Vejlupkova Z, SharmaYK, Arthur KM, Spatafora JW,Albright CA, Meeley RB, DuvickJP, Quatrano RS, Fowler JE (2003).Conserved subgroups anddevelopmental regulation in themonocot rop gene family. PlantPhysiol., 133: 1791-1808.

Colinge J, Feger G (2001). Detectingthe impact of sequencing errorson SAGE data. Bioinformatics. 17:840-2.

Datson NA, van der Perk-de Jong J,van den Berg MP, de Kloet ER,Vreugdenhil E (1999). MicroSAGE:a modified procedure for serialanalysis of gene expression inlimited amounts of tissue. NucleicAcids Res. 27: 1300-7.

Divina P, Forejt J (2004). The MouseSAGE Site: database of publicmouse SAGE libraries. NucleicAcids Res. 32: D482–D483.

Donson J, Fang Y, Espiritu-Santo G,Xing W, Salazar A, Miyamoto S,Armendarez V, Volkmuth W(2002). Comprehensive geneexpression analysis by transcriptprofiling. Plant Mol Biol. 48: 75-97.

Edgar R, Domrachev M, Lash AE (2002).Gene Expression Omnibus: NCBIgene expression and hybridizationarray data repository. Nucleic AcidsRes. 30: 207-210.

Ekman DR, Lorenz WW, Przybyla AE,Wolfe NL, Dean JF (2003). SAGEanalysis of transcriptome responsesin Arabidopsis roots exposed to2,4,6-trinitrotoluene. Plant Physiol.133: 1397-406.

Ewing B, Green P (1998). Base-callingof automated sequencer tracesusing phred. II. Error probabilities.Genome Res. 8: 186-94.

Ewing B, Hillier L, Wendl MC, Green P(1998). Base-calling of automatedsequencer traces using phred. I.Accuracy assessment. Genome

Res. 8: 175-85.Fizames C, Munos S, Cazettes C, Nacry

P, Boucherez J, Gaymard F,Piquemal D, Delorme V, CommesT, Doumas P, Cooke R, Marti J,Sentenac H, Gojon A (2004). TheArabidopsis root transcriptome by

serial analysis of gene expression.Gene identification using thegenome sequence. Plant Physiol.134: 67-80.

Gibbings JG, Cook BP, Dufault MR,Madden SL, Khuri S, Turnbull CJ,Dunwell JM (2003). Globaltranscript analysis of rice leaf andseed using SAGE technology. PlantBiotech. J. 1: 271-285.

Goff SA, Ricke D, Lan TH, Presting G,Wang R, Dunn M, Glazebrook J etal.. (2002). A draft sequence of therice genome (Oryza sativa L. ssp.japonica). Science. 296: 92-100.

Gowda M, Jantasuriyarat C, Dean RA,Wang GL (2004). Robust-LongSAGE (RL-SAGE): asubstantially improved LongSAGEmethod for gene discovery andtranscriptome analysis. PlantPhysiol. 134: 890-7.

Jung SH, Lee JY, Lee DH (2003). Useof SAGE technology to revealchanges in gene expression inArabidopsis leaves undergoing coldstress. Plant Mol Biol. 52: 553-67.

Kenzelmann M, Muhlemann K (1999).Substantially enhanced cloningefficiency of SAGE (Serial Analysisof Gene Expression) by adding aheating step to the originalprotocol. Nucleic Acids Res. 27:917-8.

Khoel A, Friauf E, Nothwang HG(2003). Efficient cloning of SAGEtags by blunt-end ligation ofpolished concatemers.BioTechniques 34: 692-694.

Larsson M, Stahl S, Uhlen M, WennborgA (2000). Expression profile viewer(ExProView): a software tool fortranscriptome analysis. Genomics.63: 341-53

Lash AE, Tolstoshev CM, Wagner L,Schuler GD, Strausberg RL, RigginsGJ, Altschul SF (2000). SAGEmap:a public gene expression resource.Genome Res. 10: 1051-60.

Lee JY, Lee DH (2003). Use of serialanalysis of gene expressiontechnology to reveal changes ingene expression in Arabidopsispollen undergoing cold stress.Plant Physiol. 132: 517-29.

Lee S, Clark T, Chen J, Zhou G, ScottLR, Rowley JD, Wang SM (2002).Correct identification of genesfrom serial analysis of gene

expression tag sequences.Genomics. 79: 598-602.

Liang P, Pardee AB (1992). Differentialdisplay of eukaryotic messengerRNA by means of the polymerasechain reaction. Science. 257: 967-71.

Lockhart DJ, Dong H, Byrne MC,Follettie MT, Gallo MV, Chee MS,Mittmann M, Wang C, KobayashiM, Horton H, Brown EL (1996).Expression monitoring byhybridization to high-densityoligonucleotide arrays. NatBiotechnol. 14: 1675-80.

Lorenz WW, Dean JF (2002). SAGEprofiling and demonstration ofdifferential gene expression alongthe axial developmental gradientof lignifying xylem in loblolly pine(Pinus taeda). Tree Physiol. 22:301-10.

Man MZ, Wang X, Wang Y (2000).POWER_SAGE: comparingstatistical tests for SAGEexperiments. Bioinformatics. 16:953-9.

Margulies EH, Innis JW (2000). eSAGE:managing and analysing datagenerated with serial analysis ofgene expression (SAGE).Bioinformatics. 16: 650-1.

Margulies EH, Kardia SLR, Innis JW(2001). Identification andprevention of a GC content bias inSAGE libraries. Nucleic Acids Res.29: e60.

Mathupala SP, Sloan AE (2002). “Ingel” purified ditags direct synthesisof highly efficient SAGE libraries.BMC Genomics 3: 20.

Matsumura H, Nirasawa S, Kiba A,Urasaki N, Saitoh H, Ito M, Kawai-Yamada M, Uchimiya H, TerauchoR (2003a). Overexpression of Baxinhibitor suppresses the fungalelicitor-induced cell death in rice(Oryza sativa L.) cells. Plant J. 33:425-434.

Matsumura H, Nirasawa S, Terauchi R(1999). Technical advance: trans-cript profiling in rice (Oryza sativaL.) seedlings using serial analysisof gene expression (SAGE). PlantJ. 20: 719-26.

Matsumura H, Reich S, Ito A, Saitoh H,Kamoun S, Winter P, Kahl G,Reuter M, Kruger DH, Terauchi R(2003b). Gene expression analysis

Page 13: Análise Serial da EXPRESSÃO GÊNICA · acúmulo exponencial de seqüências gênicas e genomas depositados em bancos de dados públicos mundiais têm aumentado consideravelmente

100 Revista Biotecnologia Ciência & Desenvolvimento - Edição nº 33 - julho/dezembro 2004

of plant host-pathogen interactionsby SuperSAGE. Proc Natl Acad SciU S A. 100: 15718-15723.

Meyers BC, Galbraith DW, Nelson T,Agrawa V (2004). Methods fortranscriptional profiling in plants.Be fruitful and replicate. PlantPhysiol. 135: 637-652.

Nielsen MD, Millichip M, Josefsen K(2003). High-performance liquidchromatography purification of 26-bp serial analysis of geneexpression ditags results in higheryields, longer concatemers, andsubstantial time savings. AnalyticalBiochemistry 313: 128-132.

Pleasance ED, Marra MA, Jones SJM(2003). Assessment of SAGE intranscript identification. GenomeRes. 13: 1203-15.

Polyak K, Xia Y, Zweier JL, KinzlerKW, Vogelstein B (1997). A modelfor p53-induced apoptosis. Nature.389: 300-5.

Powell J (1998). Enhanced concatemercloning-a modification to the SAGE(Serial Analysis of GeneExpression) technique. NucleicAcids Res. 26: 3445-6.

Richmond T, Somerville S (2000).Chasing the dream: plant ESTmicroarrays. Curr Opin Plant Biol.3: 108-16.

Ruijter JM, Van Kampen AH, Baas F(2002). Statistical evaluation ofSAGE libraries: consequences forexperimental design. PhysiolGenomics. 11: 37-44.

Saha S, Sparks AB, Rago C, Akmaev V,Wang CJ, Vogelstein B, KinzlerKW, Velculescu VE (2002). Usingthe transcriptome to annotate thegenome. Nat Biotechnol. 20: 508-12.

Schaffer R, Landgraf J, Perez-AmadorM, Wisman E (2000). Monitoringgenome-wide expression in plants.Curr Opin Biotechnol. 11: 162-7.

Schena M, Shalon D, Heller R, Chai A,Brown PO, Davis RW (1996).Parallel human genome analysis:microarray-based expressionmonitoring of 1000 genes. ProcNatl Acad Sci U S A. 93: 10614-9.

Shimkets RA, Lowe DG, Tai JT, Sehl P,Jin H, Yang R, Predki PF, RothbergBE, Murtha MT, Roth ME, ShenoySG, Windemuth A, Simpson JW,Simons JF, Daley MP, Gold SA,

McKenna MP, Hillan K, Went GT,Rothberg JM (1999). Geneexpression analysis by transcriptprofiling coupled to a genedatabase query. Nat Biotechnol.17: 798-803.

So AP, Turner RFB, Haynes CA (2004).Increasing the efficiency of SAGEadaptor ligation by direct ligationchemistry. Nucleic Acids Res. 32:e96.

Stollberg J, Urschitz J, Urban Z, BoydCD (2000). A quantitativeevaluation of SAGE. Genome Res.10: 1241-8.

Sutcliffe JG, Foye PE, Erlander MG,Hilbush BS, Bodzin LJ, Durham JT,Hasel KW (2000). TOGA: anautomated parsing technology foranalyzing expression of nearly allgenes. Proc Natl Acad Sci U S A. 97:1976-81.

The Arabidopsis Genome Initiative(2000). Analysis of the genomesequence of the flowering plantArabidopsis thaliana. Nature. 408:796-815.

Tuteja R, Tuteja N (2004). Serial analysisof gene expression (SAGE):unraveling the bioinformatics tools.BioEssays, 26: 916-922.

van der Berg A, van der Leij J, PoppemaS (1999). Serial analysis of geneexpression: rapid RT-PCR analysisof unknown SAGE tags. NucleicAcids Res. 27: e17.

van Kampen AH, van Schaik BD, PauwsE, Michiels EM, Ruijter JM, CaronHN, Versteeg R, Heisterkamp SH,Leunissen JÁ, Baas F, van der MeeM (2000). USAGE: a web-basedapproach towards the analysis ofSAGE data. Serial Analysis of GeneExpression. Bioinformatics 16: 899-905.

Velculescu VE, Zhang L, Zhou W,Vogelstein J, Basrai MA, BassettDE Jr, Hieter P, Vogelstein B,Kinzler KW (1997).Characterization of the yeasttranscriptome. Cell. 88: 243-51.

Velculescu VE, Vogelstein B, KinzlerKW (2000). Analysing unchartedtranscriptomes with SAGE. TrendsGenet. 16: 423-5.

Velculescu VE, Zhang L, Vogelstein B,and Kinzler KW (1995). SerialAnalysis Of Gene Expression.Science 270: 484-487.

Vêncio RZN, Brentani H, Pereira CAB(2003). Using credibility intervalsinstead of hypothesis tests in SAGEanalysis. Bioinformatics 19: 2461-2464,.

Vettore AL, da Silva FR, Kemper EL,Souza GM, da Silva AM, Ferro MI etal.. (2003). Analysis and functionalannotation of an expressedsequence tag collection for tropi-cal crop sugarcane. Genome Res.13: 2725-35.

Virlon B, Cheval L, Buhler JM, Billon E,Doucet A, Elalouf JM (1999). Serialmicroanalysis of renaltranscriptomes. Proc Natl Acad SciU S A. 96: 15286-91.

Wang ZX, Yamanouchi U, Katayose Y,Sasaki T, Yano M (2001).Expression of the Pib rice-blast-resistance gene family is up-regulated by environmentalconditions favouring infection andby chemical signals that triggersecondary plant defences. PlantMol Biol. 47: 653-61.

Wei CL, Ng P, Chiu KP, Wong CH, AngCC, Lipovich L, Liu ET, Ruan Y(2004). 5’Long serial analysis ofgene expression (LongSAGE) and3’LongSAGE for transcriptomecharacterization and genomeannotation. Proc Natl Acad Sci U SA., www.pnas.org/cgi/doi/10.1073/pnas.0403514101.

Wortman JR, Haas BJ, Hannick LI,Smith RK Jr, Maiti R, Ronning CM,Chan AP, Yu C, Ayele M, WhitelawCA, et al. (2003). Annotation ofthe Arabidopsis genome. PlantPhysiol., 132: 461-468.

Yamada K, Lim J, Dale JM, Chen H,Shinn P, Palm, CJ, Southwick AM,Wu HC, Kim C, Nguyen M, et al.(2003). Empirical analysis oftranscriptionl activity in theArabidopsis genome. Science 302:842-846.

Yu J, Hu S, Wang J, Wong GK, Li S, LiuB, Deng Y, Dai L et al.. (2002). Adraft sequence of the rice genome(Oryza sativa L. ssp. indica).Science. 296: 79-92.

Zhang L, Zhou W, Velculescu VE, KernSE, Hruban RH, Hamilton SR,Vogelstein B, Kinzler KW (1997).Gene expression profiles in nor-mal and cancer cells. Science 276:1268-1272.