DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1...

72
DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros

Transcript of DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1...

Page 1: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DEPARTAMENTO DE ESTATÍSTICA

Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013

1/2 × n-ário = 1 × (semi-n-ário)

TKS Dr Francisco Cysneiros

Page 2: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Prof. H. Magalhães de OliveiraUFPE – AGO 2013

Dados estatísticos sobre a vida biológica: a aleatoriedade como marca indelével no genoma das

espécies.

UNIVERSIDADE FEDERAL DE PERNAMBUCODEPARTAMENTO DE ESTATÍSTICA

Page 3: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Escala Cronológica da Evolução da Vida

DNA – origem da vida: Uma cronologia (Battail, 2001)

Page 4: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

O QUE É REALMENTE A VIDA?

• 1a mudança: Superação do vitalismo.• 2a mudança: desaparecimento dos contornos

nítidos na distinção entre vivos e não vivos

Seleção natural– Darwinismo e Teoria da evolução– O DNA / RNA

Tendências estão derrubando as barreiras entre o vivo e o não vivo.

Page 5: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Propriedades características da vida natural

• Capacidade de reprodução

• Sensibilidade ao ambiente

• Metabolismo

• Singularidade química

• Alto grau de complexidade e organização

• Programação genética que dirige o desenvolvimento

• Histórico modelado pela seleção natural

Page 6: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Dificuldades para definir a vida.

SEMENTES, estão vivas, mas não metabolizam

VIRUS, não se auto-reproduzem (vide mulas)

SALSICHAS não estão vivas, mas contém programa

genético, são feitas de proteínas e DNA

VIRUS DE COMPUTADOR, com propriedades da vida

biológica: reproduzem-se, são sensíveis ao

ambiente, metabolizam (consomem processamento,

memória), podem ser complexos, sobrevivem

usando seleção natural.

Page 7: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Fundamentos da Estrutura do DNA

• Os organismos vivos => células

• Procariontes vs Eucariontes

• As células dos eucariontes- coordenação de todas as atividades: o núcleo

• Núcleo: DNA, contém a informação genética.

– transmissão da informação genética e – síntese de proteínas.

Page 8: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA – Estrutura e Função

Bases nitrogenadas

Purinas

Pirimidinas

Page 9: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA – Estrutura

Ligação Fosfodiéster

Page 10: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA – Estrutura

Bases Complementares

Page 11: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

1953: descoberta da estrutura do DNA

Watson & Crick: estrutura dupla hélice do DNA

Page 12: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA – Estrutura e FunçãoDupla Hélice

Page 13: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA – DuplicaçãoOcorre na presença da DNA polimerase, que rompe as pontes de hidrogênio entre as bases nitrogenadas e as duas fitas do DNA se afastam:

• Nucleotídeos livres existentes na célula encaixam-se nas fitas, sempre em suas bases complementares

• São formadas duas moléculas de DNA idênticas.

•A duplicação do DNA é chamada semiconservativa porque a molécula nova do DNA tem uma fita nova e uma fita velha, originária da molécula mãe.

Page 14: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Relação do Dogma Central

DNA DNA

RNA Síntese Protéica

X In vivo

RNA polimera

se

transcr

ição

tradução

replicação

Page 15: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Síntese de Proteínas - Tradução

•A tradução ocorre nos ribossomas

•Trinca de bases do mRNA códon

•Trinca de bases do tRNA anti-códon

Page 16: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Tradução

Nirenberg & Kohana

Page 17: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Síntese de proteínas

Page 18: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Mapping DNA into ProteinsMapping DNA into Proteins

The genetic source is characterized by a four-letter alphabet :The genetic source is characterized by a four-letter alphabet :

N={U, C, A, G}N={U, C, A, G}

Input alphabet NInput alphabet N33=={{nn11,,nn22,,nn33 | | nnii NN, , ii=1,2,3}=1,2,3}

Output alphabet A:=Output alphabet A:={{LeuLeu, , ProPro, , ArgArg, , GlnGln, , HisHis, , SerSer, , PhePhe, , TrpTrp, , TyrTyr, , AsnAsn, , LysLys, , IleIle, , MetMet, , ThrThr, , AspAsp, , GluGlu, , GlyGly, , AlaAla, , ValVal, , StopStop}}

High redundancy map High redundancy map GCGC: : NN33 (|| (|| N N3 3 ||=64) ||=64) A A (||A||=21)(||A||=21)

Page 19: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

O Código Genético

U C A G

UFENILALANINAFENILALANINA

LEUCINALEUCINA

SERINASERINASERINASERINA

TIROSINATIROSINAPARADAPARADA

CISTEÍNACISTEÍNAPARADA

TRIPTOFANO

UCAG

CLEUCINALEUCINALEUCINALEUCINA

PROLINAPROLINAPROLINAPROLINA

HISTIDINAHISTIDINA

GLUTAMINAGLUTAMINA

ARGININAARGININAARGININAARGININA

UCAG

A

ISOLEUCINAISOLEUCINAISOLEUCINAMETIONINA

(INÍCIO.)

TREONINATREONINATREONINATREONINA

ASPARAGINAASPARAGINA

LISINALISINA

SERINASERINA

ARGININAARGININA

UCAG

GVALINAVALINAVALINAVALINA

ALANINAALANINAALANINAALANINA

AC. ASPÁRTICOAC. ASPÁRTICOAC. GLUTÂMICOAC. GLUTÂMICO

GLICINAGLICINAGLICINAGLICINA

UCAG

1a Letra 3a Letra

2a Letra

Page 20: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

• “A analogia me levaria a um passo adiante, isto é, à crença de que todos os animais e vegetais descendem de um protótipo único [...]

Todos os seres vivos têm muito em comum, em sua composição química, em suas vesículas germinativas, em sua estrutura celular e em suas leis de crescimento e reprodução [...]

Provavelmente todos os seres orgânicos que tenham em qualquer ocasião vivido nessa Terra, descendem de alguma forma primordial única, na qual a vida primeiro respirou. ... De um começo tão simples, formas infindáveis, as mais belas e as mais maravilhosas, evoluíram e estão evoluindo.”

CHARLES DARWIN (1859)

On the Origin of Species

Page 21: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA: Similaridades

• Similaridade entre DNA de humanos:• 99 a 99,1%

• Similaridade humanos - chimpanzés:• 98,5%

• Somente ~2% do genoma humano codifica proteínas:

• 3.109 bp -> 120 Mb/(8b/B)=15MB

Page 22: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

O homem é mais próximo do gorila ou do orangotango?Comparação do DNA mitocondrial

• homem• ATA ACC ATG CAC ACT ACT ATA ACC ACC CTA ACC CTG ACT

TCC CTA ATT CCC CCC ATC CTT ACC CTC GTT ACC ...

• gorila• ATA ACT ATG TAC GAT ACC ATA ACC ACC TTA GCC CTA ACT

TCC TTA ATT CCC CCT ATC CTT ACC TTC ATC ACT ...

• orangotango• ACA GCC ATG TTT ACT ACC ATA ACT GCC CTC ACC TTA ACT

TCC CTA ATC CCC CCC ATT ACC GCT CTC ATT AAC ...

Page 23: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

1953: primeira seqüência de aminoácidos

MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREVEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN

Sanger: seqüência de aminoácidos da insulina bovina

Page 24: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Representações Alternativas para o Código Genético

– Inner-to-outer map– 2D-Gray genetic map, – genetic world-chart representations

• DE OLIVEIRA, H.M.,SANTOS-MAGALHÃES, N.S., The Genetic Code revisited: Inner-to-outer map, 2D-Gray map, and World-map Genetic Representations, 11th International Conference on Telecommunications, August 1-7, Fortaleza, Brazil, ICT2004, 2004, submetido.

• SANTOS-MAGALHÃES, N.S., BOUTON, E.A., DE OLIVEIRA, H.M., How to Represent the Genetic Code?, Reunião Anual da Sociedade Brasileira de Bioquímica, SBBq, 2004, submetido.

Page 25: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

The Inner-to-outer MapThe Inner-to-outer Map

Inner-to-outer map for the genetic codeInner-to-outer map for the genetic code

First nucleotide: inner circleFirst nucleotide: inner circle

Second nucleotide: surroundingSecond nucleotide: surrounding

Third nucleotide: outer regionThird nucleotide: outer region

Homofonemas

Page 26: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Modem 64-QAM

-7 -5 -3 -1 1 3 5 7

001111 001101 000101 000111 100111 100101 101101 101111

001110 001100 000100 000110 100110 100100 101100 101110

001010 001000 000000 000010 100010 100000 101000 101010

001011 001001 000001 000011 100011 100001 101001 101011

011011 011001 010001 010011 110011 110001 111001 111011

011010 011000 010000 010010 110010 110000 111000 111011

011110 011100 010100 010110 110110 110100 111100 111110

011111 011101 010101 010111 110111 110101 111101 111111

de Oliveira

Page 27: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

U [11]; A [00]; G [10]; C [01].

bacteriophage X174: Each binary codeword belongs to a constant weigh code.

DNA Codeword

G...C 01 10

A...T 00 11

G...C 01 10

T...A 11 00

T...A 11 00

T...A 11 00

T...A 11 00

A...T 00 11

T...A 11 00

G...C 01 10

Page 28: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Representação 2D-Gray

de Oliveira, Santos Magalhães 2004

Page 29: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Código Genético: Mapeamento dos aminoácidos

Santos Magalhães, E.Bouton, de Oliveira 2004

Page 30: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Coloured 2D-Gray genetic Coloured 2D-Gray genetic mapmap

Coloured Genetic code map for amino-acidsColoured Genetic code map for amino-acids

This representation merges regions mapped This representation merges regions mapped into the same amino-acid !into the same amino-acid !

Val Ile Ile Thr Thr Ala Ala Val Val Ile Ile

Phe

Leu

Leu

Pro Pro Ser Ser Phe Phe

Leu

Leu

Leu

Leu

Leu

Pro Pro Ser Ser Leu Leu

Leu

Leu

Trp

Arg Arg

Gln Gln Stop

Stop

Stop

Trp

Arp Arg

Cys Arg Arg

His His Tyr Tyr Cys Cys Arg Arg

Gly Ser Ser Asn

Asn

Asp Asp Gly Gly Ser Ser

Gly Arg Arg

Lys Lys Glu Glu Gly Gly Arg Arg

Val Met

Ile Thr Thr Ala Ala Val Val Met

Ile

Val Ile Ile Thr Thr Ala Ala Val Val Ile Ile

Phe

Leu

Leu

Pro Pro Ser Ser Phe Phe

Leu

Leu

Page 31: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Espectro para localização de Éxons (Gene F56F11.4)

Análise genômica

Page 32: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Análise wavelet de seqüências genômicas

-cardíaco humano 6.000 bp

Oncogênio c-myb (galinha) 8.200 bp

Page 33: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

ÍNTROS & ÉXONS

Page 34: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Eliminando os íntrons na transcrição

Page 35: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Trecho de DNA da -hemoglobina humana(reading frames)

• ...ACA GAC ACC ATG GTC CAC CTT GAC...• . .. CAG ACA CCA TGG TGC ACC TGG...• ... AGA CAC CAT GGT GCA CCT TGA ...

Genes da sub-unidade da hemoglobina

(2 genes)

B

90 bp 131 bp 222 bp 851 bp 126 bp

A

Page 36: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Porção do DNA do genoma do HIV-1

• GGG TTC TTG GGA GCA GCA GGA AGC ACT ATG GGC GCA ...

• O câncer é causado por agentes (carcinógenos, radiação, vírus) que danificam o DNA, ou interferem nos seus mecanismos de replicação e/ou reparo.

Page 37: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Genoma Music - Body MusicSusumo Ohno

URL- http://www.toshima.ne.jp/~edogiku/FlaMovIntro/

Page 38: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA do bacteriófago X174• 5.386 bp - 10 genes (A até K)

Gene n. de aminoácidos quadro A 455 (1539 bp) 2

B 120 (360 bp) 1 C 86 (258 bp) 1

D 152 (456 bp) 3 E 91 (273 bp) 1 F 427 (1281 bp) 2 G 175 (525 bp) 1 H 328 (984 bp) 3 J 38 (114 bp) 2 K 56 (168 bp) 3

5.958 bp

Page 39: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Genes no DNA do bacteriófago X174

Page 40: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

GAGTTTTATCGCTTCCATGACGCAGAAGTTAACACTTTCGGATATTTCTGATGAGTCGAAAAATTATCTTGATAAAGCAGGAATTACTACTGCTTGTTTACGAATTAAATCGAAGTGGACTGCTGGCGGAAAATGAGAAAATTCGACCTATCCTTGCGCAGCTCGAGAAGCTCTTACTTTGCGACCTTTCGCCATCAACTAACGATTCTGTCAAAAACTGACGCGTTGGATGAGGAGAAGTGGCTTAATATGCTTGGCACGTTCGTCAAGGACTGGTTTAGATATGAGTCACATTTTGTTCATGGTAGAGATTCTCTTGTTGACATTTTAAAAGAGCGTGGATTACTATCTGAGTCCGATGCTGTTCAACCACTAATAGGTAAGAAATCATGAGTCAAGTTACTGAACAATCCGTACGTTTCCAGACCGCTTTGGCCTCTATTAAGCTCATTCAGGCTTCTGCCGTTTTGGATTTAACCGAAGATGATTTCGATTTTCTGACGAGTAACAAAGTTTGGATTGCTACTGACCGCTCTCGTGCTCGTCGCTGCGTTGAGGCTTGCGTTTATGGTACGCTGGACTTTGTGGGATACCCTCGCTTTCCTGCTCCTGTTGAGTTTATTGCTGCCGTCATTGCTTATTATGTTCATCCCGTCAACATTCAAACGGCCTGTCTCATCATGGAAGGCGCTGAATTTACGGAAAACATTATTAATGGCGTCGAGCGTCCGGTTAAAGCCGCTGAATTGTTCGCGTTTACCTTGCGTGTACGCGCAGGAAACACTGACGTTCTTACTGACGCAGAAGAAAACGTGCGTCAAAAATTACGTGCGGAAGGAGTGATGTAATGTCTAAAGGTAAAAAACGTTCTGGCGCTCGCCCTGGTCGTCCGCAGCCGTTGCGAGGTACTAAAGGCAAGCGTAAAGGCGCTCGTCTTTGGTATGTAGGTGGTCAACAATTTTAATTGCAGGGGCTTCGGCCCCTTACTTGAGGATAAATTATGTCTAATATTCAAACTGGCGCCGAGCGTATGCCGCATGACCTTTCCCATCTTGGCTTCCTTGCTGGTCAGATTGGTCGTCTTATTACCATTTCAACTACTCCGGTTATCGCTGGCGACTCCTTCGAGATGGACGCCGTTGGCGCTCTCCGTCTTTCTCCATTGCGTCGTGGCCTTGCTATTGACTCTACTGTAGACATTTTTACTTTTTATGTCCCTCATCGTCACGTTTATGGTGAACAGTGGATTAAGTTCATGAAGGATGGTGTTAATGCCACTCCTCTCCCGACTGTTAACACTACTGGTTATATTGACCATGCCGCTTTTCTTGGCACGATTAACCCTGATACCAATAAAATCCCTAAGCATTTGTTTCAGGGTTATTTGAATATCTATAACAACTATTTTAAAGCGCCGTGGATGCCTGACCGTACCGAGGCTAACCCTAATGAGCTTAATCAAGATGATGCTCGTTATGGTTTCCGTTGCTGCCATCTCAAAAACATTTGGACTGCTCCGCTTCCTCCTGAGACTGAGCTTTCTCGCCAAATGACGACTTCTACCACATCTATTGACATTATGGGTCTGCAAGCTGCTTATGCTAATTTGCATACTGACCAAGAACGTGATTACTTCATGCAGCGTTACCATGATGTTATTTCTTCATTTGGAGGTAAAACCTCTTATGACGCTGACAACCGTCCTTTACTTGTCATGCGCTCTAATCTCTGGGCATCTGGCTATGATGTTGATGGAACTGACCAAACGTCGTTAGGCCAGTTTTCTGGTCGTGTTCAACAGACCTATAAACATTCTGTGCCGCGTTTCTTTGTTCCTGAGCATGGCACTATGTTTACTCTTGCGCTTGTTCGTTTTCCGCCTACTGCGACTAAAGAGATTCAGTACCTTAACGCTAAAGGTGCTTTGACTTATACCGATATTGCTGGCGACCCTGTTTTGTATGGCAACTTGCCGCCGCGTGAAATTTCTATGAAGGATGTTTTCCGTTCTGGTGATTCGTCTAAGAAGTTTAAGATTGCTGAGGGTCAGTGGTATCGTTATGCGCCTTCGTATGTTTCTCCTGCTTATCACCTTCTTGAAGGCTTCCCATTCATTCAGGAACCGCCTTCTGGTGATTTGCAAGAACGCGTACTTATTCGCCACCATGATTATGACCAGTGTTTCCAGTCCGTTCAGTTGTTGCAGTGGAATAGTCAGGTTAAATTTAATGTGACCGTTTATCGCAATCTGCCGACCACTCGCGATTCAATCATGACTTCGTGATAAAAGATTGAGTGTGAGGTTATAACGCCGAAGCGGTAAAAATTTTAATTTTTGCCGCTGAGGGGTTGACCAAGCGAAGCGCGGTAGGTTTTCTGCTTAGGAGTTTAATCATGTTTCAGACTTTTATTTCTCGCCATAATTCAAACTTTTTTTCTGATAAGCTGGTTCTCACTTCTGTTACTCCAGCTTCTTCGGCACCTGTTTTACAGACACCTAAAGCTACATCGTCAACGTTATATTTTGATAGTTTGACGGTTAATGCTGGTAATGGTGGTTTTCTTCATTGCATTCAGATGGATACATCTGTCAACGCCGCTAATCAGGTTGTTTCTGTTGGTGCTGATATTGCTTTTGATGCCGACCCTAAATTTTTTGCCTGTTTGGTTCGCTTTGAGTCTTCTTCGGTTCCGACTACCCTCCCGACTGCCTATGATGTTTATCCTTTGAATGGTCGCCATGATGGTGGTTATTATACCGTCAAGGACTGTGTGACTATTGACGTCCTTCCCCGTACGCCGGGCAATAACGTTTATGTTGGTTTCATGGTTTGGTCTAACTTTACCGCTACTAAATGCCGCGGATTGGTTTCGCTGAATCAGGTTATTAAAGAGATTATTTGTCTCCAGCCACTTAAGTGAGGTGATTTATGTTTGGTGCTATTGCTGGCGGTATTGCTTCTGCTCTTGCTGGTGGCGCCATGTCTAAATTGTTTGGAGGCGGTCAAAAAGCCGCCTCCGGTGGCATTCAAGGTGATGTGCTTGCTACCGATAACAATACTGTAGGCATGGGTGATGCTGGTATTAAATCTGCCATTCAAGGCTCTAATGTTCCTAACCCTGATGAGGCCGCCCCTAGTTTTGTTTCTGGTGCTATGGCTAAAGCTGGTAAAGGACTTCTTGAAGGTACGTTGCAGGCTGGCACTTCTGCCGTTTCTGATAAGTTGCTTGATTTGGTTGGACTTGGTGGCAAGTCTGCCGCTGATAAAGGAAAGGATACTCGTGATTATCTTGCTGCTGCATTTCCTGAGCTTAATGCTTGGGAGCGTGCTGGTGCTGATGCTTCCTCTGCTGGTATGGTTGACGCCGGATTTGAGAATCAAAAAGAGCTTACTAAAATGCAACTGGACAATCAGAAAGAGATTGCCGAGATGCAAAATGAGACTCAAAAAGAGATTGCTGGCATTCAGTCGGCGACTTCACGCCAGAATACGAAAGACCAGGTATATGCACAAAATGAGATGCTTGCTTATCAACAGAAGGAGTCTACTGCTCGCGTTGCGTCTATTATGGAAAACACCAATCTTTCCAAGCAACAGCAGGTTTCCGAGATTATGCGCCAAATGCTTACTCAAGCTCAAACGGCTGGTCAGTATTTTACCAATGACCAAATCAAAGAAATGACTCGCAAGGTTAGTGCTGAGGTTGACTTAGTTCATCAGCAAACGCAGAATCAGCGGTATGGCTCTTCTCATATTGGCGCTACTGCAAAGGATATTTCTAATGTCGTCACTGATGCTGCTTCTGGTGTGGTTGATATTTTTCATGGTATTGATAAAGCTGTTGCCGATACTTGGAACAATTTCTGGAAAGACGGTAAAGCTGATGGTATTGGCTCTAATTTGTCTAGGAAATAACCGTCAGGATTGACACCCTCCCAATTGTATGTTTTCATGCCTCCAAATCTTGGAGGCTTTTTTATGGTTCGTTCTTATTACCCTTCTGAATGTCACGCTGATTATTTTGACTTTGAGCGTATCGAGGCTCTTAAACCTGCTATTGAGGCTTGTGGCATTTCTACTCTTTCTCAATCCCCAATGCTTGGCTTCCATAAGCAGATGGATAACCGCATCAAGCTCTTGGAAGAGATTCTGTCTTTTCGTATGCAGGGCGTTGAGTTCGATAATGGTGATATGTATGTTGACGGCCATAAGGCTGCTTCTGACGTTCGTGATGAGTTTGTATCTGTTACTGAGAAGTTAATGGATGAATTGGCACAATGCTACAATGTGCTCCCCCAACTTGATATTAATAACACTATAGACCACCGCCCCGAAGGGGACGAAAAATGGTTTTTAGAGAACGAGAAGACGGTTACGCAGTTTTGCCGCAAGCTGGCTGCTGAACGCCCTCTTAAGGATATTCGCGATGAGTATAATTACCCCAAAAAGAAAGGTATTAAGGATGAGTGTTCAAGATTGCTGGAGGCCTCCACTATGAAATCGCGTAGAGGCTTTGCTATTCAGCGTTTGATGAATGCAATGCGACAGGCTCATGCTGATGGTTGGTTTATCGTTTTTGACACTCTCACGTTGGCTGACGACCGATTAGAGGCGTTTTATGATAATCCCAATGCTTTGCGTGACTATTTTCGTGATATTGGTCGTATGGTTCTTGCTGCCGAGGGTCGCAAGGCTAATGATTCACACGCCGACTGCTATCAGTATTTTTGTGTGCCTGAGTATGGTACAGCTAATGGCCGTCTTCATTTCCATGCGGTGCACTTTATGCGGACACTTCCTACAGGTAGCGTTGACCCTAATTTTGGTCGTCGGGTACGCAATCGCCGCCAGTTAAATAGCTTGCAAAATACGTGGCCTTATGGTTACAGTATGCCCATCGCAGTTCGCTACACGCAGGACGCTTTTTCACGTTCTGGTTGGTTGTGGCCTGTTGATGCTAAAGGTGAGCCGCTTAAAGCTACCAGTTATATGGCTGTTGGTTTCTATGTGGCTAAATACGTTAACAAAAAGTCAGATATGGACCTTGCTGCTAAAGGTCTAGGAGCTAAAGAATGGAACAACTCACTAAAAACCAAGCTGTCGCTACTTCCCAAGAAGCTGTTCAGAATCAGAATGAGCCGCAACTTCGGGATGAAAATGCTCACAATGACAAATCTGTCCACGGAGTGCTTAATCCAACTTACCAAGCTGGGTTACGACGCGACGCCGTTCAACCAGATATTGAAGCAGAACGCAAAAAGAGAGATGAGATTGAGGCTGGGAAAAGTTACTGTAGCCGACGTTTTGGCGGCGCAACCTGTGACGACAAATCTGCTCAAATTTATGCGCGCTTCGATAAAAATGATTGGCGTATCCAACCTGCA

Page 41: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Tamanho de Genomas

• Menor número de genes

Mycoplasma genitalium 470 genes

• Genoma humano

Homem ~120.000 genes

(pensava-se erroneamente!)

Page 42: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

bacteriófago X174

Page 43: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

ORDEM DE MAGNITUDE DE GENOMAS (pares de bases = bp)

Vírus 10 kbp (SV40 5k, T2 48.6 k...)

bactéria 4 Mbp (E. coli 4.7 Mb)

Levedura 9 Mbpnematóide 90 Mbpinsetos 0.2 - 7.5 Gbpmosca da fruta 180 Gbpmamíferos 1.4 - 5.7 Gbp (man 3.2

Gbp)

Peixe pulmonado 140 Gbpmostarda de erva daninha 200 MbpPinheiro 68 Gbpamoebia dubia 670 Gbp

Page 44: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

PARADOXO DO ‘valor C’

• Valor C =

Quantidade de DNA no Seu genoma haploide

• Muitos organismos menos complexos possuem valores C surpreendentemente elevados.

• O DNA “extra” tem função?

Senão, por que é preservado de geração para geração?

Page 45: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Gene doença comprimento

• -globina humana anemia falciforme 2.000 bp

• Fator VIII humano hemofilia 200.000 bp

• Proteína kinase distrofia muscular 3.407 bp

Page 46: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

• N. de espécies vivas na Terra ~ 107

Admita que estas sejam uma fração de 1/100 das

que existiram (extinção)

Tem-se ~109 espécies (aparentemente grande...)

Isso é ridiculamente pequeno com respeito ao n. total de possíveis genomas na ausência de redundância

GENOMAS ~ 4^109 ~10100000000

(para um genoma típico de 109 nucleotídeos)

A identidade das coisas vivas fornecida pelo substrato genético, parece válida a hipótese “species are sparse” (Battail).

Page 47: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Pequena Cronologia de Genomas

• 1977 Seqüenciamento completo

genoma do fago X174 (5.386 bp)

• 1995 Primeiro organismo vivo

Genoma do Haemophilus influenzae (1,8 Mbp)

• 1996 Saccharomyces cerevisiae (12,1 Mbp)

• 1997 Escherichia coli (4.6 Mbp)

• 1998 Primeiro animal –nematóide

Genoma do caenorhabditis elegans (97,1 Mbp)

• 1999 Primeiro cromossomo humano

Cromossomo 22 (33,4 Mbp)

• 2000 Drosophila melanogaster (120 Mbp)

• 2000 Cromossomos 5, 16, 19, 21

• 1988-2000 Human Genome Project• June 2000 – milestone draft sequence

Page 48: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Reducionaismo:Alerta Andras Paldi (CNRS).

• O temendo reducionismo dos pesquisadores genéticos acaba considerando o ser vivo como uma adição estrita de elementos justapostos.

• Ao estabelecer um catálogo das proteínas corremos o risco de agravar o problema.

É como se tentássemos entender o funcionamento de um foguete lendo o catálogo das suas peças!

Page 49: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Of Protein Size and GenomesNEREIDE S. SANTOS-MAGALHÃES, HÉLIO M. DE OLIVEIRA

Of Protein Size and Genomes NEREIDE S. SANTOS-MAGALHÃES, HÉLIO M. DE OLIVEIRA

WSEAS TRANS. ON BIOLOGY AND BIOMEDICINE Issue 2, Vol.3, February 2006 ISSN: 1109-9518

~200 academia downloads

number of genes? (in living organisms)

1) bacterial genomes; number of genes ~= genome size kbp.

bacterial proteins reveals 350 amino acid residues as typical.

2) C. elegans genome of 99 Mbp and genomic rate 25%.

Its protein size distribution has an average polypeptide length

of 469 amino acids.

Page 50: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

• human proteins;

serum albumin has 609 amino acid residues, collagen about 1,000, apolipoprotein B 4,536, human Titin 26,926.

A DNA code is specified by the triplet DNA(C,R,d),

where C is genome size (bp), R is genomic rate d is coding density (genes/bp).

number of protein-coding base pairs R=

total number C of base pairs of the genome.

Page 51: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Further DNA parameters:

g is the number of genes of the genome,

e is the average number of ‘exons’ per gene.

/Cg

Page 52: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

coding density: estimated in terms of the expected protein size

bp/gene

• average bacterial protein ~300 amino acids long,

• genomic bacterial rate ~ 0.8 to 0.9.

Bacteria usually have a coding density d 1,000 bp/gene

number of genes for bacteria: gC/1,000

(this is striking confirmed at

http://www.cbs.dtu.dk/services/GenomeAtlas/

Page 53: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0 200 400 600 800 1000 1200 1400

protein length (aa residues)

# ge

nes

(%)

Lambda

phiX174

protein size histograms (straightforward organisms),

FX174 and the phage l viruses

Page 54: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

C. elegans

0.00

0.05

0.10

0.15

0.20

0.25

0 500 1000 1500 2000 2500

protein length (aa residues)

# g

en

es

(%)

Page 55: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

The coding density of different chromosomes of lower eukaryotic species is roughly the same, i.e. slight fluctuations from one chromosome to another in the same organism.

The C=12,057,849 bp, g=6,268 genes) has an average coding deS. cerevisiae (nsity 1,947 bp/gene -- 15 chromosomes.

S. cerevisiae

Chr1 2,093 Chr9 1,864

Chr2 1,918 Chr10 1,906

Chr3 1,855 Chr11 1,960

Chr4 1,870 Chr12 1,989

Chr5 2,090 Chr13 1,841

Chr6 2,144 Chr14 1,854

Chr7 1,891 Chr15 1,908

Chr8 2,017 average 1,947 bp/gene

(from http://www.cbs.dtu.dk/services/GenomeAtlasThe coefficient of variation (CV %) of the coding density is 5.06 %

Page 56: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

The six chromosomes of the C. elegans

(C=98,971,533 bp, g=17,585 genes) present an

average coding density of 5,731 bp/gene.

C. elegansChrI 5,072ChrII 5,592ChrIII 5,771ChrIV 6,312ChrV 4,899Chr X 6,740

average 5,731 bp/gene

(from http://www.cbs.dtu.dk/services/GenomeAtlas

The coding density barely varies from one chromosome to another

The coefficient of variation (CV %) of the coding density is 1.72 %

Page 57: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA parameters for some well-known genomes,

• virus X174 • microbial M. genitalium • H. pylori • H. influenzae • S. Aureus• B. subtilis • M. tuberculosis • E. coli • X. fastidiosa

Page 58: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Organism

genome size C (Mbp)

coding density

(bp/gene)

number of genes

g

genomic rate

R

average protein length

genomic

information

(Mbits)

redundancy

1-R

(%)

X174 0.0054 538 10 1.00 180 0.01 ~0bacteriophage 0.0485 683 71 0.95 216 0.09 5M. genitalium 0.58 1,208 480 0.90 363 1.04 10H. pylori 1.67 1,066 1,566 0.89 316 2.97 11H. influenzae 1.83 1,071 1,709 0.86 307 3.15 14S. aureus 2.80 1,069 2,619 0.84 299 4.70 16B. subtilis 4.21 1,025 4,106 0.87 297 7.32 13M. tuberculosis 4.41 1,126 3,918 0.97 364 8.56 3E. coli 4.64 1,082 4,289 0.87 314 8.08 13X. fastidiosa 2.52 1,238 2,034 0.78 322 3.93 22S. cerevisiae 12.06 1,924 6,268 0.70 450 17.3 30C. elegans 99 5,628 17,585 0.25 469 49.5 75

D.melanogaster

180 Mbp

~60*

120

~ 13,235

' ~ 8,823 13,600 0.13 573 46.8 87

Human (old) ~3,000 Mbp

1,000*

2,000

~ 30,000

' ~20,000 100,000? ~0.03 ~300? ~180.0? ~97?Human (update)

~2,900 Mbp

967*

1,933

~112,500

~75,000 ~25,800 ~0.016 ~600 ~92.9 ~98.4

Page 59: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

1) unsuccessful attempt to explain the complexity of living beings:

• the genome length.

The so-called C-value paradox proved that this is incorrect.

2) The number of genes was supposed to be related to complexity.

• people to expect more genes than human actually have.

•about 100,000 widespread in 80’s and late 90’s

3) A potential measure that correlated with the complexity

• average protein size.

Page 60: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

storing all genes of a single human require less than 10 MB

(albeit the entire the human DNA sequence requires about 1 GB)

Let C’ and d’ denote, the genome size and the coding density with the exception of highly repetitive sequences.

About one third of high eukaryotic DNA corresponds to these sequences,

which are not transcribed, but may have structural properties.

Therefore, C’=2C/3 and d’=2d/3.

The superscript “prime” refers to the expurgated genome, i.e. highly repeated sequences apart.

Page 61: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

expected gene distribution in the 23 human chromosomeschromosome length

(bp)predicted genes(unveiled genes)

Chr1 226,828,929 2,016Chr2 205,000,000 1,822 (1,346)Chr3 195,073,306 1,734Chr4 115,000,000 1,022 (796)Chr5 117,696,509 1,046 (923)Chr6 169,212,327 1,504 (1,557)Chr7 310,210,944 1,367a (1,150)Chr8 143,297,300 1,274Chr9 117,790,386 1,047 (1,149)

Chr10 132,016,990 1,173 (816)Chr11 130,908,954 1,163Chr12 129,826,379 1,154Chr13 90,000,000 800 (633)Chr14 87,191,216 775 (1,050)Chr15 81,992,482 729Chr16 79,932,432 711 (880)Chr17 79,376,966 705Chr18 74,658,403 663Chr19 55,878,340 497b (1,461)Chr20 59,424,990 528 (727)Chr21 33,924,367 301c (225)Chr22 34,352,072 305 (545)Chr X 152,118,949 1,352 (1,098)

Page 62: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

gene distribution in human chromosomes:

• Genome size C=2,881 Gbp; • Number of genes g=22,525.

The genes mean size (bp) in each chromosome is:

gene

Page 63: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Chrom.

number

C

(bp)

genes& pseudo (only genes)

(bp) (bp)

e

(kbp)Chr2

[27] 237,000,000

2,585

(1,346)

-- --

5.30 33.8

Chr4

[27] 186,000,000

1,574

(796)

-- --

6.60 34.3

Chr6

[28] 166,800,000

2,190

(1,557) 318 7,208 5.28 32.5

Chr9

[29] 109,044,351

1,575

(1,149) 342 6,799 5.77a 34.4

Chr10

[30] 131,666,441

1,357

(816) 322 7,817 5.84 39.7

Chr13

[31] 95,500,000

929

(633) 320 9,164 5.20 40.2

Chr14

[32] 87,410,661

1,443

(1,050) 295 8,194 6.35a 45.7

Chr20

[33] 59,187,298

895

(727) 292 5,170 6.00 27.2

Chr22

[34] 34,491,000

679

(545) 266 4,037 5.40 19.2

EIgeneE

Cromossomas humanos: Comprimentos médios

Page 64: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

the average number of amino acid residues (L

) and the genomic rate (R) are shown.

average number of amino acid residues ( L)genomic rate (R)

Chrom.

number

Chr6 Chr9 Chr10 Chr13 Chr14 Chr20 Chr22

(aa) 560 658 627 555 624 584 479

R

(%) 1.56 1.79 1.17 1.10 2.36 2.15 1.82

L

Page 65: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

CONCLUSIONS

• average length of ‘exon’ about 300 bp,

• average length of ‘intron’ about 6,900 bp,

• mean of about 6 exons/gene

• (from single-exon genes to 175 exon for the Titin gene!)

• average number of residues for coded-proteins ~ 600 aa.

************average protein size as a worthy criterion for assessing life complexity.

Page 66: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA-Error Control Code May Be Unstructured  H. M. DE OLIVEIRA, N.S. SANTOS-MAGALHÃES

The astonishing reliability by which deoxyribonucleic acid (DNA) has

been preserved through ages implies that cell’s replication machinery

have to ensure against copying mistakes.

The replication machine is self-correcting and operates with a mean of 1

error per 107 nucleotides copied. Around 99% of such errors are

corrected by the DNA mismatch repair mechanism, resulting 1 error per

109 nucleotides copied.

Page 67: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Introns & exons

most eukaryotic genes have their coding sequences interrupted

by noncoding regions

(the so-called introns, for intervening nontranscribed sequences).

‘Introns’ are usually longer than the ‘exons’.

INTRONS: size ranging from 20 bp, to 250,000 bp;

EXONS: size ranging from 50 to 600 bp (average 300 bp).

attempts in understanding the biological role of ‘introns’:

no recognized functions were found.

Page 68: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Highly repetitive sequences:

SINES (short interspersed elements) 13% of the genome, LINES (long interspersed elements.) 21% of the genome.

Repetitive DNA has commonly been regarded as “junk-DNA”,

noncoding DNA: ‘introns’, 26% of the human genome.

Viruses and bacteria have a high fecundity and few gene families;

have little or almost no need for protection.

Plants and animals have high permanency.

=> Must be robust to mutations (survivors of natural selection)

Page 69: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

Standard error correcting codes

designed by imposing constraints on the sequences.

Why using structured codes? Answer : (mislead) belief that the decoding of random code is unfeasible.

Due to the lack of structure => an exhaustive search.

We think that Darwinian mechanisms for protecting DNA may be quite different.

No parity rules should be looked for! (HMdO)

Page 70: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

we believe : ‘introns’ were the spontaneous

mechanism of introducing uncertainty.

In a battle, a crucial payload is to be sent to the front. If the only way is sending it through the battlefield, it should not be directly dispatched. Many fake-cargos could be added, and the relevant one will be hidden among them.

If the enemy (noise, mutation) hardly tries to intercept this crucial delivery, he can now probably not succeed due to the amount of uncertainty added to the process. Many ineffective cargos (junk-cargos or ‘introns’) will be hit, but the main one will probably be missed.

same strategy used in the safeguard of authorities such as Presidents of some nations (to include uncertain routes and second self.)

Page 71: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

DNA coding has trivial decoding scheme

(asynchronous start-stop protocol).

DNA code meet Battail’s close-to-random criterion

Biological evolutionary codes match Shannon's paradigm:

they are long truly random codes.

We quote Battail:

“Nature appears as an outstanding engineer…”

Page 72: DEPARTAMENTO DE ESTATÍSTICA Prof Hélio Magalhães de Oliveira, UFPE, 21/08/2013 1/2 × n-ário = 1 × (semi-n-ário) TKS Dr Francisco Cysneiros.

ARREMATE:

Este seminário é essencialmente uma provocação!

Se a Estatística lida com grandes massas de dados

(dados já disponíveis), com comportamento

inerentemente aleatório, as bases de dados de

Genomas, disponíveis publicamente, são fonte

de desafio para excelentes trabalhos e descobertas

[email protected] http://www2.ee.ufpe.br/codec/deOliveira.html