lista1

3
Bioinform´ atica 2011 Facom-UFMS Lista de Exerc´ ıcios 1 5 de agosto de 2011 1. Pesquise sobre os t´opicos: (a) s´ ıntese de prote´ ınas em procariotos (b) taxonomia 2. Escreva um programa que determina o tamanho de todas as sequˆ encias em um arquivo no formato FASTA. 3. Escreva um programa que conta o n´ umero de As, Cs, Gse Ts de uma sequˆ encia no formato FASTA. 4. Escreva um programa que extrai uma subsequˆ encia de uma sequˆ encia s no formato FASTA. O usu´ario especifica como entrada: (a) o arquivo FASTA contendo s (b) a posi¸c˜ ao b de in´ ıcio da subsequˆ encia (c) a posi¸c˜ ao e do final da subsequˆ encia (b e) e recebe como sa´ ıda outro arquivo FASTA contendo a sequˆ encia s[b...e]. 5. Melhore o programa anterior de tal forma que: (a) se e for omitido, retorna s[b...‘(s)], onde ´ e o tamanho de s (b) se b for omitido, retorne s[1 ...e] 6. Combine o programa anterior e o programa para achar o complemento-reverso de uma sequˆ encia de DNA (visto em aula) para escrever um novo programa que retorna o complemento-reverso de s[b...e], se b>e. 1

Transcript of lista1

Page 1: lista1

Bioinformatica 2011Facom-UFMS

Lista de Exercıcios 1

5 de agosto de 2011

1. Pesquise sobre os topicos:

(a) sıntese de proteınas em procariotos

(b) taxonomia

2. Escreva um programa que determina o tamanho de todas as sequencias em um arquivono formato FASTA.

3. Escreva um programa que conta o numero de As, Cs, Gs e Ts de uma sequencia no formatoFASTA.

4. Escreva um programa que extrai uma subsequencia de uma sequencia s no formatoFASTA. O usuario especifica como entrada:

(a) o arquivo FASTA contendo s

(b) a posicao b de inıcio da subsequencia

(c) a posicao e do final da subsequencia (b ≤ e)

e recebe como saıda outro arquivo FASTA contendo a sequencia s[b . . . e].

5. Melhore o programa anterior de tal forma que:

(a) se e for omitido, retorna s[b . . . `(s)], onde ` e o tamanho de s

(b) se b for omitido, retorne s[1 . . . e]

6. Combine o programa anterior e o programa para achar o complemento-reverso de umasequencia de DNA (visto em aula) para escrever um novo programa que retorna ocomplemento-reverso de s[b . . . e], se b > e.

1

Page 2: lista1

7. Escreva um programa que simula uma sequencia genomica com tamanho fornecido pelousuario, em duas versoes:

(a) uma sequencia totalmente randomica de As, Cs, Gs eTs

(b) uma sequencia obedecendo a segunda regra de Chargaff; neste caso o progrma devereceber como entrada o %GC desejado

Os exercıcios a seguir deverao ser entregues via e-mail ate as 23h59m do dia17/8 ([email protected]).

8. Escreva um programa que calcula a variacao de %GC e a variacao de GC skew de umadada sequencia de DNA no formato FASTA, sequencia essa representando um genomacircular. Seu programa deve usar a tecnica de janela deslizante para ambos os casos,ou seja, dado um valor w para o tamanho da janela (em bp) e um step k, dados pelousuario, o programa deve calcular o %GC para cada janela de tamanho w, com k bp entreuma janela e a proxima. O mesmo deve ser feito para o GC skew, com parametros w′ ek′. A saıda deve ser composta dos seguintes arquivos:

(a) arquivo texto contendo um par de numeros por linha (separados por um espaco);o primeiro numero e a coordenada do centro da janela (um numero inteiro) e osegundo o %GC daquela janela (um numero real)

(b) arquivo texto contendo um par de numeros por linha (separados por um espaco);o primeiro numero e a coordenada do centro da janela (um numero inteiro) e osegundo o GC skew daquela janela (um numero real)

(c) dois graficos gerados pelo programa Gnuplot, semelhantes aos vistos abaixo, noformato PostScript

Dica: no caso de GC skew, use computacao incremental, ou seja, calcule o valor da janelaatual usando o valor da janela anterior.

40

45

50

55

60

65

0 500000 1e+06 1.5e+06 2e+06

GC

con

tent

(%

)

bp

-0.04

-0.02

0

0.02

0.04

0 500000 1e+06 1.5e+06 2e+06

GC

ske

w

bp

2

Page 3: lista1

9. Rode o programa do exercıcio anterior para genoma simulado (totalmente aleatorio) epara os genomas abaixo, para notar a diferenca. Para GC content, use w = 5000 ek = 200. Para GC skew, use w′ = 400 e k′ = 1 para se obter melhor uma resolucao.

(a) Agrobacterium tumefaciens str. C58, accession number NC 003062

(b) Borrelia burgdorferi ZS7 str. ZS7, accession number NC 011728

(c) Escherichia coli str. K-12 substr. MG1655, accession number NC 000913

Entregue por e-mail um diretorio zipado contendo o programa em Perl, os graficos geradose um arquivo README.txt com o nome dos participantes do grupo, e informacoes sobre osarquivos e programas entregues.

3