Minicurso R SBPO 2010

61
7/23/2019 Minicurso R SBPO 2010 http://slidepdf.com/reader/full/minicurso-r-sbpo-2010 1/61 O software R como instrumento de ensino em Estatística Básica Gastão Coelho Gomes, [email protected] João Ismael Damasceno Pinheiro  [email protected] Sonia Baptista da Cunha, [email protected] Santiago Ramírez Carvajal [email protected] http://www.r-project.org “Estatística Básica: A Arte de Trabalhar com Dados”, Ed. Campus-Elsevier. Rio de Janeiro, (2008). Pinheiro J. I. D.; Cunha, S.; Ramirez, S. C.; e Gomes, C. G.

Transcript of Minicurso R SBPO 2010

Page 1: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 161

O software R como instrumentode ensino em Estatiacutestica Baacutesica

Gastatildeo Coelho Gomes gastaoimufrjbr

Joatildeo Ismael Damasceno Pinheiro jismaelimufrjbr Sonia Baptista da Cunha soniaimufrjbr

Santiago Ramiacuterez Carvajal sramirezoicombr

httpwwwr-projectorg

ldquoEstatiacutestica Baacutesica A Arte de Trabalhar com DadosrdquoEd Campus-Elsevier Rio de Janeiro (2008)Pinheiro J I D Cunha S Ramirez S C e Gomes C G

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 261

Porque do minicurso

bull A Estatiacutestica eacute uma ferramenta importante para se obterinformaccedilatildeo de uma massa de dados

bull O R eacute um pacote que oferece vaacuterias funccedilotildees jaacuteimplementadas dos mais variados meacutetodos estatiacutesticos

Aleacutem disso eacute tambeacutem um ambiente de programaccedilatildeoonde se ode usar o ue de bom ele aacute contem ara sedesenvolver novas implementaccedilotildees

bull Ambos a Pesquisa Operacional e o processo dedesenvolvimento de novos aplicativos em Estatiacutesticapodem se beneficiar dessa interaccedilatildeo

bull O que propomos eacute discutir as aplicaccedilotildees no R dosmeacutetodos baacutesicos de anaacutelise estatiacutestica

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 361

1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot

pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)

2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo

3) Cap 2-b Variaacuteveis Aleatoacuterias

Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos

Assuntos abordados no minicurso

relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)

4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal

5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras

6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de

variacircncia (no R ttest chisqtest aov)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461

Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis

constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo

Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c

matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos

gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado

Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561

Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e

p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex

Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira

linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR

Para armazenarmos os dados no objeto tab12 usaremos o comando

tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula

Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661

Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um

primeiro contato com a informaccedilatildeo disponiacutevel

Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel

As variaacuteveis podem ser

Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas

- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de

contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de

nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que

ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores

Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))

pie(table(x)) Os principais argumentos desses comandos satildeo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 2: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 261

Porque do minicurso

bull A Estatiacutestica eacute uma ferramenta importante para se obterinformaccedilatildeo de uma massa de dados

bull O R eacute um pacote que oferece vaacuterias funccedilotildees jaacuteimplementadas dos mais variados meacutetodos estatiacutesticos

Aleacutem disso eacute tambeacutem um ambiente de programaccedilatildeoonde se ode usar o ue de bom ele aacute contem ara sedesenvolver novas implementaccedilotildees

bull Ambos a Pesquisa Operacional e o processo dedesenvolvimento de novos aplicativos em Estatiacutesticapodem se beneficiar dessa interaccedilatildeo

bull O que propomos eacute discutir as aplicaccedilotildees no R dosmeacutetodos baacutesicos de anaacutelise estatiacutestica

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 361

1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot

pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)

2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo

3) Cap 2-b Variaacuteveis Aleatoacuterias

Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos

Assuntos abordados no minicurso

relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)

4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal

5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras

6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de

variacircncia (no R ttest chisqtest aov)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461

Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis

constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo

Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c

matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos

gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado

Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561

Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e

p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex

Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira

linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR

Para armazenarmos os dados no objeto tab12 usaremos o comando

tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula

Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661

Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um

primeiro contato com a informaccedilatildeo disponiacutevel

Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel

As variaacuteveis podem ser

Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas

- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de

contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de

nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que

ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores

Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))

pie(table(x)) Os principais argumentos desses comandos satildeo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 3: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 361

1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot

pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)

2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo

3) Cap 2-b Variaacuteveis Aleatoacuterias

Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos

Assuntos abordados no minicurso

relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)

4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal

5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras

6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de

variacircncia (no R ttest chisqtest aov)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461

Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis

constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo

Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c

matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos

gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado

Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561

Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e

p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex

Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira

linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR

Para armazenarmos os dados no objeto tab12 usaremos o comando

tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula

Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661

Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um

primeiro contato com a informaccedilatildeo disponiacutevel

Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel

As variaacuteveis podem ser

Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas

- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de

contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de

nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que

ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores

Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))

pie(table(x)) Os principais argumentos desses comandos satildeo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 4: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461

Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis

constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo

Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c

matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos

gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado

Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561

Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e

p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex

Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira

linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR

Para armazenarmos os dados no objeto tab12 usaremos o comando

tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula

Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661

Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um

primeiro contato com a informaccedilatildeo disponiacutevel

Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel

As variaacuteveis podem ser

Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas

- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de

contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de

nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que

ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores

Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))

pie(table(x)) Os principais argumentos desses comandos satildeo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 5: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561

Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e

p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex

Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira

linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR

Para armazenarmos os dados no objeto tab12 usaremos o comando

tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula

Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661

Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um

primeiro contato com a informaccedilatildeo disponiacutevel

Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel

As variaacuteveis podem ser

Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas

- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de

contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de

nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que

ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores

Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))

pie(table(x)) Os principais argumentos desses comandos satildeo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 6: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661

Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um

primeiro contato com a informaccedilatildeo disponiacutevel

Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel

As variaacuteveis podem ser

Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas

- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de

contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de

nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que

ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores

Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))

pie(table(x)) Os principais argumentos desses comandos satildeo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 7: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761

barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde

x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio

beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22

xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab

xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)

space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os

Cap1ndashAED barplot pie

col vetor informando as cores das barras Ver apecircndice

pie(x labels = names(x) edges = 200 col=NULL)Onde

x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)

edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este

nuacutemero delados

col vetor informando as cores das barras

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 8: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861

Exemplo

RCQ=c(808686908295928383898184788189877480918685848574768380788587

688387878789878888897877788984) digitar RCQ

rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar

rcqt= table(rcq) tabular

names(rcqt)=c(PRMRGR) nomear as categorias

par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)

pie(rcqt radius=12 col=c(greenbluepink)) graf de setor

Cap1-AED ndash ex table names par pie barplot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 9: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961

Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)

mat1=proptable(mat 2)

par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )

barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

Cap1-AED ndash ex barplot (beside=F)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 10: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061

Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)

colnames(mat)=c(NormalSobrepeso)

barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))

legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

Cap1-AED ndash ex barplot (beside=T)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 11: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161

Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut

que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo

hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)

breaks vetor com os limites das classes

freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda

Cap1ndashAED stem cut table

main tiacutetulo principal

xlab e ylab roacutetulos dos eixos x e y respectivamente

xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis

cut(x breaks right = T ) Onde

x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes

right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda

stem(x hellip)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 12: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt hist(nt breaks=c(50100150200250300350400450500) right=T

main=Histograma Telefonia fixa per capita

xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt

Cap1-AED hist

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 13: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361

Exemploda pag 15 ndash Figura 18

gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182

347515012369214621412573362814071138) digitaccedilatildeo de nt

gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas

0 | 8

1 | 1122244441 | 5689

Cap1 AED ndash ex stem table cut

2 | 011123334

2 | 5

3 | 4

3 | 6

4 |

4 | 5

gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))

[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)

1 9 5 8 1 1 1 0 1

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 14: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461

Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo

gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um

vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos

o comando quantile(xc(02505075))

Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))

Cap1-AED Medidas (estatiacutesticas)

O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser

um vetor Por exemplo

gt quantile(nt c(20 50 95))

20 50 95

1306 1930 3582

Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento

dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais

conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro

e o primeiro quartis

gt var(nt)

[1] 7131464

gt sd(nt)

[1] 84448

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 15: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561

gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92

Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado

Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)

Min 1st Qu Median Mean 3rd Qu Max

860 1410 1930 2002 2330 4570

Cap1-AED IEQ fivenum boxplot

O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)

Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314

8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt

gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 16: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661

Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis

cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)

gt table(CATEG Classe_IMC)Classe_IMC

CATEG normal sobrepesoA 18 4

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas

Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46

gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 17: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761

Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de

dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)

Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees

matemaacuteticas (equivalentes) a seguir

O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)

[1] 09036961

sum sum

sum

sumsum

sum

= =

=

=

=

sdotminussdotminus

sdotsdotminus

=

minussdotminus

minusminus

=n

1i

n

1i

1222

i

22

i

n

1i

ii

122

i

2

i

n

1i

n

1i

ii

xy

)yny)(xnx(

yxnyx

)y(y)xx(

)y)(yx(x

r

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 18: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861

Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa

bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y

pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x

bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo

yxn

n

i

n

i sumsum

O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo

O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)

n

x

x

nyx

b2

n

1i

in

1i

2

i

1i

ii

minus

minus

=

sumsum =

=

=

==

x bya sdotminus=e

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 19: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961

Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande

Simbolicamente P (A) congcongcongcong mn

Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute

onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda

Os comandos no R para a elaboraccedilatildeo do graacutefico

gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 20: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061

Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um

espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do

tipo

Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)

Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais

O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de

comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]

A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]

Se X eacute uma va discreta que assume os valores x 1

x 2

x 3

x N

entatildeo

bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )

bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )

bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 21: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161

Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos

p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel

Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade

r random ndash Gera n valores do modelo probabiliacutestico em questatildeo

As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R

(geom) Binomial negativa- Pascal (nbinom)

Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )

A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 22: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261

Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada

t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois

paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ

Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)

Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal

b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute

o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x

Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 23: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361

Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))

for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)

abline(v=0 h=0)

points(xdexp(x 12) type=l lwd=2 bty=l)

points(x pexp(x 12) lwd=2 type=l)

segments(250 25pexp(2512))

Cap 2-b - va dexp pexp points segments

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 24: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461

Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )

rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics

rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic

Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por

d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )

q quantil correspondente a probabilidade acumulada p dnome (p)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 25: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561

Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da

meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente

Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e

com base nas suas rendas mensais

Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir

Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 26: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661

Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior

O Teorema Central do Limite afirma que independentemente de qual seja a

distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a

distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez

mais uma da outra agrave medida que n cresce

Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema

X n

Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande

Exemplo 62 Simulando o efeito do TCL

Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo

este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre

com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela

expressatildeo

No R rexp(n ) simula n valores

λ

0 xλef(x) λx ge= minusλ

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 27: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761

Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo

Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos

seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn

λ 0 xλef(x) λx ge= minus

Xn n

Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce

a forma do histograma se aproxima cada vez mais de uma curva Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 28: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)

for (i in 1N) medias[i]= mean(rexp(n13))

hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)

x=seq(-110 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

fim da funccedilatildeo

graphicsoff()

par(mfrow=c(33) mai=c(3411))

tclexp(1titulo=n=1)

tclexp(2titulo=n=2)

tclexp(3titulo=n=3)

tclexp(4titulo=n=4)

tclexp(5titulo=n=5)

tclexp(6titulo=n=6)

tclexp(10titulo=n=10yl=c(06))

tclexp(15titulo=n=15yl=c(06))

tclexp(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 29: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

simulaccedilotildees - Exponencial

Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo

TCL com um niacutevel de precisatildeo aceitaacutevelrdquo

A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma

da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a

distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-

grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal

funcionaria adequadamente

No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da

distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a

distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave

Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior

Xn

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 30: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061

Cap 2-c ndash TCL Exemplo

Exponencial

Uniforme

Mistura deNormais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 31: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161

Como se pode observar

1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4

2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais

(C) modelos esses que se afastam muito mais de umldquo rdquo

Cap 2-c ndash TCL Exemplo

mostra mais adequada a partir de n em torno de 10

3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 32: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261

tclunif=function(nN=100titulo= yl=c(0 4))

medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))

hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)

x=seq(-610 02)

points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)

medias

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Uniforme

grap cso

par(mfrow=c(33) mai=c(3411))

tclunif(1titulo=n=1yl=c(06))

tclunif(2titulo=n=2yl=c(06))

tclunif(3titulo=n=3yl=c(06))

tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))

tclunif(6titulo=n=6yl=c(06))

tclunif(10titulo=n=10yl=c(06))

tclunif(15titulo=n=15yl=c(06))

tclunif(20titulo=n=20yl=c(06))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 33: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361

X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras

br=seq(-2 12 5)

tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)

tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)

Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com

as simulaccedilotildees - Mistura de Normais

points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)

par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))

hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)

tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)

tcl2modas(4titulo=n=4)

tcl2modas(5titulo=n=5)

tcl2modas(10titulo=n=10)

tcl2modas(15titulo=n=15)

tcl2modas(25titulo=n=25)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 34: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461

CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer

bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]

θ $θ

$θ$θ

$θ $θ

$

θ

bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)

Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn

uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja

vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α

X[ ] α1dmicroXP minus=leminus

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 35: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561

bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo

P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =

bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute

ICN = function (N n mu sigma = 3 conf)

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l

xlab=Normal ylab=amostras)abline(v=mu)

CAP 3-a) Intervalo de Confianccedila

X

d

minus

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rnorm(n mu sigma)

media = mean(x)

li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotxploty col=red)

else lines(plotxploty)

gt ICN(100 25 3 3 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 36: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661

CAP 3-a) Intervalo de Confianccedila

ICexp = function (N n lambda conf)

mu=1lambda sigma=1lambda

plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)

abline(v= mu)

z0 = qnorm(1-((1-conf)2))

sigmaxbarra = sigmasqrt(n)

for (i in 1N)

x = rexp(nlambda) me a = mean x

li = media - z0 sigmaxbarra

ls = media + z0 sigmaxbarra

plotx = c(lils)

ploty = c(ii)

if (li gt mu | ls lt mu) lines(plotx ploty col=red)

else lines(plotx ploty)

gt ICexp(100 25 13 95)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 37: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761

CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada

caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute

representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido

Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1

denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer

um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais

A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de

decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis

da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de

Rejeiccedilatildeo R da hipoacutetese nula

Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo

Erro I - Rejeitar H0 quando H0 eacute verdadeira

Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]

A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo

pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)

O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de

acordo com os dados observados

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 38: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861

CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0

paired = FALSE varequal = FALSE conflevel = 095 )

Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n

UmaAmostra

DuasAmostras

Obs Os testes acima satildeo bilaterais

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 39: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961

CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)

entre os grupos de comeacutercio e de serviccedilo

LogSal=c(1289156912501344145616361573171309060903

0977122011031069128714101496131113371366

1227119114591280115217401649176524101701

1538192419251721154918911534163812071682

120614232010143112651570)

Sal=exp(LogSal)

setor= c(rep(C23) rep(S23))

ttest(Sal[setor==C] Sal[setor==S] varequal=T)

Two Sample t-test

data Sal[setor == C] and Sal[setor == S]

t = -36822 df = 44 p-value = 00006289

alternative hypothesis true difference in means is not equal to 095 percent confidence interval

-23079005 -06751838

sample estimates

mean of x mean of y3786010 5277552

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 40: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061

CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado

P1=c(6315596455545480598065203660986853

8765647785536980827184605572645564)

P2=c(3638306043466455604343523428837155

8238556767443459605968506254473652)

ttest(P1 P2 alt=greater paired = T)

Paired t-test

data P1 and P2

t = 44176 df = 33 p-value = 5072e-05

alternative hypothesis true difference in means is greater than 0

95 percent confidence interval

0716695 Inf

sample estimates

mean of the differences

1161765

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 41: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest

pag233- teste Quiquadrado -

tcont=matrix(c(683585251530258 7461761220225) 72)

chisqtest(tcont)

Pearsons Chi-squared test

data tcont- = = - lt -

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 42: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261

CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )

pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos

A=c(444943514475425134305342453630

322133421040395246294247453959)

B=c(343640545953445432686954414647

6566455739)

C=c(574040364566395025212927283942

21304143294244582849)

aumentoP=c(ABC)

racao=c(rep(A30)rep(B20) rep(C25))

summaryaov(aov(aumentoP ~ racao))

Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425

Residuals 72 98666 1370

---

Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1

Warning message

In modelmatrixdefault(mt mf contrasts)

variable racao converted to a factor

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 43: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361

ApecircndicesA-1) Apresentaremos aqui algumas figuras

feitas no R na elaboraccedilatildeo do livro

Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto

A-2) Resumo de comandosa) Criaccedilatildeo de dados

b) Informaccedilatildeo de uma Variaacutevel

c) Seleccedilatildeo de dados e manipulaccedilatildeo

d) Estatiacutesticas e operaccedilotildees matemaacuteticas

e) Corte e extraccedilatildeo de dados

f) Operaccedilatildeo com Matrizes

g) Graacuteficos (Plotting)

h) Teste de hipoacuteteses

i) Programming

j) Commandos auxiliaries em Graacuteficos

k) Comando par (Graphical parameters)

l) Input and output

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 44: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461

A1) ndash Pag 14 ndash Figura 15

IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)

IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)

par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees

main= col=grey right = F)hist(IMC breaks=c(200225250275300325)

ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 45: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561

A1) ndash Pag 44 ndash Figura 21

mat=matrix(c(81823913601818608740)32)

rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)

col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 46: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661

A1) ndash Pag 48 ndash Figura 22

mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)

rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos

26 a 30 anos 31 a 40 anos) xlab=Contagem)

barplot(mat1 beside=F xlab=Percentagem)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 47: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761

A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687

09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823

0147764068011818941403474539680150133247023685518102146187520214097090257291227

036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita

ylab=Telefonia Fixa per capita)

abline(lsfit(xy))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 48: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861

A1) ndash Pag 109 ndash Figura 45

x=020

y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 49: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961

A1) ndash Pag 118 ndash Figura 412

x=seq(010001)

plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 50: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061

A1) ndash Pag 163 ndash Figura 68

plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=

cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)

x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)

axis(1 916 cexaxis=9) ax s seq cexax s=

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 51: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161

A1) ndash Pag 198 ndash Figura 78

x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 52: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261

A2ndashResumo de comandos

a)Criaccedilatildeo de dados

c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo

seq(fromtoby) gera uma sequecircncia by= especifica incremento

length= especifica um comprimento desejado

rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada

elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2

matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x

rbind()combina vetores em linhas num estrutura de matrizes de dados

cbind()combina vetores em colunas num estrutura de matrizes de dados

array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)

elementos de x se reciclam caso x natildeo seja suficientemente grande

factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando

o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees

dataframe() criar um banco de dados Por exemplo

dataframe(v=14ch=c(gBcasad)n=5)

list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 53: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361

A2ndashResumo de comandos

b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x

dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto

nrow(x) nuacutemero de linhas

ncol(x) nuacutemero de colunas

c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n

resultando n [(n-k) k]

cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de

corte ou um vetor com os valores especiacuteficos

table(x) retorna uma tabela com as quantidades dos diferentes valores de x

(tipicamente para variaacuteveis dos tipos inteiros ou fatores)

sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo

proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo

marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)

sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem

decrescente rev(sort(x))

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 54: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461

A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x

median(x) mediana dos elementos de x

quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)

se x eacute uma matriz a matriz de covariacircncia eacute calculada

sd(x) desvio padracirco de of x

cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)

cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes

round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x

prod(x) multilica os elementos de x

max(x) acha o maacuteximo dos elementos de x

min(x) acha o miacutenimo dos elementos de x

range(x) equivalente a c(min(x)max(x)

cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]

cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]

sincostanasinacosatanatan2loglog10exp)

log(x base) calcula o logaritmo de x na base=base

weightedmean(x w) media ponderada de x com peso= w

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 55: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561

A2ndashResumo de comandos

e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores

x[n] n-eacutesimo elemento do vetor

x[-n] todos menos o n-eacutesimo elemento

x[1n] os primeiros n elemento

x[-(1n)] elementos de n+1 ateacute o final

x[c(432)] elementos especificados

x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5

x x gt 3 amp x lt 5 todo elementos entre 3 e 5

x[nome] elemento denominado nome

indexaccedilatildeo de Matrizes

x[ij] elemento na linha i coluna j

x[i] linha i

x[j] coluna j

x[c(13)] colunas 1 and 3

x[nome] linha nomeada nome

indexaccedilatildeo de data frames

x[[nome]] coluna chamada nome

x$nome equivalente a coluna chamada nome

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 56: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661

A2ndashResumo de comandos

f) Operaccedilatildeo com Matrizest(x) transposta da matrix x

diag(x) retira a diagonal da matrix x

multiplicaccedilatildeo matricial

solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x

solve(a) matriz inversa de a

rowSum(x) soma das linhas da matrix x

colSum(x) soma das colunas da matrix x

rowMeans x meacutedia das linhas da matrix x

colMeans(x) id meacutedia das colunas da matrix x

g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos

coordenadoshist(x) histogram dasfrequecircncias of x

barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal

pie(x) graacutefico de setores (pie-chart)

boxplot(x)

qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 57: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761

A2ndashResumo de comandosparametros dos commando de Graacutefico

type=p especifica o tipo de plot p pontos l linhas b pontos

ligados por linhas o idecircntico mas as linhas passam sobre os pontos h

linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais

xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)

xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter

main= tiacutetulo principal deve ser do tipo caracter

sub= sub-tiacutetulo (escrito em fonte menor)

podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt

h) Teste de hipoacuteteses

ttest()proptest()

chisqtest()

aov(formula) analysis of variance model

anova(fit) analysis of variance (or deviance) tables for one or more

fitted model objects

Use o commando gt test para procurar todos os testes disponiacuteveis

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 58: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861

A2ndashResumo de comandos

i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo

return(value)

if(cond) expr

if(cond) consexpr else altexpr

for(var in seq) expr

while(cond) expr

re eat ex r

break

Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 59: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961

A2ndashResumo de comandos

j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)

lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute

plot(x y type=n) text(x ynames)

segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)

arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto

(x0 y0) ao (x1 y1)

abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a

abline(v=x) desenha uma reta vertical em x

abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)

rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)

polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y

legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos

dada pela legend

title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo

axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)

box()desenhar uma caixa em torno do plot

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 60: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061

A2ndashResumo de comandos

k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que

especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico

mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas

mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)

bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo

o l 7 c u ou se bt =n a caixa natildeo eacute desenhada

lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2

lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25

ps um inteiro que controla o tamanho em pontos de textos e siacutembolos

pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado

Page 61: Minicurso R SBPO 2010

7232019 Minicurso R SBPO 2010

httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161

A2ndashResumo de comandos

l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a

partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a

primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros

readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas

readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees

readfwf(filewidthsheader=FALSEsep= asis=FALSE)

ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos

sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando

sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a

conversatildeo para banco de dados

save(file) guarda os objetos especificados () no formato XDR

load()carregar o conjunto de dados salvos com o comando save

data(x) carrega um conjunto de dados especificado