INTRODUÇÃO À PROBABILIDADE - Matematica do...

Projecto REANIMAT

INTRODUÇÃO À PROBABILIDADE

I

Luísa Canto e Castro Loura

Maria Eugénia Graça Martins

Departamento de Estatística e Investigação Operacional Faculdade de Ciências da Universidade de Lisboa

Junho 2003

ÍNDICE Capítulo 1 – INTRODUÇÃO À PROBABILIDADE .......................................................................... 1

1.1 – Introdução .......................................................................................................... 3

1.2 – Probabilidade e Estatística ................................................................................ 6

1.3 – Experiência aleatória. Espaço de resultados. Acontecimentos ........................ 8

1.3.1 – Operações com acontecimentos ............................................................. 16

Capítulo 2 – MODELOS DE PROBABILIDADE ............................................................................ 19

2.1 – Modelos de Probabilidade em espaços finitos ................................................ 21

2.1.1 – Introdução ........................................................................................... 21

2.1.2 – Modelos de Probabiliddae em situações de simetria.

Regra de Laplace ............................................................................... 25

2.2 – Aproximação frequencista de Probabilidade ................................................... 30

2.3 – Definição axiomática de Probabilidade ............................................................ 34

2.4 – Consequências da definição axiomática de Probabilidade ............................. 37

2.5 – Probabilidade condicional e independência .................................................... 43

Capítulo 3 – MODELOS DE PROBABILIDADE DISCRETOS E CONTÍNUOS ............................ 59

3.1 – Introdução. Variável aleatória .......................................................................... 61

3.2 – Modelos de probabilidade discretos. Função massa de probabilidade ........... 65

3.2.1 – Distribuição de probabilidades versus distribuição de frequências .... 67

3.2.2. – Valor médio e desvio padrão de uma variável aleatória discreta ...... 69

3.2.2.1 – Valor médio de uma variável aleatória discreta .................. 69

3.2.2.2 – Desvio padrão de uma variável aleatória discreta .............. 74

3.2.3 –Modelo Binomial............................................................................................. 75

3.3 – Modelos de Probabilidade contínuos. Função densidade de Probabilidade ... 79

3.3.1 – Histograma versus função densidade ................................................ 79

3.3.2 – Modelo Normal ou Gaussiano ............................................................ 85

Anexo 1 ........................................................................................................... 91

Bibliografia ........................................................................................................... 92

Introdução à Probabilidade 1

Junho 2003

1. Introdução à Probabilidade


Junho 2003


Junho 2003

1.1 - Introdução

Todos os dias somos confrontados com situações, que nos conduzem a utilizar, intuitivamente, a

noção de Probabilidade. Nos mais variados aspectos da nossa vida, está presente a incerteza:

dizemos que existe uma pequena probabilidade de ganhar o totoloto;

dizemos que existe uma grande probabilidade de chover num dia carregado de nuvens;

o político interroga-se sobre qual a probabilidade de ganhar as próximas eleições;

o aluno interroga-se sobre qual a probabilidade de obter positiva num teste de perguntas com

resposta múltipla, para o qual não estudou e responde sistematicamente ao acaso;

o médico pretende saber se um medicamento novo tem maior probabilidade de cura que o

medicamento habitual, para tratar determinada doença;

o comerciante pretende saber se deve rejeitar um determinado carregamento de material,

pois ao verificar um certo número de peças, encontrou uma determinada percentagem de

defeituosas;

o fabricante desejaria saber se um produto que pretende lançar no mercado, terá uma boa

probabilidade de aceitação;

o corretor da bolsa interroga-se sobre se será provável que umas acções que tem em vista,

aumentem de cotação.

Embora não saibamos, para já, atribuir um valor numérico às probabilidades de realização dos

acontecimentos envolvidos nos exemplos anteriores, há situações em que não temos dúvidas

nessa atribuição. Por exemplo, ninguém hesita em afirmar que a probabilidade de um bebé

nascer com dentes é igual a zero, assim como também não terá dúvida em dizer que é igual a 1

a probabilidade de num dia em que está a chover, haver nuvens! Por outro lado, quando se

pretende tomar uma decisão ao acaso, para a qual existem duas opções, e não se sabe qual

escolher, também é usual tomar a decisão mediante o resultado da saída de cara ou coroa, no

lançamento de uma moeda ao ar, pois existe a convicção que a probabilidade de sair cara ou

coroa são iguais a 1/2.

No dia a dia é comum atribuirmos probabilidades a determinados acontecimentos. Ao fazer isto,

não estamos mais que a exprimir o nosso grau de convicção na realização desses

acontecimentos. Podíamos então ser tentados a definir probabilidade de um determinado

acontecimento como uma medida da convicção que temos na realização desse acontecimento.

Mas claro, não nos podemos ficar por aqui. Este conceito tão simples só por si é demasiado

precário para ser útil à Ciência. Há necessidade de ir muito mais longe, já que não havendo mais

do que meras conjecturas e convicções, diferentes com certeza de indivíduo para indivíduo, e


Junho 2003

quantas vezes incoerentes, não é possível fazer teoria. Há assim necessidade de saber como

quantificar aquela “medida de convicção” relativamente a qualquer acontecimento. Se em certas

situações (como a relacionada com o lançamento de uma moeda) não temos dificuldade, há

outras em que isso já se não nos afigura simples, ou por falta de informação, ou por mera

incapacidade devido, por exemplo, à própria complexidade de que o acontecimento se reveste.

Sabemos, se não por convicção, pelo menos pela própria experiência, que a probabilidade de

nos sair o totoloto na próxima vez que jogarmos é extremamente pequena. Mas, quantas

pessoas que não tenham estudado cálculo das probabilidades são capazes de atribuir um

número a essa probabilidade? Já em face de um dado equilibrado, somos levados a dizer que a

probabilidade de sair um 5 num lançamento é 1/6. Porque é que fazemos tal afirmação? Somos,

no entanto, capazes de ficar perplexos quando alguém nos afirma que estudos estatísticos

indicam que a probabilidade de contrair cancro de pulmão, se se fumar mais de 20 cigarros por

dia, é de 7%. Com que base é que se pode fazer uma afirmação desta natureza?

Digamos que, com os dois exemplos apresentados, quantificámos a probabilidade de um

acontecimento por dois processos distintos. No segundo caso, a quantificação da probabilidade

de contrair cancro de pulmão se se fumar mais de 20 cigarros, foi feita recorrendo à experiência,

identificando empiricamente a probabilidade de um acontecimento com a frequência relativa com

que esse acontecimento se observa numa amostra representativa da população em estudo. Em

termos estatísticos “estimámos” a probabilidade (desconhecida) da realização de um

acontecimento pela frequência relativa com que esse acontecimento se verifica. No primeiro

caso, o do dado equilibrado, o raciocínio é feito com base no facto de haver uma possibilidade

em 6 de, ao lançar o dado uma vez, se observar a face 5. Não precisámos da experiência para

quantificar a probabilidade, já que estamos a admitir o pressuposto da simetria ou de equilíbrio

(este pressuposto da simetria é a base para a definição de probabilidade segundo o “conceito

clássico” ou de Laplace, de que falaremos posteriormente), isto é, estamos a admitir que devido

à simetria física do dado, não temos razão para atribuir probabilidade diferente à saída de cada

face.

Imaginemos, no entanto, que estávamos a jogar um determinado jogo que obrigava ao

lançamento de um dado e que a saída da face 5 implicava um bónus. Depois de jogarmos um

grande número de vezes descobríamos que a face 5 quase nunca saía. O nosso senso comum

levava-nos a supor que “algo estava errado com o dado”. Como poderíamos averiguar isso?

Lançando o dado um grande número de vezes, digamos n, e calculando a frequência relativa da

realização do acontecimento de interesse, isto é, “saída de um 5”. Estimávamos assim a

probabilidade de no lançamento daquele dado sair a face 5. A intuição diz-nos que se não

houver nada de errado com o dado, este valor deve flutuar à volta de 0.166(6).


Junho 2003

A palavra probabilidade está presente sempre que estivermos perante um fenómeno aleatório,

isto é, um fenómeno para o qual não sabemos de antemão o que vai acontecer, na próxima

repetição, mas para o qual se admite uma certa regularidade a longo termo, ou seja, para um

grande número de repetições do fenómeno. Esta regularidade estatística é utilizada para definir

a probabilidade segundo o “conceito frequencista”, de que falaremos a seguir. Como veremos, é

uma aproximação conceptual da probabilidade, muito utilizada, mas limitativa, na medida em que

só permite definir a probabilidade de acontecimentos que se possam repetir um grande número

de vezes nas mesmas condições.

Fenómenos aleatórios – são fenómenos cujos resultados individuais são incertos, mas para os

quais se admite uma regularidade a longo termo, possibilitando a obtenção de um padrão

genérico de comportamento.

Associados às seguintes experiências ou situações temos os seguintes exemplos de fenómenos,

considerados aleatórios:

Chave do totoloto em cada semana;

Resposta de uma doença a um tratamento feito com determinado medicamento;

Estado do tempo no dia seguinte;

Comportamento dos eleitores nas próximas eleições legislativas;

Comportamento de um aluno no exame de resposta múltipla, para o qual não estudou;

Comportamento do mercado perante um produto novo para lavar a roupa;

Etc.

É importante apercebermo-nos do que é que significa a regularidade a longo termo de que

falámos anteriormente.

Será que o acaso pode ser governado? Então não estamos a admitir que a longo termo é

possível obter um padrão genérico de comportamento do fenómeno aleatório?

Efectivamente, quando observamos o fenómeno em estudo um número suficientemente grande

de vezes verifica-se um comportamento que pode ser modelado, isto é podemos arrranjar um

modelo para exprimir a aleatoriedade. Mas atenção! Esta regularidade não existe a não ser a

longo termo!

Exemplo 1.1.1 – Na situação comum do lançamento de uma moeda ou de um dado, não

podemos dizer qual a face que sai no próximo lançamento. No entanto se lançarmos a moeda ou

o dado um número razoável de vezes, esperamos que aproximadamente metade das vezes saia

cara e aproximadamnete um sexto das vezes saia a face 1 do dado. Suponha agora que lança a


Junho 2003

moeda 8 vezes e que obteve a seguinte sequência (representamos a cara por F e a coroa por

C):

C, F, C, C, F, F, F, F

Se lançar novamente a moeda, o que é que espera que saia? Embora lhe apetecesse dizer que

no próximo lançamento é mais provável que saia coroa (C), para equilibrar o número de caras

com o número de coroas, na verdade no próximo lançamento tanto pode sair cara como coroa,

já que os sucessivos lançamentos da moeda são independentes uns dos outros (a moeda não

tem memória…).

Exemplo 1.1.2 (adaptado de Moore, 1997) – A regularidade a longo termo se não for bem

compreendida, pode acarretar alguns dissabores! Foi o que aconteceu com aquele casal que

tinha planeado ter 4 filhos. Depois de nascerem 4 raparigas, e na expectativa de terem um

rapazinho, ainda tentaram mais 3 vezes e ficaram com uma linda equipa de 7 raparigas! Depois

destas 7 raparigas o médico assegurou-lhes que era praticamente certo que o bebé seguinte

fosse rapaz. Infelizmente para este casal, os fenómenos aleatórios que consistem em ter mais

uma criança ou lançar mais uma vez a moeda, são idênticos. Efectivamente 8 raparigas de

seguida, é muito improvável, mas uma vez nascidas 7 raparigas, não é de todo improvável que o

próximo bebé fosse rapariga – e era!

O objectivo da Teoria da Probabilidade é o estudo dos fenómenos aleatórios, através de

modelos matemáticos, a que chamamos modelos probabilísticos.

1.2 - Probabilidade e Estatística

Será possível fazer Estatística sem utilizar a Probabilidade? De um modo geral não! A maior

parte das vezes em que é necessário utilizar técnicas estatísticas, estamos perante situações em

que é necessário fazer inferência estatística, isto é, pretendemos tirar conclusões para um

grande conjunto de indivíduos (População), a partir do estudo de um número restrito desses

indivíduos (Amostra). Assim, quando a partir do estudo de uma amostra pretendemos inferir para

a população de onde a amostra foi recolhida, existe sempre um grau de incerteza, associado à

aleatoriedade da escolha da amostra, que é medido em termos de Probabilidade. Alguns

exemplos ajudar-nos-ão a desenvolver esta ideia.

Exemplo 1.2.1 – Admita que tem uma moeda equilibrada. Mas o que é uma moeda equilibrada?

É aquela em que estamos a admitir, à partida, que existe igual possibilidade de sair cara ou

coroa no próximo lançamento que façamos com ela – estamos a admitir o princípio da simetria,


Junho 2003

de que falámos anteriormente. Estamos, assim, a admitir, na nossa cabeça, um modelo

matemático em que assumimos que em qualquer lançamento da moeda, a probabilidade de sair

cara é igual à de sair coroa e igual a 1/2:

Modelo para o resultado do lançamento da moeda equilibrada

Resultado Cara (F) Coroa (C)

Probabilidade 1/2 1/2

Não nos estamos a preocupar, por exemplo, com a força ou direcção com que atiramos a

moeda, nem tão pouco com o desgaste acusado pela moeda após sucessivos lançamentos!

Também não estamos a encarar a hipótese da moeda cair de pé! Se nos estivéssemos a

preocupar em arranjar um modelo que traduzisse mais fielmente a realidade, estaríamos a

arranjar um modelo matemático tão complicado que seria impossível de tratar e não nos serviria

para nada. O estatístico George Box dizia:

Todos os modelos são maus, alguns modelos são úteis.

Assumindo então o modelo anterior, um pouco simplista, para o lançamento da moeda, se

lançarmos a moeda repetidas vezes, esperamos que o número de caras seja aproximadamente

metade do número de lançamentos. Se, por outro lado, recolhermos uma amostra de dimensão

1, isto é, fizermos um único lançamento, não sabemos qual o resultado que se vai verificar, se

será cara ou coroa, mas dizemos que a probabilidade de sair cara é 1/2.

Suponha agora que não podíamos invocar o princípio da simetria, isto é, não sabíamos se a

moeda era equilibrada. Neste caso a População que estamos a estudar não é completamente

conhecida, pois conhecemos os resultados possíveis em cada lançamento, mas não

conhecemos as suas probabilidades - o modelo não está completamente especificado. Como

obter alguma informação, para especificar um modelo para o lançamento da moeda? Um modo

possível de obter mais alguma informação sobre o modelo probabilístico é proceder a um certo

número de lançamentos e calcular a frequência relativa da saída de cara, nos lançamentos

efectuados. Este valor vai-nos servir para estimar a probabilidade da saída de cara. Por

exemplo, se em 1000 lançamentos se obtiveram 324 caras, dizemos que um valor aproximado

para a probabilidade de se verificar cara é 0.324 (ao fim de 1000 lançamentos verificou-se uma

certa estabilidade à volta deste valor) e o valor aproximado para a probabilidade de sair coroa

será 0.676.


Junho 2003

O comportamento de grandes grupos de indivíduos, pode ser também considerado aleatório e o

processo utilizado para definir um modelo, é o de verificar o que é que se passa com um grande

conjunto de indivíduos.

Exemplo 1.2.2 (Moore, 1997) – Se nos perguntassem qual a probabilidade de uma determinada

pessoa morrer no próximo ano, obviamente que não saberíamos dizer. No entanto, se

observarmos milhões de pessoas, poderemos obter um padrão para o comportamento das

mortes. É assim que poderemos dizer que a proporção de homens, com idades compreeendidas

entre 25 e 34 anos, que morrerão no próximo ano, anda à volta de 0.0021. Esta proporção,

verificada para um conjunto grande de indivíduos, será entendida como a probabilidade de que

um homem jovem morra no próximo ano. Para as mulheres com aquela idade, a probabilidade

de morrer será cerca de 0.0007. Estamos, a partir da observação de resultados verificados numa

amostra, a inferir para toda a população constituída pelos indivíduos da classe etária

considerada. Estes modelos têm muito interesse para as companhias de seguros, quando se

trata nomeadamente de seguros de vida, já que lhes vai permitir definir uma política de preços

para as apólices, sendo até natural que cobrem mais por um seguro de vida a um homem, do

que a uma mulher.

Com os exemplos anteriores tentámos exprimir o papel relativo da Probabilidade e da Estatística.

Enquanto que ao assumirmos um determinado modelo de probabilidade – População conhecida,

o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a raciocinar do geral para o

particular, isto é, da População para a Amostra, quando a População não é conhecida utilizamos

a Estatística para fazer raciocínios no sentido inverso, isto é, inferir para a População resultados

observados na Amostra.

Para formalizarmos um pouco o conceito de Probabilidade, vamos introduzir alguma terminologia

própria.

1.3 Experiência aleatória. Espaço de resultados.

Acontecimentos.

Dissemos anteriormente que o objectivo da Teoria da Probabilidade é o de estudar fenómenos

aleatórios, construindo modelos matemáticos, a que chamamos modelos de probabilidade, que

os possam descrever convenientemente. A noção mais básica para a formalização desta teoria é

a de experiência aleatória.


Junho 2003

Experiência aleatória – é o processo de observar um resultado de um fenómeno aleatório. Numa

experiência aleatória obtém-se um resultado, de entre um conjunto de resultados conhecidos de

antemão, mas não se tem conhecimento suficiente de qual o resultado que sai em cada

realização da experiência. Admite-se ainda que a experiência se pode repetir e que as

repetições são realizadas nas mesmas circunstânciias e são independentes.

Ao conjunto de todos os resultados possíveis associados à realização de uma experiência

aleatória chamamos espaço de resultados ou espaço amostral.

Espaço de resultados S – conjunto cujos elementos são os que consideramos como possíveis,

ao modelar um fenómeno aleatório.

Exemplos de experiências aleatórias e de espaços de resultados associados:

Exemplo 1.3.1 – Considere a experiência aleatória que consiste em perguntar à primeira pessoa

que encontrar na rua, num determinado dia, ao sair de casa, qual o seu estado civil. O espaço de

resultados é constituído pelos resultados

S = {Solteiro(a), casado(a), viúvo(a), divorciado(a)}

Exemplo 1.3.2 – Considere a experiência aleatória que consiste em perguntar a duas pessoas

escolhidas ao acaso, de uma dada cidade, quem ganha o próximo jogo Benfica – Sporting. Um

conjunto que parece sensato escolher como espaço de resultados é

S = {(Benfica, Benfica), (Benfica, Sporting), (Benfica, Empate), (Sporting, Benfica), (Sporting,

Sporting), (Sporting, Empate), (Empate, Benfica), (Empate, Sporting), (Empate, Empate)}

Exemplo 1.3.3 – Considere a experiência aleatória que consiste em, ao acordar num

determinado dia, ir à janela e contar o número de carros encarnados que passam, num período

de 5 minutos. O espaço de resultados é constituído pelos resultados

S = {0, 1, 2, 3, …}

Exemplo 1.3.4 – Quantidade de chuva que é medida, num determinado dia, pelo Instituto de

Meteorologia, na estação do Aeroporto da Portela. O espaço de resultados é constituído pelos

resultados

S = {t: t ≥0 } = [0, +[


Junho 2003

Como se depreende dos exemplos anteriores, podemos ter espaços de resultados finitos,

infinitos numeráveis ou infinitos não numeráveis.

Acontecimento – é um conjunto de resultados de uma experiência aleatória, isto é, é um

subconjunto do espaço de resultados S.

Aos acontecimentos constituídos por um único resultado, chamamos acontecimentos

elementares.

Exemplo 1.3.5 (Graça Martins et al, 1999) - Considere a experiência aleatória que consiste em

lançar dois dados1 e verificar as faces que ficam voltadas para cima. Identifique um

2 espaço de

resultados e os acontecimentos “o número de pintas é igual nos dois dados” e “a soma das

pintas é 7”.

Para descrever um espaço de resultados vamos considerar dois dados, um preto e um branco,

para os distinguir. Neste contexto, o espaço de resultados é constituído por todos os pares de

dados considerados na figura a seguir. O número de elementos do espaço de resultados é 36 =

6 6.

O espaço anterior pode ser descrito de forma mais sintética considerando os pares ordenados

(i,j), onde representamos por i o número de pintas do dado 1, ou seja do dado preto, e por j o

número de pintas do dado 2, ou seja do dado branco:

S = {(i,j): i=1,2,...,6; j=1,2,...6} = {1, 2, 3, 4, 5, 6}2

1 No texto, um dado é constituído por 6 faces, com 1, 2, 3, 4, 5 ou 6 pintas, a menos que seja explicitamente referido o

contrário. 2 O espaço de resultados associado à experiência aleatória em causa vai ser escolhido de forma

a que os resultados sejam equiprováveis, o que torna possível a utilização da regra de Laplace, como veremos posteriormente. Um espaço de resultados não equiprováveis seria S = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,2), (2,3), (2,4), (2,5), (2,6), (3,3), (3,4), (3,5), (3,6), (4,4), (4,5), (4,6), (5,5), (5,6), (6,6)}, construído admitindo que os dados não são distinguíveis.


Junho 2003

Chamamos a atenção que, por exemplo, o par (1,3) não é o mesmo que o par (3,1). No par

ordenado, o primeiro elemento refere-se a um dos dados (neste caso o dado preto) e o segundo

elemento refere-se ao outro dado (o dado branco).

O acontecimento “o número de pintas é igual nos dois dados” é constituído pelos pares

assinalados na figura seguinte, por uma linha a tracejado:

ou em notação em termos dos pares ordenados

A = { (1,1), (2,2), (3,3), (4,4), (5,5), (6,6)}

Finalmente o acontecimento “a soma das pintas é 7” é constituído pelos pares assinalados na

figura seguinte

ou em notação em termos dos pares ordenados

B = {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}

Qual a diferença entre o espaço de resultados associado à experiência aleatória do lançamento

de dois dados e a experiência que consiste no lançamento do mesmo dado duas vezes? Não

existe diferença, o espaço de resultados é idêntico nas duas experiências. Considerámos dados


Junho 2003

de cores distintas para justificar a nossa opção para descrever S como um conjunto de pares

ordenados, mas é óbvio que este mesmo espaço serve para modelar o lançamento de dois

dados idênticosou dois lançamentos de um mesmo dado.

Nota – Associado à experiência que acabámos de descrever no exemplo anterior, poderíamos

ter considerado o seguinte espaço de resultados:

S = { saírem dois 1’s, sair um 1 e um 2, sair um 1 e um 3, sair um 1 e um 4, sair um 1 e um 5,

sair um 1 e um 6, saírem dois 2’s, sair um 2 e um 3, sair um 2 e um 4, sair um 2 e um 5, sair um

2 e um 6, saírem dois 3’s, sair um 3 e um 4, sair um 3 e um 5, sair um 3 e um 6, saírem dois 4’s,

sair um 4 e um 5, sair um 4 e um 6, saírem dois 5’s, sair um 5 e um 6, saírem dois 6’s}

Qual a desvantagem em considerar este espaço de resultados? Como veremos mais à frente, se

o espaço de resultados for constituído por resultados igualmente possíveis, o que não acontece

nesta situação, podemos utilizar a regra de Laplace, para atribuir probabilidades a

acontecimentos associados ao fenómeno em estudo.

Exemplo 1.3.6 (Graça Martins et al, 1999) - Se lançar 3 dados e verificar as faces que ficam

voltadas para cima, como é constituído o espaço de resultados associado a esta experiência

(admita que os 3 dados são distinguíveis)?

Utilizando uma generalização da notação do exemplo anterior, o espaço de resultados será

constituído por todos os triplos (i, j, k), em que o i, j e k, podem assumir os valores de 1 a 6. O i

refere-se a um dos dados, por exemplo o 1º a ser lançado, ou se os quisermos distinguir a um

dado preto, o j refere-se ao 2º dado a ser lançado, ou a um dado branco e finalmente o k refere-

se ao 3º dado a ser lançado, ou a um dado vermelho. O número de elementos do espaço de

resultados, ou seja, o número de resultados possíveis é 216 = 6 6 6.

Nota histórica (Statistics, 1991) - No século XVII, os jogadores italianos costumavam fazer apostas sobre o

número total de pintas obtidas no lançamento de 3 dados. Acreditavam que a possibilidade de obter um total de 9 era igual à possibilidade de obter um total de 10. Por exemplo, diziam que uma combinação possível para dar um total de 9 seria

1 pinta num dos dados, 2 pintas num outro dado, 6 pintas no terceiro dado Abreviando o resultado anterior para “1 2 6”, todas as combinações para dar o 9 são:

1 2 6 1 3 5 1 4 4 2 3 4 2 2 5 3 3 3 Analogamente, obtinham 6 combinações para o 10:

1 4 5 1 3 6 2 2 6 2 3 5 2 4 4 3 3 4 Assim, os jogadores argumentavam que o 9 e o 10 deveriam ter a mesma possibilidade de se verificarem. Contudo, a experiência mostrava que o 10 aparecia com uma frequência um pouco superior ao 9. Pediram a Galileu que os ajudasse nesta contradição, tendo este realizado o seguinte raciocínio: Pinte-se um dos dados de branco, o outro de cinzento e o outro de preto. De quantas maneiras se podem apresentar os três dados depois de lançados? O dado branco pode apresentar 6 possibilidades diferentes. Para cada uma destas possibilidades o dado cinzento pode apresentar 6 possibilidades, obtendo-se 6 6 possibilidades


Junho 2003

para os dois dados. Correspondendo a cada uma destas possibilidades, o dado preto pode apresentar 6 possibilidades obtendo-se no total 6 6 6 = 216 possibilidades. Galileu listou todas as 216 maneiras de 3 dados se apresentarem depois de lançados. Depois percorreu a lista e verificou que havia 25 maneiras de obter um total de 9 e 27 maneiras de obter um total de 10. O raciocínio dos jogadores não entrava em linha de conta com as diferentes maneiras como os dados se podiam apresentar. Por exemplo o triplo “3 3 3”, que dá o 9, corresponde unicamente a uma forma de os dados se apresentarem, mas o triplo “3 3 4” que dá o 10, corresponde a 3 maneiras diferentes:

pelo que o raciocínio dos jogadores deve ser corrigido de acordo com a tabela seguinte:

Triplos para o 9 Nº de maneiras Triplos para o 10 Nº de maneiras de obter o triplo de obter o triplo

1 2 6 6 1 4 5 6 1 3 5 6 1 3 6 6 1 4 4 3 2 2 6 3 2 3 4 6 2 3 5 6 2 2 5 3 2 4 4 3 3 3 3 1 3 3 4 3

Total 25 Total 27

Tem especial interesse em Estatística os modelos probabilísticos associados a situações de

amostragem, isto é, situações em que se escolhe de forma aleatória alguns indivíduos de uma

certa população.

Extracções com reposição e sem reposição

Colocaram-se (Graça Martins et al, 1999) numa caixa 3 papéis com o nome de 3 meninas: Ana,

Maria e Filipa. Considere a experiência aleatória que consiste em retirar da caixa 2 papéis e

verificar os nomes que saíram. Qual o espaço de resultados? Para responder a esta questão é

necessário saber se a extracção se faz com reposição, isto é, se uma vez retirado um papel e

verificado o nome se volta a colocar o papel na caixa, antes de proceder à extracção seguinte,

ou se a extracção é feita sem reposição, isto é, uma vez retirado um papel, ele não é reposto

antes de se proceder à próxima extracção. No esquema seguinte procuramos representar as

duas situações.


Junho 2003

Admitimos que na 1ª extracção saiu o papel com o nome da Maria. Na 2ª extracção, saiu o nome

da Filipa nos dois casos, mas na extracção com reposição havia uma possibilidade em três de

ele sair, tal como na 1ª extracção, enquanto que na extracção sem reposição havia uma

possibilidade em duas de ele sair. Quer dizer que neste caso havia uma maior probabilidade de

sair o nome da Filipa. Os espaços de resultados Sc e Ss correspondentes às duas situações com

reposição e sem reposição, são respectivamente:

Sc = {(Ana, Ana), (Ana, Maria), (Ana, Filipa), (Maria, Ana), (Maria, Maria), (Maria, Filipa), (Filipa,

Ana); (Filipa, Maria), (Filipa, Filipa)}

Ss = {(Ana, Maria), (Ana, Filipa), (Maria, Ana), (Maria, Filipa), (Filipa, Ana), (Filipa, Maria)}.

O acontecimento “saiu o nome da Maria” é constituído pelos seguintes resultados, considerando

a extracção com reposição e sem reposição, respectivamente:

Ac= {(Ana, Maria), (Maria, Ana), (Maria, Maria), (Maria, Filipa), (Filipa, Maria)}

e As = {(Ana, Maria), (Maria, Ana), (Maria, Filipa), (Filipa, Maria)}.

Exemplo 1.3.7 - Considere a experiência aleatória que consiste em extrair 2 berlindes, de um

saco com 3 berlindes vermelhos e 2 azuis. Qual é o espaço de resultados?

Para já é necessário saber se a extracção se faz com reposição ou sem reposição. Vamos

considerar as duas situações. Para identificar o espaço de resultados será mais fácil numerar os

berlindes, pelo que vamos numerar os berlindes vermelhos com 1, 2 e 3 e os azuis com 4 e 5.

Com reposição - Quando se retira um berlinde verifica-se a cor e torna-se a repor o berlinde no

saco antes de extrair o próximo. O espaço de resultados é constituído por todos os resultados,

em número de 25, do esquema seguinte:


Junho 2003

Sem reposição - Neste caso o espaço de resultados é constituído por todos os resultados do

espaço do esquema anterior, exceptuando os pares constituídos pelo mesmo berlinde:

O acontecimento “tirar 2 berlindes de cor diferente” é constituído pelos resultados {(1,4), (1,5),

(2,4), (2,5), (3,4), (3,5), (4,1), (4,2), (4,3), (5,1), (5,2), (5,3)} tanto no esquema com reposição,

como sem reposição.


Junho 2003

1.3.1 Operações com acontecimentos

Uma técnica utilizada para visualizar acontecimentos consiste em utilizar um rectângulo para

representar o espaço de resultados e círculos para representar os acontecimentos. A essas

representações chamamos diagramas de Venn. Vamos utilizar esses diagramas para apresentar

a terminologia utilizada quando falamos de acontecimentos.

Assim, representando os acontecimentos por A, B, C, ..., temos:

- Acontecimento Complementar do acontecimento A:

O acontecimento complementar do acontecimento A, representa-se por A ou AC e é o

acontecimento constituído por todos os resultados de S, que não estão em A.

- Acontecimento A implica B

O acontecimento A implica a realização do acontecimento B, quando todo o resultado de A é um

resultado de B; indica-se este facto escrevendo AB.

S

A B

- Acontecimento Intersecção

Intersecção dos acontecimentos A e B, AB, ou (A e B) é o acontecimento que se realiza sse A

e B se realizam simultaneamente.

- Acontecimento União

União dos acontecimentos A e B, AB, ou (A ou B) é o acontecimento que se realiza sse A ou

B se realizam.


Junho 2003

- Acontecimentos Disjuntos

Acontecimentos disjuntos ou acontecimentos mutuamente exclusivos, são acontecimentos

em que a realização de um deles implica a não realização do outro.

- Acontecimento Diferença

Acontecimento diferença entre A e B, A-B, é o acontecimento que se realiza sse A se realiza,

sem que B se realize.

- Acontecimento Impossível

Acontecimento impossível é o acontecimento que resulta da intersecção de acontecimentos

mutuamente exclusivos. Analogamente ao que se passa na teoria dos conjuntos, representa-se

por ( símbolo do conjunto vazio, mas que aqui se lê acontecimento impossível e não

acontecimento vazio). Com esta notação introduzida para o acontecimento impossível, temos:

Se dois acontecimentos são disjuntos, então AB =


Junho 2003


Junho 2003

2. Modelos de Probabilidade


Junho 2003


Junho 2003

2.1 – Modelos de probabilidade em espaços finitos

2.1.1 - Introdução

Dissemos anteriormente que o nosso objectivo é definir modelos de probabilidade para

fenómenos aleatórios, que nos interessem estudar. Em espaços finitos, esta definição implica:

- A identificação de um espaço de resultados;

- Uma forma de atribuir probabilidades a cada um dos resultados, isto é, aos

acontecimentos elementares.

O processo de atribuir probabilidades deve ser tal, que algumas regras básicas devam ser

satisfeitas para todos os modelos. Vamos então considerar as seguintes regras, que são

intuitivas:

Regra 1 – Uma probabilidade deve ser um número entre 0 e 1;

Regra 2 – O conjunto de todos os resultados possíveis tem probabilidade igual a 1;

Admitamos, para já, que tínhamos um processo de definir um modelo de probabilidade. Uma vez

definido esse modelo de probabilidade, como obter a probabilidade de acontecimentos?

Uma vez que um acontecimento é um conjunto de resultados, vamos definir a probabilidade do

acontecimento A, que representamos por P(A), à custa das probabilidades dos resultados qur

compõem A:

Em espaços finitos, a probabilidade de um acontecimento A é a soma das probabilidades dos

acontecimentos elementares que compõem A.

Exercícios:

1. Para cada uma das situações descritas a seguir, diga se constituem, ou não, modelos de

probabilidade. Justifique.

a) Quando se lança uma moeda, P(Cara) = 0.48 e P(Coroa) = 0.52

b) Quando se lança um dado, P(Face 1) = 0.20, P(Face 2) = 0.20,

P(Face 3) = 0.20, P(Face 4) = 0.20, P(Face 5) = 0.20, P(Face 6) = 0

c) Quando se lançam duas moedas, P(Cara, Cara) = 0.25,

P(Cara, Coroa) = 0.25, P(Coroa, Cara) = 0.25, P(Coroa, Coroa) =0.25


Junho 2003

d) Quando se lançam duas moedas, P(Cara, Cara) = 0.30,

P(Cara, Coroa) = 0.30, P(Coroa, Cara) = 0.30, P(Coroa, Coroa) =0.30

e) Quando se lança um dado, P(Face 1) = 0.20, P(Face 2) = 0.30,

P(Face 3) = 0.30, P(Face 4) = 0.20, P(Face 5) = 0.20, P(Face 6) = -0.20

2. O estatístico da equipa de andebol de uma certa escola, com base no historial de jogos

anteriores com o mesmo adversário, sugeriu o seguinte modelo probabilístico para o resultado

final do próximo jogo:

Resultado Vitória Empate Derrota

Probabilidade 0.4 0.1 0.5

O treinador, que acha que a equipa está a atravessar um bom momento de forma, é de opinião

que a probabilidade de Vitória deverá ser igual a 0.6 e não 0.4. Admitindo que a probabilidade de

Empate não se altera, qual é a probabilidade da equipa vir a ser derrotada?

3. Um adepto da equipa anterior apresentou o seguinte modelo para o número de pontos

marcados pela equipa:

Número de pontos De 0 a 10 De 5 a 15 Mais do que 15

Probabilidade 0.3 0.6 0.3

Será que esta tabela representa um modelo probabilístico?

4. Quando questionado para predizer o campeão de basquetebol da Atlantic Coast Conference,

Las Vegas Zeke disse: - A probabilidade da North Carolina ganhar é o dobro da de Duke. Noth

Carolina State e Virginia têm cada um uma probabilidade igual a 0.1 de ganharem, mas a

probabilidade de Duke é o triplo daquela. Mais nenhuma outra equipa tem qualquer chance. Será

que o modelo proposto por Zeke pode ser considerado um modelo de probabilidade para as oito

equipas do encontro? (Moore et al, 1996 )

5. As caixas de Smarties contêm pastilhas de várias cores. Com base no que o fabricante diz,

temos a seguinte tabela, para as probabilidades de obter uma pastilha de cada uma das

seguintes cores, quando seleccionada ao acaso:

Cor Verde Vermelha Amarela Castanha Laranja Roxa

Probabilidade 0.3 0.2 0.2 0.1 0.1 ?

O fabricante esqueceu-se de dizer qual a probabilidade de obter a cor roxa.

a) Proponha uma probabilidade para a cor roxa de forma a obter um modelo de

probabilidade.


Junho 2003

b) Selecciona uma pastilha de uma caixa. A partir do modelo assumido anteriormente,

calcule a probabilidade de a cor ser:

1) Verde ou Vermelha

2) Verde, Vermelha ou Amarela

3) Não ser Laranja

4) Ser Lilás

5) Ser Verde, ou Vermelha, ou Amarela, ou Castanha, ou Laranja ou Roxa

6. Segundo o Census 91 um possível modelo para o número de filhos em famílias

monoparentais é o seguinte:

Número de filhos 0 1 2 3 4 5 Mais do que 5

Probabilidade 0.23 0.38 0.25 0.07 ? ? 0.03

Sabendo que a probabilidade de uma família ter 4 filhos é um valor que está entre 0.01 e 0.02,

entre que valores estará a probabilidade de uma família ter 5 filhos?

7. Segundo o Census 2001, a população portuguesa residente distribui-se segundo o seguinte

modelo:

Continente Açores Madeira

Norte MF

Centro MF

LVT* MF

Alentejo MF

Algarve MF

MF

MF

Probabilidade 0.356 0.227 0.257 0.075 0.038 0.023 0.024

Norte M

Centro M

LVT(1) M

Alentejo M

Algarve M

Açores M

Madeira M

Probabiliddae 0.357 0.226 0.255 0.075 0.039 0.024 0.023

*Lisboa e Vale do Tejo

a) Verifique se os modelos anteriores podem ser considerados modelos de probabilidade

para a distribuição da população residente, quer consideremos indiferentemente o sexo

masculino e feminino ou só o sexo masculino.

b) Escolhendo ao acaso um indivíduo de nacionalidade portuguesa, residente em Portugal,

qual a probabilidade de ser residente:

i) No Continente

ii) Nos Açores ou na Madeira

iii) Fora do Continente

c) Escolhendo um homen ao acaso da população portuguesa, qual a probabiliddae de ser

um homem do Norte?

8. Um aluno do 9° ano de escolaridade pode dar, no máximo, 12 faltas a Matemática. Numa

certa escola fez-se um levantamento do número de faltas dadas a Matemática pelos 125 alunos

do 9° ano, tendo-se obtido


Junho 2003

N° de faltas N° de alunos

0 1

1 6

2 15

3 12

4 20

5 25

6 12

7 5

8 5

9 7

10 5

11 10

12 ?

a) Determine o número de alunos que estão tapados por faltas.

b) Construa um modelo de probabilidade para a variável X que representa o número de faltas

dadas a Matemática por um dos 125 alunos do 9° ano dessa escola, escolhido ao acaso.

c) Com base no modelo da alínea anterior, calcule a probabilidade de um aluno ter menos de 3

faltas ou mais de 10.


Junho 2003

2.1.2 - Modelos de probabilidade em situações de simetria. Regra de

Laplace

Consideremos de novo a experiência aleatória que consiste em lançar dois dados, dado1 e

dado2, e em verificar as faces que saem. Recordemos que o espaço de resultados que

escolhemos para modelar esta experiência aleatória foi S = {(I,j), i=1, …, 6; j= 1, …, 6}, com

cardinal 6 6 = 36. Admitindo que os dados foram bem construídos, isto é, que são simétricos, é

razoável admitir que qualquer um destes resultados tem igual possibilidade de sair, pelo que lhe

atribuímos a probabilidade 1/36. Obtemos assim o seguinte modelo de probabilidade:

P(sair face i no dado1 e face j no dado2) =

P(Face dado1=i, Face dado2=j) = 1

36 , i = 1, 2, …,6; j = 1, 2, …,6.

No lançamento de 2 dados, qual a probabilidade de obter uma soma igual a 7?

Os acontecimentos elementares que compõem o acontecimento “soma igual a 7 nos dois dados”

são: (1,6), (2,5), (3,4), (4,3), (5,2) e (6,1). Como cada um destes acontecimentos elementares

tem probabilidade 1/36, vem que

P(“soma igual a 7 nos dois dados”) = 6

36 =

1

6

Repare-se que para obter a probabilidade anterior dividimos o número de casos favoráveris à

ocorrência do acontecimneto, pelo número de casos possíveis.

Exemplo 2.1.1 (Luísa Loura et al, 2002) - Suponhamos que numa turma com 20 alunos, 5 deles

têm 15 anos, 8 têm 16 anos e 7 têm 17 anos. Não dispondo de qualquer outra informação

(como, por exemplo, a forma como os alunos estão sentados) qual o modelo probabilístico que

consideraria para a idade do 1º aluno a sair da sala após o toque?

A resposta natural a esta questão é

Idade do 1º aluno a sair da sala 15 16 17

Probabilidade 5/20 8/20 7/20

Este é o modelo apropriado se admitirmos que qualquer dos alunos tem igual probabilidade de

ser o primeiro a sair da sala, ou seja, que qualquer dos alunos tem probabilidade 1/20 de ser o


Junho 2003

primeiro a sair. Como há 5 alunos com 15 anos obtemos o valor 5/20 para a probabilidade de

que saia primeiro um aluno de 15 anos, por exemplo.

E qual o modelo que consideraria para a idade dos 2 primeiros alunos a sair da sala?

Idade dos 2 primeiros

alunos a sair da sala

(15,15) (15,16) (15,17) (16,15) (16,16) (16,17) (17,15) (17,16) (17,17)

Probabilid

ade 5/204/19 5/208/19 5/207/19 8/205/19 8/207/19 8/207/19 7/205/19 7/208/19 7/206/19

Observe-se que a saída de qualquer aluno faz alterar a composição da turma no que respeita às

idades dos alunos que ainda estão na sala (estamos a admitir que o aluno que saíu da sala, não

voltou a entrar). Assim se o aluno que sair primeiro tiver 15 anos, dos 19 que ainda restam,

teremos 4 de 15 anos, 8 de 16 anos e 7 de 17 anos. É com base neste facto que se obtêm as

probabilidades indicadas.

Exercício – Obtenha o modelo de probabilidade adequado para a situação anterior, mas

admitindo que o primeiro aluno que saíu, voltou a entrar.

Podemos ainda utilizar o modelo anterior para construir um modelo de probabilidade para a

soma e para a média das idades dos 2 primeiros alunos a sair da sala:

Soma das idades dos 2 primeiros alunos a sair da

sala

30 31 32 33 34

Média das idades dos 2 primeiros alunos a sair da

sala

15 15.5 16 16.5 17

Probabilidade 5/204/19 25/208/19 8/207/19+

25/207/19 28/207/19 7/206/19

Pressuposto de simetria

Qualquer um dos modelos apresentados nos exemplos anteriores foi construído com base no

chamado pressuposto de simetria. Este termo deriva do facto de ser devido à sua simetria física

que se atribui igual probabilidade à saída de cada uma das faces de um dado. Sempre que ao

realizarmos uma experiência aleatória pudermos admitir que tudo se passa como se

estivéssemos a lançar um “dado” homogéneo e simétrico, então não temos razão para não

atribuir igual probabilidade a todos os resultados da experiência. Analisemos o que se passa

com a experiência descrita no exemplo anterior. Temos 20 alunos de diferentes idades (5 de 15

anos, 8 de 16 anos e 7 de 17 anos) e um deles, ao acaso, sai da sala. Interessa-nos atribuir uma

probabilidade à idade desse aluno. Em termos probabilísticos não há qualquer diferença entre


Junho 2003

esta experiência e o lançamento de um dado homogéneo e simétrico de 20 lados, com 5 faces

numeradas com o 15, 8 faces numeradas com o 16 e 7 faces numeradas com o 17. Admitindo

que qualquer uma das faces (ou qualquer um dos alunos) tem igual probabilidade de sair,

deveremos atribuir o valor 1/20 à probabilidade de saída de cada uma das 20 faces. Como 5

delas têm o número 15 inscrito, a probabilidade de sair uma face com o número 15 será 5/20,

com o número 16 será 8/20 e com o número 17 será 7/20. O modelo obtido é pois exactamente

o mesmo e deve-se salientar bem que o que esteve sempre na base do raciocínio foi o facto de

se estar a atribuir igual probabilidade a cada um dos 20 resultados elementares.

Quando todos os casos são equiprováveis a probabilidade de ocorrência de um certo

acontecimento pode ser calculada dividindo o número de casos favoráveis à ocorrência desse

acontecimento pelo total de casos possíveis: é a chamada Regra de Laplace ou definição

clássica de Probabilidade.

Dado o espaço de resultados S constituído por um número finito n de elementos, todos eles

igualmente possíveis, define-se Probabilidade de um acontecimento A e representa-se por

P(A), como sendo a razão entre o número de resultados favoráveis a A (resultados que

compõem A) - nA e o número de resultados possíveis (resultados que constituem S) - n:

P(A) =

nAn

=

# A

# S

Exemplo 2.1.2 - Duas equipas de baseball, muito equilibradas, disputam um torneio de 4 jogos.

Regista-se o resultado de cada jogo (não está previsto o empate).

a) Descreva o espaço de resultados associado à experiência aleatória que consiste em verificar

quais os resultados da equipa 1 nos quatro jogos.

b) Seja A o acontecimento: A equipa 1 ganha exactamente 3 jogos. Quais os acontecimentos

elementares que compõem A?

c) Atribua probabilidades aos acontecimentos elementares.

Resolução:

a) O espaço de resultados é constituído por todos os conjuntos de 4 elementos da figura

seguinte, onde representamos por G e P respectivamente a equipa 1 ganha ou perde.

b) Os acontecimentos elementares que compõem A encontram-se assinalados com **.

c) Como admitimos que existe igual possibilidade da equipa ganhar ou perder em cada jogo, é

natural esperar que cada resultado do espaço de resultados tenha a mesma probabilidade, ou

seja 1/16.


Junho 2003

1º jogo 2º jogo 3º jogo 4º jogo

G

P

G

P

G

P

G

P

G

P

G

P

G

P

G

P

(GGGG)

(GGGP)

(GGPG)

(GGPP)

(GPGG)

(GPGP)

(GPPG)

(GPPP)

(PGGG)

(PGGP)

(PGPG)

(PGPP)

(PPGG)

(PPGP)

(PPPG)

(PPPP)

G

P

G

P

G

P

G

P

G

P

**

**

**

**

G

G

P

P

Se temos um modelo de probabilidade bem definido será natural que se pretenda calcular a

probabilidade de qualquer acontecimento relacionado com a experiência em causa, e que não

seja um acontecimento elementar. A que será igual então a probabilidade do acontecimento A,

que representamos por P(A)? Uma vez que este acontecimento é constituído por 4

acontecimentos elementares, existem 4 possibilidades em 16 de ele se realizar, de forma que

P(A) = 4/16 = 1/4.

Nota: Embora esteja pressuposto na regra de Laplace, ou definição clássica de probabilidade,

como também se costuma referir esta regra, que o espaço de resultados é finito, não podemos

deixar uma vez mais de alertar para este facto. É aliás esta situação, a par com a dificuldade em

sabermos à partida se os elementos do espaço de resultados são igualmente possíveis, que faz

com que esta teoria seja criticável.

Exercícios:

1. O trabalho de um grupo constituído pelo António, Isabel, Inês, Rita e Ricardo, tem que ser

apresentado por dois dos seus elementos. Como nenhum quer apresentar o trabalho, decidiram

escrever 5 papelinhos com os respectivos nomes, metê-los numa caixa e seleccionar 2 ao

acaso.


Junho 2003

a) Descreva o espaço de resultados associado ao fenómeno aleatório em estudo e

associe-lhe um modelo de probabilidade.

b) Qual a probabilidade do António ser seleccionado para apresentar o trabalho?

c) Qual a probabilidade de serem duas raparigas a apresentar o trabalho?

2. No jogo do Monopólio o jogador lança dois dados e move-se de tantas casas quantas a soma

das pintas. Qual a probabilidade de mover exactamente 11 casas?

3. Tem duas caixas, em que na caixa A tem 3 bolas numeradas de 1 a 3, enquanto que na caixa

B tem 4 bolas numeradas de 1 a 4. Tira uma bola de cada caixa. Qual a probabilidade de retirar

da caixa B uma bola com um numero superior ao da caixa A?

4. Verifique que o seguinte par de dados se comporta da mesma maneira que dois dados

normais de 6 faces, quando estamos interessados na experiência aleatória que consiste em

lançar dois dados e verificar a soma das pintas das faces que ficam viradas para cima.

2

2

1 3

3

8

6

1

3

4 54

5. Suponha que lhe propõem o seguinte jogo para o qual tem duas opções:

a) Lança um dado 120 vezes. Cada vez que sair um 1 ou um 6, ganha um euro;

b) Faz 120 extrações de uma caixa com 6 bolas, das quais 2 têm o número 1 e 4 o número

0. Cada vez que extarir o número 1 recebe 1 euro.

Qual das opções é preferível? Ou serão equivalentes?


Junho 2003

2. 2 – Aproximação frequencista de probabilidade

Na definição de fenómeno aleatório dissemos que se verificava uma regularidade a longo termo

para a qual se podia obter um padrão genérico de comportamento. Esta regularidade estatística

é a base da aproximação conceptual para a probabilidade, segundo a definição frequencista. Já

que o fenómeno aleatório em estudo se pode observar repetidamente, vamos repetir a

experiência e registar a frequência relativa com que cada resultado (acontecimento elementar)

ocorreu.

À medida que o número de repetições da experiência aleatória aumenta, a frequência relativa do

acontecimento elementar tende a estabilizar para um valor entre 0 e 1. Este valor, é interpretado

como sendo a Probabilidade desse acontecimento elementar se realizar.

Suponhamos, por exemplo, a experiência aleatória que consiste no lançamento de uma moeda

ao ar e observar a face que fica virada para cima. Realizaram-se 100 lançamentos, tendo-se

obtido os seguintes resultados:

1 cara 21 cara 41 cara 61 coroa 81 cara 2 coroa 22 coroa 42 cara 62 cara 82 coroa 3 cara 23 cara 43 coroa 63 coroa 83 cara 4 cara 24 cara 44 coroa 64 coroa 84 cara 5 cara 25 coroa 45 coroa 65 coroa 85 coroa 6 coroa 26 cara 46 coroa 66 coroa 86 cara 7 coroa 27 cara 47 coroa 67 coroa 87 cara 8 coroa 28 cara 48 cara 68 cara 88 coroa 9 coroa 29 coroa 49 cara 69 cara 89 coroa 10 coroa 30 cara 50 cara 70 cara 90 cara 11 cara 31 cara 51 coroa 71 coroa 91 coroa 12 coroa 32 coroa 52 cara 72 cara 92 coroa 13 cara 33 coroa 53 cara 73 cara 93 coroa 14 coroa 34 cara 54 cara 74 coroa 94 coroa 15 cara 35 cara 55 coroa 75 cara 95 cara 16 coroa 36 coroa 56 cara 76 cara 96 cara 17 cara 37 cara 57 coroa 77 coroa 97 coroa 18 cara 38 coroa 58 cara 78 coroa 98 cara 19 coroa 39 coroa 59 coroa 79 coroa 99 cara 20 cara 40 coroa 60 coroa 80 cara 100 cara

Se ao fim dos 100 lançamentos se verificaram 49 coroas, então a frequência relativa com que se

verificou o acontecimento saída de coroa foi de 0.49. O valor para que tende a frequência

relativa da saída de coroa, ao fim de um grande número de lançamentos, é interpretado como a

probabilidade do acontecimento saída de coroa.


Junho 2003

O gráfico obtido para a frequência relativa após cada lançamento, tem o seguinte aspecto:

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0 20 40 60 80 10 0

Nº de lança mentos

Fre

q.

rel.

A frequência relativa, à medida que o número de provas aumenta, tem tendência a estabilizar à

volta do valor 0.5. Assim, aceitamos que a probabilidade de sair coroa é 0.5.

Observação: Chamamos a atenção, ainda relativamente a este exemplo, para o seguinte: não é

correcto dizer que à medida que o número de lançamentos aumenta, o número de coroas se

aproxima de metade do número de lançamentos. A regularidade a longo termo significa que a

frequência relativa da saída de coroa tende a estabilizar. Neste caso, ao fim de 100 lançamentos

o número de coroas foi de 49; se continuássemos a fazer lançamentos poderia acontecer que ao

fim de 500, 1000, 2000 e 3000 lançamentos, o número de coroas obtidas fosse respectivamente

de 253, 495, 993 e 1510 como se apresenta na seguinte tabela:

Nº lançamentos

Nº coroas obtidas

x

Metade dos lanç.

y

|y - x| Freq. relativa

100 49 50 1 0.49 500 253 250 3 0.51

1000 495 500 5 0.50 2000 993 1000 7 0.50 3000 1510 1500 10 0.50

Como se verifica, pode acontecer que o número de coroas obtidas – frequência absoluta, se

afaste de metade do número de lançamentos, não impedindo que a frequência relativa tenha

tendência a estabilizar à volta do valor 0.50.


Junho 2003

Define-se probabilidade (definição frequencista) de um acontecimento A e representa-se por

P(A) como sendo o valor obtido para a frequência relativa da realização de A, num grande

número de repetições da experiência aleatória.

Exemplo 2.2.1 - Suponha que lança um dado 1000 vezes e verifica a face que ficou voltada para

cima, tendo obtido os seguintes resultados:

Face Freq. abs. Freq. rel.(%) 1 159 15.9% 2 163 16.3% 3 160 16.0% 4 161 16.1% 5 86 8.6% 6 271 27.1%

Perante os resultados anteriores, um modelo de probabilidade que poderíamos sugerir, seria o

seguinte:

Face Probabilidade 1 16% 2 16% 3 16% 4 16% 5 9% 6 27%

Os resultados anteriores levam-nos a concluir que estamos perante um dado “viciado”, pois as

faces não têm todas a mesma probabilidade de saírem, como seria de esperar num dado

“equilibrado”.

Nota . Esta secção foi adaptada de (Graça Martins et al, 1999)

Será que esta definição de probabilidade nos resolve os problemas que não nos resolvia a regra

de Laplace?

Obviamente que não! Nem sempre é possível submeter a atribuição da probabilidade de um

acontecimento à realização da experiência um número suficiente de vezes de modo a obter a

desejada convergência.

Exemplo 2.2.2 (Alpuim, 1997) – Suponha que vamos rodar uma roleta calibrada de 0 a 1, duas

vezes consecutivas:


Junho 2003

Se designarmos por x1 o resultado

da 1ª vez e por x2 o resultado da 2ª

vez, o espaço de resultados será

S={(x1, x2) [0,1)x[0,1)}, cuja repre-

sentação gráfica se apresenta a

seguir:

1

1

Alguns acontecimentos associados a este espaço de resultados são exemplificados a seguir:

A = {x2>1/3} B = {x2+x1<1} C = {min(x1,x2)<1/3} D = {x2 > x1}

Como calcular a probabilidade destes acontecimentos e de outros do espaço de resultados S?

Teríamos de calcular a frequência relativa para um número suficientemente grande de repetições

da experiência, para todos os acontecimentos de S, que tem um número infinito, não numerável,

de subconjuntos, o que tornaria a tarefa impraticável. Neste caso seria intuitivo pensar que a

probabilidade associada a um acontecimento A[0,1)x[0,1) é proporcional à sua área, ou seja,

P(A) = Área de A/Área de S = Área de A

No entanto, o que pretendemos não é uma forma de atribuir probabilidades que sirva para um

determinado espaço de resultados, mas sim uma forma mais geral, que possa ser aplicada a

todos os espaços amostrais, quer sejam finitos ou infinitos. Somos assim conduzidos à definição

axiomática de Probabilidade.


Junho 2003

2.3 – Definição axiomática de Probabilidade

Das secções anteriores já ficámos com a ideia que a probabilidade não é mais do que uma

função que associa a conjuntos – acontecimentos, um número real entre 0 e 1. Como definir

então, formalmente, um modelo probabilístico?

A questão foi resolvida pelos matemáticos, no início do século 20, que começaram por admitir

que dispunham de um conjunto S, a que chamaram espaço de resultados. Tendo verificado que

não fazia sentido atribuir a cada elemento do espaço de resultados, no caso contínuo, uma

probabilidade, optaram por probabilizar subconjuntos de S. Estabeleceram então algumas regras

a que deveria obedecer uma função P, quando aplicada a subconjuntos de S. Estas regras, a

que chamamos axiomas, decorreram de modo natural das propriedades verificadas pelos

modelos de probabilidade de Laplace ou frequencista.

Considere-se então um espaço de resultados S e uma classe W de subconjuntos de S

(acontecimentos). Admite-se que W satisfaz as seguintes condições:

- Se um acontecimento A está em W, então o seu complementar também está em W;

- Se dois acontecimentos A e B estão em W, então a sua união AB também está em

W;

- S está em W.

Dado o par (S, W), a cada elemento W, associa-se um número que se chama Probabilidade e

se representa por P(A). As probabilidades associadas aos acontecimentos de uma mesma

família de acontecimentos W, satisfazem as seguintes propriedades ou axiomas:

Axioma 1 – Para qualquer elemento AW, P(A) ≥ 0

Axioma 2 – P(S) = 1

Axioma 3 - Se os acontecimentos A e B são disjuntos, isto é, AB=, então

P(AB) = P(A) + P(B)

Antes de deduzir algumas propriedades que decorrem para a Probabilidade assim definida,

vamos ver que o modelo de Laplace e o modelo frequencista satisfazem a axiomática que

acabámos de apresentar.

Modelo de Laplace como modelo da axiomática de probabilidade


Junho 2003

O espaço de resultados S para o modelo de Laplace é sempre um conjunto finito, não vazio,

S={s1,s2,…,sk}. Sabemos ainda que dado um subconjunto A de S a probabilidade de ocorrência

de A é dada por nº de casos favoráveis a A/ nº de casos possíveis ou, em termos de cardinais de

conjuntos, P(A)=#A/#S. Note-se que uma consequência imediata desta regra de cálculo das

probabilidades para o modelo de Laplace é que a probabilidade de cada acontecimento

elementar Ei={si} é igual a 1/k.

Demonstremos então que P verifica os axiomas A1, A2 e A3:

P(A) é o quociente entre um número inteiro não negativo e um número inteiro positivo

sendo por isso um número (racional) não negativo (o cardinal de um conjunto finito é

sempre um número inteiro não negativo). Logo A1 verifica-se.

P(S) =

# S

# S=1. Logo A2 verifica-se.

P(AB) =

#(AB)

#S =

# A #B

#S se os conjuntos A e B forem disjuntos. Logo, para

A e B disjuntos, P(AB) = =

#A

#S +

#B

#S= P(A) + P(B) pelo que A3 também se

verifica.

Modelo frequencista como modelo da axiomática da probabilidade

Suponhamos que ao realizar N vezes uma experiência aleatória se obteve os seguintes

resultados:

Resultados Frequências

s1 N1

s2 N2

… …

sk Nk

No modelo frequencista da probabilidade começamos por considerar um conjunto S que

contenha os resultados observados {s1,s2,…,sk}. Em cada realização da experiência diz-se que

um acontecimento A ocorreu se o resultado da experiência for algum dos seus elementos. Numa

primeira fase considere-se que a probabilidade de ocorrência do acontecimento A é dada por

PN(A) =

n¼ de vezes que A ocorreu nas N realiza�›es da experi�ncia

N

Com esta definição os acontecimentos elementares {si}, i=1,2,…,k têm probabilidade Ni/N, onde

representamos por Ni a frequência absoluta com que se verificou {si}, e qualquer outro elemento

de S terá probabilidade nula. Assim sendo o espaço S poderá não ser equiprovável. Vejamos


Junho 2003

agora que uma probabilidade definida por este processo verifica a axiomática anteriormente

apresentada:

O nº de vezes que A ocorreu é sempre um inteiro não negativo. Logo PN(A)≥0 e A1

verifica-se.

Em cada realização da experiência S ocorreu sempre, uma vez que S contém todos os

resultados observados. Logo PN(S) =

N

N =1 e A2 verifica-se.

Dados dois conjuntos disjuntos A e B, em cada realização da experiência se A ocorre é

porque se obteve como resultado um dos elementos de A e, como tal, B não ocorre e

vice versa. Por outro lado, dizer que ocorre a reunião de A com B é dizer que se obteve

como resultado um elemento si que ou está em A ou está em B mas não nos dois em

simultâneo. Assim sendo cada ocorrência de A contribui com um incremento de uma

unidade no nº de ocorrências de (AB) o mesmo acontecendo com cada ocorrência de

B. O nº total de ocorrências de (AB) será então a soma do nº total de ocorrências de A

com o nº total de ocorrências de B o que prova que A3 também se verifica.

A definição frequencista de probabilidade diz-nos que P(A) é o limite de PN(A) quando N tende

para infinito. Admitindo que se deu um sentido preciso à palavra "limite" e que esse "limite"

verifica as propriedades usuais é agora fácil de verificar que também aqui se tem a validade dos

três axiomas. Na verdade para mostrar que se tem A3 basta utilizar o facto do limite da soma ser

a soma dos limites. O axioma A2 é imediato pois a sucessão PN(S) é constante, igual a 1. Para

provar A1 basta notar que se uma sucessão é sempre não negativa então o seu limite também é

não negativo.


Junho 2003

2.4 – Consequências da definição axiomática da Probabilidade

Com a ajuda dos diagramas de Venn, já utilizados para representar operações entre

acontecimentos, e tendo em consideração os axiomas da Probabilidade, facilmente se mostram

as seguintes propriedades para a Probabilidade:

1 - P( ) = 0

2 - P( A ) = 1 - P(A)

3 - Se AB então P(A) ≤ P(B)

S

A

B

B-A

P(B) = P(A) + P(B-A)

•0

4 - Qualquer que seja o acontecimento A, 0 ≤ P(A) ≤ 1

Corolário do resultado anterior.

5 - Quaisquer que sejam os acontecimentos A e B, tem-se a chamada regra da adição

S

A BP(A B) = P(A) +P(B) - P(A B)

AB= (B - A)(AB) (A -B)P(AB)=P(B -A)P(AB)P(A -B)

Atendendo a que P(B-A)=P(B)-P(AB), como facilmente se mostra, uma vez que B=(B-

A) (AB), vem o resultado pretendido.


Junho 2003

6. P( Aii=1

n) P(

i1

n

Ai) se Ai A j para todo o i j. A demonstração é imediata usando a

propriedade anterior e o método da indução.

Nota - Axiomática de Kolmogorov

Ao axioma 3 é usual chamar axioma da aditividade finita. Este axioma não permite generalizar a

propriedade 6 para uniões infinitas. Se admitirmos que o espaço de resultados é infinito

numerável (Um conjunto diz-se numerável se pudermos estabelecer uma aplicação bijectiva

entre ele e os naturais), S={s1, s2, …}, então seria desejável que para qualquer subconjunto A de

S, finito ou não, a sua probabilidade fosse a soma das probabilidades dos acontecimentos

elementares que o compõem. Assim, resolve-se o problema substituindo o axioma 3, pelo

seguinte axioma:

Axioma 3* - P( Aii=1

) P(i1

Ai) se Ai A j para todo o i j

Exemplo 2.4.1 - Num restaurante registaram-se, durante bastante tempo, os pedidos dos

clientes, tendo-se chegado à conclusão que, para terminar a refeição, 20% dos clientes pedem

só sobremesa, 40% pedem só café e 30% pedem sobremesa e café.

a) Construa um diagrama de Venn para ilustrar a situação anterior.

b) Determine a probabilidade do acontecimento “pedir café”.

c) Determine a probabilidade do acontecimento “não pedir sobremesa”.

d) Determine a probabilidade do acontecimento “pedir café ou sobremesa”.

e) Determine a probabilidade do acontecimento “nem pede café nem sobremesa”.

f) Os acontecimentos “pedir café” e “pedir sobremesa” são disjuntos?

Resolução:

a)

b) P(Café) = .30 + .40 = .70

c) P( Sob) = 1 - P(Sob)

= 1 - .50 = .50


Junho 2003

d) P(Café ou Sob) = .90

e) P(Café ou Sob,

________

) = 1 - P(Café ou Sob)

= 1 - .90 = .10

f) Os acontecimentos não são disjuntos

Exemplo 2.4.2 (Graça Martins et al, 1999) - Numa loja de hamburgers, o gerente verificou que

em cada 100 hamburgers vendidos 45 têm queijo e 15 também têm cebola. Registos anteriores

permitem também concluir que a probabilidade de um cliente pedir um hamburger com cebola é

.35. Qual a probabilidade de um cliente pedir um hamburger:

a) Com queijo ou cebola

b) Sem cebola nem queijo

c) Só com cebola (além da carne…)

Resolução:

Para representar os vários acontecimentos envolvidos, vamos utilizar um diagrama de Venn,

onde representamos por Q o acontecimento “presença de queijo” e por C o acontecimento

“presença de cebola”

QC

.45 .35

.15

S

a) P(QC) = P(Q)+P(C) – P(QC)

= .45 + .35 - .15 = .65

b) P( QC) = 1 - P(QC)

= 1 - .65 = .35

c) P( CQ ) = P(C) – P(QC)

= .35 - .15 = .20

Exemplo 2.4.3 (Parzen, 1960) - Num estudo sobre sexo, estado civil e habilitações literárias de

um grupo de 1000 leitores de determinada revista, obtiveram-se os seguintes dados: 312 são do

sexo masculino, 470 são casados, 525 têm o liceu, 42 homens têm o liceu, 147 casados têm o

liceu, 86 homens são casados, e 25 homens casados têm o liceu. Verifique que estes dados não

são consistentes.

Resolução:

Representando por M – sexo masculino; C – casado; L – liceu, temos

P(M) = 0.312; P(C) = 0.470; P(L) = 0.525;

P(ML) = 0.042; P(CL) = 0.147; P(MC) = 0.086;

P(MCL) = 0.025

donde

P(MCL) = P(M) + P(C) + P(L) - P(ML) - P(CL) - P(MC) + P(MCL)

P(MCL) = 0.312 + 0.470 + 0.525 – 0.042 – 0.147 – 0.086 + 0. 025


Junho 2003

= 1.057

Este resultado é impossível pois o valor para a probabilidade não pode ser superior a 1.

Exercício (Freedman et al, 1991) – Diga se são verdadeiras ou falsas as seguintes asserções:

a) Uma caixa tem 10 bilhetes numerados de 1 a 10. Extraem-se 5 bilhetes, com reposição.

Há uma probabilidade de 5/10 de obter pelo menos um 7. Explique.

b) Extrai-se um número aleatoriamente de uma caixa. Há uma probabilidade de 20% de ser

menor ou igual a 10 e uma probbailidade de 10% de ser maior ou igual a 50. A

probabilidade de obter um número maior que 10 e menor que 50 é 0.7. Explique.

c) Lança-se um par de dados. A probabilidade de obter pelo menos um 1 é 1/6+1/6=1/3.

Explique.

Nota histórica (Adaptado de Statistics, Freedman) O paradoxo do Cavaleiro De Méré

No século XVII, os jogadores Franceses costumavam fazer apostas sobre os seguintes

acontecimentos: 1º jogo: lançar 4 dados e sair pelo menos um ás (chama-se ás à face com 1 pinta); 2º

jogo: lançar 24 vezes um par de dados e sair pelo menos um duplo-ás (um par de dados com as faces

1). Um nobre Francês, o Cavaleiro De Méré, pensava que estes dois acontecimentos tinham igual

probabilidade. O seu raciocínio era o seguinte, relativamente ao primeiro jogo:

No lançamento de um dado, tenho uma probabilidade 1/6 de obter um ás;

Assim, em 4 dados tenho uma probabilidade 4x1/6 de obter pelo menos um ás:

O seu raciocínio relativamente ao segundo jogo era análogo:

No lançamento de um par de dados tenho uma probabilidade 1/36 de obter um duplo-ás.

Assim, em 24 lançamentos, terei uma probabilidade 24x1/36 de obter pelo menos um duplo-

ás.

Com este argumento, ambos os acontecimentos tinham a mesma probabilidade, igual a 2/3. Mas a

experiência mostrava que o primeiro acontecimento se observava mais vezes que o segundo! Esta

contradição ficou conhecida como o paradoxo do Chevalier de Méré.

De Méré questionou o filósofo Blaise Pascal sobre este problema, e Pascal resolveu-o com a ajuda do

seu amigo Pierre de Fermat. Fermat era um juíz e membro do parlamento, que é conhecido hoje pelas

investigações matemáticas que fazia nas horas vagas. Fermat mostrou que De Méré utilizava a regra

da adição (axioma 3) para acontecimentos que não eram mutuamente exclusivos ou disjuntos.

Efectivamente é possível obter um às tanto no 1º como no 2º lançamento de um dado. Além do mais,

levando o argumento de De Méré um pouco mais longe, concluiríamos que a probabilidade de obter

um ás em 6 lançamentos de um dado seria 6/6, ou seja 1. Alguma coisa teria que estar mal.

A questão que se punha agora, era como calcular correctamente estas probabilidades. Pascal e

Fermat resolveram o problema, com um tipo de raciocínio matemático, indirecto – o que normalmente

deixa os não matemáticos com o sentimento de que estão a ser enganados. Efectivamente, numa

resolução directa como a proposta por Galileu (ver secção++++) afundar-nos-íamos completamente:

com 4 lançamentos de um dado há 64 = 1 296 resultados possíveis; com 24 lançamentos de um par de


Junho 2003

dados há 3624 2.2 x 1037

resultados possíveis. Infelizmente a conversa entre Pascal e Fermat

perdeu-se para a história, mas apresentamos seguidamente uma reconstrução.

Pascal. Olhemos então em primeiro lugar para o primeiro jogo.

Fermat. Vamos a isso. A probabilidade de ganhar é difícil de calcular, pelo que vamos tentar calcular

a probabilidade do acontecimento complementar: a de perder. Então

Probabildade de ganhar = 1 – probabilidade de perder

Pascal. De acordo. O jogador perde quando nenhum dos 4 dados mostrar um ás. Mas como é que

calcula a probabilidade?

Fermat. Parece complicado. Vamos começar com um dado. Qual a probabilidade que o primeiro

dado não mostre um ás?

Pascal. Tem que mostrar entre o 2 e o 6, pelo que essa probabilidade será 5/6.

Fermat. É isso. Agora, qual a probabilidade que os primeiros dois lançamentos não mostrem ases?

Pascal. A probabilidade que o primeiro lançlamento do dado não mostre um ás é 5/6 = 0.83(3), ou

seja, podemos dizer que se espera que em 83,(3)% das vezes que se faz o primeiro

lançamento não saia ás. Para que não haja ases nos dois lançamentos, esperamos que em

83,(3)% dessas vezes também não haja ás no segundo lançamento. Como 83.(3)% de

83.(3)% é 83.(3)%x83.(3)%=69,(4)%, deveremos esperar que em 69,(4)% das vezes não

haja ases nos dois lançamentos. Repare-se que 69.(4)% não é mais do que 5/6x5/6=(5/6)2,

ou seja, o produto da probabilidade de não sair ás no primeiro lançamento pela

probabilidade de não sair ás no segundo lançamento.

Fermat. Então e com 3 lançamentos?

Pascal. Será 5/6x5/6x5/6 = (5/6)3

Fermat. Sim. E agora com 4 lançamentos?

Pascal. Deve ser (5/6)4

Fermat. Está bem. Significa que se tem uma probabilidade de cerca de 48.2% de perder. Agora

Probabildade de ganhar = 100% – 48.2% = 51.8%

Fermat. Então a probabiliddae de ganhar o primeiro jogo é um pouco superior a 50%. E no que diz

respeito ao segundo jogo?

Pascal. Bem, no lançamento de um par de dados, há uma possibilidade em 36 de obter um duplo-

ás, e 35 possibilidades em 36 de não o obter. Pelo mesmo argumento utilizado para o

primeiro jogo, em 24 lançamentos de um par de dados, a probabilidade de não obter um

duplo-ás é (35/36)24

.

Fermat. Que é cerca de 50.9%. Então como esta é a probabilidade de perder, a

Probabildade de ganhar = 100% – 50.9% = 49.1%

Pascal. Exactamente, o que dá uma probabilidade um pouco inferior a 50%. Cá está a razão pela

qual se ganhava o segundo jogo com menos frequência que o primeiro. Mas teria de lançar

o dado um grande número de vezes para se aperceber da diferença.


Junho 2003


Junho 2003

2.5 – Probabilidade condicional e independência

Num exemplo da secção 1.1 referimos que a moeda não tem memória…. Efectivamente os

sucessivos lançamentos que se fazem com uma moeda são independentes, o que significa que

não possamos prever o que se vai verificar no próximo lançamento, com base no que se passou

em lançamentos anteriores.

Suponhamos agora o seguinte exemplo: Considera-se um baralho de cartas e extrai duas cartas.

Ganha 100 euros se a segunda carta for um rei de copas. Qual a probabilidade de ganhar os 100

euros?

Admita que joga este jogo segundo 2 cenários:

1º cenário – Não lhe permitem que veja a 1ª carta;

2º cenário – Quando retira a 1ª carta olha e vê que é o 7 de espadas.

Para obter aquela probabilidade podemos fazer o seguinte raciocínio:

1º cenário - se o baralho está embaralhado, como é pressuposto, a probabilidade do rei de

copas estar na 2ª posição é 1/52, já que há 52 posições possíveis, todas

igualmente possíveis, das quais só uma é favorável. Assim, P(Rei de copas)

= 1/52.

2º cenário – Neste caso temos 51 cartas por uma ordem aleatória, e estamos interessados

numa delas que é o rei de copas. Então P(Rei de copas) = 1/51.

Embora o acontecimento de que pretendíamos calcular a probabilidade fosse o mesmo nos dois

casos, os contextos eram diferentes. No 1º caso estávamos à procura da probabilidade de na 2ª

carta estar o Rei de copas, independentemente do que estivesse na 1ª carta, enquanto que no 2º

caso estávamos à procura da probabilidade de na segunda carta estar o Rei de copas,

condicional a que na 1ª carta estivesse o 7 de espadas. A esta probabilidade chamamos

probabilidade condicional.

O conceito de probabilidade condicional é um dos conceitos mais importantes da Teoria da

Probabilidade e está relacionado com o facto de em muitas situações em que se pretende

calcular a probabilidade de um acontecimento, já se dispor de alguma informação sobre o

resultado da experiência, a qual permite actualizar a atribuição de probabilidade a esse

acontecimento. É uma noção, em geral, intuitiva, quando é aplicada no cálculo de probabilidades

de cadeias de acontecimentos (ao retirar bolas de uma urna sucessivamente, sem reposição, a


Junho 2003

composição da urna altera-se e a probabilidade de se retirar certo tipo de bola depende dos tipos

que saíram nas extracções anteriores).

Outro tipo de exemplos que conduzem facilmente à noção de probabilidade condicional são os

que envolvem a “extracção” (ou escolha) ao acaso de um indivíduo de uma população cujos

indivíduos estão classificados segundo os níveis de duas (ou mais) categorias (escolha ao acaso

de um aluno de uma turma onde há rapazes, raparigas, filhos únicos e não filhos únicos).

Notar ainda que em situações de escolha aleatória de um indivíduo de uma população, a

probabilidade de ocorrência de A condicional à ocorrência de B não é mais do que a

probabilidade de ocorrência de A quando se escolhe ao acaso um indivíduo da subpopulação

constituída unicamente pelos indivíduos que verificam a característica determinada pelo

acontecimento B.

Consideremos (Graça Martins, M. E. et al, 1999), por exemplo, a experiência aleatória que

consiste em lançar um dado e verificar o número de pintas que sai. A probabilidade do

acontecimento A, sair “1 ou 3 pintas” é 2/6, já que o nosso espaço de resultados S, é constituído

por 6 casos igualmente possíveis, dos quais 2 são favoráveis à realização de A. Se, no entanto,

pretendermos a probabilidade desse mesmo acontecimento, sabendo de antemão que saiu um

número de pintas ímpar, neste momento já o espaço de resultados S’, é constituído por 3

resultados, igualmente possíveis, dos quais 2 são favoráveis, pelo que a probabilidade

pretendida é 2/3, o dobro da obtida anteriormente, quando não tínhamos nenhuma informação.

Exemplificando com um diagrama de Venn

Vejamos ainda uma outra situação. Suponhamos, por exemplo, a experiência aleatória que

consiste em retirar 2 bolas sem reposição, de uma caixa contendo 4 bolas brancas B1, B2, B3 e

B4 e 3 bolas pretas P1, P2, P3. Os N diferentes resultados obtidos na realização da experiência

são:


Junho 2003

B1B2 B1B3 B1B4 B1P1 B1P2 B1P3




P1B1 P1B2 P1B3 P1B4 P1P2 P1P3



Representando por n(Branca1) e n(Branca2), respectivamente, o número de vezes em que se

verificou o acontecimento Branca1 – “saiu bola branca na 1ª extracção” e o número de vezes que

se realizou o acontecimento Branca2 – “saiu bola branca na 2ª extracção”, e por

n(Branca1Branca2) o número de vezes que se realizou o acontecimento Branca1Branca2 –

“saiu branca na 1ª e 2ª extracções”, temos:

P(Branca1) = 24/42, P(Branca2) = 24/42, P(Branca1Branca2) = 12/42

Suponhamos, no entanto, que sabíamos que tinha saído branca na 1ª extracção, isto é, que se

tinha verificado o acontecimento Branca1. Qual a probabilidade de sair branca na 2ª extracção,

isto é de se verificar o acontecimento Branca2, tendo em conta esta informação adicional? Neste

momento o espaço de resultados foi substancialmente reduzido, pois o número de resultados

possíveis é 24 (ter saído branca na 1ª extracção),





dos quais só 12 é que são favoráveis, pelo que

P(Branca2 sabendo que Branca1) = 12/24

À probabilidade anterior chamamos probabilidade condicional do acontecimento Branca2,

sabendo que (ou dado que) se realizou o acontecimento Branca1, e representamos por

P(Branca2|Branca1).

Repare-se que


Junho 2003

P(Branca2|Branca1) =

n(Branca1 Branca2)

n(Branca1)

=

n(Branca1Branca2)

Nn(Branca1)

N

=

P(Branca1Branca2)

P(Branca1)

ou seja P(Branca2|Branca1) =

P(Branca1Branca2)

P(Branca1)

Assim, a probabilidade condicional de se realizar o acontecimento Branca2, sabendo que se

realizou Branca1, é o quociente entre a probabilidade da realização de Branca1 e Branca2, e a

probabilidade da realização de Branca1. Esta probabilidade condicional só tem sentido se

P(Branca1) for superior a zero.

Seja S um espaço de resultados e P uma probabilidade nesse espaço. Dados dois

acontecimentos A e B, com P(B)>0, define-se probabilidade condicional de A se B (ou

probabilidade de A condicional à ocorrência de B) como sendo

P(A|B) =

P(AB)

P(B)

Exemplo 2.5.1 (Parzen, 1960) – Consideremos uma família com dois filhos e suponhamos que

existe igual probabilidade de cada filho ser rapaz ou rapariga. Qual a probabilidade de que

ambos os filhos sejam rapazes dado que: (i) o filho mais velho é um rapaz, (ii) pelo menos um

dos filhos é rapaz.

O espaço de resultados associado ao fenómeno em estudo, isto é, uma família ter dois filhos é S

= {MM, MF, FM, FF}. Todos estes resultados são igualmente possíveis tendo em consideração o

facto de ser igualmente provável um filho ser rapaz (M) ou rapariga (F). Pretende-se a

probabilidade de ambos serem rapazes, sabendo que (i) o filho mais velho é rapaz – este

condicionamento provoca que o espaço de resultados se reduza a S’ = {MM, MF}, donde P(MM)

= 1/2. Condicionando agora no acontecimento (ii) pelo menos um dos filhos é rapaz, já o espaço

de resultados é S’’ = {MM, MF, FM} pelo que a probabilidade pretendida é P(MM) = 1/3.


Junho 2003

Nota: Repare-se que a probabilidade de que “ambos os filhos sejam rapazes” é diferente

consoante nada se saiba sobre o sexo dos filhos ou haja conhecimento parcial sobre o sexo de

um dos filhos. No primeiro caso a probabilidade é 1/4.

Exemplo 2.5.2 (Siegel et al, 1988) -. Consideremos a experiência aleatória que consiste em

observar, numa dada multinacional, a impressão causada (boa ou má) na entrevista dos

candidatos a um emprego, assim como se conseguem ou não o emprego. Pensemos nos

acontecimentos B – “o candidato causa boa impressão” e E – “o candidato consegue o

emprego”. Suponhamos que os acontecimentos anteriores estão representados num diagrama

de Venn e que se conhecem as probabilidades assinaladas:

No diagrama de Venn os números indicados

representam:

P(B–E) = 0.28

P(E–B) = 0.08

P(BE) = 0.12

A partir do diagrama anterior sabemos que

P(“Conseguir emprego”) = 0.12 + 0.08 = 0.20

o que significa que 20% dos candidatos, que vão à entrevista, conseguem o emprego. Será que

o facto de causar boa impressão, aumenta as possibilidades de ser bem sucedido, na obtenção

do emprego? Isto é, será que a informação adicional de que "um candidato causou boa

impressão" tem efeito na probabilidade de obter o emprego? Para responder a esta questão,

temos de nos cingir unicamente aos candidatos que causam boa impressão, em vez de

considerarmos todos os candidatos. A dimensão deste grupo é 40% de todos os candidatos, já

que

P("Causar boa impressão") = 0.28 + 0.12 = 0.40

Para este totao de 40%, qual o contributo dos que conseguem o emprego? A resposta obtém-se

restringindo este grupo aos que conseguem o emprego

P("Causar boa impressão e Conseguir o emprego") = 0.12

Finalmente podemos calcular a probabilidade de uma pessoa que causou boa impressão,

conseguir o emprego. Esta probabilidade é dada pela resposta à seguinte questão " 0.12 que


Junho 2003

percentagem é de 0.40"? , resposta esta que se obtém dividindo 0.12 por 0.40, como aliás se

deduz da definição anteriormente dada de probabilidade condicional:

P("Conseguir o emprego" | "Causou boa impressão") =

0.12

0.40= 0.30

Vemos que a probabilidade de conseguir o emprego aumentou de 20% para 30%, com a

informação adicional disponível. Isto significa que 30% dos candidatos que causam boa

impressão, conseguem o emprego, comparados com unicamente 20% dos candidatos em geral

(causando ou não boa impressão). Intuitivamente esperávamos que o facto de um candidato

causar boa impressão, aumentasse as suas possibilidades de sucesso, e o que acabamos de

medir foi precisamente quão grande é esse efeito.

Exemplo 2.5.3 (Pestana, D. et al, 2002) - Numa caixa estão 5 moedas, duas delas com face (F)

em ambos os lados, duas com coroa (C) em ambos os lados, e uma com F num dos lados e C

no outro. Escolhe-se uma moeda ao acaso, observando-se no lado que fica virado para cima F.

Qual a probabilidade do outro lado ser C?

Estão em jogo 5 faces favoráveis num total de 10 lados, pelo que

P(C2 F1) = 1

10 pelo que P(C2 | F1) =

1

105

10

1

5

Regra do produto

A definição de probabilidade condicional, anteriormente considerada, permite-nos calcular a

probabilidade da ocorrência simultânea de acontecimentos, chamada regra do produto:

A probabilidade da ocorrência simultânea de dois acontecimentos A e B é igual à probabilidade

que o primeiro ocorra, vezes a probabilidade do segundo ocorrer, condicional à ocorrência do

primeiro:

P(AB) = P(A) P(B|A)

Exemplo 2.5.4 - Suponha que tem uma caixa com 3 bolas pretas e 3 bolas brancas. Extrai duas

bolas, sem reposição. Qual dos acontecimentos é mais provável:

a) Extrair 2 bolas da mesma cor, ou

b) Extrair 2 bolas de cor diferente?

Resolução:


Junho 2003

a) Colocando o índice 1 ou 2 para significar a 1ª ou 2ª extracção, vem que probabilidade de tirar

duas bolas da mesma cor será

P{(B1B2)(P1P2)} = P(B1B2) + P(P1P2)

= P(B1)P(B2|B1) + P(P1)P(P2|P1)

=

3

6

2

5 +

3

6

2

5=

2

5

b) A probabilidade de tirar duas bolas de cor diferente é

P{(B1P2)(P1B2)} = P(B1P2) + P(P1B2)

= P(B1)P(P2|B1) + P(P1)P(B2|P1)

=

3

6

3

5 +

3

6

3

5=

3

5

Concluímos que é mais provável retirar duas bolas de cor diferente do que da mesma cor.

Exemplo 2.5.5 (Loura, L. et al, 2002) - Uma caixa tem 5 bolas Azuis, 8 bolas Verdes e 4 bolas

Brancas. Ao retirar sucessivamente 3 bolas, qual a probabilidade da primeira ser Azul, a

segunda Verde e a terceira Branca? E qual a probabilidade de saírem 3 bolas de cores

diferentes?

Neste tipo de exemplos torna-se conveniente colocar um índice a indicar a ordem pela qual o

acontecimento ocorreu, tal como fizemos anteriormente. Assim “Azul1” significa que saiu bola

Azul na primeira extracção, etc. Usando esta notação e a regra do produto temos:

P(Azul1 e Verde2 e Branca3) =5

17

8

16

4

15

P( 3 bolas de cor diferente) =

= P(Azul1 e Verde2 e Branca3+ P(Azul1 e Branca2 e Verde3)

+ P(Verde1 e Azul2 e Branca3) + P(Verde1 e Branca2 e Azul3)

+ P(Branca1 e Azul2 e Verde3) + P(Branca1 e Verde2 e Azul3)

= 6 5

17

8

16

4

15


Junho 2003

Exemplo 2.5.6 (Loura, L. et al, 2002) - O Ricardo e a Inês estão a jogar à bisca. Neste jogo

retiram-se do baralho os 8, 9 e 10 de cada naipe, restando assim 40 cartas (10 de cada naipe).

No início são distribuídas 3 cartas a cada jogador. Admitindo que o Ricardo é o primeiro a

receber as 3 cartas, qual é a probabilidade de lhe calhar 3 Ases? E se ele for o segundo a

receber as cartas?

Facilmente se aceita que estas duas probabilidades devem ser iguais. Na realidade, tudo se

passa como se tivéssemos retirado 6 cartas ao acaso do baralho e as separássemos em dois

grupos de 3. A simetria de toda a experiência conduz-nos, de imediato à conclusão de que a

probabilidade de estarem 3 Ases em qualquer destes dois grupos é igual. Vamos, no entanto,

verificar esse facto admitindo que as cartas vão sendo distribuídas uma a uma, em sequência e

utilizando a regra do produto.

Sendo o Ricardo o primeiro a receber as cartas, a probabilidade de que a primeira seja um Ás é,

obviamente, 4/40, pois há 4 Ases no total das 40 cartas. Tendo recebido um Ás na primeira

carta, a probabilidade de que a segunda também seja um Ás passa a ser 3/39, pois já só há 3

Ases num total de 39 cartas. Finalmente, tendo já dois Ases na mão, a probabilidade de vir a

receber um terceiro Ás é 2/38. Tem-se, assim

P(3 Ases quando é o primeiro a receber as cartas) = 4

40

3

39

2

38

1

2470

Se o Ricardo for o segundo a receber as cartas a forma de cálculo altera-se pois tudo depende

das 3 cartas que a Inês tiver recebido. Assim, se ela tiver recebido 2 ou 3 Ases o Ricardo já não

poderá receber os 3 Ases. Por outro lado, se a Inês não tiver recebido nenhum Ás, então a

probabilidade do Ricardo vir a receber 3 Ases é 4

37

3

36

2

35, enquanto que, se a Inês tiver

recebido um Ás, a probabilidade do Ricardo vir a receber 3 Ases é 3

37

2

36

1

35. Para calcular a

probabilidade do Ricardo receber 3 Ases, sendo o segundo a receber as cartas, temos de somar

as probabilidades das 2 sequências de acontecimentos que são favoráveis a que tal aconteça:

“Inês não recebe Ases” seguido de “Ricardo recebe 3 Ases”; “Inês recebe 1 Ás” seguido de

“Ricardo recebe 3 Ases”.

Sempre que temos uma sequência de acontecimentos a sua probabilidade obtém-se

multiplicando sucessivamente as respectivas probabilidades (regra do produto) tendo sempre em

conta de que modo a ocorrência de cada um afecta a probabilidade de ocorrência dos seguintes.

Assim, para a primeira sequência de acontecimentos tem-se


Junho 2003

P(“Inês não recebe Ases” seguido de “Ricardo recebe 3 Ases”) =

= 36

40

35

39

34

38

4

37

3

36

2

35

34 4 3 2

40 39 38 37.

Antes de calcularmos a probabilidade associada à segunda sequência, temos de calcular a

probabilidade da Inês ter um Ás. Uma das formas de calcular esta probabilidade (evitando o

recurso ao cálculo combinatório) é pensando que ela ou recebe esse Ás na primeira carta, ou na

segunda ou na terceira. Com base neste tipo de esquema de raciocínio, obtém-se

P(“Inês receber 1 Ás”) =

4

40

36

39

35

38

36

40

4

39

35

38

36

40

35

39

4

38 3

4

40

36

39

35

38

Utilizando este resultado temos, então

P(“Inês recebe 1 Ás” seguido de “Ricardo recebe 3 Ases”) =

=3 4

40

36

39

35

38

3

37

2

36

1

35

3 4 3 2

40 39 38 37

Somando as probabilidades obtidas para as duas sequências de acontecimentos obtemos

finalmente a probabilidade do Ricardo receber 3 Ases quando é o segundo a receber as cartas

P(3 Ases quando é o segundo a receber as cartas) =

= 37 4 3 2

40 39 38 37

3 4 3 2

40 39 38 37

4 3 2

40 39 38

1

2470

o que confirma o que foi dito inicialmente, isto é, a probabilidade não se altera com a ordem por

que são distribuídas as cartas.

Acontecimentos independentes

É natural dizer que o acontecimento B é independente do acontecimento A se a probabiliddae de

B se dar for a mesma, independentemente de A se dar ou não, isto é, a informação de que A se

deu, não vai alterar em nada a probabilidade de B se dar:

P(B|A) = P(B)


Junho 2003

Poderíamos utilizar a igualdade anterior para definir independência. No entanto, para evitar

impor restrições aos valores de P(A) e P(B)1, utiliza-se a seguinte igualdade, mais genérica, para

a definir:

Dois acontecimentos A e B são independentes se e só se

P(B)

É imediato que a definição anterior acarreta que P(A|B) = P(A) e P(B|A) = P(B) se P(A)>0 e

P(B)>0.

Exemplo 2.5.7 (Graça Martins, M. E. et al, 1999 b) - Um rato apresenta-se na entrada de um

caminho com várias bifurcações, como se apresenta a seguir:

Sempre que se apresenta uma bifurcação o rato tem de optar por virar à esquerda ou à direita,

nunca podendo voltar para trás. Em duas das saídas encontram-se dois belos queijos. Qual a

probabilidade de o rato chegar a qualquer um dos queijos:

a) Se a probabilidade de virar á esquerda for igual à de virar à direita para todos os cruzamentos.

b) Se a probabilidade de virar à esquerda for 0.3 e a de virar à direita for 0.7, para todos os

cruzamentos..

Resolução:

a) Como o rato tem sempre igual probabilidade de virar à esquerda ou à direita, as 8 saídas são

todas igualmente possíveis. Como existem duas favoráveis, a probabilidade pretendida será 2/8

= 1/4.

1 Recorda-se que a definição de probabilidade condicional exige que o denominador seja

positivo.


Junho 2003

b) Para chegar ao queijo 1 o rato tem de fazer o percurso (D1eE2eD3), enquanto que para chegar

ao queijo 2 terá de fazer (E1eE2eE3), onde representamos por D1 virar à direita no primeiro

cruzamento, E2 virar à esquerda no 2º cruzamento, etc. Então

P(D1eE2eD3) = P(D1) P(E2) P(D3)

= 0.70.30.7

= 0.147

P(E1eE2eE3) = P(E1) P(E2) P(E3)

= 0...3

= 0.027

porque os acontecimentos são independentes, já que a probabilidade de o rato virar à esquerda

ou á direita num determinado cruzamento não depende do que é que ele fez antes. Assim, a

probabilidade pretendida é

0.147 + 0.027 = 0.174

Chamamos a atenção para o facto de neste caso não ser possível utilizar a definição clássica de

probabilidade, pois as chegadas não são todas igualmente possíveis.

Exemplo 2.5.8 - Uma caixa contém 6 bolas, 3 pretas e 3 brancas, numeradas

a) Retira uma bola e vê que é Branca. Qual a probabilidade que seja a número 2? E se a

bola fosse Preta?

b) Será que a cor e o número são independentes?

Resolução: Representando por 2 o acontecimento “saída do número 2” e por B o acontecimento

“saída de face branca”, vem:

P(2|B) =

P(B e 2)

P(B)

1

63

6

1

3

Análogamente P(2|P) = 1

3

b) Os acontecimentos em causa são independentes, já que

P(Be2) = P(B) P(2)

verificando-se a igualdade quando se substitui o B pelo P e o 2 por qualquer outro dos números.


Junho 2003

Árvore de probabilidades

Uma árvore de probabilidades é uma representação esquemática, especialmente pensada para

apresentar todos os casos possíveis e respectivas probabilidades, em situações que envolvam

uma sequência de experiências aleatórias cujos espaços de resultados sejam de dimensão

reduzida. Do nó inicial da árvore partem tantos ramos, quantos os acontecimentos elementares

do espaço de resultados correspondente à primeira experiência aleatória. No extremos de cada

ramo indica-se o acontecimento respectivo e por cima do ramo a sua probabilidade. Passando

ao nível seguinte, o extremo de cada ramo será um nó para a segunda experiência aleatória. A

informação é registada de forma idêntica à descrita para o primeiro nó, mas tendo agora em

conta que as probabilidades são as condicionais ao acontecimento que figura no novo nó. O

processo repete-se até atingir a última experiência aleatória.

Exemplo 2.5.9 - Um indivíduo que trabalha em Lisboa, mas reside na margem Sul do Tejo, tem

diariamente duas possibilidades para se dirigir ao trabalho: o barco ou o autocarro. Ele gosta

muito de ir de barco, pelo que escolhe o barco 75% das vezes. A probabilidade de chegar

atrasado ao trabalho é 16.25%. Sabe-se ainda que a probabilidade ir de barco e chegar atrasado

é 11.25%. Qual a probabilidade de chegar atrasado, sabendo que veio de barco?

Vamos construir uma árvore de probabilidades onde entre a informação anterior

.75.1625

Barco

Atrasado

N‹o Atrasado

Autocarro

Atrasado

N‹o Atrasado

P(Barco e Atras) = 0.1125

P(Aut e Atras) = ?


Junho 2003

A informação dada está representada no diagrama anterior. Contudo, à custa dessa informação

podemos ir um pouco mais longe, calculando a probabilidade dos acontecimentos

complementares.

Qual a probabilidade de chegar atrasado dado que veio de barco?

P("chegar atrasado"/"veio de barco")=Error!

= Error!

= .15

Esta probabilidade condicional coloca-se ao longo do traço superior, como se indica na figura

seguinte, onde também calculámos as probabilidades dos acontecimentos em cadeia, o que nos

permitiu chegar à seguinte árvore:

.75 .1625

Barco

Atrasado

N‹o Atrasado

Autocarro

Atrasado

N‹o Atrasado

P(Barco e Atras) = 0.1125

P(Aut e Atras) = .0500

.15

.85

.25.20

P(Barco e N‹o Atras) = .6375

P(Aut e N‹o atras) = .2000

.80

.8375

Considerando a árvore anterior, vemos que:

P("chegar atrasado dado que não veio de barco") = Error!= .20

P("chegar atrasado ou vir de barco") = .1625 + .6375 = .80

ou

P("chegar atrasado ou vir de barco")= P("chegar atrasado")+P("vir de barco") - P("chegar

atrasado e vir de barco")= .1625 + .75 - .1125 = .80

P("vir de barco" dado que "chegou atrasado") = Error!= .69

P("não chegar atrasado e não vir de barco")= 1 - P("chegar atrasado ou vir de barco")=1-.80=.20


Junho 2003

Exemplo 2.5.10 – Voltemos novamente ao exemplo do rato e do queijo. Suponhamos agora que

à primeira vez que se apresenta o cruzamento, o rato tem igual probabilidade de virar à

esquerda ou à direita. Quando vira à direita recebe comida, enquanto que se virar à esquerda

recebe um choque. À segunda vez, o rato se recebeu comida à primeira vez, vira à direita com

probabilidade 0.6 e se recebeu um choque à primeira vez vira à esquerda com probabilidade 0.2.

Se virou duas vezes seguidas à direita, então a probabilidade de virar uma terceira vez à direita

é 0.8. Se virou duas vezes seguidas à esquerda, a probabilidade de virar novamente à esquerda

é 0.1. Finalmente, se não virou duas vezes seguidas para o mesmo lado, a probabilidade de virar

para onde virou da primeira vez é 0.5. Calcule a probabilidade do rato chegar aos queijos.

Resolução - Neste momento, os dados do enunciado permitem-nos construir a seguinte árvore

pelo que

P(D1eE2eD3) = P(D1) P(E2|E1) P(D3|D1eE2)

= 0.50.40.5

= 0.10

P(E1eE2eE3) = P(E1) P(E2|E1) P(E3|E1eE2)

= 0...1

= 0.01

e a probabilidade pretendida vem igual a 0.11.


Junho 2003

Exemplo 2.5.11 (Loura, L. et al, 2002) - O Luís mora longe da escola e por isso chega muitas

vezes atrasado à primeira aula. Na realidade ele levanta-se praticamente sempre a horas (só em

5% dos dias é que volta a adormecer depois do despertador tocar), mas como tem de apanhar

um autocarro e depois um comboio tem muitas vezes problemas se o autocarro se atrasar e não

conseguir apanhar o comboio que lhe permite chegar a horas. O Luís resolveu tomar nota do

que ia acontecendo ao longo de vários dias e chegou aos seguintes resultados:

Se estiver a chover (o que acontece em 40% dos dias), o autocarro atrasa-se com uma

probabilidade de 0.30. Caso contrário, essa probabilidade baixa para 0.1.

Quase nunca há problemas com o trajecto de comboio mas, mesmo assim, em 1% dos

dias ele não consegue chegar à tabela e isso é o suficiente para que o Luís chegue

atrasado.

É claro que, se não se levantar assim que o despertador toca, então não há nada a fazer

e chega mesmo atrasado.

Num ano lectivo com 180 dias de aulas, em quantas se espera que o Luís chegue atrasado?

Para dar resposta a esta questão vamos começar por representar num esquema em árvore a

cadeia de acontecimentos que condicionam a chegada do Luís à escola desde que toca o

despertador.

São 5 os trajectos que conduzem a “Luís Atrasado”. Para calcular a probabilidade (total) de

ocorrência deste acontecimento basta calcular a probabilidade associada a cada trajecto que a

ele conduz, partindo do nó da árvore, e somar todas essas probabilidades. Para calcular a


Junho 2003

probabilidade de cada trajecto basta ir multiplicando, sucessivamente, as probabilidades que

surgem em cada uma das passagens. Assim:

a probabilidade associada ao trajecto (1) é

0.950.40.31 = 0.114;


0.950.40.70.011 = 0.00266;


0.950.60.11 = 0.057;


0.950.60.90.011 = 0.0051

e a probabilidade associada ao trajecto (5) é

0.051 = 0.05

Somando todos estes valores obtemos finalmente a probabilidade do Luís chegar atrasado à

primeira aula

P(Luís Atrasado) = 0.114+0.00266+0.057+0.0051+0.05 = 0.22876

Multiplicando este valor pelos 180 dias de aulas obtém-se o valor 41.1768, isto é, com base nas

probabilidades atribuídas a cada um dos acontecimentos intervenientes, e admitindo que mais

nada pode causar o atraso do Luís, espera-se que ele chegue atrasado em cerca de 41 dos 180

dias de aulas.


Junho 2003

3. Modelos de Probabilidade discretos e contínuos


Junho 2003


Junho 2003

3.1- Introdução. Variável aleatória

Vimos no capítulo 1 exemplos de fenómenos aleatórios cujos resultados não são

necessariamente quantitativos, podendo ser qualitativos. Assim, o resultado de uma experiência

aleatória não dá necessariamente um resultado numérico. No entanto, em Estatística, estamos

de um modo geral interessados em estudar resultados numéricos. Por exemplo, consideremos a

experiência aleatória que consiste em lançar 3 moedas e verificar as faces que ficam voltadas

para cima. Associada com esta experiência, uma variável que pode ter interesse estudar é o

número de caras que saem no lançamento das 3 moedas. Se o resultado de um lançamento for

CFF (representammos por C – coroa, F – cara), então a variável assume o valor 2. Sabemos que

os valores possíveis para esta variável são 0, 1, 2 ou 3, mas em cada repetição da experiência

não sabemos qual o resultado que se vai verificar (característica da experiência aleatória), pelo

que à variável chamamos variável aleatória.

Variável aleatória – Uma variável aleatória, é uma variável cujo valor é um resultado numérico

associado ao resultado de uma experiência aleatória.

As variáveis aleatórias são representadas por letras maiúsculas X, Y, Z, ….

Viu-se também em Estatística, ao fazer o estudo descritivo de dados, que as variáveis

quantitativas ainda podiam ser de dois tipos: discretas ou contínuas. A mesma classificação é

dada para as variáveis aleatórias.

Exemplo 3.1.1 – Consideremos a variável aleatória X que representa o número de caras (F) que

se obtêm no lançamento de 1 moeda 3 vezes (equivalente a lançar 3 moedas uma vez). Esta

variável pode assumir os valores 0, 1, 2 ou 3. Para ver qual a probabilidade de assumir cada um

desses valores podemos pensar no espaço de resultados associado à experiência aleatória que

consiste em lançar 3 vezes a moeda:


Junho 2003

A atribuição de probabilidades aos valores que a variável aleatória assume, faz-se por intermédio

dos acontecimentos que lhe estão associados:

P(X = 3) = P({FFF}) =

1

8

P(X = 2) = P({FFC, FCF, CFF}) =

3

8

P(X = 1) = P({FCC, CFC, CCF}) =

3

8

P(X = 0) = P({CCC}) =

1

8

Repare-se que se tem:

A probabilidade da variável aleatória assumir qualquer um dos seus valores admissíveis

está entre 0 e 1.

A soma das probabilidades da variável aleatória assumir qualquer um dos seus valores é

igual a 1.

Estas propriedades resultam das regras enunciadas no capítulo 2, relativamente às

probabilidades associadas aos acontecimentos de um espaço de acontecimentos.

Como acabámos de ver com o exemplo anterior, um modelo de probabilidade associado a um

espaço de resultados, induz numa variável aleatória associada um modelo de probabilidade.


Junho 2003

Exemplo 3.1.2 – Seja Y a variável aleatória que representa o número de pontos que se obtém

quando se lança um dado. Um modelo de probabilidade (distribuição de probabilidade) para Y

obtém-se considerando os valores admissíveis para Y e as respectivas probabilidades, como se

apresentam na tabela seguinte:

Y=yi 1 2 3 4 5 6

P(Y=yi) 1/6 1/6 1/6 1/6 1/6 1/6

Exemplo 3.1.3 – Seja Z a variável aleatória que representa a soma das pintas no lançamento de

dois dados. Admitindo que os dados são equilibrados, o espaço de resultados que podemos

considerar para descrever os resultados do lançamento dos dois dados

S = {(i,j), i = 1, 2, …, 6; j = 1, 2, …, 6}

É equiprovável e imediatamente de conclui que o modelo de probabilidade para Z é dado pela

tabela:

Resultado Z = zi P(Z = zi)

(1,1) 2 1/36

(1,2), (2,1) 3 2/36

(1,3), (2,2), (3,1) 4 3/36

(1,4), (2, 3), (3,2), (4,1) 5 4/36

(1,5), (2,4), (3,3), (4,2), (5,1) 6 5/36

(1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 7 6/36

(2,6), (3,5), (4,4), (5,3), (6,2) 8 5/36

(3,6), (4,5), (5,4), (6,3) 9 4/36

(4,6), (5,5), (6,4) 10 3/36

(5,6), (6,5) 11 2/36

(6,6) 12 1/36

Exemplo 3.1.4 – Num procedimento para controlar a qualidade de semicondutores, analisam-se

2 semicondutores de um lote. Cada semicondutor pode apresentar um de dois estados

possíveis: Bom (B) ou Defeituoso (D). A probabilidade de cada semicondutor estar bom é igual a

0.9, independentemente do que acontece com os outros. Seja U a variável aleatória que

representa o numero de semicondutores, de entre os dois analisados, que estão defeituosos. O

modelo de probabilidade para U será


Junho 2003

Resultado U = i P(U=i)

(B, B) 0 0.81

(B, D), (D, B) 1 0.18

(D, D) 2 0.01

Chamamos a atenção para o facto do espaço de resultadosS = {(B, B), (B, D), (D, B), (D; D)} não

ser constituído por resultados igualmente possíveis, não se verificando, portanto, a situação de

simetria.

As variáveis aleatórias tornam tão simples a descrição do fenómeno aleatório que, a maior parte

das vezes, ignoramos o espaço de resultados associado e limitamo-nos a considerar a

distribuição de probabilidades da variável aleatória.

Em muitas situações da vida real, há necessidade de considerar modelos de suporte não finito.

Basta pensar nas situações em que o conjunto de resultados possíveis não seja conhecido na

sua totalidade ou seja demasiado extenso. Temos o caso, por exemplo, do número de filhos das

famílias portuguesas, do número de acidentes por dia, numa determinada cidade, da idade de

um indivíduo, do tempo de duração de um equipamento, etc. No entanto o manuseamento da

maior parte destes modelos pressupõe alguns cálculos que estão fora do âmbito deste estudo,

pelo que nos limitaremos a estudar, no caso discreto, variáveis aleatórias com um número finito

de valores distintos e no caso contínuo o modelo uniforme e o modelo normal.


Junho 2003

3.2 – Modelos de probabilidade discretos. Função massa de probabilidade.

Como dissemos anteriormente uma variável aleatória é uma variável que associa valores

numéricos aos resultados de uma experiência aleatória. Vimos também na secção anterior, que

o facto de termos um modelo de probabilidade associado ao fenómeno aleatório, permite-nos

associar probabilidades aos valores da variável aleatória, as quais devem satisfazer

deterrminadas propriedades.

Dada uma variável aleatória discreta X, que assume um número finito de valores distintos x1, x2,

…, xi, …, xN, então as probabilidades pi=P(X=xi), i=1,…,N, devem satisfazer as seguintes

condições:

i) 0 ≤ pi ≤1, i =1,…,N

ii)

pi

i=1

N

= 1

O conjunto {(xi, pi), i=1,…,N} constitue a distribuição de probabilidades de X, também chamada

de função massa de probabilidade de X.

Exemplo 3.2.1 – Um casal planeou ter 3 filhos. Admitindo igual probabilidade para o nascimento

de um rapaz ou de uma rapariga, considere a variável aleatória que representa o número de

raparigas de entre os 3 filhos e determine a sua função massa de probabilidade.

Resolução: Este exemplo é idêntico ao exemplo 3.1.1, se identificarmos o nascimento de uma

filha como o resultado de saída de cara no lançamento da moeda equilibrada, já que admitimos

igual probabilidade para o nascimento de rapaz e rapariga. Assim, a variável aleatória X, que

representa o número de raparigas, num casal de 3 filhos, tem a seguinte função massa de

probabilidade:

X=i 0 1 2 3

P(X=i) (1/2)3 3x(1/2)

3 3x(1/2)

3 (1/2)

3

Uma vez definida a função massa de probabilidade, podemos determinar facilmente

probabilidades de acontecimentos relacionados com o fenómeno aleatório em estudo. Por

exemplo:

Probabilidade do casal ter mais do que uma rapariga:

P(X>1) = P(X≥2) = P(X=2) + P(X=3)

= 3/8+1/8 = 1/2


Junho 2003

Probabilidade do casal só ter rapazes:

P(X=0) = 1/8

Probabilidade do casal ter 1 ou 2 raparigas:

P(1≤X≤2) = P(X=1) + P(X=2)

= 3/8+3/8 = 3/4

Exemplo 3.2.1 (continuação) – Repetindo o exemplo anterior, mas considerando agora 4 filhos e

representando por Y a variável aleatória que representa o número de raparigas num casal de 4

filhos, para obter a sua distribuição de probabilidades, veja-se o exemplo 2.1.2, obtendo-se

imediatamente:

Y=i 0 1 2 3 4

P(Y=i)=pi 1/24 4 x 1/2

4 6 x 1/2

4 4 x 1/2

4 1/2

4

Exemplo 3.2.2 - Numa determinada Faculdade, o Conselho Directivo (CD) escolheu

aleatoriamente 3 estudantes para integrarem este órgão, como representantes das opiniões dos

estudantes. No que diz respeito à avaliação contínua, sabe-se que 40% dos alunos são a favor e

os estudantes que compõem o grupo têm opiniões independentes uns dos outros.

a) Representando por X a variável aleatória que representa o número de estudantes que

integram o CD, que são a favor da avaliação contínua, vem que X pode assumir os valores 0, 1,

2 ou 3. Se representarmos os estudantes por A, B e C, quando são a favor, e por A , B e C ,

quando são contra, todas as possíveis combinações de opiniões são:

ABC AB C A B C A B C

A BC A B C

A B C A B C

X=3 X=2 X=1 X=0

Assim, P(X=0) = P( A B C ) = 0.63

= 0.216

P(X=1) = P(A B C ou A B C ou A B C)

= P(A B C ) + P( A B C ) + P( A B C) = 0.4 0.6 0.6 + 0.6 0.4 0.6 + 0.6 0.6 0.4

= 3 0.4 0.62

= 0.432

P(X=2) = P(AB C ) + P( A BC) + P(A B C)

= 0.4 0.4 0.6 + 0.6 0.4 0.4 + 0.4 0.6 0.4 = 3 0.4

2 0.6 = 0.288


Junho 2003

P(X=3) = P(ABC) = 0.4

3

= 0.064

pelo que a função massa de probabilidade será:

X=i 0 1 2 3

P(X=i) 0.216 0.432 0.288 0.064

b) Em termos de X, o acontecimento “a maioria dos representantes dos alunos é a favor da

avaliação contínua” exprime-se simplesmente X≥2, pelo que a probabilidade daquele

acontecimento será P(X≥2) = 0.288 + 0.064 = 0.352.

3.2.1 – Distribuição de probabilidades versus distribuição de frequências

A distribuição de probabilidade da variável aleatória não é mais do que um modelo matemático

que se idealizou para descrever o comportamento do fenómeno aleatório em estudo. Assim, se

tivessemos observado o fenómeno aleatório repetidas vezes, e aqui apelamos para que se

recorde a definição que demos de fenómeno aleatório - fenómenos cujos resultados individuais

são incertos, mas para os quais se admite uma regularidade a longo termo, possibilitando a

obtenção de um padrão genérico de comportamento, a distribuição de frequências obtida a partir

das observações feitas, dar-nos-ia uma imagem desse tal padrão genérico de comportamento, a

distribuição de probabilidade ou função massa de probabilidade.

Exemplo 3.2.3 (Graça Martins et al, 1999) - Seja X a variável aleatória que representa o número

de caras que saem no lançamento de 4 moedas. Obtenha uma aproximação para a distribuição

de probabilidades de X.

Resolução: Começamos por obter a distribuição de probabilidades de X e de seguida obtemos a

aproximação, por intermédio da distribuição de frequências, comparando ainda os resultados

obtidos.

1 . Distribuição de probabilidades

A experiência aleatória que consiste em verificar o número de caras que saem no lançamento de

4 moedas é idêntica à que consiste em verificar o número de filhas dos casais de 4 filhos, se

admitirmos que a probabilidade de nascer rapaz é igual à de nascer rapariga, ou seja 1/2. Então

o modelo para a variável aleatória X já foi obtido no exemplo 4


Junho 2003

Distribuição de probabilidades de X

X=xi 0 1 2 3 4

pi=P(X=xi) 0.0625 0.250 0.375 0.250 0.0625

2 . Distribuição de frequências

Numa turma de 14 alunos pede-se a cada aluno que repita 20 vezes a experiência de lançar as 4

moedas e que registe o número de faces obtidas em cada lançamento. Uma vez realizadas as

experiências cada aluno indica os resultados que obteve, de forma a preencher uma tabela com

14 colunas:

Aluno

1 2 3 4 5 6 7 8 9 10 11 12 13 14

1 1 1 1 4 0 0 1 2 1 1 1 2 1 2 1 1 0 2 0 3 1 2 2 3 3 1 3 4 1 2 3 2 2 2 3 1 3 3 2 0 1 2 3 2 2 1 2 2 1 2 1 1 2 2 1 3 2 3 2 3 1 2 1 3 2 4 4 3 2 2 0 1 1 1 3 2 1 2 2 3 3 3 3 0 3 1 1 2 3 2 3 1 0 2 2 3 1 4 2 3 3 2 3 1 1 2 2 4 1 3 2 4 3 3 2 2 3 2 2 3 2 2 3 3 2 2 2 1 3 1 3 3 4 2 1 1 2 3 4 0 1 2 1 1 2 1 2 1 2 3 2 2 1 2 3 0 2 2 2 3 2 2 1 1 3 2 3 1 1 2 2 2 3 2 3 1 2 2 2 4 0 1 2 3 2 0 3 1 3 2 0 3 2 2 2 1 1 3 1 2 2 1 4 2 1 2 1 3 3 2 3 1 2 2 3 2 2 1 3 1 2 4 1 3 3 4 3 3 0 4 1 4 2 2 2 0 4 4 3 1 3 2 1 1 2 2 4 3 3 1 1 1 3 2 2 1 2 2 3 1 2 3 2 2 2 2 2 3 1 0 3 2 2 2 3 1 2 4 1

A partir da tabela anterior constrói-se a tabela de frequências relativas:

Distribuição das frequências relativas

nº faces 0 1 2 3 4

freq. relat. 0.057 0.261 0.371 0.243 0.068

A seguir apresentamos uma representação gráfica conjunta da distribuição de frequências

(diagrama de barras) e da distribuição de probabilidades, onde se pode verificar como a

distribuição de frequências é uma boa aproximação para a distribuição de probabilidades e

portanto o modelo proposto parece ser adequado para descrever o fenómeno em estudo:


Junho 2003

3.2.2. – Valor médio e desvio padrão de uma variável aleatória discreta

3.2.2.1 – Valor médio de uma variável aleatória discreta

Em Estatística, uma das formas utilizadas para resumir a informação contida nos dados é

através do cálculo de certas medidas, a que se dá o nome de estatísticas – medidas calculadas

a partir dos dados, antes de serem organizados na forma de uma tabela de frequências, ou a

partir da distribuição de frequências dos dados, depois de serem organizados. Destas medidas

destacámos a média, como medida de localização do centro da distribuição de frequência dos

dados e o desvio padrão amostral, como medida de variabilidade dos dados, relativamente à

medida de localização mais utilizada, a média.

Então, de acordo com o que dissemos na secção anterior, parece natural estender a definição de

média e de desvio padrão amostral, agora para o caso de termos a distribuição de

probabilidades.

Considerando o exemplo anterior, vejamos como calcular a média da amostra, a partir dos dados

agrupados:

x = 0 0.057 + 1 0.261 + 2 0.371 + 3 0.243 + 4 0.068 = 2.004

Se na expressão anterior substituirmos as frequências relativas pelas probabilidades, de acordo

com a distribuição de probabilidades, então obteremos uma característica idêntica à média, mas

agora associada à variável aleatória, a que damos o nome de valor médio, e representamos por

, embora o termo média também seja utilizado:


Junho 2003

= 0 0.0625 + 1 0.250 + 2 0.375 + 3 0.250 + 4 0.0625 = 2

De um modo geral tem-se

Dada uma variável aleatória discreta que assume os valores x1, x2, …, xk, com probabilidades p1,

p2, …, pk, define-se valor médio de X, e representa-se por , como sendo o valor que se obtém

multiplicando os valores que a variável assume pelas respectivas probabilidades

= x1 p1+ x2 p2+ … + xk pk

= i1

k

xi pi

Exemplo 3.2.4 – De acordo com o Census 2001, a distribuição do número de pessoas por

agregado familiar é a seguinte:

Dimensão agregado

1

2

3

4

5

6

7

8

9

≥10

Nº agregados

631762

1036312

918735

718492

226234

76714

25390

9563

4074

348

Um Censo é uma sondagem em que toda a População é inquirida, tornando possível obter um

modelo exacto da sua distribuição. Neste caso, a partir da tabela anterior construímos o seguinte

modelo de probabilidade para a variável aleatória X, que representa o número de pessoas que

constituem um agregado familiar, escolhido ao acaso, de entre os agregados familiares

portugueses:

X=i 1 2 3 4 5 6 7 8 9 10

P(X=i) 0.1732 0.2841 0.2519 0.1970 0.0620 0.0210 0.0070 0.0026 0.0011 0.0001

O modelo só não traduz completamente a realidade porque substituímos todos os valores ≥10,

que a variável assumia, pelo ponto 10, uma vez que o número de casos em que a dimensão do

agregado é superior a 10 é muito pequeno e tem pouco significado. Assim, achámos razoável

considerar o modelo anterior, já que convém não esquecer que o que se procura é um modelo

que seja útil e que traduza tão fielmente quanto possível, a realidade.

Agora, a partir da tabela anterior, podemos calcular a dimensão média dos agregados familiares

portugueses, obtendo-se o valor de 2.8 pessoas por agregado familiar. Esta informação é

bastante importante para os empresários que se dedicam à construção civil. Efectivamente o


Junho 2003

investimento em casas com muitas assoalhadas não se justifica, já que a grande parte dos

agregados familiares é constituído pelo casal e um filho.

Podemos também a partir da função massa de probabilidade anterior, calcular probabilidades de

alguns acontecimentos, nomeadamente, a probabilidade de um agregado familiar, escolhido ao

acaso:

a) Ser constituído por mais de 3 pessoas P(X>3) = P(X≥4) = 0.2908

b) Ter entre 2 e 4 pessoas P(2≤X≤4) = 0.7330

c) Ter menos de 4 pessoas P(X<4) = 1-P(X≥4) = 1-0.2908 = 0.7092

Repare-se que a percentagem de agregados familiares que tem entre 2 e 4 pessoas é de cerca

de 73%, o que vai de encontro à observação que fizémos anteriormente sobre o número de

assoalhadas das casas.

Suponhamos agora que se recolheu uma amostra de 100 agregados familiares e se registou a

respectiva dimensão (No anexo 1 apresentamos um processo para simular a recolha de uma

amostra aleatória a partir de uma determinada distribuição de probabilidade discreta):

2 4 2 1 1 2 3 1 5 2

4 4 3 1 1 3 4 2 1 3

1 1 2 6 4 3 4 5 2 5

3 4 5 2 5 2 2 3 2 1

5 4 1 1 2 3 3 3 6 1

2 1 2 2 4 1 1 5 4 2

5 4 2 5 3 2 2 2 5 4

3 2 4 2 4 3 1 4 2 5

3 2 3 2 3 3 2 2 2 4

1 2 3 3 2 2 4 1 3 4

A média desta amostra é 2.79.

Recolheram-se mais algumas amostras, tendo-se registado as respectivas médias. Obtiveram-se

valores todos diferentes uns dos ourtros, embora aproximados. Como seria de esperar, a média

varia de amostra para amostra, já que existe sempre uma certa variabilidade presente na

amostra. Pelo contrário o valor médio é um valor fixo – é uma característica do fenómeno

aleatório em estudo, que normalmente é desconhecido, se não tivermos um modelo de

probabilidade que o descreva, mas para o qual se pode obter um valor aproximado, recolhendo

uma amostra e calculando a média. Pode-se mostrar (embora saia do âmbito deste curso) que:


Junho 2003

Dado qualquer fenómeno aleatório cujos resultados sejam numéricos e que tenha valor médio ,

então, à medida que se repete o fenómeno, a média dos resultados observados aproxima-se

cada vez mais do valor médio, isto é, à medida que a dimensão da amostra aumenta, a média da

amostra tende a aproximar-se do valor médio do fenómeno aleatório.

A propriedade anterior explica a razão pela qual as casas de jogo não vão à ruína.

Efectivamente, um jogador pode ao fim de alguns jogos estar a ganhar ou a perder dinheiro! Mas

o que é certo é que ao fim de muitos jogos o valor médio do lucro pode-se prever e é sempre um

ganho para a casa de jogo!

Exemplo 3.2.5 (Adaptado de Mann, 1995) – Num jogo semelhante à Raspadinha, cada bilhete

custa 1 euro e os prémios que se podem ganhar são 500 euros, 23 euros, 13 euros, 7 euros, 3

euros e 1 euro. Cada bilhete tem uma superfície susceptível de ser raspada, a qual revela um

dos prémios anteriores ou nenhum prémio. São postos em circulação 6 000 000 bilhetes, de

acordo com a seguinte distribuição:

Prémio Número de bilhetes

0 4 640 940

1 999 960

3 222 000

7 60 000

9 37 500

13 24 000

23 15 000

500 600

Total = 6 000 000

Será que um indivíduo que jogue sistematicamente este jogo, pode vir a ter a esperança de ficar

rico?

Resolução:

Representando por X a variável aleatória que representa o lucro de um jogador que jogue neste

jogo, temos

X = xi P(X= xi)

-1 0.77349

0 0.16666

2 0.03700

6 0.01000

8 0.00625

12 0.00400

22 0.00250

499 0.00010


Junho 2003

Utilizámos a regra de Laplace para calcular as probabilidades anteriores. O valor médio da

variável aleatória X é –0.43659. Qual a interpretação que podemos dar a este resultado?

Significa que se considerarmos todos os jogadores, eles perdem em média aproximadamente 44

cêntimos por bilhete. Podemos ainda fazer a seguinte interpretação: Só 56.34% (100cêntimos-

43.659) do dinheiro gasto pelos jogadores é que reverte para esses mesmos jogadores na forma

de prémios. O restante, ou seja 43.66% será para pagar as despesas e o que sobrar será lucro

para a empresa detentora do jogo.

Exemplo 3.2.6 (adaptado de Moore, 1997) – Uma companhia de seguros instituiu um seguro de

vida com a duração de 5 anos, para indivíduos de 21 anos, do sexo masculino, segundo a

seguinte modalidade: a companhia paga uma indemnização de 100 mil euros se o segurado

morrer nos próximos 5 anos, sendo o prémio anual de 250 euros. Pretende-se saber qual o lucro

esperado para a companhia de seguros, tendo em conta as seguintes probabilidades:

Idade morte 21 22 23 24 25 ≥26

Probabilidade .0018 .0019 .0019 .0019 .0019 .9906

Resolução:

Seja X a v.a. que representa o lucro auferido pela companhia de seguros ao longo dos anos em

que o seguro é válido:

Idade morte 21 22 23 24 25 26

X -99750 -99500 -99250 -99000 -98750 1250

Probabilidade .0018 .0019 .0019 .0019 .0019 .9906

Utilizando a expressão para o cálculo do valor médio temos que o lucro esperado é de

aproximadamente 305 euros.

Tendo em conta o resultado anterior estaria disposto a assumir perante um amigo a

responsabilidade que a companhia de seguros assume perante os seus segurados? Obviamente

que não! O risco seria enorme. Como a companhia de seguros faz milhares de apólices deste

tipo, tem um lucro garantido, já que o valor médio é positivo.


Junho 2003

3.2.2.2 – Desvio padrão de uma variável aleatória discreta

Retomando o exemplo 3.2.3 que serviu para introduzir o valor médio a partir da média, vamos

agora calcular a variância amostral para os mesmos dados agrupados

s2 = (0-2.004)

2 0.057 + (1-2.004)2 0.261 + (2-2.004)

2 0.371 + (3-2.004)2 0.243 + (4-

2.004)2 0.068

Se na expressão anterior substituirmos as frequências relativas pelas probabilidades, de acordo

com a distribuição de probabilidades, e a média pelo valor médio, então obteremos uma

característica idêntica à variância amostral, mas agora associada à variável aleatória, a que

damos o nome de variância (populacional), e representamos por 2,

2 = (0-2)

2 0.0625 + (1-2)2 0.250 + (2-2)

2 0.375 + (3-2)2 0.250 + (4-2)

2 0.0625 = 1

donde o desvio padrão (populacional), vem igual a 1.

Dada uma variável aleatória discreta que assume os valores x1, x2, …, xk, com probabilidades p1,

p2, …, pk, define-se variância (populacional) de X, e representa-se por , como sendo o valor

= (x1 - )

2 p1+ (x2 - )

2 p2+ … + (xk - )

2 pk

= i1

k

(xi - )2 pi

À raiz quadrada da variância chamamos desvio padrão (populacional).

Exemplo 3.2.4 (Continuação) – Utilizando a expressão anterior, facilmente se obtém que o

desvio padrão da variável aleatória que representa o número de pessoas de um agregado

familiar português é 1.34.

Tal como no caso do desvio padrão amostral, que mede a maior ou menor variabilidade dos

dados relativamente à média, também o desvio padrão (populacional) mede a maior ou menor

variabilidade com que a variável aleatória se distribui relativamente ao seu valor médio.

Exemplo 3.2.5 (Graça Martins et al, 1999) - O João pergunta ao Miguel o que é que ele prefere:

ganhar 25 euros, qualquer que seja o resultado observado no lançamento de uma moeda, ou

ganhar 75 euros se no lançamento da moeda sair face, e perder 25 euros se sair coroa? O

Miguel fica indeciso e pede-lhe um conselho. O que é que lhe aconselharia?


Junho 2003

Resolução:

Na 1ªhipótese ganha sempre 25 euros, pelo que o lucro esperado é 25 euros.

Na 2ª hipótese temos uma variável que assume os valores –25 euros (perda) e 75 euros (ganho)

com probabilidade 1/2:

Valor -25 euros 75 euros

Probabilidade 0.5 0.5

O valor médio desta variável é

-25 euros x 0.5 + 75 euros x 0.5 = 25 euros

Aparentemente as duas hipóteses são equivalentes pois em média dariam o mesmo ganho. O

que é que então nos pode levar a decidir por uma ou outra das hipóteses? Vejamos o que se

passa com a variabilidade: no 1º caso a variabilidade é igual a zero, pois temos um

acontecimento certo, enquanto que no 2º caso a variância é igual a

(-25 euros – 25 euros)2

x 0.5 + (75 euros –25 euros)2

x 0.5 = (50 euros)2

pelo que o desvio padrão é igual 50 euros. Isto significa que, embora em média, as duas

hipóteses sejam equivalentes, na 2º hipótese corre-se um risco, pois se numa jogada se pode

ganhar 75 euros, também se pode perder 25 euros!

Existem alguns modelos de probabilidade que merecem relevo especial, devido a serem muito

utilizados em situações da vida real. Um desses exemplos é o modelo Binomial, que

apresentamos na secção seguinte.

3.2.3 – O Modelo Binomial

Consideremos as seguintes situações e as variáveis aleatórias indicadas:

Num estudo de opinião sobre se as pessoas são ou não a favor do aborto, seleccionam-

se aleatoriamente 100 lisboetas e pergunta-se a cada um se é a favor do aborto; o

número de pessoas que responde “sim” é uma variável aleatória X;

Numa escola com 2000 alunos, em que a percentagem de raparigas é 60%,

seleccionam-se aleatoriamente 15 para organizarem as festas de fim de ano lectivo; o

número de raparigas que pertence a esta comissão é uma variável aleatória Y;


Junho 2003

Considera-se um lote de 50 peças produzidas por uma máquina que produz 5% de

peças defeituosas; o número de peças defeituosas no lote das 50 é uma variável

aleatória Z.

De todos os doentes que sofrem de uma doença do estômago, 45% apresentam

melhoras com um determinado medicamento. Seja U a variável aleatória que representa

o número de doentes que apresentam melhoras, de entre os próximos 30 a tomarem o

medicamento.

Todas as situações descritas anteriormente podem ser modeladas pelo mesmo modelo de

probabilidade, já que são idênticas nos seguintes aspectos:

i) Considera-se à partida um número fixo n de experiências aleatórias, a que é usual chamar

provas;

ii) Os resultados das experiências são independentes uns dos outros;

iii) Em cada experiência pode-se obter um de dois resultados possíveis, a que chamamos

sucesso ou insucesso;

iv) A probabilidade de sucesso p, é constante de experiência para experiência.

À variável X que representa o número de sucessos nas n provas chama-se variável aleatória

com distribuição Binomial de parâmetros n e p e representa-se por XB(n,p).

Os valores que esta variável pode assumir são

0, 1, 2, …, n

Para descrever completamente a variável aleatória em estudo é necessário calcular a

probabilidade da variável aleatória ssumir cada um dos valores anteriores. Antes de obtermos o

modelo geral, vejamos o seguinte exemplo:

Exemplo 3.2.6 - Um rapaz vai para um exame de escolha múltipla em que cada questão tem 5

respostas possíveis, das quais só uma é a certa. O rapaz não estudou, pelo que responde

sistematicamente ao acaso. Estude a variável X que representa o número de respostas certas

num exame de 4 questões.

Resolução:

O número X de respostas certas pode ser igual a 0, 1, 2, 3 ou 4 e a probabilidade de responder

certo a uma questão é 0.2.

P(X=0)=P(0 respostas certas e 4 respostas erradas) = 0.20

x (1-0.2)4


Junho 2003

P(X=1)=P(1 resposta certa e 3 respostas erradas) = 4 x 0.751

x (1-0.75)3

(o coeficiente 4

corresponde ao número de maneiras de escolher a resposta certa, de entre os 4)

P(X=2)=P(2 respostas certas e 2 respostas erradas) = 6 x 0.752

x (1-0.75)2

(o coeficiente 6

corresponde ao número de maneiras de escolher as 2 respostas certas, de entre os 4)

P(X=3)=P(3 respostas certas e 1 resposta errada) = 4 x 0.753

x (1-0.75)1

(o coeficiente 4

corresponde ao número de maneiras de escolher as 3 respostas certas, de entre os 4)

P(X=4)=P(4 respostas certas e 0 respostas erradas) = 1 x 0.754

x (1-0.75)0

Do cálculo combinatório, sabe-se que o número de maneiras possíveis de escolher k sucessos

de entre n observações é dado pelo coeficiente binomial

Ckn

n

k

=

n!

k! (n - k)!

Com esta notação P(X=k) = C

k4

x 0.75k

x (1-0.75)4-k

, com k=0, 1, 2, 3 ou 4.

De um modo geral, se X tem distribuição Binomial de parâmetros n e p,

P(X=k) = C

kn

x pk x (1 - p)n-k

para k = 0,1,2,…, n.

Exemplo 3.2.7 (Adaptado de Moore, 1996)– Segundo a genética, os descendentes herdam os

genes dos pais, independentemente uns dos outros. Se ambos os pais têm genes sanguíneos

de tipo A e O, cada descendente tem uma probabilidade 0.25 de ter dois genes O, isto é sangue

de tipo O. Se uma destas famílias tem 5 descendentes, qual a probabilidade de dois deles terem

sangue de tipo O?

Resolução:

Seja X a variável aleatória que representa o número de descendentes em 5, que tem sangue de

tipo O. Então, X tem uma distribuição Binomial de parâmetros 5 e 0.25, ou seja

XB (5,0.25)

Para calcular a probabilidade pretendida, temos

P(X=2) = C25 0.25

2x0.75

3 = 0.26

Aplicação do modelo Binomial (Graça Martins et al, 1999)

Na vida real surgem-nos com frequência situações que podem ser bem modeladas pelo modelo

Binomial. Por exemplo, suponhamos que recolhemos uma amostra aleatória de 15 alunos de


Junho 2003

uma universidade com 10000 alunos, onde sabemos que a percentagem de raparigas é 51%.

Qual a distribuição da variável aleatória que representa o número de raparigas na amostra

seleccionada? Será que estamos numa situação em que se aplica o modelo Binomial? Não, se

pensarmos estritamente nas condições que nos conduzem a este modelo, nomeadamente no

facto de ser constante a percentagem de sucessos, quando se realizam as sucessivas provas

(selecção dos alunos). No caso presente, se ao seleccionarmos o primeiro aluno dos 10000

alunos, retirarmos uma rapariga, ficamos com 5099 raparigas, pelo que a probabilidade de

sucesso para a prova seguinte será de 509/9999 = 0.509950995…: se pelo contrário o aluno

seleccionado for rapaz, a probabilidade de sucesso para a prova seguinte será 510/9999 =

0.510051005…. No entanto, estes valores são tão próximas de 0.51, que em termos práticos

podemos dizer que o facto de termos retirado um elemento da população, não alterou a sua

composição. O mesmo raciocínio pode ser feito para as provas seguintes. Assim, podemos dizer

que a variável aleatória que representa o número de raparigas (sucessos) na amostra de 15

alunos, pode ser aproximadamente modelada por uma distribuição Binomial de parâmetros n=15

e p=0.51.

Quando o número de elementos de uma população é substancialmente maior que a dimensão n

de uma amostra aleatória simples retirada dessa população, então o número de sucessos

obtidos na amostra pode ser aproximadamente modelado pela distribuição Binomial, com

parâmetros n e p, sendo p a proporção de sucessos na população. A aproximação é tanto

melhor, quanto maior for a dimensão da população, quando comparada com a da amostra.

Exemplo 3.2.8 – O Departamento de Controlo de Qualidade de uma empresa selecciona, do

conjunto de parafusos produzidos durante uma hora por uma máquina, uma amostra de 10

parafusos para inspecção. Sabe-se que a percentagem de parafusos defeituosos produzidos

pela máquina é de 10%. Qual a probabilidade de na amostra seleccionada não haver parafusos

defeituosos?

Resolução:

Se representarmos por X a variável que representa o número de parafusos defeituosos em 10,

temos que a distribuição de X pode ser considerada Binomial de parâmetros 10 e 0.10, isto é,

XB (10, 0.1)

Então, a probabilidade pretendida será

P(X = 0) = 0.3487

Podemos concluir do resultado anterior que, embora a percentagem de obter parafusos

defeituosos seja de 10%, há uma probabilidade relativamente elevada (aproximadamente 35%)

de seleccionarmos 10 parafusos, todos bons. Significa isto que numa inspecção sobre a

qualidade dos parafusos, amostras de dimensão 10 são demasiado pequenas.


Junho 2003

3.3 – Modelos de probabilidade contínuos. Função densidade de

probabilidade

Como dissemos, no final da secção 3.1, há muitas situações da vida real que não podem ser

modeladas por um espaço de suporte finito nem tão pouco infinito numerável: o tempo que um

aluno leva de manhã a chegar à escola, a altura de um rapaz de uma determinada classe etária,

o comprimento do pé de um adulto, etc. Os modelos matemáticos para estas situações saem

fora do âmbito deste curso, mas no que se segue vamos tecer algumas considerações sobre

modelos contínuos e apresentar um caso especial de um modelo largamente utilizado – o

modelo Normal. Vamos então admitir que temos uma variável aleatória contínua, isto é, que

pode assumir qualquer valor de um intervalo do seu domínio de variação.

3.3.1 – Histograma versus função densidade

Na continuação do paralelismo que fizemos para as variáveis discretas, entre distribuição de

frequências e distribuição de probabilidades, é oportuno investigar se não haverá, no caso de

uma variável aleatória contínua, o equivalente ao histograma na amostra, que pode ser

considerada a representação por excelência de dados contínuos? Efectivamente assim é. Existe

uma função, chamada de função densidade, que se pode considerar como o caso limite para

que tenderia o histograma, se considerássemos muitas observações e por conseguinte muitas

classes, com amplitude cada vez mais pequena, como se ilustra nos dois exemplos seguintes:


Junho 2003

Qual é a utilidade da função densidade? Para responder a esta questão voltemos novamente ao

histograma, que é a imagem estatística da função densidade. Dados dois reais quaisquer a e b,

a área a ponteado dá um valor aproximado para a frequência relativa de os dados da amostra

estarem entre esses dois pontos, se o histograma foi correctamente construído, isto é, com as

áreas dos rectângulos iguais às frequências relativas das respectivas classes:


Junho 2003

Nota - Recordamos que quando tempos uma amostra de dados contínuos, organizados na forma

de uma tabela de frequências, a representação gráfica adequada para representar os dados é o

histograma, que é um diagrama de áreas, constituído por rectângulos adjacentes, tendo cada um

por base a classe e por área a respectiva frequência relativa. Nestas condições, a área total

ocupada pelo histograma é igual a 1.

Da nota anterior, é natural esperar que a área total compreendida entre o gráfico da função

densidade e o eixo dos xx, também seja igual a 1. E do mesmo modo, por analogia com o que se

passa com o histograma, a área a ponteado na função densidade dá o valor da probabilidade da

variável estar compreendida entre os valores a e b. A área a ponteado no histograma –

frequência relativa dos dados da amostra no intervalo [a, b], é um valor aproximado da

probabilidade da variável aleatória assumir valores nesse mesmo intervalo:

Na interpretação que acabámos de fazer, mais uma vez apelamos para o que foi dito sobre a

definição frequencista de Probabilidade, em que esta é entendida como o limite para que

estabiliza a frequência relativa.

Qualquer função cujo gráfico nunca passe abaixo do eixo dos xx, e tal que a área compreendida

entre o gráfico da função e o eixo dos xx seja igual a uma unidade, pode ser função densidade

de probabilidade de uma variável aleatória contínua, isto é, permite construir um modelo de

probabilidade no conjunto dos números reais. Para calcular a probabilidade de qualquer intervalo

basta calcular a área determinada por esse intervalo, entre o eixo dos xx e a curva.

É importante referir que, ao contrário dum modelo discreto que atribui probabilidades a

resultados individuais, um modelo contínuo atribui probababilidades a intervalos de resultados –

a qualquer resultado individual é atribuída a probabilidade 0.


Junho 2003

Exemplo 3.3.1 – Consideremos uma roleta calibrada de 0 a 1

Põe-se a roleta a girar e o indicador pode parar em qualquer posição do círculo. Seja X a

variável aleatória que representa o ponto da circunferência onde se dá essa paragem. A variável

X pode assumir qualquer valor entre 0 e 1 – um número infinito de valores. Como atribuir

probabilidades aos valores de X? A variável pode assumir um número infinito de valores, todos

igualmente possíveis, e podemos dizer que a variável varia uniformemente entre 0 e 1, já que se

a roleta estiver equilibrada, não temos razões para admitir que seja mais provável sair esta ou

aquela zona da circunferência. Assim, um modelo razoável para X será dado através da seguinte

função densidade de probabilidade:

f(x) = 0 quando x<0

f(x) = 1 quando 0≤x≤1

f(x) = 0 quando x>1

A probabilidade de o indicador apontar qualquer valor entre dois pontos a e b será dada pela

área da parte sombreada

que é (b-a), ou seja, a probabilidade da variável assumir valores num determinado intervalo (a,b),

contido no intervalo [0, 1], é igual à amplitude desse intervalo.

Também se verifica que para qualquer ponto a, P(X=a) = 0:


Junho 2003

O modelo que apresentámos no exemplo anterior é o modelo Uniforme no intervalo [0, 1] ou

distribuição Uniforme.

Modelo Uniforme

De um modo mais geral, podemos definir o modelo Uniforme no intervalo (a, b), com função

densidade de probabilidade:

f(x) =

1

b - a se a ² x ² b

0 se x< a ou x > b

Nota: Os números que se obtêm utilizando a tecla RAND da máquina de calcular, apelidados de

números aleatórios, mas que de devem chamar de pseudo-aleatórios, uma vez que têm por trás

um mecanismo determinista (algoritmo) para os gerar, são números com distribuição Uniforme

no intervalo (0, 1). Assim, sempre que carregamos na tecla RAND obtemos um número entre 0 e

1, que tem a mesma possibilidade de surgir que outro qualquer, também no intervalo (0, 1). O

algoritmo, que permite obter estes números, simula a extração de um número ao acaso de um

saco (virtual…) contendo todos os números entre 0 e 1. Este modelo tem uma grande

importância em Estatística, pois em muitas situações permite obter números pseudo-aletaórios

com outras distribuições. No Anexo 1 destas folhas, descrevemos um processo de obter

números com uma determinada massa de probabilidade, utilizando o modelo Uniforme, ou mais

precisamente a tecla RAND da máquina de calcular.

Exemplo 3.3.2 (Loura et al, 2002) - Como todos os alunos, o André estuda mais na véspera dos

pontos do que nos restantes dias. No entanto, nunca estuda mais do 5 horas e com maior

frequência estuda entre 2 e 3 horas. Com base nesse facto sugeriu o seguinte modelo para o

tempo de estudo (em horas) na véspera dos pontos:


Junho 2003

De notar que a informação apresentada é suficiente para identificar a função de densidade.

Começando por determinar a altura do triângulo de modo a que a sua área seja unitária, ficamos

com todos os elementos para determinar a equação das duas rectas que definem a função.

Temos então que a altura do triângulo deve ser igual a 0.4 e a função densidade tem a seguinte

expressão analítica

f(x) =

4

25x para 0²x < 2.5

4

5 -

4

25x para 2.5²x < 5

0 para os outros valores de x

É agora só uma questão de cálculo de áreas a determinação de probabilidades associadas a

esta situação. Assim, se representarmos por X a variável aleatória que representa o tempo de

estudo:

a) A probabilidade de estudar mais de 4 horas, P(X>4), será dada pela área a tracejado:

P(X>4) =

1

21 (

4

5

4

25 4)

2

25

b) A probabilidade de estudar entre 2 e 3 horas, P(2<X<3) será:


Junho 2003

P(2<X<3) = 1 - 28

25 =

9

25

A situação dos modelos contínuos exige instrumentos de análise matemática mais elaborados

quando a função densidade não tem uma forma que dê origem ao cálculo de áreas de figuras

conhecidas como, por exemplo, triângulos ou trapézios.

3.3.2 – Modelo Normal ou Gaussiano

O modelo Normal é um dos modelos mais importantes em Estatística, pois uma grande

variedade de situações da vida real podem ser modeladas por aquele modelo. Por exemplo,

quando estamos interessados em estudar o comprimento do eucalipto, o diâmetro do tronco do

pinheiro bravo, a altura de um jovem adolescente, etc, o modelo Normal ajusta-se bem a este

tipo de dados.

É um modelo que tem suporte em R e tem uma função densidade com uma forma característica

que faz lembrar a forma de um sino. Quando falamos no modelo Normal estamos a referir-nos a

uma família de distribuições caracterizadas por dois parâmetros, o valor médio e o desvio

padrão , e que representamos por N(,). A expressão analítica da função densidade, a partir

da qual se podem deduzir algumas propriedades do modelo, é a seguinte:

f(x) =

1

2e

-(x- )2

2 2

para - < x <

Propriedades da curva normal:

i) É simétrica relativamente ao valor médio da variável, assumindo aí o valor máximo;

ii) Quanto maior for o desvio padrão mais achatada é a curva;


Junho 2003

iii) A área compreendida entre a curva e o eixo dos xx é igual a 1;

iv) A área compreendida entre a curva, o eixo dos xx e as rectas que passam pelos pontos

- e +, é aproximadamente igual a 0.68;

v) A área compreendida entre a curva, o eixo dos xx e as rectas que passam pelos pontos

-2 e +2, é aproximadamente igual a 0.95;

vi) A área compreendida entre a curva, o eixo dos xx e as rectas que passam pelos pontos

-3 e +3, é aproximadamente igual a 1.

Repare-se que as três últimas propriedades fazem lembrar a regra 68 – 96 – 100, geralmente

utilizada em Estatística.

No caso do modelo Normal de valor médio 0 e desvio padrão 1, existem umas tabelas que nos

permitem obter probabilidades de intervalos, a partir das quais se obtém, no caso de X ter valor

médio e desvio padrão :

P( ≤ X ≤ + )=.683

P( - 2 ≤ X≤ + 2)=.954

P( - 3≤ X ≤ + 3)=.997

Quando for necessário calcular probabilidades de intervalos diferentes dos considerados

anteriormente, utilizamos as mesmas tabelas.

Exemplo 3.3.3 - Num certo exame, classificado de 0 a 100, o valor médio e o desvio padrão das

classificações foi 50 e 10, respectivamente. Admitindo que a classificação de um aluno que

realizou o dito exame pode ser bem modelada por uma N(50, 10), calcule a probabilidade desse

aluno ter uma classificação:


Junho 2003

a) Entre 40 e 60 pontos;

b) Entre 30 e 70 pontos;

c) Superior a 70.

Resolução:

a) Representando por X a v.a. que representa a classificação obtida,

P(40≤X≤60) = P(50-10≤X≤50+10) = 0.683

b) P(30≤X≤70) = P(50-2x10≤X≤50+2x10) = 0.954

c) P(X>70) = 1/2x[1- P(30≤X≤70)] = 0.026

Exemplo 3.3.4 – O Sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem,

destinadas a serem vendidas em Portugal. Para ter alguma informação sobre os moldes que

deve considerar, nomeadamente no que diz respeito ao comprimento das mangas, resolveu

pedir a uma empresa de Consultoria de Estatística que o ajudasse, dando-lhe algumas

indicações sobre a população a que se destinam as camisas.

Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.

1º passo – Recolha de uma amostra

A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra

de dimensão 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do braço

direito de 250 homens:

51.5 56.0 55.0 58.3 58.4 55.3 56.3 52.2 55.2 57.3

55.4 52.9 54.0 59.7 55.4 53.0 52.6 55.5 53.1 52.4

57.9 57.7 55.3 53.5 55.8 57.9 54.7 55.7 54.0 52.1

57.6 52.9 54.2 52.9 56.2 54.9 58.2 53.2 54.1 53.1

53.9 54.9 56.7 52.1 57.7 55.4 54.9 54.9 55.5 56.6

56.6 54.7 55.6 53.2 54.7 53.0 57.5 55.6 56.9 57.4

49.9 54.7 53.8 58.4 55.7 55.4 54.3 49.1 56.7 55.4

53.0 55.3 55.7 52.1 51.0 53.1 55.3 52.1 54.3 54.9

55.3 56.7 57.1 54.4 53.7 58.9 53.8 54.8 55.7 55.4

56.6 56.8 53.4 53.4 56.0 56.5 56.7 54.0 51.6 52.6

56.4 56.8 57.4 54.7 55.5 53.2 54.7 54.7 58.4 56.3

58.1 53.4 56.7 58.1 54.9 54.2 56.5 53.2 51.3 56.6

56.6 58.8 57.7 52.5 56.2 54.4 56.8 51.8 53.9 58.4

58.7 55.2 53.0 58.0 58.6 52.3 59.2 56.5 57.1 54.2

55.3 55.5 56.1 52.1 53.9 53.2 52.9 58.8 55.0 54.2

54.8 53.4 56.8 51.9 55.0 51.6 58.2 55.5 56.2 53.7

54.6 51.7 55.5 52.8 54.4 55.7 54.0 56.8 53.3 56.8

54.2 50.5 54.3 54.6 53.2 52.2 55.2 55.4 55.8 55.6


Junho 2003

60.2 57.0 54.6 55.0 56.6 55.1 58.0 57.3 56.0 51.7

55.1 54.5 53.8 55.1 55.7 57.1 53.2 52.4 55.5 57.2

56.1 55.1 55.2 56.3 57.1 55.5 53.2 54.8 55.6 56.0

60.7 58.3 59.4 52.8 55.8 56.8 56.3 55.7 53.0 53.0

51.9 55.7 53.4 53.8 52.1 57.5 59.8 55.3 55.0 55.0

54.2 57.6 55.1 56.5 58.3 53.1 55.2 53.7 48.4 54.7

55.0 56.5 56.9 57.0 58.2 56.7 54.4 50.2 54.4 56.5

2º passo – Estudo descritivo

Procedeu-se ao estudo descritivo dos dados anteriores, calculando algumas características

amostrais e procedendo à redução dos dados através de uma tabela de frequências e à

construção do histograma correspondente. Apresentam-se a seguir os resultados obtidos:

Média Mediana Mínimo Máximo Desvio padrão

55.14 55.22 48.4 60.7 2.09

Para construir a tabela de frequências consideraram-se 8 classes e para obter a amplitude de

classe dividiu-se a amplitude da amostra, ou seja (máximo – mínimo), por 8, escolhendo o valor

1.54 para essa amplitude de classe (seguindo a recomendação de que se deve escolher para

amplitude de classe um valor aproximado, por excesso, do quociente amplitude da

amostra/número de classes):

Classes Freq. relativa

[48.40, 49.94[ 0.012

[49.94, 51.48[ 0.020

[51.48, 53.02[ 0.132

[53.02, 54.56[ 0.196

[54.56, 56.10[ 0.320

[56.10, 57,64[ 0.200

[57.64, 59.18[ 0.096

[59.18, 60.72[ 0.024

A partir da tabela anterior construímos o histograma que se apresenta a seguir:


Junho 2003

59,1

8 - 6

0,7

2

57,6

4 - 5

9,1

8

56,1

0 - 5

7,6

4

54,5

6 - 5

6,1

0

53,0

2 - 5

4,5

6

51,4

8 - 5

3,0

2

49,9

4 - 5

1,4

8

48,4

0 - 4

9,9

4

.32

.24

.16

.08

0

Std. Dev = 2,09

Mean = 55,14

N = 250

A representação gráfica obtida sugere-nos o modelo Normal para a distribuição da variável

aleatória que representa o comprimento do braço de um adulto, escolhido ao acaso, de entre os

portugueses.

Uma questão que se levanta neste momento é a seguinte: terá sentido estar a ajustar aos

nossos dados um modelo com suporte R, isto é, que pode assumir qualquer valor real, quando

nós sabemos que isso não se passa com o comprimento do braço? Mas se estamos renitentes

em ajustar um modelo com suporte em R, talvez pensassemos que seria mais razoável um cujo

suporte fosse R+, pois se temos a garantia que o comprimento não pode ser negativo, não

sabemos qual o valor máximo que devemos escolher. Ou poderíamos inventar um valor ao

acaso como limite superior, por exemplo 150 cm, mas com que legitimidade é que escolhemos


Junho 2003

este e não outro valor? Também não devemos considerar o valor 60.7 como valor máximo,

embora tenha sido o maior valor da amostra que se recolheu. Ninguém nos garante que na

população não haja homens com o comprimento do braço superior a 60.7! Nesta altura, de

reflexão sobre qual o modelo a adoptar, recordemos o que se disse sobre a escolha de um

modelo para traduzir um fenómeno aleatório – todos os modelos são maus, alguns são úteis. No

entanto, além do histograma nos sugerir o modelo Normal, devido à semelhança com a função

densidade da Normal, também dispomos de alguma informação científica sobre este modelo; e

são esses estudos que nos dizem que ele se aplica em situações de fenómenos que possam ser

considerados provenientes de uma contribuição aditiva de várias variáveis, como é, por exemplo,

o caso da variável em estudo. Então, em posse da informação sobre a proveniência dos dados e

dos resultados do estudo descritivo dos mesmos, estamos em condições de propor o modelo

Normal.

3º passo – Proposta de um modelo para o fenómeno aleatório em estudo

O modelo que se propõe para o comprimento do braço é o modelo Normal de valor médio 55 cm

e desvio padrão 2 cm., cuja função densidade se sobrepôs ao histograma. A Estatística tem

ferramentas próprias que, com uma confiança grande, por exemplo 95%, permitem tomar a

decisão de não rejeitar o modelo proposto.

4º passo – Transmissão dos resultados ao industrial têxtil

Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentação dos

resultados. Pode-se, no entanto, ir adiantando alguma informação, em termos de percentagens

dos futuros compradores das camisas. Assim, temos os seguintes números:

Aproximadamente 68% dos homens têm o comprimento dos braços no intervalo [53, 57]

Aproximadamente 95% dos homens têm o comprimento dos braços no intervalo [51, 59]

Aproximadamente 100% dos homens têm o comprimento dos braços no intervalo [49,

61]

Se consultarmos as tais tabelas disponíveis para o modelo N(0, 1), podemos ser um pouco mais

precisos, informando o Sr. Silva sobre os valores do 1º e 3º quartis, que são respectivamente

53.6 cm e 56.4 cm. Assim o industrial sabe que só 25% dos homens é que têm o comprimento

dos braços inferior a 53.6 cm e que 50% dos homens têm o comprimento dos braços no intervalo

[53.6, 56.4].


Junho 2003

Anexo 1

Processo para simular números pseudo-aleatórios com uma determinada função massa

de probabilidades

Suponhamos que se pretende simular uma experiência aleatória, em que em cada realização da

experiência se pode obter um de k resultados possíveis, x1, x2, …, xk, com probabilidades p1, p2,

…, pk, em que p1+p2+…+pk = 1.

1º passo:

Dividir o intervalo (0,1) em k intervalos [0, p1[, [p1, p1+p2[, [p1+p2, p1+p2+p3[ , …, [p1+p2+…+pk-1, 1[

2º passo

Utilizando a máquina de calcular e a função RAND, gerar tantos números aleatórios quantos os

que se pretendem obter com a distribuição de probabilidades dada. Sejam r1, r2, … , rn os

números obtidos.

3º passo

Para cada número ri obtido no passo anterior faz-se o seguinte teste:

Se ri [o, p1[ o resultado da experiência é o x1

Se ri [p1, p1+p2[ o resultado da experiência é o x2

Se ri [p1+p2, p1+p2+p3[ o resultado da experiência é o x3

…

Se ri [p1+p2+…+pk-1, 1[ o resultado da experiência é o xk


Junho 2003

Bibliografia

ALPUIM, T. (1997) – Introdução às Probabilidades. Associação dos Estudantes da Faculdade de

Ciências de Lisboa

FELLER, W. (1968) – An Introduction to Probability Theory and its Applications, John Wiley &

Sons.

FREEDMAN, D. PISANI, R. PURVES, R., ADHIKARI, A. (1991) - Statistics. W. W. Norton &

Company.

GRAÇA MARTINS, M. E. (2000) – Introdução às Probabilidades e à Estatística. Sociedade

Portuguesa de Estatística.

GRAÇA MARTINS, M. E. , MONTEIRO, C., VIANA, J. P., TURKMAN, M. A. (1999) –

Probabilidade e Combinatória. Ministério da Educação. Departamento do Ensino Secundário.

GRAÇA MARTINS, M. E. , CERVEIRA, A. (1999) – Introdução às Probabilidades e à Estatística.

Universidade Aberta.

IMAN, R. e CONOVER, W. (1983) - A Modern Approach to Statistics. John Wiley & Sons.

LOURA, L., GRAÇA MARTINS, M. E. (2002) – Matemática para as Ciências Sociais. Ministério

da Educação. Departamento do Ensino Secundário.

MANN, P. (1995) – Introductory Statistics. John Wiley & Sons.

MENDENHALL. W. BEAVER, R. (1994) – Introduction to Probability and Statistics. Duxbury

Press.

MOORE, D. – Statistics – Concepts and Controversies. Freeman, 1997

MOORE, D. – The Basic Practice of Statistics, Freeman, 1995

MOORE, D., McCABE, G. – Introduction to The Basic Practice of Statistics, Freeman, 1993

PARZEN, E. (1969) – Modern Probability Theory and Its Applications. New York.Wiley.

Alguma bibliografia editada posteriormente:

GRAÇA MARTINS, M. E. (2005) – Introdução à Probabilidade e à Estatística.- Com

complementos de Excel. Edição da SPE, ISBN-972-8890-03-6. Depósito Legal 228501/05

GRAÇA MARTINS, M. E., LOURA, L., MENDES, F. (2007) – Análise de dados, Texto de apoio

para os professores do 1º ciclo, Ministério da Educação, DGIDC. ISBN-978-972-742-261-6.

Depósito legal 262674/07

GRAÇA MARTINS, M. E., PONTE, J. P. (2010) – Organização e tratamento de dados,

http://area.dgidc.min-edu.pt/materiais_NPMEB/matematicaOTD_Final.pdf

http://area.dgidc.min-edu.pt/materiais_NPMEB/matematicaOTD_Final.pdf


Junho 2003

INTRODUÇÃO À PROBABILIDADE - Matematica do...

Documents

Transcript of INTRODUÇÃO À PROBABILIDADE - Matematica do...