Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com...

118
OPÚSCULO ___________________ BIOESTATÍSTICA, INFORMAÇÃO E DECISÃO EM SAÚDE I ______________________________ por Rafael Vieira

Transcript of Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com...

Page 1: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

OPÚSCULO

___________________

BIOESTATÍSTICA, INFORMAÇÃO E DECISÃO EM SAÚDE I

______________________________

por Rafael Vieira

Page 2: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...
Page 3: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Índice

Nota Introdutória ………………………………………………………………………………….. 2

I — Informação em Saúde ………………………………………………………………………. 3

II — Pesquisa bibliográfica e conhecimento biomédico ……………………………………… 8

III — Registos Clínicos Eletrónicos …………………………………………………………… 17

IV — Segurança da Informação ………………………………………………………………. 21

V — Codificação e Classificação em Saúde. Qualidade dos Dados. …………………….. 28

VI — Representação Conceptual de Dados e Informação ………………………………… 34

VII — Bases de dados: definição e construção ………………………………………….….. 40

VIII — Consultas de Bases de Dados …….………………………………………………….. 46

IX — Noções básicas de sistemas de apoio à decisão …………………………………….. 50

X — E-Saúde e portais para profissionais de saúde ……………………………………….. 56

XI — Estatística descritiva I …………………………………………………………….……… 57

XII — Estatística descritiva II ………………………………………………………………….. 60

XIII — Probabilidades e Distribuições teóricas ……………………………………………… 65

XIV — Amostragem e Estimação (Intervalos de Confiança) ………………………………. 71

XV — Princípio dos Testes de Hipótese ……………………………………………………… 79

XVI — Testes Paramétricos ……………………………………………………………………. 84

XVII — Testes Não Paramétricos ……….…………………………………………………….. 92

XVIII — Tabelas de Contingência e Teste do Qui-Quadrado ………………………………. 96

XIX — Correlação ………………………………………………….………………………….. 100

XX — Relação Linear (Simples) ……………………………………………………..……… 104

Anexo I — Formulário ………………………………………………………………………… 113

Anexo II — Testes de Hipótese ……………………………………………………………… 116

� de �1 116

Page 4: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Nota Introdutória

Olá (ou Boa noite, para os que leem estas folhas na noite de véspera do exame),

Na unidade curricular de Bioestatística, Informação e Decisão em Saúde I (doravante, BIDS I), os ensinamentos focam-se essencialmente em três áreas: sistemas de apoio à decisão, sistemas de informação e bioestatística. Numa era em que a tecnologia assume uma importância inquestionável no mundo que nos rodeia, também as ciências da saúde começam a tornar-se menos pessoais e mais tecnológicas. Se a importância do contacto pessoal com os vossos futuros pacientes é abordada na unidade curricular de Humanidades em Medicina, a vertente tecnológica é abordada na unidade curricular de BIDS I, oferecendo a preparação essencial para a revolução tecnológica no mundo médico.

Este opúsculo não tem como objetivo definir os conteúdos que os estudantes devem aprender na UC de BIDS I. Para tal, há que consultar a bibliografia recomendada pela regência da UC, bem como as apresentações das aulas teóricas e os conteúdos das aulas práticas. Não sendo especialista em nenhum dos temas abordados na UC de BIDS I, os apontamentos que se seguem são apenas uma reunião das matérias lecionadas no ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, não devendo ser considerados uma autoridade na matéria e podendo, muito provavelmente, conter erros. (Caso os encontrem, por favor, contactem [email protected].) Por ser apenas um aglomerado de informação já disponível anteriormente, esta sebenta poderá conter excertos e conteúdos de outrem. Além disso, os objetivos da UC podem ser alterados e podem existir modificações na matéria lecionada. Dito isto, este opúsculo, como qualquer sebenta ou apontamentos de estudantes, deverá ser utilizado com precaução e sentido crítico. Por uma questão de alguma fidedignidade, sempre que possível, a bibliografia consultada estará disponível no final do capítulo, para aqueles que quiserem confirmar a veracidade do que foi escrito e/ou aprofundar determinadas partes da matéria — ainda que saiba que grande parte de vós não o fará.

� de �2 116

Page 5: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

I — Informação em Saúde

Introdução

A indústria da saúde evoluiu para uma indústria movida por sofisticados recursos de informação e conhecimento. As empresas, nesta indústria, podem ser consideradas ricas em conhecimento, na medida em que geram uma enorme quantidade de dados (como registos clínicos, relatórios administrativos, estudos clínicos, …), e, ao mesmo tempo, pobres em conhecimento, uma vez que muito raramente estes dados são utilizados para tomar decisões estratégicas.

Uma boa parte da informação clínica está disponível aos profissionais de saúde (p.ex., médicos), os quais devem ter a capacidade de usar a informação ao seu dispor para tomar decisões no momento e local certo, de acordo com a informação do paciente e o conhecimento aplicável. Para que as decisões sejam tomadas de acordo com estes quatro pontos, importa que:

- a informação esteja disponível quando for necessária;- a informação esteja disponível onde for necessária;- a informação esteja correta (p.ex., informação atualizada do paciente correto).

Comunicação

“Estudos mostram que, independentemente do conhecimento médico, se o médico não for capaz de comunicar com o paciente, então o médico não conseguirá ser útil.”

A comunicação apresenta uma enorme relevância para a indústria da saúde hoje em dia, nomeadamente a nível de cuidados de saúde, pesquisa e gestão. Várias vertentes dependem da partilha da informação e do trabalho de equipa.

Comunicação de InformaçãoUm único médico atende cerca de 150 mil pacientes durante a sua carreira.

Na realidade, o procedimento mais habitualmente realizado por um médico é a entrevista clínica; ainda assim, na formação médica é dada mais importância, por exemplo, a técnicas cirúrgicas do que à capacidade de comunicação.

Registo de InformaçãoGrande parte das decisões na sequência da entrevista clínica levam em

conta o histórico de saúde do paciente, pelo que o registo de informação se mostra importante. Os médicos e enfermeiros gastam grande parte do seu tempo a registar informação, que é depois armazenada, normalmente em arquivos clínicos físicos.

O armazenamento de dados será abordado mais à frente nesta sebenta; por agora, importa compreender que a informação em arquivos clínicos se acumula ao longo dos anos e a procura de informação nem sempre é uma tarefa fácil. A solução pode passar pelas tecnologias de informação e comunicação (TIC).

� de �3 116

Page 6: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

No entanto, a utilização das TIC ainda não é consensual, quer por não corresponderem às expectativas do utilizador, quer devido às normas nacionais e internacionais que aumentam a complexidade destes projetos, quer devido à resistência por parte dos utilizadores — os profissionais de saúde.

Informática Médica

“Se fisiologia significa literalmente 'a lógica da vida', e patologia significa 'a lógica da doença', então informática médica significa a ‘lógica da prestação de cuidados de saúde’.”

Enrico Coiera

A informática está presente e enraizada na medicina. Abaixo, encontram-se alguns exemplos que mostram a presença da informática na medicina.

Sistemas de Informação em Saúde Registos Clínicos Eletrónicos

Sistemas de Apoio à Decisão Ajuda na prescrição de medicamentos Desfribiladores automáticos Aparelho de insulina

Telemedicina Pedir segunda opinião de um profissional de saúde Monitorização remota de sinais vitais Diagnóstico à distância

Sinais e imagem médica Raio-x, TAC, ressonância magnética Cápsula gástrica Eletrocardiograma, eletroencefalograma, cardiotograma

Segurança Confidencialidade Integridade Disponibilidade

Data Mining Descoberta de novas relações através da análise automática de grandes quantidades de dados

� de �4 116

Fig. 1.1. — Registos clínicos físicos vs. registos clínicos eletrónicos

Tab. 1.1. — Informática na medicina e exemplos

Page 7: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

A Figura 1.2. pode ser facilmente explicada através de alguns factos relativos à atualidade.

- Envelhecimento da população: graças ao envelhecimento da população, os dados clínicos de cada pessoa necessitam de estar armazenados e acessíveis durante um período superior de tempo, pelo que se preferem os registos eletrónicos, que permitem armazenar mais informação em menos espaço.

- Doenças crónicas: tendem a surgir na pessoa enquanto jovens e obrigam a um seguimento contínuo. Também isso obriga a que os dados se mantenham disponíveis durante mais tempo.

- Mobilidade: numa era em que o mundo é uma aldeia global, a informação de saúde relativa a um paciente tem de estar acessível não só em qualquer hospital Português, mas também em qualquer hospital de outro país, algo que apenas é possível graças aos registos eletrónicos.

- Cuidados partilhados: o facto de um doente poder ser atendido por vários profissionais de saúde, inclusive durante o mesmo internamento, requer que os dados possam ser acedidos por diferentes profissionais em qualquer momento.

Conceitos elementares em informática médica

Importa distinguir entre dados, informação e conhecimento, já que se tratam de conceitos fundamentalmente diferentes.

Contexto:Um médico recebe, no seu consultório, um paciente cujo índice glicémico em jejum

é 150 mg/dL. Após ingestão e 75g de glicose, o índice glicémico do paciente era 213 mg/dL.

� de �5 116

Fig. 1.2. — Tendência de utilização de dados informáticos

Page 8: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Dados Os dados são os factos do mundo e descrevem o mundo. Neste caso, os

dados são o índice glicémico em jejum (150 mg/dL) e o índice glicémico do paciente após ingestão de glicose (213 mg/dL).

InformaçãoA informação é a interpretação dos dados num determinado contexto. Ao

contrário dos dados, que estão sempre corretos, a informação pode não estar. No caso descrito, os dados informam o médico de que o índice glicémico não é o adequado em nenhuma das situações.

ConhecimentoO conhecimento é o que nós sabemos. É como um mapa virtual do mundo,

construído no nosso cérebro, que está constantemente a ser atualizado com base nos sinais recebidos pelos nossos sentidos. É com base no conhecimento — o mapa virtual — que tomamos as nossas decisões, não com base no mundo real. O conhecimento apenas pode ser armazenado no cérebro e o cérebro relaciona tudo. Os computadores não são cérebros virtuais, porque não compreendem o que estão a processar e não são capazes de relacionar conceitos e tomar decisões com base nisso. Existem duas fontes de conhecimento: os dados e a informação. No caso acima descrito, poderia considerar-se conhecimento o facto de que se o índice glicémico é superior a 126 mg/dL em jejum e superior a 200 mg/dL duas horas após ingestão de glicose, então muito provavelmente o paciente sofrerá de Diabetes Mellitus.

É importante não confundir estes conceitos, principalmente os conceitos de dados e informação. Os dados estão sempre corretos (um doente não pode ter um índice glicémico de 150 mg/dL e 80 mg/dL ao mesmo tempo), mas a informação pode estar errada (podem existir dois ficheiros que indiquem valores diferentes de índice glicémico do paciente X na consulta Y). Os dados não são estáticos e a informação nem sempre descreve os dados corretamente.

Ciclo Diagnóstico-Terapêutica

O ciclo diagnóstico-terapêutica consiste em três etapas.

� de �6 116

Observação A. Observação

B. MediçãoC. Entrada de Dados

Avaliação e DecisãoA. Diagnóstico

B. TeoriaC. Processamento

AçãoA. TerapêuticaB. ExperiênciaC. Resultados

Page 9: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Na etapa de observação, o médico obtém dados, de preferência relevantes e que forneçam informação. Com os dados, o médico reduz a incerteza relativamente à condição do paciente. Estes dados podem ser a história clínica, análises ao sangue, um eletrocardiograma, … Nem sempre os dados são suficientes e podem requerer uma intervenção médica para obter novos dados.

De seguida, segue-se a etapa de avaliação e decisão. Aqui, pode ser importante a utilização de dispositivos eletrónicos que forneçam informação ao médico, uma vez que nem sempre este tem completa noção dos seus conhecimentos. O computador apenas pode ser útil na parte científica. Um diagnóstico tem sempre subjetividade associada e o médico deve ser capaz de pensar e decidir a opção que é mais apropriada tendo em conta os dados obtidos do doente. A responsabilidade da decisão cabe sempre ao médico.

Por fim, segue-se a etapa da ação. Esta depende sempre da etapa anterior, na medida em que a ação depende da decisão tomada (e a decisão depende dos dados obtidos). Após a ação, é necessário reavaliar a situação e, caso a ação não tenha produzido os efeitos desejados, o ciclo pode repetir-se.

As três etapas são completamente interdependentes e a ordem do ciclo nunca pode ser invertida (p.ex., a decisão não pode ocorrer depois da ação).

Bibliografia

Departamento CIDES. Introdução à Informática em Saúde. 2014.Sibte S, Abidi R. Knowledge management in healthcare: towards ‘knowledge-driven’ decision-support services. 2001;63:5-18.Simita Mishra KCM, Mishra SMC. Medical Informatics: An Exploration. ICFAI University Press; 2006.Suarez-Almazor ME. Patient-physician communication. Curr. Opin. Rheumatol. 2004;16(2):91-95.

� de �7 116

Page 10: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

II — Pesquisa bibliográfica e conhecimento biomédico

Hoje em dia, há uma enorme quantidade de conhecimento biomédico disponível aos profissionais de saúde, os quais devem ser capazes de identificar as fontes relevantes e aceder a elas, bem como recolher e organizar informação. Isto não é relevante apenas na escrita de um artigo científico, mas também no âmbito clínico, existindo estudos que indicam que pesquisar quando os pacientes são admitidos reduz significativamente os custos e tempo da visita.

O que pesquisar?

Regra geral, pesquisam-se publicações científicas, habitualmente chamadas de “literatura”, e podem ser variadas: revistas, livros, apresentações em conferências, relatórios governamentais, relatórios técnicos, panfletos, documentos de trabalho de sociedades científicas ou patentes. Regra geral, a pesquisa é efetuada em revistas indexadas online.

Peer-review

O peer-review, ou revisão por pares, é um processo utilizado na publicação de artigos. O artigo é colocado ao escrutínio de um ou mais especialistas da área do autor, os quais, normalmente, fazem comentários ao artigo e garantem o cumprimento de critérios de qualidade mínima para publicação na revista. Uma vez que, regra geral, os revisores se mantêm anónimos aos autores, a comunicação entre estes é mediada pelo editor da revista.

Embora seja um método bastante eficiente, não é isento de erros. Por exemplo, os editores do British Medical Journal inseriram propositadamente oito erros em artigos já aceites para publicação e enviaram o artigo para 420 potenciais revisores. 221 desses encontraram apenas dois erros; nenhum encontrou mais do que cinco erros e 16% não encontraram qualquer erro. Outro caso, mais mediático, foi a resposta da revista NATURE ao trabalho de Hans Krebs, sobre o ciclo do ácido cítrico (ou ciclo de Krebs), que viria a ganhar um prémio nobel mais tarde. Com efeito, a NATURE acabou por desvalorizar o trabalho de Krebs, indicando que apenas teria disponibilidade para a publicar passadas oito semanas (Fig. 2.1.). Krebs acabaria por publicar o artigo noutra revista. Apesar de não ser um método infalível, é, ainda assim, atualmente, a melhor forma de assegurar a qualidade dos artigos publicados.

� de �8 116

Page 11: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Citações

“If I have seen further it is by standing on the shoulders of Giants.”Isaac Newton

Todo o artigo científico de qualidade está, usualmente, assente em trabalhos efetuados anteriormente que oferecem informação útil para a elaboração de um novo artigo. Podem ser referências a um livro, artigo, página Web, ou outro material, e são habitualmente descritas no fim dos trabalhos académicos, em bibliografias ou em índices específicos. Além de darem o devido crédito aos autores cujo trabalho é utilizado, também podem ser usadas como índice de bibliometria e de análise de qualidade de uma revista — fator de impacto.

Fator de ImpactoÉ o método mais utilizado para avaliar a importância de uma revista e

consiste no quociente entre o número de citações dos artigos publicados nos dois anos anteriores e o número de artigos citáveis publicados durante o mesmo período.

Assim, por exemplo, se uma revista tiver um fator de impacto de 10 em 2014, isso significa que a média de citações por artigo publicado em 2012 e 2013 era 10. O mesmo se aplica para calcular o fator de impacto de um autor específico.

Os valores do fator de impacto têm de ser analisados com cuidado e podem ser manipulados pelas revistas. Por exemplo: um autor publica um artigo na revista X. No ano seguinte, envia um novo artigo para a revista X. A revista X exige ao autor que cite o

� de �9 116

Fig. 2.1. — Resposta da NATURE ao trabalho enviado por Krebs.

Page 12: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

seu trabalho na revista X, bem como outros trabalhos da mesma revista X, como forma de aumentar o seu fator de impacto.

Os valores anuais do fator de impacto das revistas podem ser encontradas no Journal Citation Report, da Thomson Reuters (Fig. 2.2.).

Nota: Para aceder ao Journal Citation Report, é necessária ligação à rede FMUPnet. Isto quer dizer que é possível aceder ao Journal Citation Report através da internet da faculdade ou configurando o proxy da FMUP, para aceder em qualquer local. As instruções para configurar o proxy da FMUP estão disponíveis na página do Centro de Informática à data da escrita desta nota, em http://ci.med.up.pt/group2_bib_nocoes.html.

Como chega um artigo a um leitor?

É possível obter um artigo científico das mais variadas formas. A forma mais usual é pesquisando numa base de dados, como a Pubmed, onde o leitor terá pelo menos acesso ao título, ao resumo (abstract) do artigo, aos nomes dos autores e outras informações acerca do artigo. Uma vez encontrado o artigo, caso a revista no qual o

� de �10 116

Fig. 2.2. — Interface da ferramenta “Journal Citation Report”.

Fig. 2.3. — Ciclo de vida de um artigo

Page 13: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

artigo esteja publicado distribua o artigo gratuitamente, o leitor poderá ler gratuitamente o artigo; caso contrário, poderá ser necessário subscrever a revista ou pagar uma quantia para ter acesso a esse artigo pela revista.

Nota: A Faculdade de Medicina da Universidade do Porto subscreve várias revistas científicas e permite o acesso dos seus estudantes às revistas científicas subscritas pela faculdade. Quer isto dizer que, muitas das vezes, o estudante da FMUP poderá aceder a artigos restritos sem necessitar de pagar o acesso, uma vez que a FMUP já o fez. Para tal, basta que o estudante esteja autenticado na rede FMUPnet — isto é, deverá utilizar a internet na faculdade ou configurar o proxy da FMUP, para poder aceder à rede FMUPnet em qualquer local. As instruções para configurar o proxy da FMUP estão disponíveis na página do Centro de Informática à data da escrita desta nota, em http://ci.med.up.pt/group2_bib_nocoes.html.

Além de aceder ao artigo através da revista, existem outras formas de ter acesso a artigos científicos. Uma delas é procurando em bibliotecas (digitais ou físicas) ou repositórios académicos. A b-on, por exemplo, é uma biblioteca digital reúne as principais editoras de revistas científicas internacionais de modo a oferecer um conjunto vasto de artigos científicos disponíveis online.

Outro método eficaz de encontrar artigos científicos completos gratuitamente é fazendo uma pesquisa no Google Scholar. A título de exemplo, imaginemos que queremos ter o artigo completo “Extension of life-span by introduction of telomerase into normal human cells” (Bodnar et al, 1998), publicado na revista Science, revista à qual não tenho acesso. Basta ir ao Google Scholar e pesquisar pelo nome do artigo. Nos resultados, à direita, irá aparecer uma indicação caso o artigo completo esteja disponível online noutro local onde não seja necessária subscrição. No caso do artigo pesquisado, poderíamos encontrar o ficheiro PDF completo clicando na ligação que me levaria para a página correspondente ao artigo na rede social “Research Gate” (Fig. 2.4.).

Por fim, e caso todas estas alternativas falhem, há sempre a possibilidade de contactar o autor do artigo (caso o artigo tenha mais do que um autor, como é normal, regra geral deve ser contactado o primeiro autor; no entanto, por vezes, no artigo, aparece o contacto recomendado) e perguntar se este não poderia disponibilizar o artigo completo. Embora, teoricamente, seja ilegal, uma vez que, uma vez publicado, todos os direitos do artigo são da revista na qual o artigo foi publicado, esta é uma prática comum. No entanto, é importante sublinhar que o autor pode recusar o pedido.

Resumindo, existem três formas principais de ter acesso completo a um artigo: através da revista onde foi publicado; através de outras distribuições online ou físicas do artigo; ou contactando o autor.

� de �11 116

Fig. 2.4. — Interface do Google Scholar. Notar a presença de uma ligação, à direita, para o PDF completo do artigo.

Page 14: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Estratégia de pesquisa

Uma estratégia de pesquisa é um plano estruturado que nos ajuda a obter a informação de que necessitamos, maximizando a eficiência da pesquisa. Uma das estratégias passíveis de serem utilizadas é a PICO. PICO significa “Patient/Population/Problem, Intervention/Exposure, Comparison & Outcome”. Por exemplo, para saber se uma injeção de corticoesteroides teria o mesmo efeito que cinco dias de corticoesteroides por via oral após um ataque asmático, poderia fazer-se a seguinte questão “Among young children with acute asthma exacerbation (Population), is a single dose of IM dexamethasone (Intervention) comparable to five days of oral prednisolone (Comparison) for resolution of asthma symptoms (Outcome)?”. Importa, portanto, definir os conceitos chave e possíveis termos alternativos, o intervalo temporal da pesquisa e o tipo de estudo. Obviamente, a melhor forma de obter resultados melhores é com a experiência, pelo que a prática é importante.

Onde pesquisar?

Hoje em dia, com a internet, o acesso a um artigo é muito facilitado e há imensos locais onde é possível procurar um artigo. A título de curiosidade, há alguns anos atrás, a procura por um artigo científico era bem mais demorada: era distribuído um CD mensal, que continha uma lista de artigos e os seus abstracts. O leitor procurava o artigo nesse CD e, uma vez encontrado, tinha de contactar a revista que o distribuía para que o artigo fosse enviado. Era um processo que podia demorar semanas. Felizmente, atualmente o processo já não funciona assim e existem vários motores de busca e bases de dados online que são muito mais cómodos e facilitam muito o acesso a artigos científicos.

Fig. 2.5. — Principais locais de pesquisa de artigos científicos

� de �12 116

Google Scholar

SCOPUS

ISI WOK

Pubmed

Page 15: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

No caso das ciências biomédicas, a Pubmed é a base de dados principal. Trata-se de uma base de dados de informações bibliográficas, da National Library of Medicine.

Como pesquisar na Pubmed?

Pesquisar na Pubmed é tão ou mais intuitivo do que pesquisar numa outra página Web. Para tal, basta utilizar a caixa de pesquisa que se apresenta em todo o portal (Fig. 2.6.). Nessa mesma barra, há que escrever os termos pretendidos e clicar em “Search” ou, em alternativa, pressionar a tecla “Enter”, o que poderá ser útil para poupar tempo em pesquisas extensivas.

Termos MeSHApesar de ser possível pesquisar na Pubmed utilizando palavras-chave,

este é um método que tem algumas limitações, como em todos os motores de busca. Por exemplo, pesquisando por “cardiac rehabilitation”, entre os resultados poderia surgir um artigo onde estivesse escrito “We recommend this exercise for all patients except those undergoing cardiac rehabilitation”. Os termos MeSH vêm tentar resolver este problema, na medida em que os termos MeSH que se adequam a cada artigo são definidos por pessoas reais. Ainda assim, podem conter erros. Existem mais de 23 mil termos MeSH que são atualizados semanalmente e revistos anualmente.

Os termos MeSH estão organizados hierarquicamente em árvore, com os termos mais específicos a estar sob os termos mais gerais. Por exemplo, pesquisando por “eye” e puxando a página para baixo, poderá ver-se algo semelhante à Figura 2.7., onde se verifica que a o termo MeSH “eye” surge duas vezes, em dois ramos diferentes da organização hierárquica.

Nome URL Informações Subscrição

Google Scholar scholar.google.com Motor de busca. Indexa textos integrais. Grátis

Scopus scopus.com Base de dados c/ > 33 milhões de registos. Pago

ISI WOK isiknowledge.com Base de dados c/ > 15 milhões de registos. Pago

Pubmed pubmed.gov Base de dados das ciências da vida e da saúde c/ > 20 milhões de registos.

Grátis

� de �13 116

Fig. 2.6. — Barra de pesquisa na Pubmed

Tab. 2.1. — Principais bases de dados e motores de busca

Page 16: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Operadores booleanosQuando se efetua uma pesquisa, é muito provável a existência de mais do

que um termo a pesquisar. É possível combiná-los, utilizando o que se chama de operadores booleanos, um conceito que deverá ser familiar àqueles que abordaram a lógica matemática, ao invés da lógica aristotélica, no ensino secundário, bem como a quem ainda se recordar de alguma da matemática de ensino secundário.

Existem três operadores booleanos: AND, OR e NOT, os quais podem ser usados em conjunto para restringir a pesquisa que pretendemos efetuar. Analisando cada um destes operadores individualmente:

- AND é o equivalente à interseção. Este operador restringirá os resultados da pesquisa àqueles que se encontrem em ambos os conjuntos. Por exemplo, pesquisando “asthma AND nutrition”, apenas irão ser apresentados os resultados que contenham simultaneamente a palavra “asthma” e a palavra “nutrition” (Fig. 2.8.).

- OR é o equivalente à disjunção. Este operador irá aumentar os resultados da pesquisa, incluindo artigos que tenham qualquer uma das palavras escolhidas. Por exemplo, pesquisando “Stroke OR Myocardial Infarction”, serão apresentados os resultados que apresentem quer a palavra “stroke”, quer a expressão “myocardial infarction”, quer ambas (Fig. 2.8.).

- NOT é o equivalente à negação/exclusão. Este operador irá excluir um dos termos (o termo após o operador) dos resultados, o que significa que artigos que apresentem esse termo não serão apresentados. Por exemplo, pesquisando “Allergy NOT rhinitis”, irão apenas ser apresentados os resultados que contenham a palavra “asthma” e não contenham a palavra “rhinitis” (Fig. 2.8.).

� de �14 116Fig. 2.8. — Representação esquemática dos operadores boleados

Fig. 2.7. — Organização hierárquica de termos MeSH

Page 17: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Também é possível combinar todos estes termos e utilizá-los para fazer uma pesquisa bastante específica. Por exemplo, pesquisando por “Myocardial Infarction AND (smoking OR obesity) AND mortality NOT diabetes”, irão surgir todos os artigos onde estejam simultaneamente presentes os termos “Myocardial Infarction”, “smoking” ou “obesity” e “mortalidade”, desde que o artigo não tenha a palavra “diabetes”.

No seguimento dos operadores booleanos, algo que também pode ser bastante útil, quando se efetua uma pesquisa, é a utilização do asterisco (“*”) para truncar um termo. Deste modo, pesquisando, por exemplo, por “br*”, poderão surgir resultados que incluam os termos “brain”, “breast”, “braquial”, …

Também importa estar ciente da existência de stop words. As stop words são palavras que, por serem demasiado comuns e inespecíficas, não são consideradas para efeitos de pesquisa.

Search descriptorsA Pubmed tem uma outra ferramenta muito útil, que é a possibilidade de

utilizar search descriptors, uma vez que todas as referências indexadas na Pubmed são definidas com vários descritores, como o autor, a revista, a data de publicação, o título, … Os descritores indicam-se com parênteses retos após o termo a pesquisar.

Clinical queriesAs clinical queries são um conjunto de instrumentos que adicionam

componentes detalhados à pesquisa, melhorando os resultados. É possível optar por pesquisar apenas por revisões sistemáticas ou estudos genéricos. Também é possível incluir tipos de estudo específicos, como diagnóstico, terapêutica (definida por padrão) ou estudos prognósticos.

Base de dados de revistasEsta ferramenta da Pubmed pode ser utilizada para pesquisar por artigos de

uma revista específica.

Single citation matcherEsta ferramenta da Pubmed permite a pesquisa por um artigo em específico.

Para tal, é necessário inserir informações como a revista, o autor, o título, entre outras.

Descritor Exemplo

Author [au] Wyatt J [au]

Journal title [ta] BMJ [ta]

Language [la] Portuguese [la]

Mesh Terms [mh] Asthma [mh]

Publication Date [dp] 2007 [dp], last 5 years [dp]

Publication type [pt] clinical trial [pt]

Title [ti] Spirometry [ti]

Title abstract [tiab] Environmental exposure [tiab]

� de �15 116

Tab. 2.2. — Search descriptors na Pubmed

Page 18: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Resultados a mais/a menos

Se a quantidade de resultados de pesquisa não é satisfatória, é necessário procurar os motivos e possíveis soluções para tal.

Caso se obtenham resultados a menos, pode ser uma solução procurar erros na pesquisa, diminuir o número de conceitos na pesquisa, tentar um termo mais amplo, utilizar termos conhecidos ou pertencentes ao MeSH, remover termos demasiado gerais ou específicos, aumentar o espaço temporal da pesquisa ou tentar outra base de dados. Caso se obtenham resultados a mais, sugere-se escolher os termos mais apropriados, utilizar os termos MeSH para melhor definir o âmbito da pesquisa, utilizar menos sinónimos, limitar o tipo de artigo, o ano de publicação, a língua, …, ou configurar a pesquisa para que os termos mais relevantes estejam só no título do artigo

BibliografiaDepartamento CIDES. Informação e conhecimento biomédico. Pesquisa bibliográfica. 2014.Jacinto T, Morais A, Fonseca JA. How to write a scientific paper - searching and managing biomedical information. Rev. Port. Pneumol. 2011;17(4):190-4. doi:10.1016/j.rppneu.2011.05.005.Goodle F, Gale CR, Martyn CM. Effect on the quality of peer review of blinding reviewers and asking them to sign their reports: A randomized controlled trial. JAMA 1998;280(3):237-240. doi:10.1001/jama.280.3.237.

� de �16 116

Page 19: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

III — Registos Clínicos Eletrónicos

Definição e objetivos de um registo clínico

Um registo clínico é um registo que contém informação da saúde e da doença de um paciente, após este ter procurado auxílio médico. Geralmente, as notas são feitas por profissionais de saúde, como médicos e enfermeiros. Estes registos contêm considerações, achados, resultados de meios complementares de diagnóstico e informações sobre o tratamento do processo patológico.

Os componentes de um registo clínico genérico são a história clínica, o exame físico, o diário, o diagnóstico, os tratamentos efetuados e os relatórios de meios complementares de diagnóstico.

“to recall observations, to inform others, to instruct students, to gain knowledge, to monitor performance and to justify interventions”

Reiser, 1991

As várias utilizações descritas na afirmação acima, embora diversas, têm o mesmo objetivo – permitir a aplicação das ciências da saúde de forma a melhorar o bem estar dos pacientes.

Organização do registo clínico

Recordando o ciclo diagnóstico-terapêutica, abordado no capítulo I, o registo clínico é necessário em todas as fases:

- na fase de observação, porque fornece dados como a história clínica do paciente;- na fase de decisão, para o diagnóstico;- e na fase de ação, porque importa registar os procedimentos efetuados e a

prescrição ao paciente.

O registo clínico é:- time-oriented, uma vez que apresenta uma ordenação cronológica;- source-oriented, uma vez que os dados se encontram organizados de acordo com

a sua origem, isto é, a proveniência da informação determina a sua catalogação e registo;- problem-oriented, uma vez que os dados se encontram organizados por

problema/doença do paciente, sendo que para cada problema é criada uma estrutura do tipo SOAP.

SOAPSOAP significa Subjetivo, Objetivo, Análise e Plano, sendo um método de

documentação muito utilizado em registos clínicos. Cada um destes componentes tem um peso diferente, conforme o caso em questão (por exemplo, um SOAP cirúrgico tende a ser mais curto do que um SOAP médico, baseando-se principalmente em problemas pós-cirurgia).

- Subjetivo: deve ser uma breve citação do paciente relativamente ao motivo da consulta.

- Objetivo: este componente deve conter informação que o médico possa ver ou obter do paciente, relativamente ao seu estado físico/psicológico.

- Análise: aqui, o médico escreve os principais sintomas do paciente e um diagnóstico diferencial, bem como outros diagnósticos possíveis.

- Plano: consiste no que o profissional de saúde fará para tratar o paciente.

� de �17 116

Page 20: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Registo Clínico em Papel (RCP)

O registo clínico em papel e o eletrónico diferem, existindo vantagens e desvantagens associados a cada um deles.

Nota: Saber as siglas RCP, para registo clínico em papel, e RCE, para registo clínico eletrónico, ainda que possa parecer inútil, poderá mostrar-se útil em ambiente de avaliação, uma vez que, por mais do que uma vez, no enunciado de exame surgiram questões onde se fazia referência a RCE e RCP, não explicando o significado de cada uma destas siglas. Por esse motivo, de agora em diante, serão utilizadas as siglas ao invés das designações completas.

Vantagens do RCPAo contrário do que possa inicialmente parecer, o RCP apresenta algumas

vantagens, sendo esse um dos motivos pelos quais este ainda não foi substituído pelos RCE. Abaixo, apresentam-se alguns dos benefícios do RCP.

- Os registos são facilmente transportáveis;- A introdução de dados está facilitada (com efeito, o RCE não nos permite

tanta liberdade de introdução de dados quanto o RCP; neste último, podemos fazer um esquema facilmente, enquanto isso não acontece no RCE, por exemplo);

- Versatilidade no registo dos dados (cada profissional adapta o registo às suas preferências);

- Não obrigam a formação específica.

Desvantagens do RCPAinda assim, o RCP também apresenta algumas desvantagens e

problemas, reunidos na lista abaixo.- Ilegibilidade dos registos médicos por outros profissionais de saúde (a

famosa “letra de médico” nem sempre é fácil de ler, e, ao contrário dos farmacêuticos que, diz a sabedoria popular, recebem uma formação para decifrarem a tal “letra de médico”, da última vez que se verificou, não existia na FMUP nenhuma UC dedicada à decifração da escrita…; além disso, a tinta de caneta e o próprio papel vão perdendo qualidade com o tempo, o que dificulta também a leitura);

- Inconsistência de formato e de localização da informação;- Falta de estruturação interna dos registos;- Duplicidade de informação;- Perda/erro de informação;- Espaço físico (os arquivos do Hospital São João podem ocupar, em linha

reta, vários quilómetros de comprimento…);- Eficiência na pesquisa e disponibilização de informação (obviamente, nos

RCP é muito mais difícil encontrar a informação desejada);- Segurança no acesso aos dados (o acesso físico aos arquivos não é tão

complicado quanto isso e uma pessoa com os devidos conhecimentos de onde se encontra o ficheiro poderia extraviá-lo);

- Registos de natureza estática (por existir apenas uma cópia dos dados e um formato de introdução e visualização).

Registo Clínico Eletrónico (RCE)

Registo clínico eletrónico é um termo geral que descreve sistemas de registo sobre o paciente baseado em computadores. Estende-se para incluir outras funcionalidades como prescrever medicamentos e testes, para além de outras funções comuns. Para muitos, é muito mais do que um substituto eletrónico do sistema de papel existente. Os

� de �18 116

Page 21: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

RCE podem começar a apoiar ativamente os cuidados clínicos, pelo fornecimento de uma grande variedade de serviços informativos. Porém, é difícil compreender que informação é verdadeiramente importante para os cuidados clínicos, e qual é apenas desejável ocasionalmente.

Por que usar RCEs?Atualmente, existem cinco condições que forçam a utilização de RCEs.

1. A necessidade do uso de dados de pacientes tem aumentado; 2. Maior acesso às TIC para o suporte aos RCEs; 3. Os computadores têm sido aceites como ferramenta para aumentar a

eficiência em todas as facetas do nosso dia-a-dia;4. Fatores demográficos, como o envelhecimento e mobilidade permanente,

criam uma grande pressão para registos clínicos capazes de gerir grandes quantidades de informação;

5. A pressão para fazer reformas na prestação de cuidados aumenta, sendo a automação de registos clínicos fundamental para estas.

Introdução da informação clínicaUma das vantagens do RCP, como foi visto, é a facilidade e liberdade na

introdução de informação no registo clínico. Quando se introduz informação num RCE, importa que esta seja estruturada para que seja possível:

- a normalização da informação;- o tratamento de dados clínicos;- ter mecanismos de alerta;- criar sistemas de apoio à decisão clínica;- avaliar a prestação de cuidados;- fazer investigação clínica.

Relativamente à investigação e tratamento de dados clínicos, o capítulo V, relativamente a codificação, poderá vir a aprofundar um pouco mais estes temas.

Para que a introdução dos dados seja facilitada podem criar-se mecanismos de:

- alerta para a correção de erros de introdução;- tecnologias pen-based;- sistemas de reconhecimento de voz;- sistemas de processamento de linguagem natural.

Visualização da informaçãoA informação clínica pode ser mostrada de forma integrada, embora as

fontes de informação possam ser diferentes, usem diferentes tecnologias e formatos e a visualização possa ser dinâmica e organizada de diferentes formas.

Desvantagens dos RCEsComo é lógico, os RCEs também apresentam desvantagens, sendo

algumas:- introdução de dados inicialmente mais lenta (porque requer que o

profissional de saúde se habitue e conheça o sistema);- necessidade de formação específica dos profissionais de saúde;

� de �19 116

Page 22: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

- consumo de recursos iniciais na educação e treino;- obriga a atualização de conhecimentos constante (algo que deve ser uma

característica de qualquer bom médico);- pouca flexibilidade nas restrições impostas ao acesso da informação (se a

pessoa que tem acesso não está disponível, o acesso não é possível);- pouca liberdade na escrita dos relatórios;- transporte menos facilitado relativamente aos RCPs;- problemas de quebra de segurança.

BibliografiaDepartamento CIDES. Registos Clínicos Electrónicos. 2014.

� de �20 116

Page 23: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

IV — Segurança da Informação

A segurança da informação é uma questão pertinente, principalmente numa era tecnológica como a atual, em que existe muito mais informação confidencial online do que nunca. Além disso, o crescimento dos RCEs implica que haja uma aposta redobrada na segurança da informação dos utentes. Uma vez que o primeiro passo para garantir uma maior segurança passa pela educação, este capítulo contém informações importantes, para médicos e não-médicos.

Ética vs privacidade

A ética é um conjunto de princípios para avaliar e guiar moralmente as decisões. Os princípios da ética mais relacionados com a segurança são:

- Princípio da Privacidade: Todas as pessoas têm o direito fundamental à privacidade e, por conseguinte, ao controlo sobre a recolha, armazenamento, acesso, uso e transmissão dos seus dados pessoais;

- Princípio da Segurança: Os dados que tenham sido recolhidos sobre determinado indivíduo devem ser protegidos contra a perda, corrupção, destruição, acesso, uso e alteração indevidas ou não autorizadas.

O que é segurança de informação?

A segurança é, geralmente, relacionada com a privacidade ou confidencialidade do indivíduo. No entanto, tal não é completamente correto, sendo necessário perceber a diferença entre alguns conceitos, nomeadamente no que concerne a diferença entre privacidade, confidencialidade, disponibilidade e integridade.

A privacidade centra-se na pessoa. É o direito fundamental que cada pessoa tem de definir quem pode ter acesso aos seus dados. A confidencialidade centra-se nos dados. Está relacionada com a prevenção do acesso não autorizado à informação. A integridade pode assemelhar-se à confidencialidade, mas esta está relacionada com a prevenção de modificação dos dados, ao passo que a confidencialidade apenas se foca no acesso aos dados. Por fim, a disponibilidade implica que os dados estejam disponíveis sempre que necessário, sem comprometer os outros três parâmetros.

Principais ameaças à segurança

As ameaças à segurança podem dividir-se em ameaças à confidencialidade, à

� de �21 116

Fig. 4.1. — Notícia que demonstra a importância da segurança num contexto hospitalar

Page 24: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

integridade e à disponibilidade. Não se consideram as ameaças à privacidade, uma vez que a privacidade está relacionada com a pessoa e não com os sistemas de informação.

Ameaças à confidencialidadeA confidencialidade é violada quando os dados passam para mãos erradas

(não autorizadas), quer seja de propósito, quer acidentalmente, dentro ou fora da instituição:

- Problemas de acesso não autorizado;- Vulnerabilidades do nome de utilizador/palavra-passe (p.ex., partilha de

palavras-passe);- Interceção não autorizada da informação em trânsito (p.ex., sniffing);- Gestão não controlada da informação.

Ameaças à integridadeA integridade está ameaçada quando, propositada ou acidentalmente,

houver inconsistência nos repositórios de dados ou quando os seus conteúdos estiverem, por algum motivo, corrompidos:

- Erros no software;- Mau funcionamento de equipamento;- Erros operacionais (p.ex., na introdução de dados);- Vírus que corrompem a informação.

Ameaças à disponibilidadeA disponibilidade da informação é uma característica muitas vezes

esquecida, mas cada vez mais essencial. As ameaças à disponibilidade dos dados ou às funcionalidades do sistema ocorrem quando é impossível ao sistema completar, no momento que lhe é pedido, tarefas que normalmente lhe são exigidas.

- Falhas nos equipamentos ou serviços de rede (p.ex., ao nível do hardware/software, falhas de energia, erros/bugs);

- Erros no manuseamento do sistema;- Causas naturais (incêndios, inundações);- Recursos insuficientes para o correcto funcionamento do software;- Quando ocorrem ataques propositados para impedir o funcionamento

normal do sistema (e.g ataques DDoS, SPAM).

Mecanismos de segurança

Tendo em conta a existência de ameaças à segurança da informação, importa a existência de mecanismos de prevenção e deteção/correção. A prevenção refere-se à redução da probabilidade de que alguma coisa corra mal, ou que as ameaças contra a segurança se verifiquem, enquanto a deteção/correção se refere à minimização dos estragos quando alguma coisa corre mal. Por exemplo, minimizar o tempo de indisponibilidade do sistema ou recuperação de informação com cópias de segurança. Os principais métodos de prevenção e deteção/correção encontram-se sumariados na Tabela 4.1.

� de �22 116

Page 25: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Mecanismo de autenticaçãoO ideal para aumentar a segurança na autenticação no acesso a informação

seria utilizar a autenticação com três fatores: algo que se sabe (como a palavra-passe ou o código PIN), algo que se tem (como um cartão ou um código enviado via telemóvel) e algo que se é (autenticação por biometria). No entanto, porque os custos são elevados, na maior parte dos casos isto não acontece.

Acesso em situações de emergênciaEm certas situações urgentes, um utilizador com privilégios de acesso mais

restritos poderá necessitar de aceder a informação privilegiada, à qual não teria acesso em situações normais. Pode existir então a possibilidade de efetuar um Break the Glass (BTG), em que o utilizador justifica o acesso e todas as suas ações são gravadas, para serem depois revistas, mais tarde. Em contexto hospitalar, isto poderia ser útil quando, devido a uma emergência, se coloca um indivíduo a desempenhar um papel para o qual não tem privilégios suficientes (p.ex., um auxiliar de administração recebe os pedidos de urgência).

A complexidade da segurança

Embora os protagonistas mais conhecidos nas quebras de segurança sejam os hackers e os vírus, na realidade as pessoas que trabalham na instituição são, normalmente, a principal ameaça, quer por usarem erradamente os sistemas, quer por terem demasiados privilégios, entre outros motivos.

As redes sociais

As redes sociais são um fenómeno relativamente recente que veio mudar o paradigma do relacionamento humano. Apesar dos inúmeros benefícios que as redes sociais nos oferecem, iremos abordar alguns dos problemas relacionados com a segurança que são (não só, mas também) causados pelas redes sociais.

A verdade é que páginas Web, como o Facebook, incentivam a partilha de informação pessoal, sendo que, em muitos casos, as pessoas fornecem demasiada informação pessoal no Facebook, quer seja porque online é mais fácil, porque existe uma falsa sensação de segurança ou porque tencionam impressionar alguém. Quanto mais informação estiver disponível, mais fácil é alguém tirar partido disso (fazendo-se passar

Prevenção Deteção/Correção

Confidencialidade controlo de acessoautenticaçãoencriptação

auditoria e monitorização

Integridade assinaturas digitaisapoio à introdução de dados standards e codificaçãométodos consistência interna

assinaturas digitaisauditoria e monitorização

Disponibilidade redundância de equipamentosistemas recuperação automática

auditoria e monitorizaçãobackups (cópias segurança)redundância de equipamento

� de �23 116

Tab. 4.1. — Métodos de prevenção, deteção e correção de ameaças à segurança

Page 26: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

por essa pessoa, p.ex.). Além disso, também são comuns os fenómenos de scam (propostas fraudulentas), phishing (obter dados pessoais, como senhas, enganando os utilizadores) e propagação de código malicioso. A informação, uma vez colocada na internet, só muito dificilmente (para não escrever impossivelmente) pode ser apagada: as mensagens apagadas no Facebook e em muitas outras páginas, normalmente continuam nas bases de dados desses portais; além disso, a existência de páginas como o Wayback Machine permitem obter dados acerca de grande parte das páginas online no passado — quer isto dizer que é possível utilizar essa ferramenta para ver o conteúdo de uma página no dia 6 de junho de 2007, mesmo que entretanto essa página tenha sido removida.

Ainda que seja impossível erradicar todos os riscos inerentes a esta explosão das redes sociais, há algumas coisas que podem ser feitas e que, pelo menos, reduzem os riscos de segurança. O primeiro passo é ter em mente que a internet é um recurso público e ter atenção com a informação que se disponibiliza e limitá-la (notar que limitá-la não significa colocar a privacidade como “Amigos apenas”, porque um amigo pode tirar um screenshot e partilhar com outro amigo…; é necessário reduzir a quantidade de informação colocada online). Também é importante ter palavras-passe fortes e não partilhar a palavra-passe com ninguém. A palavra-passe é como o(a) namorado(a) — ou seja, não se dá a ninguém, nem ao melhor amigo, ou podes perdê-lo(a) para sempre. Por fim, também é importante ter o computador protegido (com antivírus, por exemplo) e ler sempre as políticas de privacidade.

Nota: O melhor antivírus do mundo é aquele que está entre a cadeira e o computador — o utilizador. Nenhum antivírus do mundo irá proteger o computador contra os comportamentos irresponsáveis do seu utilizador. Assim, o primeiro passo para que o antivírus funcione é ser responsável. Quanto ao antivírus, a Universidade do Porto oferece aos seus estudantes uma licença válida para instalar o ESET Endpoint Antivirus gratuitamente em sistemas operativos Windows. Para tal, o estudante deve dirigir-se à página atlas.up.pt e iniciar sessão no canto superior direito, com o seu endereço de e-mail institucional e senha do SiGARRA. Depois, de volta à página inicial, basta entrar na pasta UPorto, na subpasta Antivirus, na subsubpasta ESET, na subsubsubpasta Windows e seguir as instruções no ficheiro PDF “Instalar_Remover”, estando o instalador na subsubsubsubpasta “INSTALL_ESET”.

E-mail

À semelhança das redes sociais, o e-mail também veio facilitar a comunicação entre pessoas e é uma ferramenta extremamente útil. No entanto, também o e-mail tem algumas desvantagens associadas, inclusive a nível de segurança. Salvo raras exceções,

� de �24 116

Fig. 4.2. — Na internet, qualquer um pode ver a informação que lá é colocada

Page 27: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

não é possível ter a certeza de que o e-mail que recebemos foi, de facto, enviado pela pessoa identificada. Existem, inclusive, programas maliciosos que enviam spam automaticamente para todos os contactos de uma determinada conta de correio eletrónico. Isto pode ser parcialmente resolvido com a utilização de certificados com uma assinatura digital, um método ainda muito pouco utilizado. É, por isso, muito importante ter atenção antes de abrir ficheiros enviados por e-mail, mesmo que pareçam fidedignos, uma vez que se podem tratar de ficheiros maliciosos.

Neste sentido, importa também clarificar a diferença entre vírus e worms. Os vírus são executáveis que se “colam” a outros programas para se multiplicarem e executam quando o programa que o acolhe executa também, enquanto que os worms se propagam sozinhos (e-mail, download de websites, …) e são programas independentes.

Evolução tecnológica

Se há 25 anos atrás existiam poucos computadores e estes operavam maioritariamente em ambiente fechado, sendo fáceis de proteger e controlar, hoje em dia isso não acontece, com o advento da internet e a imensidão de dispositivos, como computadores e telemóveis, que estão ligados em rede.

RedesAs redes assentam em protocolos de transporte e routing e, por si só, não

têm qualquer tipo de segurança. Uma das formas de proteger a rede é através da utilização de firewalls. Uma firewall fortalece a política de segurança, filtrando serviços inseguros, regista as ações e permitem um acesso mais seguro à internet. Importa perceber que as firewalls são apenas capazes de proteger as ligações que passam por elas, não protegendo contra utilizadores mal intencionados nem contra programas maliciosos, como vírus.

Criptografia

A criptografia utiliza normalmente um algoritmo em conjunto com uma chave criptográfica (key) que permite codificar a mensagem de modo a não ser inteligível. O uso desta chave e algoritmo permitem depois, a quem tem acesso aos mesmos, descodificar a mensagem e poder perceber o seu verdadeiro significado.

� de �25 116

Fig. 4.3. — Uma rede com e sem firewall

Page 28: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

O principal objectivo da criptografia não é esconder a existência de uma mensagem (isso é esteganografia), mas sim esconder o que ela significa. A vantagem é que se uma mensagem for interceptada, ela não poderá ser descodificada sem se ter conhecimento do algoritmo e chave criptográfica usados. Portanto, só quem tem autorização para descodificar a mensagem é que deverá ter acesso ao algoritmo e à chave certa.

Já a criptanálise é uma ciência que permite descodificar uma mensagem sem ser necessário usar a chave criptográfica, podendo ter como objectivo encontrá-la sem que lhe seja fornecida. Tenta verificar que falhas existem nos algoritmos e usá-las como ferramentas para a descodificação.

A criptografia permite a utilização de mecanismos de segurança como a encriptação e as assinaturas digitais.

Encriptação (Confidencialidade)A criptografia permite encriptar e desencriptar informação de modo a

proteger a confidencialidade da mesma, quer esta esteja a ser transmitida ou apenas armazenada em ficheiros ou bases de dados.

Existem vários tipos de sistemas criptográficos. Os algoritmos podem ser:- algoritmos de chave secreta ou simétricos: necessitam de apenas uma

chave para encriptar e desencriptar a mensagem. Torna-se mais fácil de gerar chaves, mas implica que a chave tenha de ser partilhada de forma segura.

- algoritmos de chave pública ou assimétricos: utilizam uma chave diferente para cada operação. A encriptação é feita com a chave pública do destinatário e a desencriptação com a chave privada do destinatário. Embora não seja necessária a partilha de chaves, é um processo mais lento.

� de �26 116

Fig. 4.4. — Exemplo de um sistema criptográfico

Fig. 4.5. — A importância de compreender a diferença entre chave pública e privada.

Page 29: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Assinaturas digitais (Integridade)A criptografia permite criar uma assinatura de determinada informação

electrónica. Para isso, utiliza algoritmos (que também podem ser de encriptação) que geram uma identificação única de determinada mensagem ou ficheiro. Se essa mensagem ou ficheiro for alterada, a sua assinatura, ao ser verificada, já não vai coincidir com a original, e portanto indica que existem problemas de integridade. Nesta assinatura, pode também ser incluída a identificação de determinado utilizador (por exemplo no envio de correio electrónico), e ser possível provar que determinada mensagem veio daquele emissor (o mesmo se pode passar ao nível do receptor da mensagem), quando este o tentar negar por algum motivo. Isto designa-se de não-repúdio.

BibliografiaDepartamento CIDES. Segurança da Informação. 2014.Faculdade de Medicina da Universidade do Porto. Centro de Informática. 2007. Disponível em: http://ci.med.up.pt/index.php?src=group2_seg_nocoes.html. Consultado em 23-01-2015.

� de �27 116

Fig. 4.6. — Exemplo do processo de Assinatura Digital

Page 30: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

V — Codificação e Classificação em Saúde. Qualidade dos Dados.

“Numerosos estudos apontam para o aumento do risco clínico e erro em Medicina com a falta de circulação de informação clara e atempada entre todos os intervenientes no processo de prestação de cuidados de saúde.”

A utilização da informação

A informação registada fica disponível:- para que outro interveniente na prestação de cuidados possa adequar a sua

intervenção à situação do doente;- para consultar em contactos futuros do doente com a instituição;- para codificação e alimentação de múltiplas aplicações hospitalares incluindo as

relativas à faturação e ao financiamento, às de gestão interna e de medida da produção;- para se produzir conhecimento e avanço da medicina;- para atestar que se viu o doente, em caso de acusação por negligência.

Deste modo, registar é um direito e um dever médico, sendo imprescindível para a faturação e financiamento do hospital. A informação é propriedade da pessoa.

Cenário atual

Há cada vez mais dados de saúde em sistemas de informação (SI). Muitos SI antigos continuam em funcionamento e muitos outros são implementados diariamente.

Atualmente, os SI divergem quanto ao:- Objetivo (prestação de cuidados, investigação, gestão, …);- Âmbito (atividade, especificidade, tipo de contacto);- Tecnologia (stand-alone, cliente-servidor, web).

Normas

Uma norma é uma publicação técnica que é usada como regra, linha orientadora ou definição. Essencialmente, é um modo repetido de fazer algo, desenvolvido pelo consenso.

A necessidade de criação de normas é fácil de compreender. Por exemplo, podemos analisar a codificação da variável sexo de uma pessoa em vários sistemas de informação (Tabela 5.1.)

Sistema de Informação Classificação da variável sexo

HIS (EUA) M — Male; F — Female; T — Transgender; U — Undifferenciated; ? — Unknown

DICOM M — Male; F — Female; O — Other

HL7 M — Male; F — Female; O — Other; U — Unknown; A — Ambiguous; N — Not applicable

SONHO (Portugal) 1 — Homem; 2 — Mulher; 3 — Híbrido

� de �28 116

Tab. 5.1. — Classificação da variável sexo em vários SI

Page 31: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Principalmente tendo em conta a utilização das TIC, a comunicação de dados entre sistemas apresenta cada vez uma relevância maior, pelo que importa que os vários sistemas “falem a mesma língua”. No exemplo da Tabela 5.1., pelo facto de a codificação entre os vários SI, para a mesma variável, ser diferente, a comunicação e partilha de informação fica dificultada.

Por exemplo, a utilização mundial da língua inglesa, a gasolina e o gasóleo que se vendem em todo o mundo, o sistema de ficheiros Windows, todos estes são possíveis graças à normalização. Mas também existem multiplicidade de normas, como a medição da temperatura em ºC, ºF ou K, o sistema métrico e o sistema imperial, entre outros.

O conceito de norma não é, afinal, complicado, e as normas já existem desde os primeiros registos históricos (p.ex, o calendário, que é usado há mais de 20 mil anos).

Porquê?As normas apresentam uma enorme utilidade, não só em medicina, mas

também noutras áreas, porque:- permitem que objectos ou processos funcionem mais facilmente e mais

economicamente;- facilitam a comunicação (em termos de distância ou tempo);- encorajam a interoperabilidade (p.ex., um DVD funciona em leitores de

diferentes marcas);- para resolver um determinado problema, não há necessidade de se partir

do zero.

Exemplos de normasAs normas estão em todo o lado, no nosso dia-a-dia, e há ações que estas

nos facilitam e das quais nem nos apercebemos. Abaixo, apresentam-se alguns exemplos de normas.

Normas nos SIS

A implementação de normas nos SIS torna-se cada vez mais necessária, por vários motivos:

- existe pouca comunicação entre os vários níveis de cuidados de saúde (primários, secundários e terciários);

- haverá cada vez mais pressão para a reutilização dos dadosnos vários níveis da prestação de cuidados de saúde;

- diferentes técnicas de gestão (p.ex., produção de indicadores) precisam de dados atuais e corretos dos doentes, o que implica a monitorização contínua da qualidade dos dados;

- para facilitar a análises de dados (p.ex., para investigação clínica);

ASCII (American Standard for Code Information Interchange)

Norma para a codificação de caracteres. Tem como ob je t i vo a l cança r compa t i b i l i dade en t re equipamentos informáticos.

COBOL Primeira norma nas linguagens de programação.

MUMPS Linguagem de programação criada em 1966-67 para utilização num sistema de informação hospitalar

� de �29 116

Tab. 5.2. — Exemplos de normas

Page 32: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

- para o eficaz funcionamento dos sistemas de apoio à decisão clínica.

Codificação clínica

DefiniçãoA codificação clínica é a tarefa de atribuição de códigos de um sistema de

classificação a cada um dos diagnósticos, situações clínicas, sinais ou sintomas de doenças ou de outras condições mal definidas, registados no processo clínico de internamento, bem como às cirurgias ou intervenções cirúrgicas, tratamentos, exames de diagnóstico e outros, a que o doente tenha sido submetido, e ainda às causas externas de lesão, intoxicação, efeito adverso de fármacos ou complicações de cuidados médicos e cirúrgicos, e às morfologias tumorais.

ObjetivosO objetivo da codificação é a recolha da informação clínica em bases de

dados, sobre as quais se podem aplicar os algoritmos de pesquisa, consulta, comparação, estatística, …, que dão resposta a questões de incidência e morbilidade, entre outras, na população a que diz respeito a base de dados. Também são objetivos a não necessidade de reinventar o sistema e a facilitação da troca de informação.

Organizações

Existem diversas organizações, de índole internacional, europeia ou continental, na área da normalização (na saúde ou não). Algumas das mais importantes seguem-se abaixo.

European Committee for StandardizationCriado em 1991. O principal objetivo é desenvolver normas de comunicação

entre sistemas de informação em saúde independentes. Como as equipas de trabalho são formadas maioritariamente por consultores, havendo pouco envolvimento das empresas, há uma maior relutância em aceitar certas normas.

American National Standards InstituteOrganização privada, fundada em 1918, que é responsável pela aprovação

oficial de normas americanas. Não escreve normas, apenas assiste os produtores e utilizadores de normas, do setor privado e do governo, para chegarem a consenso na necessidade das normas. HL7 é um exemplo de uma organização acreditada na ANSI.

ISO TC 215 – Health InformaticsCriado em 1989 pelo CEN e pelos EUA no âmbito da ISO. É constituído por

vários grupos de trabalho. Reúne-se uma vez por ano e seguem procedimentos rigorosos na criação de normas ISO, sendo que o processo de criação de uma norma internacional demora vários anos.

International Classification of Diseases (ICD)A Classificação Internacional de Doenças (CID) é uma nomenclatura de

doenças criada para fins estatísticos. Começou a ser desenvolvida ainda no século XIX e é mantida pela Organização Mundial de Saúde (OMS).

Passou por várias revisões das quais a mais conhecida ainda é a nona (ICD-9) que data de 1975. A 10.ª revisão (ICD-10) já existe desde 1993 mas não tem ainda utilização generalizada. Em especial não é utilizada em Portugal nem nos Estados

� de �30 116

Page 33: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Unidos. Em vez dela, é utilizada uma modificação clínica da ICD-9: a ICD-9-CM (Classificação Internacional de Doenças, 9.ª Revisão, Modificação Clínica).

Cada código tem um mínimo de três dígitos (para envio de estatísticas à OMS), sendo que os dígitos adicionais (1.ª casa decimal) fornecem mais detalhe (.0 a .7 para um termo mais específico, .8 para outros e .9 para não específico).

É possível pesquisar qual o código ICD-9-CM associado a um determinado diagnóstico, utilizando ferramentas como o ICD9Data (icd9data.com). Por exemplo, pesquisando por “Chronic Obstructive Pulmonary Disease”, um dos resultados seria o que se vê na Figura 5.2.

Codificar

Codificar é representar um conceito por um código de um sistema de classificação. Em Portugal, a codificação clínica é efetuada por médicos. Houve uma razão

histórica para se convidarem médicos para a atividade da codificação clínica: o projeto de implementação dos GDH (ver abaixo) em Portugal, na década de 80, precisava de resultados imediatos e não havia tempo para formar pessoal administrativo sem formação básica em medicina. Havia médicos em internato prolongado de policlínica após a sua licenciatura, à espera de colocação nos hospitais. Foi fácil chamá-los e pô-los a codificar com uma formação de duas semanas. Além do mais, os médicos podiam continuar a

� de �31 116

Fig. 5.1. — Códigos de diagnóstico utilizados no ICD-9-CM

Fig. 5.2. — Codificação ICD-9-CM da DPOC. Notar que as várias doenças que são consideradas como DPOC vão desde o 490 ao 496.

Page 34: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

realizar as suas tarefas normalmente, dedicando apenas uma parte do seu tempo à codificação.

Dificuldades em codificação- Falha ou atraso na devolução dos processos;- Ausência de informação;- Registos insuficientes ou ilegíveis;- Informação sem conceitos identificáveis;- Imprecisão, falta de especificidade;- Informação contraditória;- Informação não estruturada;- Contextos desconhecidos do codificador;- Insuficiência do próprio sistema de classificação.

Variáveis a codificar- Sexo, idade, data de nascimento, residência;- Diagnósticos (principal e secundários);- Causas externas;- Procedimentos;- Tipo de admissão;- Data de admissão, data de intervenção cirúrgica, data de alta;- N.º de dias em pré-operatório;- Tempo de internamento - Serviços;- Destino após alta;- GDH e GCD;- entre outros.

Grupos de Diagnóstico Homogéneos (GDH)

Os Grupos de Diagnósticos Homogéneos (GDH) são um sistema de classificação de doentes internados em hospitais de agudos que agrupa doentes em grupos clinicamente coerentes e similares do ponto de vista do consumo de recursos. Corresponde à tradução portuguesa para Diagnosis Related Groups (DRG). Permite definir operacionalmente os produtos de um hospital, que mais não são que o conjunto de bens e serviços que cada doente recebe em função das suas necessidades e da patologia que o levou ao internamento e como parte do processo de tratamento definido.

Dados administrativos (billing data)

Têm sido utilizados para perceber a qualidade e variações na prestação dos cuidados de saúde há mais de 20 anos. São dados recolhidos sistematicamente, de fácil acesso (mas não abertos!), de baixo custo, de âmbito nacional e incluem dados de vários anos. Permitem averiguar tendências, variações regionais, e diferenças nos resultados entre hospitais. Na falta de registos clínicos nacionais, continuarão a ser uma importante fonte de informação relativamente à prestação de cuidados de saúde. No entanto é preciso ter em atenção possíveis limitações nos dados em determinadas análises; por exemplo, mudanças na prática associada à codificação (ICD-9-CM).

� de �32 116

Page 35: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Qualidade de dados

A definição mais globalmente aceite para definir dados com qualidade é o “fitness for use”. Quando se trata de uma enorme quantidade de dados, como é o caso dos internamentos hospitalares, é frequente encontrar dados com problemas de qualidade, tais como:

- idade incorreta: por exemplo, por vezes, a idade nos registos é negativa, por, segundo a informação, o paciente ter dado entrada no hospital antes de nascer;

- transferências hospitalares: o paciente é transferido do hospital A para o hospital B; mas, nos registos do hospital B, o paciente nunca deu entrada, parecendo que a ambulância se perdeu pelo caminho;

- diagnóstico principal: acontece que o código utilizado não corresponda a qualquer diagnóstico, de acordo com o ICD-9-CM; quando o doente é internado por várias complicações, pode ser complicado escolher qual o diagnóstico principal para ser codificado;

- códigos repetidos: o código do diagnóstico principal também aparece como diagnóstico secundário, no mesmo episódio.

Uma vez que problemas de qualidade nos dados podem ter um influência negativa na qualidade do conhecimento descoberto, é preciso ter cuidado na interpretação dos resultados obtidos, perceber (e discutir) as limitações dos dados e ter atenção à evolução, não só nos sistemas de codificação utilizados, mas também nas práticas e protocolos de recolha/codificação de dados.

BibliografiaDepartamento CIDES. Codificação e Classificação em Saúde. Qualidade dos Dados. 2014. Lopes F. Codificação Clínica e dos GDH. Disponível em: http://portalcodgdh.min-saude.pt/. Consultado em 23-01-2015.

� de �33 116

Fig. 5.3. — Folha do SPSS com dados administrativos de internamentos hospitalares

Page 36: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

VI — Representação Conceptual de Dados e Informação

Atualmente, pertencemos à sociedade da informação, criada pela convergência entre a computação e a comunicação, na qual providenciar serviços de cuidados de saúde de alta qualidade é um processo dependente da informação. Mas, apesar disso, a maioria da informação ainda se encontra na sua forma mais crua: dados.

A própria ciência constrói-se de factos, mas uma acumulação de factos não é ciência. O progresso da ciência depende da criação de novas variáveis construídas a partir da seleção e organização de dados. Para isso, utilizamos os sistemas de base de dados, onde são armazenados os dados que são mais relevantes. Estes sistemas de base de dados constituem os sistemas de informação em saúde.

A partir da seleção e organização, em vez de termos dados, temos informação, que, por raciocínio se torna conhecimento (por exemplo, por aprendizagem automática). Juntando estes dois processos, seleção e organização e raciocínio, temos extração de conhecimento dos dados.

Continuando a escalar a pirâmide, podemos usar o conhecimento em sistemas de apoio à decisão, acrescentando, por exemplo, motores de inferência.

� de �34 116

Fig. 6.1. — Os sistemas de bases de dados são um sistema de informação

Fig. 6.2. — A extração de conhecimento resulta dos processos de seleção e organização e raciocínio

Page 37: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Há que começar pela base da pirâmide, neste caso os sistemas de informação (p.ex., bases de dados), pelo que este capítulo será dedicado à modelação de sistemas de informação.

Os sistemas de informação em saúde estão cada vez mais presentes na prática clínica (p.ex., registo clínico eletrónico) e, em geral, os informáticos percebem pouco de medicina, pelo que saber modelar e representar dados facilita comunicação com quem irá desenvolver os sistemas. Em geral, também os médicos percebem pouco de informática, pelo que saber modelar e representar dados facilita comunicação com quem irá conceptualizar os sistemas. Saber modelar e representar dados também auxilia na avaliação de sistemas a integrar nos serviços e aumenta a autonomia enquanto investigador clínico.

Diagrama de Casos de Uso

O diagrama de caso de uso é um diagrama de comportamento e descreve a funcionalidade proposta para um novo sistema que será projetado e é uma excelente ferramenta para o levantamento dos requisitos funcionais do sistema. O principal objectivo é mostrar que funções do sistema são executadas por cada ator.

Nos diagramas de caso de uso, o ator especifica um papel executado por um utilizador ou outro sistema que interage com o assunto (sistema), sendo representado por

� de �35 116

Fig. 6.3. — Os sistemas de apoio à decisão, a abordar no Capítulo IX

Fig. 6.4. — Diagrama de caso de uso simplificado

Page 38: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

uma figura humana. Por outro lado, os casos de uso são uma especificação de um conjunto de ações executadas por um sistema, que contém um resultado observável, sendo representados por uma elipse, na qual está escrito o nome do caso de uso.

Generalização de atores e casos de usoUma popular relação entre atores é a generalização/especialização. Isto é

útil para definir sobreposição de papéis entre atores. A notação é uma linha sólida com um triângulo em direção ao ator mais geral (Fig. 6.5.).

Vários casos de uso partilham procedimentos comuns. Cada caso de uso define apenas detalhes em relação ao caso de uso geral. A notação é uma linha sólida com um triângulo em direção ao caso de uso mais geral.

Inclusão e extensão de casos de usoUm dado caso de uso pode incluir outro. Incluir é uma relação direta entre

dois casos de usos, implicando que o comportamento do caso de uso incluído é inserido no comportamento do caso de uso inclusor. Esta relação indica uma obrigatoriedade do caso de uso incluir a funcionalidade do caso de uso incluído. Assim, sempre que o primeiro ocorrer obrigatoriamente o incluído ocorrerá. A notação é uma seta pontilhada para o caso de uso incluído com o estereótipo <<include>>.

Outra forma de interação é um caso de uso poder estender outro. Esta relação indica que o comportamento do caso de uso estendido pode ser ou não inserida no caso de uso extensor. Isto é, o caso de uso extensor pode ser efetuado sem que o estendido seja acionado. A notação é uma seta pontilhada da extensão para o caso de uso estendido com a etiqueta <<extend>>

� de �36 116

Fig. 6.5. — Herança entre atores

Page 39: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Importa referir que cada caso de uso pode aceder a múltiplas bases de dados e cada base de dados pode ser acedida em diversos casos de uso. Interessa-nos, portanto, conceber bases de dados de forma coerente, consistente e íntegra.

Modelação conceptual dos dados

Base de dadosUma base de dados é uma coleção coerente de dados relacionados que

representa um determinado aspeto do mundo real, e armazena dados de forma estruturada e sistemática, permitindo enfrentar um volume crescente de dados e garantindo a persistência dos dados.

O desenho de uma base de dados compreende três níveis: a sinopse, o modelo conceptual e o esquema. Neste capítulo, iremos abordar a sinopse e o modelo conceptual.

� de �37 116

Fig. 6.6. — Diagrama de casos de uso mais complexo

Modelo Conceptual

Sinopse

Esquema

Fig. 6.7. — Ciclo de desenho de uma base de dados

Page 40: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Sinopse da Base de DadosÉ a descrição narrativa do minimundo que queremos representar, onde

se incluem os factos que serão registados, os eventos monitorizados, e a audiência (fim) a que se destina.

Por exemplo: “Pretende-se guardar informação dos exames realizados aos doentes nos diversos laboratórios do Hospital; cada exame é realizado a um doente, por um laboratório (que tem um responsável), e deve ser registado o tipo e a data do exame; para cada doente deve ser registado o nome, a morada e o contacto."

Modelo entidade-relacionamentoO modelo entidade-relacionamento é um método de modelação de bases de

dados, que produz um esquema conceptual e semântico do minimundo que queremos representar, sendo definido por entidades, relacionamentos, e respetivos atributos.

EntidadesRepresentam “coisas” com existência independente que sejam

indentificáveis de forma unívoca e que, de alguma forma, interajam com outras entidades (p.ex., doente, médico, laboratório, etc.)

RelacionamentosExistem quando duas ou mais entidades interagem num

determinado contexto (p.ex, Doente tomou Medicação, Doente fezExameEm Laboratório).

Os relacionamentos podem ser do tipo:1 .. 1 (lê-se um para um) — indica que as tabelas têm relacionamento

apenas entre si. Por exemplo, “Doente éCasadoCom Doente”.1 .. * (lê-se um para muitos) — indica um tipo de relacionamento que

se pode estabelecer entre os campos de duas tabelas, em que para cada valor de uma das tabelas podem existir vários valores na outra tabela.

* .. * (lê-se muitos para muitos) — indica um tipo de relacionamento que se pode estabelecer entre os campos de duas tabelas, em que para cada valor de uma das tabelas podem existir vários valores na outra tabela, e vice-versa.

Os conceitos de tabela e campo ficarão mais claros nos capítulos seguintes.

� de �38 116

Doente

Fig. 6.8. — Representação de uma entidade num modelo ER

fezExameEm

Fig. 6.9. — Representação de um relacionamento num modelo ER

Page 41: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

AtributosDescrevem características tanto das entidades como

de relacionamentos (p.ex., Nome, Morada, Data, …).

Sabendo agora a estrutura de um modelo entidade-relacionamento, torna-se possível, através da sinopse, construir esse mesmo modelo. Utilizando a sinopse sugerida anteriormente…

“Pretende-se guardar informação dos exames realizados aos doentes nos diversos laboratórios do Hospital; cada exame é realizado a um doente, por um laboratório (que tem um responsável), e deve ser registado o tipo e a data do exame; para cada doente deve ser registado o nome, a morada e o contacto.”

… podemos construir o modelo entidade relacionamento, em quatro fases distintas.

Fase I: Identificar entidades (doente; laboratório)Fase II: Identificar relacionamentos ([o doente] fez Exame em [laboratório])Fase III: Identificar os atributos das entidades e dos relacionamentos

(doente — contacto, nome e morada; laboratório — responsável e nome; fezExame — data e tipo de exame)

Fase IV: Verificar que o objetivo foi atingido.

BibliografiaDepartamento CIDES. Modelação conceptual de dados e informação. 2014.Wikipedia. Diagrama de Casos de Uso. Disponível em: http://pt.wikipedia.org/wiki/Diagrama_de_caso_de_uso. Consultado em 23-01-2015.

� de �39 116

Morada

Fig. 6.10. — Representação de um atributo num modelo ER

Fig. 6.11. — Modelo ER para a sinopse em questão

Page 42: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

VII — Bases de dados: definição e construção

O desenho de uma base de dados começa com o abordado no capítulo anterior: a sinopse e o modelo conceptual da base de dados, o modelo entidade relacionamento. Depois destes dois níveis, passamos ao esquema da base de dados, que pode ser do tipo plano ou relacional.

Modelo plano de base de dados

O modelo plano consiste em matrizes simples, bidimensionais, compostas por elementos de dados (inteiros, números reais, …). Este modelo plano é a base das folhas de cálculo, como as que se encontram no Microsoft Excel, por exemplo.

Consideremos de novo a sinopse “Pretende-se guardar informação dos exames realizados pelos doentes que visitam o Hospital”.

Como se pode verificar na Figura 7.1., o modelo plano, da forma como foi concebido neste caso, não é o ideal, uma vez que existe informação redundante/repetida (a Joana surge sempre que faz um novo exame, por exemplo). Organizar os dados em função do doente resolveria o problema?

Como se pode constatar na Figura 7.2., organizar o modelo plano em função do doente também não é o ideal, uma vez que cria espaço vazio e colunas sem fim, já que, de cada vez que um doente faça um novo exame, é necessário adicionar três novas colunas (laboratório, tipo e data). A solução pode passar pela adoção do sistema relacional.

� de �40 116

Fig. 7.1. — Modelo plano para a sinopse em questão

Fig. 7.2. — Alternativa de modelo plano para a sinopse em questão

Page 43: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Modelo relacional de bases de dados

O modelo relacional de bases de dados, introduzido por Edgar Frank Codd em 1970, representa a base de dados como um conjunto de relações, e pode ser descrito, de uma forma simplificada, como um conjunto de tabelas, contendo múltiplas linhas e colunas, e uma descrição das suas interdependências.

Assim, uma base de dados contém:- Tabelas: Uma tabela é uma estrutura de dados normalmente (mas não

necessariamente) associada a uma entidade (p.ex., pacientes, internamentos, diagnósticos, procedimentos).

- Registos: Cada registo é composto por um conjunto de campos onde são realmente armazenados os dados.

- Campos: Um campo é a unidade mais pequena de armazenamento.

O modelo entidade-relacionamento, abordado no capítulo anterior, é muito útil para a construção do modelo relacional de uma base de dados, na medida em que permite prever as tabelas que devem ser criadas, de acordo com a Tabela 2.1.

Cada linha das tabelas representa uma entrada na base de dados com o registo da ocorrência da relação definida por essa tabela.

Consideremos de novo a sinopse “Pretende-se guardar informação dos exames realizados aos doentes nos diversos laboratórios do Hospital; cada exame é realizado a um doente, por um laboratório (que tem um responsável), e deve ser registado o tipo e a data do exame; para cada doente deve ser registado o nome, a morada e o contacto”, sendo o seu modelo ER o representado na Figura 6.11.. Analisando a informação na Figura 7.1., podemos concluir que as entidades, neste caso, são o Doente (com os atributos Nome, Morada e Contacto) e o Laboratório (com os atributos Nome e

Modelo ER Modelo Relacional

Entidade Tabela

Relacionamento 1 .. 1 Junção ou ligação entre as tabelas

Relacionamento 1 .. * Ligação entre as tabelas

Relacionamento * .. * Tabela

Atributo Coluna na tabela

� de �41 116

Fig. 7.3. — Exemplo de uma tabela de doentes

Tab. 7.1. — Modelo ER vs Modelo Relacional

Page 44: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Responsável). Como podem existir doentes com nomes iguais, bem como laboratórios com nomes iguais, é necessário atribuir a cada um dos registos um campo chave primária, que os distinga.

Campo Chave PrimáriaUm campo chave primária de uma tabela é definido de forma a ser único

para cada registo, permitindo identificá-lo de forma inequívoca. Num campo chave primária não podem existir valores omissos ou repetidos.

Assim, poderíamos, para as entidades, criar as tabelas que se apresentam na Figura 7.4.

Uma vez criadas as tabelas referentes às entidades, devem ser criados os relacionamentos. No caso do relacionamento “Doente fezExameEm Laboratório”, uma vez que se trata de um relacionamento * .. * (porque um doente pode fazer exames em vários laboratórios, e um laboratório é responsável pelos exames de vários doentes), e de acordo com a Tabela 7.1., este relacionamento requer uma tabela para si só (Fig. 7.5.).

No caso das tabelas de relacionamento * .. *, além do campo chave primária, que identifica inequivocamente o registo do relacionamento, estão também presentes as colunas “IDDoente” e “IDLab”, campos primários das entidades “Doente” e “Laboratório”, respetivamente. Estas colunas têm de estar presentes na tabela de relacionamento, caso contrário não seria possível identificar qual o doente que fez determinado exame e em que laboratório foi efetuado. Por exemplo, o João, cujo ID é o 3 (ver Fig. 7.4.) realizou, de acordo com a Figura 7.5., um Raio X (ID=6), no laboratório cujo ID é o 1 — comparando, novamente, com a Figura 7.4., concluímos que foi no laboratório de ortopedia. Os

� de �42 116

Fig. 7.4. — Tabelas para as entidades “Doente” e “Laboratório”. Notar os campos chave primária que são, para cada uma das tabelas, “IDDoente” e “IDLab”, identificando os registos.

Fig. 7.5. — Tabela para o relacionamento “Doente fezExameEm Laboratório”. Notar também aqui a presença do campo chave primária (“IDExame”), bem como dos campos “IDDoente” e

“IDLab”, que eram campos chave primárias nas tabelas das entidades respetivas.

Page 45: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

campos correspondentes ao “IDDoente” e “IDLab”, na tabela do relacionamento, denominam-se campo chave externa.

Campo chave externaCampo chave primária de uma tabela que existe também noutra

tabela, de forma a criar uma ligação representativa de relacionamento entre as duas tabelas.

Este foi um exemplo para um relacionamento * .. *, que exige a criação de uma tabela para si só. No entanto, os relacionamentos 1 .. 1 ou 1 .. * não necessitam de uma nova tabela — basta a adição de uma nova coluna, com um campo chave externa, na coluna da entidade. Por exemplo, no relacionamento “Doente trabalhaEm Laboratório” (um relacionamento do tipo * .. 1), bastaria proceder como se pode ver na Figura 7.6.

Agora que a forma como os dados é armazenada numa base de dados segundo o esquema relacional ficou clara, importa referir a importância da integridade. Por exemplo, quando é criada uma tabela para as entidades, é fulcral que todos os registos tenham um campo chave primária, e que estes não se repitam, para que seja possível identificar facilmente cada registo e relacioná-lo com outras tabelas. Do mesmo modo, o campo chave externa apenas pode conter dados que sejam campos chave primária (p.ex., na Figura 7.6., a Maria não podia trabalhar no laboratório 12, porque não existe). Por fim, também importa definir os dados que podem ser inseridos em cada campo (p.ex., na coluna “Contacto” da tabela “Doente” não teria qualquer sentido inserir uma data ou letras). Todos estes casos são casos em que a integridade dos dados é assegurada, existindo vários tipos de integridade.

Integridade de entidade Todas as tabelas têm de necessariamente ter pelo menos um campo

chave primária, que identifique de forma unívoca cada um dos seus registos.

� de �43 116

Fig. 7.6. — Relacionamento * .. 1. Notar a presença do campo chave externa na tabela “Doente”, referenciando a campe chave primária do laboratório onde o doente trabalha.

Page 46: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Integridade referencialTodos os valores introduzidos num campo chave externa têm

necessariamente que existir no campo corresponde da tabela onde são chave primária.

Integridade de domínio O domínio de valores possíveis para cada campo das tabelas tem de

ser declarado e restrito (p.ex., texto, numérico, data).

Tipos de camposNa criação de uma base de dados, é possível restringir o tipo de

campo e, assim, garantir que os dados inseridos nesse campo são os esperados. Existem os seguintes tipos de campo:

- Alfanumérico (permite escrever letras e números)- Numérico inteiro (apenas permite escrever números inteiros)- Numérico real (permite escrever qualquer número real)- Data (permite inserir dados no formato de data)- Hora (permite inserir dados no formato de hora) - Booleano (apenas permite escolher entre dois valores [p.ex.,

Verdadeiro ou Falso; Masculino ou Feminino])

Sistemas de Gestão de Bases de Dados (SGBD)

Os SGBD são aplicações desenhadas de forma a fornecer os mecanismos necessários não só à introdução e eliminação de dados na base, mas também à sua manipulação para consulta, agregação e análise. Os SGBD disponibilizam uma interface para que seus utilizadores possam incluir, alterar ou consultar dados previamente armazenados.

São exemplos de SGBD o OpenOffice Base, o LibreOffice Base, o MySQL (sistema utilizado pelo Facebook, Wikipedia, …), o PostgreSQL (utilizado no SONHO/SAM), o Microsoft Office Access, … Nas aulas práticas será utilizado o OpenOffice Base (ou o LibreOffice Base).

OpenOffice BaseO Base é um sistema gestor de bases de dados completo, desenhado para

ir ao encontro das necessidades de um grande leque de utilizadores. O Base oferece assistentes para ajudar utilizadores novos no desenho de bases de dados (ou simplesmente novos no Base) para criar tabelas, pesquisas, formulários e relatórios. Tem um nível de apresentação muito intuitivo, com alguns exemplos de criação, permitindo criar rapidamente tabelas de dados, consultas, formulários e relatórios.

� de �44 116Fig. 7.7. — Tabelas no OpenOffice Base

Page 47: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

BibliografiaDepartamento CIDES. Construção de bases de dados. 2014.SBIM. Bases de Dados. Disponível em: http://im.med.up.pt/sgbd. Consultado em 24-01-2013.

� de �45 116

Fig. 7.8. — Relacionamento entre tabelas no OpenOffice Base

Page 48: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

VIII — Consultas de Bases de Dados

As consultas são pedidos precisos de obtenção de informação em bases de dados e sistemas de informação, normalmente respondidos na forma de valores simples ou agregados, ou conjuntos de registos com múltiplos campos.

São úteis para:- criar tabelas agregadoras de toda a informação relevante existente em tabelas

separadas;- extrair estatísticas básicas de frequências ou tendências nos dados;- exportar tabelas de dados com unidades de análise diferentes.

Como funcionam?

As consultas usam as ligações criadas pelos campos chave externa para associar registos das várias tabelas (como, aliás, já fizemos com os dados da Fig. 7.4. e Fig. 7.5.). As consultas efetuam, normalmente, uma junção interior, mas existem outros tipos de junção (à esquerda, à direita, exterior).

JunçõesNas junções interiores, apenas apresentam registos que existam nas duas

tabelas simultaneamente (p.ex., um pedido de listagem de doentes e respetivos exames não apresentará informação de um doente que não tenha feito nenhum exame).

Nas junções à esquerda, são apresentados todos os registos da tabela esquerda (isto é, a primeira tabela mencionada na consulta), mesmo quando não existam registos correspondentes na tabela direita. Desta forma, esta seleção retorna todos os valores da tabela esquerda com os valores da tabela direita correspondente, ou quando não há correspondência retorna um valor NULL.

Nas junções à direita, o mecanismo é o inverso do anterior — são apresentados todos os registos da tabela à direita, mesmo que estes não tenham correspondente na tabela à esquerda.

Consultas simples a bases de dados

� de �46 116Fig. 8.1. — Exemplo de tabelas de base de dados

Page 49: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Tendo em conta a Figura 8.1., que volta a corresponder à sinopse apresentada pela primeira vez no Capítulo VI, podemos fazer uma consulta ‘manual’ e responder a várias questões que podem ser colocadas à base de dados.

Quantos doentes realizaram exames no Hospital?Se queremos saber o número de doentes, devemos focar a nossa atenção

na tabela “Doente”. Como queremos saber quantos, devemos contar os doentes não pelos nomes, mas sim pelo seu ID, uma vez que o ID é o que identifica cada doente diferente. Neste caso, a resposta seria 4.

Qual o Laboratório que realizou mais exames? Nós temos três laboratórios (o 1, o 2 e o 3 [notar que os laboratórios são

identificados pelo campo chave primária e nunca pelo nome]). No entanto, para saber qual o laboratório que realizou mais exames, é necessário olhar para a tabela do relacionamento e contar o número de vezes que cada um destes laboratórios surge. O laboratório 1 surge 4 vezes; o 2 surge 2 vezes; e o 3 uma única vez. Concluímos assim que o laboratório que realizou mais exames foi o laboratório 1, que corresponde ao laboratório de ortopedia.

Qual o doente que realizou mais exames no Laboratório de Ortopedia?Olhando para a tabela da entidade “Laboratório”, verificamos que o

laboratório de ortopedia é identificado pelo ID1. Como queremos saber qual o doente que realizou mais exames no laboratório de ortopedia, a análise só pode ser efetuada na tabela onde o “Doente” e o “Laboratório” se relacionam, ou seja, na tabela de relacionamento. Aí, podemos verificar que os doentes que realizaram exames no laboratório com ID1 foram os doentes com os IDs 1, 1, 3, 4. O ID 1 é o que realizou mais exames, correspondendo, na tabela “Doente”, à Joana.

Qual a morada do doente que realizou mais exames no Laboratório de Cardiologia?

Olhando para a tabela da entidade “Laboratório”, verificamos que o laboratório de cardiologia é identificado pelo ID3. Como queremos saber qual o doente que realizou mais exames no laboratório de cardiologia, a análise só pode ser efetuada na tabela onde o “Doente” e o “Laboratório” se relacionam, ou seja, na tabela de relacionamento. Aí, podemos verificar que apenas um doente realizou exames no laboratório com o ID3 — o doente com o ID2. Na tabela “Doente”, verificamos que a morada do doente com ID2 é “R Cima, 24”.

Consultas a bases de dados no SGBD

Para criar uma consulta no SGBD devemos:- criar consulta na vista de desenho- adicionar tabelas necessárias à resposta pretendida- escolher campos a serem utilizados:

- na listagem final- como critérios para a pesquisa

- executar a consulta- guardar a consulta para uso posterior

Por exemplo, se, ainda com base na Figura 8.1., quiséssemos listar toda a informação de exames realizados no laboratório que tem como responsável a Antónia,

� de �47 116

Page 50: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

bem como toda a informação dos respectivos doentes, a consulta teria o aspeto da Figura 8.2.

No caso desta consulta, queremos toda a informação acerca dos exames realizados no laboratório cuja responsável é a Antónia. Para isso, como se pode ver na quarta coluna, escolhemos a tabela “Laboratório” e, no campo “Responsável”, definimos o critério como “Antónia”, de modo a excluir os outros responsáveis. De seguida, para sabermos o nome do laboratório, na quinta coluna, escolhemos a tabela “Laboratório” e o campo “Nome”. Para saber a informação dos exames, obviamente, necessitávamos de obter toda a informação da tabela “Doente” (“Doente.*”, na primeira coluna), bem como a “Data” e o “Tipo” do “Exame” (que é a tabela de relacionamento).

Cada coluna representa um campo que pode ser usado para ser listado (como a maioria das colunas na Fig 8.2.) ou como critério de seleção apenas (como a quarta coluna). Normalmente, cada coluna representa um campo de uma tabela. A cada coluna pode ser associada uma etiqueta mais expressiva (alias). O resultado final pode ser ordenado por qualquer dos campos (ordenação dá prioridade da esquerda para a direita). Cada coluna pode ser ocultada, se apenas foi necessária como critério de seleção e não como resultado (como é o caso da sexta coluna, que define apenas que os doentes apareçam por ordem crescente). Ao resultado de cada coluna pode ser aplicada uma função. A seleção de registos é feita principalmente utilizando critérios de selecção (colunas como AND e linhas como OR).

� de �48 116

Fig. 8.2. — Exemplo de consulta à base de dados

Page 51: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Resultados das consultasO resultado de uma consulta é uma tabela de dados. Assim, podemos:- guardá-la para uso posterior (com dados atualizados)- semelhante a guardar a sintaxe no SPSS e executar sempre que a

entendermos- reutilizá-la como se fosse uma tabela para consultas mais complexas- exportá-la para outra aplicação de análise de dados

BibliografiaDepartamento CIDES. Consultas e exportação de informação. 2014.

� de �49 116

Page 52: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

IX — Noções básicas de sistemas de apoio à decisão

“Science is built up of facts, as a house is built of stones; but an accumulation of facts is no more a science than a heap of stones is a house.”

Henri Poincarré

De volta à pirâmide que foi, originalmente, introduzida no Capítulo VI e, depois de ao longo dos últimos capítulos termos abordado os sistemas de informação, iremos agora abordar o básico dos sistemas de apoio à decisão.

Decisão clínica

Uma decisão clínica, normalmente, segue quatro passos, que são: (1) pedir um teste diagnóstico, (2) definir uma estratégia de rastreio, (3) escolher a melhor terapêutica e (4) definir um plano de seguimento. Ainda que possa parecer simples, a decisão clínica tem de ser sempre claramente suportada. A prática médica é, em grande parte, tomada de decisão clínica.

“Good medicine does not consist in the indiscriminate application of laboratory examinations to a patient, but rather in having so clear a comprehension of the probabilities and possibilities of a case as to know what tests may be expected to give information of value.”

Peabody

Numa decisão em saúde, o contexto (doente e população) deve sempre ser tido em conta. As decisões em saúde também incluem, normalmente, incertezas importantes nos resultados de diagnóstico, na história da doença e nos efeitos terapêuticos num determinado doente/grupo ou população, e trade-offs baseados nas consequências, preferências e valores do doente, e nos custos. Tudo isto faz com que tomar uma decisão nem sempre seja fácil.

Exemplo de decisão clínicaO Sr. João é um homem de 59 anos com doença coronária (estreitamento

ou bloqueio dos vasos sanguíneos que irrigam o tecido cardíaco). Quando o coração não recebe oxigénio suficiente (hipoxia), porque o sangue não chega ao coração, o paciente

� de �50 116

Fig. 9.1. — Os SADC no topo da pirâmide

Page 53: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

costuma ter dores peitorais (angina). O Sr. João foi submetido por duas vezes a uma cirurgia ponte aorto-coronária. Infelizmente, voltou a sentir dores no peito que se tornam progressivamente mais severas, apesar da medicação. Se o músculo cardíaco não receber oxigénio suficiente, o resultado padre ser um ataque cardíaco (enfarte do miocárdio), no qual uma parte do músculo morre. Será que o Sr. James deveria ser submetido a uma terceira operação?

A medicação não está a ter resultado; sem uma cirurgia, ele tem grandes possibilidades de sofrer um ataque cardíaco, o que poderia ser fatal. Por outro lado, a cirurgia é perigosa. Além de a taxa de mortalidade para a terceira operação ser superior à primeira e à segunda, as probabilidades de a cirurgia aliviarem as dores peitorais na terceira operação são menores. Todas as opções estão rodeadas de incerteza. Além disso, os riscos são substanciais: uma decisão incorreta aumentaria as probabilidades do Sr. João morrer.

Esta seria uma decisão difícil, mesmo para clínicos experientes.

Imaginemos agora um outro caso.

És o(a) diretor(a) de um grande banco sanguíneo. Todos os potenciais dadores são testados para garantir que não estão infetados com o vírus da imunodeficiência imunitária (HIV), o agente que causa o síndrome de imunodeficiência adquirida (SIDA). A questão é se usar a reação de polimerização em cadeia (PCR), uma técnica de amplificação genómica que pode diagnosticar o HIV, seria útil para identificar pessoas que tenham HIV. O teste PCR dá positivo 98% das vezes em que o anticorpo está presente, e negativo 99% das vezes que o anticorpo está ausente.

Se o resultado do teste for positivo, qual é a probabilidade (likelihood) de um dador ter, de facto, HIV? E se o teste der negativo, como é possível ter a certeza de que essa pessoa não tem mesmo HIV? Intuitivamente, o teste parece exato, e seria de esperar que, se um teste for positivo, o sangue do dador contenha HIV.

Mas, na realidade, apenas 1 em cada 1000 dadores está infetado. Então, numa situação com 100 000 dadores, 100 estariam infetados e 99 900 não. Desses 100 que estariam infetados, 98 (98%) seriam detetados, enquanto 2 não seriam (2%). Dos 99 000 que não têm HIV, 999 (1%) deles seriam detetados como falsos positivos, enquanto os restantes 98 901 (99%) teriam o resultado correto (Tab. 9.2.).

HIV

PCR

Sim Não

Sim 98% 1%

Não 2% 99%

100% 100%

� de �51 116

Tab. 9.1. — Tabela de dupla entrada para a situação apresentada

Page 54: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

É fácil de compreender que, em cada 100 dadores cujo teste detectasse HIV, na realidade apenas 10 estariam infetados. O teste está mais vezes errado do que correto.

Incerteza na decisão clínica- As consequências de decisões médicas são incertas no momento decisivo.- O exame clínico e os testes diagnósticos são imperfeitos.- As indicações para grande parte das terapias, bem como os seus riscos e

benefícios, poderão ser definidos de forma vaga ou desconhecidos.- Para uma grande parte dos problemas clínicos, não existe informação

sobre ensaios clínicos disponível, ou não é generalizável para o doente em questão.

A decisão clínica, enquanto problema de decisão recheado de incerteza, pode ser de:

- uma intervenção (o que fazer?),- etiologia e risco (o que causou esta condição?),- diagnóstico (o que é?),- prognóstico (o que irá acontecer?), ou mesmo de- frequência (quão comum é esta condição?)

Habitualmente, cada modelo da realidade tende a modelar um destes problemas em particular, e não a realidade multicontextual que os origina.

Verosimilhança de um acontecimento

Há situações em que não conseguimos prever o desfecho de um determinado evento. No entanto, podemos ter uma ideia da verosimilhança da ocorrência desse desfecho. Por exemplo, em dezembro será mais verosímil nevar no Porto ou na Serra da Estrela? Será mais verosímil encontrar um cidadão australiano em Sydney ou em Lisboa? Se um doente tem febre e dispneia, será mais verosímil que seja gripe ou SARS (síndrome respiratória aguda grave)? A incerteza de um acontecimento é o fio condutor dos processos de decisão que o envolvem.

Mesmo no dia a dia, é normal usarmos normalmente palavras como frequente, possível ou raro para expressar incerteza. A probabilidade é uma expressão numérica da verosimilhança de um evento. Podemos então usar probabilidades para expressar incerteza sem ambiguidade e calcular o efeito de nova informação na probabilidade de doença.

HIV

PCR

Sim Não

Sim 98 999

Não 2 98 901

100 99 900

� de �52 116

Tab. 9.2. — Tabela de dupla entrada com os valores da situação apresentada

Page 55: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Avaliação de Testes de DiagnósticoUm teste de diagnóstico é qualquer tipo de informação que seja útil para a

realização de um diagnóstico. Um teste é uma estimativa de probabilidade de se ter uma doença, um transtorno ou uma dada condição que exige um diagnóstico, seja por meios bioquímicos, imunológicos, por imagem, por questionários de avaliação, por experiência clínica, ou qualquer outro meio de detecção.

O objetivo de um teste de diagnóstico é calcular a probabilidade de um paciente ter uma determinada doença, sendo o resultado para essa doença positivo. Para tal, pode construir-se uma tabela de dupla entrada, à semelhança da Tabela 9.1.

Importa, agora, definir alguns conceitos.- Prevalência: Probabilidade de a doença se manifestar na população

(Verdadeiros positivos + Falsos negativos).- Sensibilidade (S): Proporção de pacientes com a doença cujo teste é

positivo.

- Especificidade (E): Proporção de pacientes sem a doença cujo teste é negativo (TN).

Quanto maior a sensibilidade, maior será a probabilidade de, perante um resultado negativo, não haver doença. Quanto maior a especificidade, maior será a probabilidade de, perante um resultado positivo, haver doença. Medicina baseada na evidência

A medicina baseada na evidência é o uso consciente, explícito e criterioso da melhor evidência disponível na decisão clínica:

- experiência clínica pessoal;- melhor evidência externa agregada em investigação clínica de qualidade;- valores, necessidades, expectativas e contexto individual de cada doente.

Doença

Teste

Sim Não

Sim Verdadeiros positivos Falsos positivos

Não Falsos negativos Verdadeiros negativos

� de �53 116

Tab. 9.3. — Tabela de dupla entrada de avaliação de testes de diagnóstico

Page 56: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Sistemas de apoio à decisão clínica (SADC)

Os sistemas de apoio à decisão clínica são uma ferramenta de decisão clínica e são aplicações desenhadas para auxiliar os médicos na tomada de decisões de diagnóstico e de terapêutica nos cuidados a doentes. Esta definição abrangente poderia incluir aplicações muito pouco específicas, como livros eletrónicos ou bases de dados de artigos científicos. Assim, uma definição mais exata considera apenas os sistemas que consistem numa base de conhecimento e num mecanismo de inferência e que utilizando dados clínicos recolhidos geram recomendações específicas para o cada caso específico.

Funções de um SADCOs SADC podem ser classificados relativamente às suas funções:- Administrativas: codificação, gestão de recursos, autorizações.- Segurança do doente: redução erros terapêuticos e reações adversas.- Gestão da complexidade clínica: manutenção de protocolos e follow-up.- Suporte à decisão: diagnóstico e plano terapêutico baseados na evidência.- Melhoria dos cuidados de saúde: mais tempo para os cuidados e

informação de prognóstico.- Controlo de custos: prescrição de fármacos e testes auxiliares de

diagnóstico.� de �54 116

Experiência clínica pessoal

Melhor evidência

externa

Valores e expectativas do paciente

EBM

Fig. 9.2. — Medicina baseada na evidência (EBM) como o conjunto de vários fatores

Fig. 9.3. — Informação-conhecimento-decisão e os SADC

Page 57: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Classes de um SADCOs SADC também podem ser classificados quanto à sua interação com o

utilizador, risco e área clínica.

Interação com o utilizador- Passivo: auxilia a tomada de decisão, mas sem sugestões ou

recomendações;- Ativo: com sugestões e ações explícitas;- Cooperativo: permite ao ator modificar ou redefinir as

recomendações de decisão.

Risco- Baixo: resultado usado pelo profissional de saúde;- Alto: resultado usado pelo doente/população;- Muito alto: resultado usado por um diapositivo, sem controlo

humano.

Área clínica- Prevenção e gestão de doença: alertas para rastreio, tomas de

medicação e exames auxiliares de diagnóstico regulares;- Diagnóstico: identificação de doença, agente de infeção, etiologia,

…;- Plano terapêutico e prescrição: definição de plano terapêutico,

escolha de fármacos, alerta para toma de medicação;- Prognóstico: cálculo personalizado de prognóstico para doente em

questão.

CuriosidadeNesta aula, o discutiu-se se o número π (pi) — que, supostamente, contém todas

as sequências possíveis (afinal, é uma dízima infinita não periódica) — conteria toda a informação em binário, mesmo aquela que ainda não conhecemos, não sendo apenas possível extraí-la. Essa é, de facto, uma perspetiva muito romântica da matemática, mas não se pode afirmar que π contenha toda a informação existente, uma vez que, por exemplo, é perfeitamente possível criar uma sequência infinita não repetitiva de números sem nunca usar o algarismo 7. Assim, atualmente, não existe nenhuma prova científica de que π contenha todas as combinações possíveis de números. Ainda assim, para os que quiserem procurar uma sequência de números em π, podem utilizar esta página Web: http://www.angio.net/pi/piquery

BibliografiaDepartamento CIDES. Noções básicas de sistemas de apoio à decisão. 2014.SBIM. Apoio à Decisão. Disponível em: http://im.med.up.pt/sad/. Consultado em 24-01-2013.Clinica Medica. Sensibilidade, Especificidade, Valores Preditivos. 2004. Disponível em: http://clinicamedicarquivo.blogspot.pt/2004/06/sensibilidade-especificidade-valores.html. Consultado em 24-01-2015.

� de �55 116

Page 58: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

X — E-Saúde e portais para profissionais de saúde

Hoje em dia, as tecnologias fornecem-nos uma variedade de possibilidades que, há alguns anos, não seriam sequer imagináveis. Um exemplo disso é a variedade de aplicações (para dispositivos móveis, computadores ou baseadas na Web) que existem disponíveis e que podem facilitar muito o dia-a-dia de um aspirante a médico e futuro médico. Abaixo, ficam algumas sugestões, sendo que algumas delas foram mesmo sugeridas na aula.

Navegadores na WebO navegador a utilizar é uma questão de gosto pessoal, sendo que as principais

funcionalidades estão presentes em todos os navegadores. Algumas opções são o Vivaldi Browser, o Opera Browser, o Mozilla Firefox ou o Google Chrome.

Gestor de ficheirosHoje em dia, com a presença da cloud, a utilização de serviços como a MeoCloud

(16GB grátis), Dropbox (2GB grátis), Box.com (15GB grátis), Google Drive (15GB grátis) ou OneDrive (15GB grátis) facilita o acesso aos seus ficheiros, em qualquer local.

NotasPara tirar notas, existe o Evernote (provavelmente a mais utilizada), que compete

com o OneNote da Microsoft. Como alternativa, existe o Simplenote.

ProdutividadePara aqueles com o hábito da procrastinação, existem aplicações que podem ser

úteis, como o Wunderlist (uma aplicação para definir uma lista de tarefas), o iStudiez e o SelfControl, uma aplicação que impede o acesso a aplicações e páginas não produtivas durante um período definido de tempo.

Aplicações médicas- Epocrates Essentials- 5-Minute Clinical Consult- UpToDate- Noom weight- My fitness pal- Mobile MerckMedicus- Pontuário terapêutico (web-based)

� de �56 116

Page 59: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XI — Estatística descritiva I

A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumariar um conjunto de dados. A escolha do método de estatística descritiva depende do tipo de variável.

Classificação de variáveis

As variáveis são o que é observado ou medido, podendo ser:

Codificação de variáveisTambém importa codificar as variáveis categóricas. Imaginemos que temos

o sexo de um paciente, que é uma variável categórica nominal e pode ser masculino ou feminino. Como será abordado nas aulas práticas, o ideal seria codificar “masculino” como “1”, “feminino” como “2” e os casos omissos como “999”, por exemplo.

Por vezes, também é necessário recodificar variáveis (por algumas categorias serem pouco frequentes ou apenas por interesse para o estudo). No SPSS, o programa que será utilizado para análise estatística, isso pode ser feito em Transform >> Recode Into Different Variables. Uma possibilidade seria recodificar as idades dos pacientes para “<35” e “>=35”, dividindo-os em dois grupos etários.

Para facilitar a análise, as variáveis contínuas podem ser categorizadas. Por exemplo, a idade, embora seja uma variável contínua, pode ser categorizada em faixas etárias que correspondem a uma variável categórica ordinal. Deste modo, um indivíduo que tenha 27,6 anos pode pertencer, por exemplo, à categoria [20-30 anos].

Além destas possibilidades, pode ser necessário criar novas variáveis quando se faz uma análise estatística. No SPSS, isso pode ser feito em Transform >> Compute Variable. Um exemplo disso seria, tendo as variáveis “Data de Nascimento” e “Data de entrada no hospital”, criar a variável “Idade à entrada”; ou, por exemplo, tendo a variável “Altura em metros”, criar a variável “Altura em centímetros”.

Por fim, uma função também muito interessante do SPSS é a seleção de casos, em Data >> Select Cases. Tendo a informação de internamentos hospitalares no Hospital São João, esta função permite-nos, por exemplo, selecionar apenas os

Variáveis

Quantitativas Discretas — só podem assumir determinados valores (p.ex., n.º de comorbilidades, n.º de batimentos cardíacos).

Contínuas — podem assumir qualquer valor num intervalo (p.ex., tensão arterial, idade, altura)

Qualitativas (Categóricas)

Nominais — sem ordenação própria (p.ex, sexo, grupo sanguíneo)

Ordinais — com ordenação própria (p.ex, escala qualitativa - ..., suf, bom, mto bom; estadiamento de cancro)

� de �57 116

Tab. 11.1. — Classificação das variáveis

Page 60: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

internamentos de pacientes de sexo feminino, para os analisar separadamente dos internamentos de sexo masculino.

Variáveis CategóricasComo já foi dito, a escolha do método de estatística descritiva depende do

tipo de variável. Assim, para o caso das variáveis categóricas, temos:

Tabelas de FrequênciasContagem do número de casos em cada categoria. A tabela

apresenta as categorias da variável, a respetiva frequência absoluta (número de casos numa categoria) e, por vezes, a frequência relativa (proporção de casos numa categoria).

No SPSS, as tabelas de frequências podem ser pedidas em Analyse >> Descriptive Statistics >> Frequencies.

Representação gráficaTambém podemos representar graficamente uma variável categórica,

de duas formas distintas:- gráfico de barras: preferencialmente para variáveis categóricas

ordinais, cada barra representa uma categoria, sendo o seu comprimento proporcional à frequência dessa categoria. As barras são separadas por espaços, indicando que os dados são de variáveis categóricas (ou, ocasionalmente, discretas).

- gráfico circular: preferencialmente para variáveis categóricas nominais, o círculo representa os 100% e cada “fatia” é proporcional à frequência relativa de cada categoria (por este motivo, em Inglês, denomina-se pie-chart).

No SPSS, podemos pedir um gráfico em Analyse >> Descriptive Statistics >> Frequencies (Charts).

� de �58 116

Fig. 11.1. — Tabela de Frequências no SPSS. Notar a frequência absoluta (“Frequency”) e a frequência relativa (“Percent” — inclui casos omissos; “Valid Percent” — exclui casos omissos;

“Cumulative Percent” — percentagem acumulada até à respetiva categoria.

0

25

50

75

100

Abril Maio Junho Julho

Mortalidade hospitalar 7%8%10%

11%

29%

35%

Fig. 11.2. — Exemplos de um gráfico de barras, à esquerda, e um gráfico circular, à direita.

Page 61: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Variáveis Contínuas

Representação gráficaNo caso das variáveis contínuas, estas podem ser representadas

com a utilização de um histograma que, ao contrário do gráfico de barras, tem as barras adjacentes (já que cada intervalo de valores tem a continuação no intervalo da barra seguinte). Teoricamente, a largura de cada barra do histograma está relacionada com o âmbito de valores da variável. A área da barra é proporcional à frequência desse mesmo conjunto de valores. Portanto, se um dos grupos tiver um âmbito (conjunto de valores) maior, este terá uma barra mais larga, mas menos alta, para compensar o aumento da largura no cálculo da área. No entanto, na prática, criam-se intervalos de valores do mesmo tamanho, de modo a que a largura da barra seja a mesma para todos os intervalos de valores e, assim, se possa ler a frequência nesses intervalos unicamente através da altura da barra.

No SPSS, o histograma pode ser pedido em Analyse >> Descriptive Statistics >> Frequencies (Charts).

BibliografiaDepartamento CIDES. Estatística descritiva. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �59 116

Fig. 11.3. — Exemplo de um histograma

Page 62: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XII — Estatística descritiva II

Depois de, no último capítulo, terem sido abordados os diferentes tipos de variável, as tabelas de frequência e as representações gráficas das variáveis, neste capítulo serão abordadas as medidas de sumário (tendência central e dispersão).

Tendência central

Como as tabelas de frequência não são muito úteis para descrever variáveis contínuas, utilizam-se medidas de tendência central, que descrevem o centro da distribuição. As medidas de tendência central mais utilizadas são a média e a mediana.

Para introduzir estes conceitos, vamos supor que temos os dados do peso ao nascimento de recém-nascidos.

MédiaA média é o valor que aponta para onde mais se concentram os dados de

uma distribuição. Se X representar a variável “peso do recém-nascido”, a média pode ser definida por

sendo xi o peso do recém nascido i (i pode ir de 1 a n, existindo n recém-nascidos na amostra).

MedianaA mediana é o valor numérico que separa a distribuição de probabilidade em

metade, quando organizada por ordem de magnitude. Por exemplo, se o peso ordenado dos recém-nascidos for

2333 2987 3434 3761 4189,

a mediana é 3434. Ou seja, se temos um número ímpar de observações, a mediana corresponde ao valor do meio.

Por outro lado, se o peso ordenado dos recém-nascidos for

2987 3434 3761 4189,

então a mediana é (3434+3761)/2, ou seja, 3597,5. Ou seja, se temos um número par de observações, a mediana corresponde à média dos dois valores centrais.

Caso a mediana fosse 3300 g, então 50% dos bebés teria menos de 3300 g e 50% dos bebés teria mais de 3300 g (Figura 12.1.).

� de �60 116

Page 63: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Média vs. MedianaTendo em conta que tanto a média quanto a mediana descrevem o centro da

distribuição, qual deve ser usada?

Então, se a distribuição for simétrica, a média irá coincidir com a mediana, pelo que é preferível utilizar a média pelas suas vantagens. Já se a distribuição for assimétrica, a média será afetada pelos valores extremos, pelo que é preferível utilizar a mediana. Importa referir que, em distribuições assimétricas, se a maioria dos valores da distribuição se concentrarem à esquerda no eixo do xx (i.e., são menores), a mediana será inferior à média (porque a média é aumentada pelos poucos valores superiores); no caso contrário, ou seja, se a maioria dos valores da distribuição se concentrarem à direita no eixo do xx (i.e., são maiores), a mediana será superior à média (porque a média é diminuída pelos poucos valores inferiores).

No SPSS, as medidas de tendência central podem ser obtidas em Analyse >> Descriptive Statistics >> Frequencies (Statistics).

PercentisComo vimos, a mediana é o valor acima e abaixo do qual se encontram 50%

dos casos — é o ponto de corte 50% da distribuição. Podemos generalizar esta ideia a outros pontos de corte, aos quais chamaremos percentis.

Vantagens Desvantagens

Média Usa todos os dadosDefinida algebricamente

Distorcida por valores extremos Distorcida por distribuições enviesadas

Mediana Não é distorcida por valores extremosNão é distorcida por distribuições enviesadas

Ignora muita informação Não definida algebricamente

� de �61 116

Fig. 12.1. — 50% dos bebés estão acima da mediana, e 50% abaixo

Tab. 12.1. — Vantagens e desvantagens associadas à média e à mediana

Page 64: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Então, por exemplo, o percentil 5 é o valor abaixo do qual estão 5% dos casos (e acima do qual estão 95% dos casos). Os percentuais mais utilizados são o 25, o 50 e o 75, aos quais se dá o nome de quartis.

Percentil 25% — 1.º QuartilPercentil 50% — 2.º Quartil ou Mediana

Percentil 75% — 3.º Quartil

No SPSS, os percentis e quartis podem ser obtidos em Analyse >> Descriptive Statistics >> Frequencies (Statistics).

Dispersão

No entanto, descrever o centro da distribuição não é suficiente. Imaginemos que um aluno termina o seu 1.º ano na Faculdade de Medicina da Faculdade do Porto com média de 15 valores. O aluno pode ter tido

15, 15, 15, 15, 15, 15, 15, 15, 15, 15 ou

10, 10, 10, 10, 10, 20, 20, 20, 20, 20

São necessárias medidas que descrevam a dispersão dos valores.

ÂmbitoDiferença entre o maior e o menor valor. É inadequada a sua utilização, na

presença de outliers — valores anómalos e extremos.

Âmbito de percentis (ou interquartil)O âmbito interquartil é a diferença entre o percentil 25 e 75. Também se

pode fazer o âmbito entre dois outros percentis (p.ex., entre o percentil 5 e 95). É vantajoso utilizar o âmbito interquartil, pois permite excluir outliers.

VariânciaÉ possível medir a dispersão dos dados comparando o seu desvio em

relação à média aritmética. Como é óbvio, quanto maior for esse desvio, maior será a variabilidade das observações. No entanto, não podemos simplesmente utilizar a média dos desvios, porque os desvios positivos anulariam os desvios negativos. Para ultrapassar este problema, elevam-se os desvios ao quadrado e encontra-se a média dos quadrados dos desvios — isto é a variância.

No cálculo da variância para a população, o denominador deve ser N. No entanto, na maior parte dos trabalhos de investigação, não é possível ter acesso a toda a população, mas apenas a uma amostra (representativa) da população. No caso do cálculo da variância para a amostra, mostrou-se teoricamente que é possível estimar melhor a variância para a população quando o denominador é (n-1).

� de �62 116

Page 65: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Desvio padrãoRaiz quadrada da variância.

É fácil de compreender que, se os valores forem muito espalhados, o desvio de cada valor à média também o será. Mas note-se que alguns valores terão um desvio positivo e outros terão um desvio negativo. Para que não haja valores negativos e outros positivos, eleva-se ao quadrado, sendo que a média dos quadrados dos desvios é a variância. Caso a distribuição seja absolutamente simétrica, a média dos desvios será zero.

As medidas de dispersão deverão ser escolhidas em função da medida de tendência central. O desvio padrão e a variância só deverão ser utilizados quando associados à média, uma vez que estas medidas se referem aos desvios à média. Caso a distribuição seja assimétrica e se opte pela mediana, poderão utilizar-se, como medida de dispersão, o âmbito ou o âmbito interquartil.

Tabelas de contingência

São utilizadas para estudar a relação entre duas variáveis categóricas, descrevendo a frequência das categorias de uma das variáveis relativamente à outra.

Vantagens Desvantagens

Âmbito Fácil de calcular Usa apenas dois valores Distorcido por valores extremos

Âmbito de percentis Não é distorcida por valores extremos

Não pode ser calculado para amostras pequenas

Variância Usa todos os dados Definida algebricamente

A unidade é o quadrado da unidade dos dadosSensível a valores extremos Não apropriada em distribuições enviesadas

Desvio padrão Usa todos os dados Definida algebricamente Mesma unidade que os dados Fácil de interpretar

Sensível a valores extremos Não apropriada em distribuições enviesadas

� de �63 116

Tab. 12.2. — Vantagens e desvantagens das várias medidas de dispersão

Fig. 12.2. — Exemplo de tabela de contingência

Page 66: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

No SPSS, pode pedir-se uma tabela de contingência em Analyse >> Descriptive Statistics >> Crosstabs.

Diagrama de dispersão

Utilizado para estudar a relação entre duas variáveis contínuas.

No SPSS, o diagrama de dispersão pode ser pedido em Graphs >> Legacy Dialogs >> Scatter/Dot.

Box plot

É constituído por um retângulo vertical ou horizontal, correspondendo as extremidades do retângulo aos quartis superior e inferior. A linha no meio do retângulo corresponde à mediana. Por vezes, podem marcar-se os outliers.

No SPSS, o box plot pode ser pedido em Graphs >> Legacy Dialogs >> Boxplot.

BibliografiaDepartamento CIDES. Estatística descritiva. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �64 116

Fig. 12.3. — Exemplo de diagrama de dispersão

Fig. 12.4. — Exemplo de box plot

Page 67: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XIII — Probabilidades e Distribuições teóricas

O acaso

Na nossa vida, há muitas situações em que não conseguimos prever o desfecho. Muitas vezes não podemos prever o desfecho mas podemos ter ideia da probabilidade de ocorrer esse desfecho.

Por exemplo:

Em dezembro é mais provável nevar no Porto ou na Serra da Estrela?É mais provável encontrar o cidadão Australiano em Sydney ou em Lisboa?No futebol, se jogar uma equipa da 3ª divisão com uma da 1ª divisão, qual

terá mais probabilidade de ganhar?

Mas, às vezes, o desfecho é mesmo imprevisível:

Se lançar um dado equilibrado não sei que número de 1 a 6 me vai sair.Não sei, previamente, os números do Euromilhões.

Foi mesmo por causa dos “jogos de azar” que, no século XVII, se começou a estudar a teoria das probabilidades, na tentativa de quantificar o grau de incerteza de um acontecimento.

Probabilidade

Hoje em dia usa-se a teoria das probabilidade para inúmeras situações. Por exemplo, o prémio a pagar à companhia de seguros é calculado com base em probabilidades, sendo mais caro para quem tem carta a menos de dois anos, porque tem mais probabilidades de ter um acidente.

Experiências aleatórias

- Experiências determinísticas: é possível prever o resultado. - Se eu tirar, sem olhar, uma bola de um saco que tem apenas bolas

brancas, qual será a cor da bola que vou tirar?- Experiências aleatórias: não é possível prever o resultado.

- Se eu tirar, sem olhar, uma bola de um saco que tem bolas roxas, azuis, vermelhas, amarelas, laranjas e verdes, qual será a cor da bola que vou tirar?

Espaço amostral

O lançamento de um dado equilibrado é uma experiência aleatória.O espaço amostral é o conjunto de todos os resultados possíveis de uma

experiência aleatória. No caso do lançamento do dado o espaço amostral é {1,2,3,4,5,6}.

Acontecimento

É um subconjunto do conjunto de resultados de uma experiência aleatória. Podem ser possíveis, impossíveis ou certos.

� de �65 116

Page 68: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Acontecimentos impossíveis (não podem acontecer [P=0]):- no caso do lançamento do dado, sair simultaneamente o 3 e o 5.

Acontecimentos certos (acontecem de certeza [P=1]):- no caso do lançamento do dado, sair um número entre 1 e 6.

Acontecimentos possíveis (podem acontecer [0≤P≤1]):- no caso do lançamento do dado, sair o número 6.

Assim, pode definir-se a probabilidade de um acontecimento como o quociente entre o número de casos favoráveis a esse acontecimento e o número de casos possíveis (sendo estes equiprováveis).

Então, no caso da experiência aleatória do lançamento de um dado equilibrado, qual a probabilidade do acontecimento A=sair um número par?

Casos favoráveis = 3 {2, 4, 6}Casos possíveis = 6 {1,2,3,4,5,6}

P(A) = 3/6 = 0,5 ou 50%.

Regras da probabilidade

1. Se dois eventos A e B são mutualmente exclusivos (i.e. um evento impossibilita o outro), então a probabilidade de um ou outro acontecerem é a soma das suas probabilidades. Por exemplo, se as probabilidades de um paciente adulto numa clínica dentária ter todos os dentes, ter falta de alguns dentes ou não ter qualquer dente forem 0,67, 0,24 e 0,09, respetivamente, então a probabilidade de um paciente ter alguns dentes é 0,67 + 0,24 = 0,91.

2. Se dois eventos A e B são independentes, então a probabilidade de ambos os eventos ocorrerem é igual ao produto da probabilidade de cada um deles ocorrer. Por exemplo, se dois pacientes estiverem numa clínica dentária, a probabilidade de ambos terem todos os dentes é 0,67 * 0,67 = 0,45.

Probabilidade condicionada

Representa-se por P(A|B), e lê-se “Probabilidade de A, sabendo que ocorreu B”. Para determinar a probabilidade condicionada de que A ocorra sabendo que B ocorreu temos de fazer a contagem das ocorrências do acontecimento A entre aquelas ocorrências em que o acontecimento B se realizou (e não entre as ocorrências do espaço de resultados). Ao supormos que se realizou o acontecimento B, podemos considerar um novo espaço de resultados, que será assim um espaço de resultados reduzido, ou seja, o próprio conjunto B. Dentro deste novo espaço de resultados, basta agora contarmos ocorrências do acontecimento A entre aquelas ocorrências em que o acontecimento B se realizou, ou seja, os elementos do conjunto A∩B. Assim:

� de �66 116

Page 69: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Teorema de Bayes

O teorema de Bayes mostra a relação entre uma probabilidade e a sua inversa (p.ex., a probabilidade de uma hipótese dada a observação de uma evidência e a probabilidade da evidência dada pela hipótese). Foi uma das primeiras tentativas de modelar matematicamente a inferência estatística.

Como:P(A∩B) = P(B) P(A|B) P(B∩A) = P(A) P(B|A)

E:P(A∩B) = P(B∩A)

Então:

Distribuições teóricas

Distribuições de probabilidades

Uma variável aleatória é uma quantidade que pode tomar qualquer valor de um conjunto de valores exclusivos com uma dada probabilidade. Uma distribuição de probabilidades mostra as probabilidades de todos os valores possíveis de uma variável aleatória. É uma distribuição teórica que é expressa matematicamente e tem uma média e variância análogas às de uma distribuição empírica. Cada distribuição de probabilidade é definida por certos parâmetros, que são medidas de sumário (p.ex, média, variância) que caracterizam a distribuição (i.e., conhecendo-as, é possível descrever a distribuição por completo).

Distribuição de BernoulliPara as variáveis categóricas esta distribuição associa uma

probabilidade a cada categoria.Por exemplo, para a variável “Sexo do recém nascido” a distribuição

de probabilidades é definida por duas probabilidades:P(sexo=Masculino) = p P(sexo=Feminino) = 1—p

Codificando Masculino=1 e Feminino=0 podemos combinar as duas probabilidades numa expressão:

P(sexo=x) = px * (1—p)1-x

Então:P(sexo=1) = p1 * (1—p)1-1=pP(sexo=0) = p0 * (1—p)1-0=1—p

Então, a distribuição de Bernoulli é definida pela expressão:

Esta expressão representa a distribuição de probabilidade de uma variável dicotómica.

� de �67 116

Page 70: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Dizemos que a variável “sexo do recém nascido” segue uma distribuição de Bernoulli com probabilidade p: Sexo~Ber(p).

Distribuições para variáveis contínuasSe o eixo horizontal representar os valores de uma variável aleatória

x, podemos desenhar uma curva através da equação da distribuição (a função densidade de probabilidade [Figura 13.1.]). A área total debaixo da curva é 1, pois representa a probabilidade de todos os eventos possíveis. A probabilidade de x se encontrar entre dois limites é igual à área sob a curva entre esses valores (Figura 13.2.).

A distribuição mais famosa é a distribuição Normal, embora existam outras.

� de �68 116

Fig. 13.1. — Quando falamos de variáveis contínuas, não podemos falar da probabilidade de um valor, mas apenas da probabilidade de um intervalo de valores. Se imaginarmos que

conseguimos escolher intervalos cada vez menores, à medida que os intervalos vão diminuindo vamos começando a ver uma curva, chamada a densidade de probabilidade.

Fig. 13.2. — Função densidade de probabilidade (pdf) e sua interpretação teórica.

Page 71: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Distribuição NormalUma das distribuições mais importantes em estatística é a

distribuição Normal. Esta tem algumas propriedades interessantes, a saber:- é totalmente definida por dois parâmetros: a média (μ) e o desvio

padrão (σ);- tem forma de sino (é unimodal);- é simétrica em relação à média (Figura 13.3., a);- é deslocada para a direita, se a média estiver aumentada, ou para a

esquerda, se diminuída, assumindo variância constante (Figura 13.3., b);- para uma média fixa, quanto maior for a variância, mais achatada

será a curva (e, quanto menor for a variância, mais pontiaguda será) (Figura 13.3., c);- a média e a mediana têm o mesmo valor;- a probabilidade (Figura 13.4.) de uma variável aleatória normal x,

de média μ e desvio padrão σ, se encontrar entre:(μ — σ) e (μ + σ) é 0,68(μ — 1,96σ) e (μ + 1,96σ) é 0,95(μ — 2,58σ) e (μ + 2,58σ) é 0,99

Distribuição Normal Padrão e z-scoreHá um número infinito de distribuições Normais, dependendo do valor

da média e do desvio padrão. A Distribuição Normal Padrão (Figura 13.5.) é um tipo particular de distribuição normal, cujas propriedades estão tabuladas:

- A média é 0 (zero) e a variância é 1 (um);� de �69 116

Fig. 13.3. — Curva densidade de probabilidade da distribuição normal da variável x. (a) Simétrica em relação à média, μ. (b) Efeito de alteração da média (μ2 > μ1). (c) Efeito de

alteração da variância (σ1 < σ2).

Fig. 13.4. — Áreas sob a curva.

Page 72: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

- Podemos transformar qualquer distribuição normal na normal padrão subtraindo pela média e dividindo pelo desvio-padrão (z-score).

O valor do z-score representa o número de desvios-padrão de

distância em relação à média. Um z-score positivo significa que o valor em questão é superior à média; um z-score negativo significa que o valor em questão é inferior à média.

Imaginemos que sabemos que, em média, as crianças nascem com 3279 g (desvio padrão de 526 g). Se um determinado bebé nascer com 2130 g, então, pelo cálculo do z-score: (2130-3279)/526=-2,37. Isto significa que esse bebé nasceu 2,37 desvios-padrão abaixo da média (pois o sinal é negativo). Também podemos concluir que o peso à nascença do bebé se encontra abaixo do percentil 2,5, pois, como vimos anteriormente, e como se pode ver também na Figura 13.5., o percentil 2,5 (IC 95%) está 1,96 desvios-padrão abaixo da média. Neste caso, o peso da criança está 2,37 abaixo da média (i.e., ainda mais distante), pelo que está, sem dúvida, abaixo do percentil 2,5 (mas acima do percentil 0,5, pois esse está 2,58 desvios-padrão abaixo da média e o z-score para este caso é apenas -2,37).

Distribuição t

Esta distribuição foi derivada por W. S. Gosset, que a publicou sob o pseudónimo “student”, daí ser conhecida como “distribuição t student”. É caracterizada pelos graus de liberdade, que estão normalmente associados com o tamanho da amostra (ver capítulo XIV). Tem uma forma semelhante à distribuição normal: a única diferença é pelo facto de ser mais “espalhada”, isto é, os seus limites (caudas) são mais compridos. Considera-se que, para 30 ou mais graus de liberdade (o que, normalmente, corresponde a 31 ou mais indivíduos na amostra [capítulo XIV]), a distribuição t coincide com a distribuição Normal, pelo que se pode usar esta última como aproximação à distribuição t, nos cálculos de intervalos de confiança (ver capítulo XIII).

Bibliografia Departamento CIDES. Introdução à Probabilidade. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �70 116

Fig. 13.5. — Distribuição Normal Padrão.

Page 73: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XIV — Amostragem e Estimação (Intervalos de Confiança)

Amostragem — Porquê?

Em estatística, uma população representa todo o grupo de indivíduos nos quais estamos interessados. Geralmente, estudar toda a população é muito caro, trabalhoso e muitas das vezes impossível, porque a população pode ser hipotética (p.ex., pacientes que possam vir a receber um tratamento no futuro). Por isso, recolhem-se dados acerca de uma amostra de indivíduos que acreditamos serem representativos da população (i.e., têm características semelhantes aos indivíduos na população) e usamo-los para tirar conclusões (i.e., fazer inferências) sobre a população. Quando escolhemos uma amostra da população, temos de estar cientes de que a informação na amostra pode não refletir aquilo que é verdade para a população.

Como obter uma amostra representativa da população?

A teoria da amostragem diz-nos que, se selecionarmos um conjunto de indivíduos a partir da população que pretendemos estudar, de forma adequada, podemos obter estimativas dos parâmetros a estudar que se aproximam daqueles que obteríamos se estudássemos toda a população total dentro de determinadas margens de erro ou dentro de determinadas margens de incerteza.

O tipo de amostragem que nos permite controlar os erros sistemáticos e aleatórios e poder passar de uma maneira direta (sem qualquer assunção adicional) do resultado observado da amostra (com algum grau de incerteza) para aquilo que se quer estimar na população é a amostragem aleatória — todo e qualquer processo de amostragem em que o investigador tem conhecimento e controlo sobre o processo aleatório que gera as probabilidades de cada um dos indivíduos pertencer à amostra mesmo que esta probabilidade não seja necessariamente igual a todos os indivíduos da população.

Amostragem aleatória simplesTodos os indivíduos têm probabilidades iguais e independentes de serem

selecionados.

Amostragem aleatória estratificada A população é dividida em estratos, por uma variável de interesse, e dentro

desses estratos são escolhidos, aleatoriamente, indivíduos.Por exemplo: queremos escolher uma amostra aleatória da região norte de

Portugal e em vez de fazer uma amostragem aleatória simples, estamos interessados em comparar os distritos desta região. Como existem distritos de diferentes tamanhos, se fizéssemos uma amostragem simples, iríamos ter mais indivíduos dos distritos maiores e, estando dependente do acaso, poderíamos ter desequilíbrios grandes entre grupos. Assim, poderíamos fazer uma amostragem aleatória estratificada em que se poderia escolher o número fixo de indivíduos de cada um dos distritos, garantindo que tínhamos estimativas dos parâmetros igualmente precisas para cada um dos distritos em estudo. Isto fazia, agora, com que os distritos mais pequenos ficassem sobrerrepresentados, visto todos os grupos terem o mesmo número de indivíduos

Assim, temos a amostragem aleatória estratificada que tem subpopulações que estão definidas, à partida, na população em estudo e, dentro de cada subpopulação, escolhe-se uma amostra aleatória simples a partir desse estrato. Assim, sendo o investigador a definir quantos indivíduos é que vai retirar de cada estrato, tem de ter em conta que cada um dos indivíduos não tem uma probabilidade igual e independente de

� de �71 116

Page 74: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

pertencer à amostra. Se temos um número igual de indivíduos escolhidos de cada um dos estratos, a probabilidade de os indivíduos pertencerem à amostra nos estratos mais pequenos vai ser maior do que a encontrada nos extratos maiores.

É uma amostra aleatória? É. Existe uma probabilidade igual e independente de pertencer à amostra? Não.

Para que se possa extrapolar diretamente, de forma não enviesada, parâmetros para a população, temos de ter em conta estas ponderações diferentes que cada um dos indivíduos tem. Cada um dos indivíduos tem um peso diferente que terá de ser considerado de forma a estimar de forma valida parâmetros para a população. Assim, os indivíduos de estratos mais pequenos terão uma ponderação menor do que os indivíduos de estratos maiores. Para garantir uma representação proporcional da população, utilizamos a amostragem aleatória estratificada que consiste em começar por dividir a população em subgrupos significativos (estratos), calcular o seu peso relativo (%) na população e utilizar depois, em cada um desses estratos, um procedimento de amostragem aleatória simples para escolher (na mesma proporção em que estão representados na população) os sujeitos de cada estrato que irão integrar a amostra

Amostragem aleatória por gruposHá dois ou mais estágios no processo de amostragem. Em primeiro lugar,

grupos de unidades são escolhidos, aleatoriamente, e, em seguida, dentro desses grupos, são escolhidos todos os indivíduos ou são selecionados, aleatoriamente, apenas alguns.

Para percebermos isto, vamos pensar no seguinte: queremos selecionar uma amostra aleatória de adolescentes na região do Porto. Por amostragem aleatória simples precisaríamos de uma listagem de todos os adolescentes e depois, por um método aleatório, selecionava-se a amostra, dando uma probabilidade igual e independente de todos os indivíduos serem selecionados. Mas arranjar uma listagem de todos os adolescentes da região do Porto não é fácil. Então, os adolescentes têm uma característica interessante, que é estarem agrupados, o que nos facilitaria o processo de amostragem. Assim, apesar de não ser fácil ter uma lista de todos os adolescentes, era possível uma lista de todas as escolas. Com essa listagem podíamos fazer uma amostragem aleatória simples das escolas e depois dentro das escolas podíamos selecionar todos os indivíduos ou selecionar uma amostra simples aleatória dos indivíduos. Assim, uma amostra aleatória por grupos é aquela em que usamos o agrupamento natural dos indivíduos em grupos

Amostragem aleatória estratificada vs. por grupos

Estratificada Por grupos

Divide a população em subgrupos (estratos) com características distintas.

Divide a população em subgrupos com (base em) características semelhantes.

Selecionam-se aleatoriamente elementos de todos os estratos.

Selecionam-se aleatoriamente alguns grupos e, nesses grupos, selecionam-se todos os seus elementos.

Estimativa mais precisa do que num plano de amostragem aleatória simples.

Tem um erro associado maior do que num plano de amostragem aleatória simples.

É geralmente difícil obter a informação sobre a estratificação da população.

Geralmente, facilita o trabalho de amostragem e reduz os custos.

� de �72 116

Tab. 14.1. — Diferenças entre a amostragem estratificada e por grupos.

Page 75: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Parâmetros e Estimativas

Estamos frequentemente interessados num valor de um parâmetro na população (p.ex., uma média ou proporção). Os parâmetros normalmente são representados por letras do alfabeto grego. Na Tabela 12.3., encontram-se os principais parâmetros, bem como a sua representação com letras gregas conforme se trate de um parâmetro da população ou da amostra.

Variação amostral

Se tirarmos amostras repetidas, com o mesmo tamanho, da população, é improvável que as estimativas dos parâmetros da população sejam iguais em todas as amostras. No entanto, todas as nossas estimativas devem estar próximas do verdadeiro valor do parâmetro na população, e as estimativas devem ser semelhantes entre si. Ao quantificarmos a variabilidade destas estimativas, obtemos informação sobre a precisão da nossa estimativa e podemos avaliar o erro da amostragem. Na realidade, normalmente apenas tomamos uma amostra da população. No entanto, fazemos uso do nosso conhecimento da distribuição teórica das estimativas da amostra para obter inferências acerca dos parâmetros populacionais.

Parâmetro População Amostra

Média μ x ̅

Desvio padrão σ s

Variância σ2 s2

Proporção π p

Mediana Não existe Mediana ou Med

Número de membros N n

Coeficiente de correlação ρ r

� de �73 116

Fig. 14.1. — Amostragem estratificada (à esquerda) vs. amostragem por grupos (à direita).

Tab. 14.2. — Representação dos principais parâmetros em estatística.

Page 76: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Distribuição das médias amostrais

Suponhamos que estamos interessados em estimar a média da população. Podemos obter várias amostras repetidas de tamanho n da população e estimar a média em cada amostra. Um histograma das estimativas destas médias iria mostrar a sua distribuição (Figura 14.2.) — a isto chama-se distribuição das médias amostrais. O Teorema do Limite Central diz-nos que:

- Se o tamanho amostral for suficientemente grande, as estimativas da média seguem uma distribuição Normal, independentemente da distribuição dos dados originais na população.

- Se o tamanho da amostra for demasiado pequeno, a estimativa da média segue uma distribuição Normal, desde que os dados na população também sigam uma distribuição Normal.

- A média das estimativas é uma estimativa não enviesada da verdadeira média da população, i.e., a média das estimativas é igual à verdadeira média da população.

- A variabilidade da distribuição é medida pelo desvio padrão das estimativas; isto é conhecido como o erro padrão da média (EPM). Se conhecermos o desvio padrão da população (σ), então o erro padrão da média é dado por:

Quando apenas temos uma amostra, como é normal, a nossa melhor estimativa da média da população é a média da amostra e, como normalmente não sabemos o desvio padrão da população, estimamos o erro padrão da média:

Interpretação de erros padrão- Um grande erro padrão indica uma estimativa imprecisa.- Um pequeno erro padrão indica uma estimativa precisa.

O erro padrão diminui se:

- o tamanho da amostra aumentar.- o dados da população têm um desvio padrão menor.

Erro padrão da média ou desvio padrão?Embora estes dois parâmetros pareçam semelhantes, são usados com

propósitos diferentes. O desvio padrão descreve a variação dos valores dos dados e deve ser usado para descrever a variabilidade dos dados. Por outro lado, o erro padrão da média descreve a precisão da média amostral e deve ser usado quando o interesse está na média de um conjunto de valores.

Erro padrão de uma proporçãoPodemos estar interessados na proporção de indivíduos de uma população

(π) que possuem uma determinada característica. Ainda que não saibamos essa informação para a população, podemos estimar essa proporção com uma proporção amostral (p). Se tirarmos amostras repetidas de tamanho n da população e criarmos um histograma com as estimativas da proporção, a distribuição de todas as proporções

� de �74 116

Page 77: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

amostrais seguirá uma distribuição Normal de média π. O desvio padrão desta distribuição de proporções estimadas é o erro padrão da proporção, que é calculado por:

Intervalos de confiança

Uma vez obtida uma amostra da população, obtemos uma estimativa do parâmetro de interesse e calculamos o seu erro padrão para indicar a precisão dessa estimativa. No entanto, para a maioria das pessoas, o erro padrão, por si só, não é particularmente útil. É mais útil incorporar esta medida de precisão num intervalo de estimativa para o parâmetro populacional. Fazemo-lo ao fazermos uso do nosso conhecimento da distribuição teórica de probabilidade da estatística da amostra, para calcular um intervalo de confiança para esse parâmetro.

Intervalo de confiança da médiaUsando a Distribuição Normal

Anteriormente, declaramos que a média da amostra segue uma distribuição Normal, desde que a amostra seja grande. Por isso, podemos fazer uso das propriedades da distribuição normal quando consideramos a média da amostra. Em particular, 95% da média da amostra encontra-se entre 1,96 desvios padrões da média. Chamamos a este desvio padrão erro padrão da média (EPM) e, quando temos uma única amostra, o intervalo de confiança a 95% para a média é:

(Média da amostra — (1.96 * EPM) até Média da amostra + (1.96 * EPM))

Se repetíssemos a experiência várias vezes, este conjunto de valores iria conter a verdadeira média da população 95% das vezes. Isto é conhecido como o intervalo de confiança a 95% para a média. Normalmente, interpretamos este intervalo de confiança como o intervalo de valores no qual temos 95% de confiança de que a

� de �75 116

Fig. 14.2. — (a) Distribuição teórica Normal de log10 (níveis de triglicerídeos) de média = 0,31 log10(mmol/L) e desvio padrão = 0.24 log10(mmol/L), e as distribuições observadas das médias

de 100 amostras aleatórias de tamanho (b)10, (c) 20 e (d)50, retiradas desta distribuição teórica.

Page 78: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

verdadeira média da população se encontra. Isto não está completamente correto, porque a média da população é um valor fixo e não pode ter uma probabilidade associada, mas, nesta unidade curricular, vai ser esta a interpretação, por ser mais fácil de compreender.

Usando a Distribuição tPara sermos completamente corretos, apenas deveríamos usar a

distribuição Normal no cálculo quando sabemos a variância (σ2) da população. Além disso, se o tamanho da amostra for pequeno, a média da amostra apenas vai seguir uma distribuição Normal se os dados da população também estiverem Normalmente distribuídos. Quando os dados não estão Normalmente distribuídos, ou não sabemos a variância da população (σ2), mas apenas a sua estimativa (s2), a média da amostra segue uma distribuição t e podemos calcular o intervalo de confiança a 95% como:

(Média da amostra - (t0.05 * EPM) até Média da amostra + (t0.05 * EPM)),

sendo t0.05 o percentil da distribuição t com (n—1) graus de liberdade que dá uma probabilidade de 0,05. Pode obter-se o valor de t0.05 recorrendo a uma tabela t student, como a da Tabela 14.3.

Por convenção, normalmente utilizamos o intervalo de confiança a 95%. Mas também podem ser calculados outros intervalos de confiança, como o intervalo de confiança a 99%. Em vez de multiplicarmos o erro padrão pelo valor tabulado da distribuição t correspondente à probabilidade (two-tailed) de 0,05, multiplicamos pelo correspondente a probabilidade a 0,01. O intervalo de confiança a 99% é mais amplo do que o intervalo de confiança a 95%, para refletir o nosso aumento na confiança de que o intervalo de valores inclui a média da população.

� de �76 116

Tab. 14.3. — Tabela t student. Os graus de liberdade (explicados à frente) calculam-se por (n—1); ou seja, se a amostra tem 15 elementos, temos 14 graus de liberdade. Para amostras

com mais de 30 elementos, a distribuição Normal é uma boa aproximação à distribuição t, pelo que se pode utilizar a primeira, por ser mais fácil.

Page 79: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Intervalo de confiança da proporçãoA distribuição amostral de uma proporção segue uma distribuição binomial.

No entanto, se o tamanho da amostra, n, for suficientemente grande, então a distribuição amostral da proporção é aproximadamente normal. Nesse caso, o intervalo de confiança a 95% pode ser calculado por:

De referir que, se p for uma percentagem, 1 deve ser substituído por 100.

Interpretação de intervalos de confiança- Quão amplo é? Um intervalo amplo indica que a estimativa é imprecisa; um

menos amplo indica uma estimativa precisa. A largura do intervalo de confiança depende do tamanho do erro padrão, o qual, por sua vez, depende do tamanho da amostra e, quando considerando uma variável numérica, da variabilidade dos dados. Por isso, pequenos estudos com dados muito variáveis terão intervalos de confiança mais amplos do que estudos grandes com dados menos variáveis.

- Quais as implicações clínicas? Os limites superior e inferior oferecem uma forma de avaliar a importância clínica dos resultados.

- Inclui valores de interesse? Podemos verificar se um determinado valor hipotético para o parâmetro da população está incluído no intervalo de confiança. Se sim, os resultados são consistentes com a hipótese. Se não, é improvável (com 95% de confiança) que o parâmetro tenha esse valor.

Barra de erroImaginemos que temos interesse em comparar se as meninas nascem com

peso superior aos meninos. Para isso, obtemos uma amostra representativa de meninas e meninos recém-nascidos e comparamos a média dos seus pesos ao nascimento, criando o gráfico da Figura 14.3. Embora, na nossa amostra, os meninos tenham, de facto, um peso superior ao nascimento do que as meninas, não podemos concluir que isso acontece na população, pois os intervalos de confiança cruzam-se e, como tal, na população, o peso até pode ser superior nas meninas.

Graus de liberdade

Em estatística, é comum utilizar o termo “graus de liberdade”. No geral, os graus de liberdade podem ser calculados como o tamanho amostral menos o número de restrições num dado cálculo; este número é, geralmente, 1 (um). Um exemplo simples: imagine-se que temos três números, os quais, quando adicionados, resultam num total (p.ex., 8). Dois destes números são “livres” de tomar qualquer valor (p.ex., 1; 4), no entanto, o número que resta não é livre — só pode tomar um valor (3) devido à restrição que, neste caso, é o total (8=1+4+3). Por isso, neste caso, estamos perante uma situação em que temos dois graus de liberdade.

� de �77 116

Page 80: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

BibliografiaDepartamento CIDES. Amostragem e Estimação (Intervalos de Confiança). 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.Departamento CIDES. Métodos de Selecção de Participantes e Amostragem (UC de Introdução à Investigação em Saúde). 2015.Ruas, JJ e Oliveira, AC. Sebenta de Introdução à Investigação em Saúde. 2014.

� de �78 116

X X

Fig. 14.3. — Gráfico que mostra a barra de erro do IC95% para a média da população. Na realidade, o conjunto de dados permite que a verdadeira média na população seja, por

exemplo, a assinalada com um X.

Page 81: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XV — Princípio dos Testes de Hipótese

Com os intervalos de confiança, podemos inferir sobre um parâmetro na população com base numa estimativa desse parâmetro. Os testes de hipótese são baseados noutra abordagem diferente (mas relacionada). A ideia agora é medir o quanto os resultados observados na amostra são compatíveis com uma hipótese sobre a população.

Definir a Hipótese Nula e Hipótese Alternativa

Normalmente, testamos a Hipótese Nula (H0) que assume a ausência de efeito na população (a diferença entre as médias que comparamos é 0). O objetivo do estudo é apresentar evidência contra esta hipótese. Por exemplo, se estivéssemos interessados em comparar o rácio de fumadores do sexo masculino e feminino da população:

H0 = o rácio de fumadores é igual nos homens e nas mulheres da população.

Depois, definimos a Hipótese Alternativa (H1) que, embora normalmente seja o oposto da H0, não o é necessariamente. A H1 relaciona-se com a hipótese que pretendemos investigar:

H1 = o rácio de fumadores é diferente nos homens e mulheres da população.

Não especificamos a direção da diferença nos rácios tabágicos, i.e., não definimos se os homens fumam mais ou menos do que as mulheres na população. Isto leva a um teste two-tailed, porque permitimos quer um caso quer o outro, e é este o teste recomendado normalmente, pois raramente sabemos, a priori, qual vai ser a direção que a diferença, a existir, vai tomar. Em algumas (raras) circunstâncias, podemos levar a cabo um teste one-tailed, sendo que, nesse caso, a direção do efeito deve ser especificada em H1. Isto pode aplicar-se quando consideramos uma doença em que todos os não tratados morrem (e, nesse caso, um medicamento não pode piorar as coisas).

Aplicar a Estatística do Teste

Depois de recolhidos os dados, podemos substituir os valores da nossa amostra numa fórmula específica para o teste a usar, para determinarmos o valor da estatística do teste. Este valor reflete a quantidade de evidência que temos contra a hipótese nula — normalmente, quanto maior o valor (ignorando o seu sinal), maior a evidência.

Obter o valor de p

Todos os testes estatísticos seguem distribuições teóricas de probabilidade. Relacionamos o valor do teste estatístico obtido da amostra com a distribuição conhecida, para obtermos o valor de p — a área em ambos (por vezes apenas um dos) extremos da distribuição de probabilidades (Figura 15.1.). A maior parte dos programas fornece este valor automaticamente. O valor de p é a probabilidade de obter um resultado tão ou mais extremo do que o observado na amostra, assumindo que a hipótese nula é verdadeira. A hipótese nula relaciona-se com a população em estudo e não com a amostra, pelo que ou é verdadeira ou falsa. Por isso, nunca podemos interpretar o valor de p como a probabilidade de a hipótese nula ser verdadeira.

� de �79 116

Page 82: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Usar o valor de p

Devemos tomar uma decisão acerca de quanta evidência necessitamos para decidir se a hipótese nula é verdadeira ou falsa. Quanto menor o valor de p, maior a evidência contra a hipótese nula.

- Normalmente, considera-se que, se o valor de p for inferior a 0,05, então há evidência suficiente para rejeitar a hipótese nula, uma vez que apenas existe 5% de probabilidade de se obterem os resultados em questão, se a hipótese nula for verdadeira. Por isso, rejeitamos a hipótese nula e dizemos que os resultados são significativos (com 95% de confiança) (Figura 15.1.).

- Por outro lado, se o valor de p for igual ou superior a 0,05, concluímos que não há evidência suficiente para rejeitar a hipótese nula. Não rejeitamos a hipótese nula e dizemos que os resultados não são significativos. Isto não significa que a hipótese nula seja verdadeira — apenas não temos evidência suficiente para a rejeitar.

A escolha de 5% é arbitrária. Em 5% das ocasiões, vamos rejeitar incorretamente a hipótese nula, sendo esta verdadeira. Em situações em que as implicações clínicas de recusar incorretamente a hipótese nula sejam severas, é recomendável requerer mais evidência antes de rejeitarmos a hipótese nula (p.ex, podemos optar por recusar a hipótese nula quando o valor de p for inferior a 0,01 ou 0,001). O valor escolhido é chamado nível de significância do teste (representado por α [alfa]) e deve ser escolhido antes dos dados serem obtidos. De referir que, quando p=α, o investigador pode escolher aceitar ou recusar a hipótese nula.

Exemplo práticoUm investigador pretende avaliar se o nível de triglicerídeos está associado

a doenças cardíacas. De um estudo de coorte sobre doenças cardíacas retirou informação acerca dos níveis de triglicerídeos dos indivíduos que desenvolveram doenças cardíacas nos 5 anos seguintes à medição dos triglicerídeos. Estamos interessados em saber se o nível médio de triglicerídeos na população da qual foi retirada a amostra é a mesma que a média de triglicerídeos da população em geral (1,74 mmol/L). A média na amostra dos 232 indivíduos foi de 2,04 mmol/L .

1. Definir H0 = “A média de triglicerídeos na população dos indivíduos com doenças cardíacas é igual à da população em geral, ou seja, 1,74 mmol/L”.

� de �80 116

Fig. 15.1. — Distribuição de probabilidade da estatística do teste two-tailed.

Page 83: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

2. Definir H1 = “A média de triglicerídeos na população dos indivíduos com doenças cardíacas é diferente da população em geral, ou seja, 1,74 mmol/L”.

3. Aplicar a estatística do teste.4. Obter o valor de p. Neste caso, p = 0,001. Isto significa que a

probabilidade de obter uma média de 2,04 mmol/L (ou mais extrema) na amostra de doentes cardíacos, no caso de a população de doentes cardíacos ter a mesma média que a população geral (1,74 mmol/L), é de 0,001 ou 0,1%.

5. Perante a constatação acima, prefiro acreditar que a hipótese nula é falsa.

Erros no teste de hipóteses

Tomar uma decisãoA maioria dos testes de hipótese em bioestatística compara grupos de

pessoas que estão expostas a várias experiências. Podemos, por exemplo, estar interessados em comparar a eficácia de duas formas de tratamento na redução da mortalidade a 5 anos do cancro da mama. A hipótese nula é expressa em termos de ausência de efeito (p.ex., a mortalidade a 5 anos do cancro da mama é a mesma nos dois grupos de tratamento); a hipótese alternativa two-sided é que a diferença não é zero. Fazemos um teste de hipótese (a estudar no futuro) que nos permite decidir se temos evidência suficiente para rejeitar a hipótese nula. Apenas podemos tomar duas decisões: ou rejeitamos a hipótese nula ou não a rejeitamos.

Tomar a decisão erradaEmbora esperemos tomar a decisão correta acerca da hipótese nula, temos

de reconhecer que, uma vez que apenas temos uma amostra da informação, podemos tomar a decisão errada ao rejeitar/não rejeitar a hipótese nula. Na Tabela 18.1., encontram-se os possíveis erros na tomada de decisão.

- Erro tipo I: rejeitamos a hipótese nula quando ela é verdadeira, e concluímos que existe um efeito quando, na realidade esse efeito não existe. A probabilidade máxima de cometer um erro tipo I é representada por α (alfa), que corresponde ao nível de significância do teste — rejeitamos a hipótese nula se o valor de p for inferior ao valor de α, i.e., se P < α.

Devemos definir o valor de α antes de obtermos os dados; normalmente, utiliza-se um valor convencional de 0,05, embora possa ser útil escolher um valor mais (0,01) ou menos (0,10) restritivo. A probabilidade de cometermos um erro tipo I nunca irá ser superior ao nível de significância escolhido. Por exemplo, se α = 0,05, apenas vamos rejeitar a hipótese nula se p < 0,05. Se o valor de p for superior a 0,05, não iremos rejeitar a hipótese nula e, por isso, não cometeremos um erro tipo I.

- Erro tipo II: não rejeitamos a hipótese nula quando ela é falsa, e concluímos que não existe efeito quando, na realidade, existe. A probabilidade de cometer um erro tipo II é representada por β (beta). O poder do teste é dado por (1 — β). O poder, portanto, é a probabilidade de rejeitar a hipótese nula quando esta é falsa, i.e., é a probabilidade (usualmente referida em percentagem) de detetar diferenças quando estas existem.

Idealmente, o poder deveria ser 100%, no entanto, isto é impossível, porque há sempre a possibilidade, ainda que pequena, de cometer um erro tipo II. Felizmente, porque conhecemos os fatores que influenciam o poder, podemos controlá-los. Normalmente, admite-se β = 20%, pelo que o poder do teste será 80%.

� de �81 116

Page 84: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

O erro mais grave é o erro tipo I, pois, em Medicina, uma mudança de paradigma (p.ex., alteração de um tratamento) de algo que estava correto para algo que não está correto é mais grave do que manter o paradigma anterior. Num erro tipo II, o novo paradigma, porque não se prova ser melhor, não é aceite e mantém-se o paradigma anterior, o que é menos grave do que alterar para um paradigma errado.

Poder e fatores relacionadosÉ essencial conhecermos o poder de um teste durante o planeamento da

nossa investigação. Obviamente, apenas deveremos embarcar num estudo se acreditarmos que este é capaz de detetar um efeito clinicamente significativo, caso este exista (o poder do teste deve ser, no mínimo, 80%). É eticamente irresponsável e uma perda de tempo e recursos levar a cabo um estudo que apenas tenha, por exemplo, 40% de probabilidade de detetar um efeito real do tratamento.

Vários fatores têm influência direta num teste:- O tamanho da amostra: o poder aumenta com o aumento do tamanho da

amostra. Isto significa que uma amostra maior é mais capaz de detetar um efeito clinicamente importante, caso este exista. Quando o tamanho da amostra é demasiado reduzido, o teste pode ter um poder inadequado para detetar um efeito em particular. De forma básica, o tamanho da amostra calcula-se procurando saber o número de indivíduos que será necessário para detetar um efeito estatisticamente significativo, conhecendo a probabilidade de cometer um erro tipo I e um erro tipo II.

- A variabilidade das observações: o poder aumenta à medida que a variabilidade das observações diminui (Figura 15.2.).

- O poder de um teste é superior para efeitos maiores. Por isso, um teste de hipóteses tem mais probabilidade de detetar um efeito grande do que um efeito pequeno.

- O nível de significância: o poder é maior se o nível de significância é maior (isto é o equivalente a dizer que a probabilidade de cometer um erro tipo I aumenta à medida que a probabilidade de cometer um erro tipo II diminui). Por isso, é mais provável detetarmos um efeito real se decidirmos, na fase de planeamento, usar como nível de significância 0,05, em vez de 0,01. Esta relação entre poder e significância é bastante óbvia na Figura 15.3.

Rejeito H0 Não rejeito H0

H0 verdadeira Erro Tipo I Sem erro

H0 falsa Sem erro Erro Tipo II

� de �82 116

Tab. 15.1. — Erros associados ao teste de hipóteses.

Page 85: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

BibliografiaDepartamento CIDES. Princípio dos testes de hipótese. 2014.Soares, MI. Sebenta de Bioestatística, Informação e Decisão em Saúde I. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �83 116

Fig. 15.2. — Curvas de poder exibindo a relação entre poder e tamanho da amostra em cada um de dois grupos em que são comparadas duas médias através de um teste. Cada curva de

poder está relacionada com um teste two-sided em que o nível de significância é 0,05 e a diferença entre as médias é 2,5.

Fig. 15.3. — Curvas de poder exibindo a relação entre poder e tamanho da amostra em cada um de dois grupos em que foram comparadas as proporções usando um teste. As curvas são desenhadas quando a diferença entre as proporções estudadas é 0,25 (i.e., 0,65 - 0,40) ou

0,10 (i.e., 0,50 - 0,40); o nível de significância é 0,05 ou 0,01.

Page 86: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XVI — Testes Paramétricos

Teste T — Uma Amostra (One Sample T Test)

O problemaTemos uma amostra — um grupo de indivíduos — e uma variável numérica

ou ordinal de interesse. Estamos interessados em saber se a média desta variável em particular toma um determinado valor.

Por exemplo, podemos ter uma amostra de pacientes com uma determinada condição médica. Sabemos que a média de triglicerídeos na população saudável é 1,74 mmol/L. Queremos saber se o nível médio de triglicerídeos nos nossos pacientes tem o mesmo valor.

AssunçõesPara que este teste possa ser aplicado, há duas assunções que têm de ser

cumpridas:- a variável é normalmente distribuída (na população).- o tamanho da amostra é suficientemente grande para verificar a assunção

anterior.

ExplicaçãoQueremos saber se a média, μ, da variável na população de interesse difere

de um valor hipotético, μ1. Para tal, usamos um teste estatístico que se baseia na diferença entre a média amostral, x,̅ e μ1.

Procedimento1. Definir a hipótese nula e a hipótese alternativa.

H0 = A média na população é igual a μ1.H1 = A média na população é diferente de μ1.

2. Definir o nível de significância (normalmente, 0,05).3. Calcular o valor da estatística do teste com os dados de uma amostra

através de

que segue uma distribuição t com (n—1) graus de liberdade.4. Obter o valor de p — probabilidade de obter o resultado que obtivemos ou

mais extremo, sendo a hipótese nula verdadeira.5. Interpretar o valor de p: se p < 0,05, existe evidência para rejeitar H0; se

p > 0,05, não existe evidência suficiente para rejeitar H0

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >> Compare

Means >> One-Sample T Test. Na Figura 16.1. encontra-se o output do SPSS num exemplo em que se estudou se o aumento do peso nas mulheres grávidas portuguesas é de 10 kg.

� de �84 116

Page 87: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Neste caso, a média de aumento de peso na nossa amostra foi 12,0549 kg, com um desvio padrão de 4,61932 kg. O valor de p, lido na coluna “Sig. (2-tailed)” (Sig. = Significância) é 0,003 e, logo, inferior a 0,05, pelo que, para esse nível de significância, rejeitamos a hipótese nula (i.e., rejeitamos a hipótese de o aumento de peso ser 10 kg). Uma outra forma de chegar a esta conclusão, sem utilizar o valor de p, era olhando para o intervalo de confiança a 95% para a diferença (de médias). A hipótese nula será verdadeira se a diferença for zero. Neste caso, temos 95% de confiança de que a verdadeira diferença entre médias está entre 0,7557 e 3,3541 — o 0 (zero) não faz parte deste intervalo de confiança, por isso, a hipótese nula não poderá ser verdadeira.

Teste T — Duas Amostras Emparelhadas (Paired Samples T Test)

O problemaTemos duas amostras relacionadas uma com a outra e uma variável

numérica ou ordinal de interesse.- A variável pode ser medida em cada indivíduo em duas circunstâncias. Por

exemplo, em certos estudos clínicos, um paciente tem duas medições de uma variável: uma ao tomar o tratamento ativo e outra ao tomar o placebo.

- Os indivíduos em cada amostra podem ser diferentes, mas estão relacionados uns com os outros de alguma forma. Por exemplo, os pacientes de um grupo podem ser individualmente relacionados com os indivíduos de outro grupo num estudo de casos e controlos (a estudar na unidade curricular de Introdução à Investigação em Saúde).

Estes dados são emparelhados. É importante tomar em consideração a dependência entre as duas amostras quando analisamos os dados, caso contrário as vantagens do emparelhamento perdem-se. Fazemos isto, considerando as diferenças nos valores para cada par, reduzindo as duas amostras a uma única amostra de diferenças.

AssunçõesPara que este teste possa ser aplicado, há duas assunções que têm de ser

cumpridas:- as diferenças individuais são normalmente distribuídas (na população).- o tamanho da amostra é suficientemente grande para verificar a assunção

anterior.

ExplicaçãoSe dois conjuntos de valores fossem os mesmos, seria de esperar que as

diferenças entre cada par de valores fosse zero na população de interesse. Portanto, este teste reduz as duas amostras em estudo a uma única amostra de diferenças e, depois,

� de �85 116

Fig. 16.1. — Resultado do Teste T Uma Amostra no SPSS.

Page 88: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

aplica um one-sample t test nas diferenças, sendo a diferença média hipotética da população zero (0).

Procedimento1. Definir a hipótese nula e a hipótese alternativa.

H0 = A diferença média na população é 0.H1 = A diferença média na população é diferente de 0.

2. Definir o nível de significância (normalmente, 0,05).3. Calcular o valor da estatística do teste com os dados de uma amostra

através de

t = média das diferenças/erro padrão das diferenças

que segue uma distribuição t com (n—1) graus de liberdade.4. Obter o valor de p — probabilidade de obter o resultado que obtivemos ou

mais extremo, sendo a hipótese nula verdadeira.5. Interpretar o valor de p: se p < 0,05, existe evidência para rejeitar H0; se

p > 0,05, não existe evidência suficiente para rejeitar H0

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >> Compare

Means >> Paired-Samples T Test. Na Figura 16.2. encontra-se o output do SPSS num exemplo em que se utilizou este mesmo teste.

Neste caso, p = 0,006 e, sendo inferior a 0,05, temos evidência suficiente para rejeitar a hipótese nula. Outra forma de analisar os resultados seria através do intervalo de confiança da diferença: uma vez que este não contém o zero, também assim podemos rejeitar a hipótese nula.

Teste T — Duas Amostras Independentes (Independent Samples T Test)

O problemaTemos amostras de dois grupos independentes (não relacionados) e uma

variável numérica ou ordinal de interesse. Queremos saber se a média ou distribuição dessa variável é a mesma nos dois grupos. Por exemplo, podemos querer comparar os pesos em dois grupos de crianças, sendo que as crianças de um grupo tomam um suplemento alimentar diariamente e as outras um placebo.

AssunçõesPara que este teste possa ser aplicado, há três assunções que têm de ser

cumpridas:- a variável é normalmente distribuída em cada grupo (na população).

� de �86 116

Fig. 16.2. — Resultado do Teste T Duas Amostras Emparelhadas no SPSS.

Page 89: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

- o tamanho da amostra é suficientemente grande para verificar a assunção anterior.

- as variâncias dos dois grupos são iguais.

ExplicaçãoConsideramos a diferença nas médias dos dois grupos. Tendo em conta a

hipótese nula de que as médias dos dois grupos na população são as mesmas, então a diferença das médias será zero. Por isso, usamos um teste estatístico que se baseia na diferença entre as médias das duas amostras.

Procedimento1. Definir a hipótese nula e a hipótese alternativa.

H0 = A média na população é igual nos dois grupos.H1 = A média na população não é igual nos dois grupos.

2. Definir o nível de significância (normalmente, 0,05).3. Calcular o valor da estatística do teste com os dados de uma amostra.4. Obter o valor de p — probabilidade de obter o resultado que obtivemos ou

mais extremo, sendo a hipótese nula verdadeira.5. Interpretar o valor de p: se p < 0,05, existe evidência para rejeitar H0; se

p > 0,05, não existe evidência suficiente para rejeitar H0

E se as variâncias não forem iguais?O teste de Levene testa a hipótese nula de as variâncias serem iguais nos

dois grupos, e tem a vantagem de não estar fortemente dependente da assunção de normalidade. Se não forem iguais, não podemos calcular a estimativa agrupada dos desvios padrões e temos que recorrer a uma forma modificada do teste t.

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >> Compare

Means >> Independent-Samples T Test.Suponhamos que queremos comparar o peso dos recém-nascidos nos

rapazes e nas raparigas. Quando fazemos este teste t no SPSS o resultado inclui sempre o teste de Levene (Figura 16.3.).

Relembremos que o teste de Levene testa a hipótese nula “As variâncias são iguais nos dois grupos, na população”. Como, neste caso, o valor de p, no teste de Levene, é 0,302 (logo, maior do que 0,05), então não rejeitamos a hipótese nula, pelo que admitimos que as variâncias são iguais nos dois grupos. Nesse caso, devemos ler os dados na linha “Equal variances assumed”, onde podemos verificar que o valor de p do teste é 0,135. Como 0,132 > 0,05, então concluímos que não existe diferença significativa nos pesos dos recém-nascidos nos rapazes e raparigas. Olhando para o intervalo de

� de �87 116

Fig. 16.3. — Resultado do Teste T Duas Amostras Independentes no SPSS.

Page 90: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

confiança, podemos ver que este inclui o zero, pelo que se pode obter a mesma conclusão.

Se, por outro lado, o valor de p do teste de Levene fosse inferior a 0,05, então a hipótese nula do teste de Levene era rejeitada e assumíamos a existência de diferenças nas variâncias. Nesse caso, teríamos de ler os dados na linha “Equal variances not assumed”, onde o valor de p do teste seria 0,132.

One-Way Anova (One-Way Analysis of Variance)

O problemaTemos amostras de vários grupos independentes. Temos uma única variável

numérica ou ordinal e estamos interessados em saber se o valor médio varia nos diferentes grupos na população. Embora pudéssemos efetuar vários teste t para amostras independentes para comparar todos os grupos dois a dois, isso iria aumentar a taxa de erros tipo I, levando à grande possibilidade de chegar a conclusões erradas. Assim, efetua-se um único teste global para determinar se as médias diferem nos vários grupos.

AssunçõesPara que este teste possa ser aplicado, há três assunções que têm de ser

cumpridas:- a variável é normalmente distribuída em cada grupo (na população).- o tamanho da amostra é suficientemente grande para verificar a assunção

anterior.- as variâncias dos vários grupos são iguais.

ExplicaçãoO one-way anova separa a variabilidade total nos dados em variabilidade

entre os indivíduos de grupos diferentes (variação entre grupos [between-group variation]) e variabilidade entre os indivíduos dentro de cada grupo (variação dentro do grupo [within-group variation], também conhecida como variação residual ou não explicada). Estes componentes da variação são medidos usando variâncias, daí o nome “Analysis of Variance” (ANOVA). Considerando a hipótese nula de que as médias nos grupos são as mesmas, então a variância entre grupos será semelhante à variância dentro do próprio grupo. O teste baseia-se no rácio entre estas duas variâncias. Mas atenção: a variância tem que ser igual em todos os grupos – teste de Levene.

� de �88 116

Fig. 16.4. — Explicação gráfica da variabilidade entre grupos e dentro do grupo.

Page 91: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Procedimento1. Definir a hipótese nula e a hipótese alternativa.

H0 = A média na população é igual em todos os grupos.H1 = A média na população não é igual em todos grupos.

2. Definir o nível de significância (normalmente, 0,05).3. Calcular o valor da estatística do teste com os dados das variâncias.

F = Between Groups Mean Square / Within Groups Mean Square

4. Obter o valor de p — probabilidade de obter o resultado que obtivemos ou mais extremo, sendo a hipótese nula verdadeira.

5. Interpretar o valor de p: se p < 0,05, existe evidência para rejeitar H0; se p > 0,05, não existe evidência suficiente para rejeitar H0

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >> Compare

Means >> One-Way ANOVA.Suponhamos que queremos comparar o peso em kg de 3 grupos de

indivíduos de grupos étnicos diferentes (caucasianos, latinos e asiáticos).

Grupo 1: 72; 75; 73; 67; 76; 71; 71; 70; 78; 64 X = 71,70 kg Grupo 2: 64; 74; 63; 69; 70; 62; 69; 65; 68; 73 X = 67,70 kgGrupo 3: 58; 59; 61; 63; 66; 53; 68; 69; 61; 57 X = 61,50 kg

Neste caso, a estatística do teste calcula-se por:

F = Between MS/Within MS = 264,133/20,026 = 13,2

O valor de p aparece como 0,000. Na realidade, este valor nunca pode ser 0, porque existe sempre a possibilidade de obter tais valores ou mais extremos, sendo a

� de �89 116

Fig. 16.5. — Resultado do One-Way ANOVA no SPSS.

Page 92: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

hipótese nula verdadeira. O que acontece é que, por ser um valor tão pequeno, o SPSS não o exibe por padrão, mas pode ser lido se clicarmos, com a tecla esquerda do rato, duas vezes nesse valor. De qualquer forma, sabemos que p < 0,001 e, por isso, rejeitamos a hipótese nula e concluímos que as médias de peso não são iguais nos 3 grupos étnicos.

Correção de Bonferroni (teste post-hoc)Na situação anterior em que comparamos os pesos nos 3 grupos étnicos,

rejeitamos a hipótese nula, isto é, concluímos que existem diferenças nas médias de peso entre os 3 grupos. Mas… será que as médias diferem nos três grupos? Ou será que apenas um grupo étnico tem uma média de peso diferente e os outros dois têm uma mesma média de peso? E, se apenas um grupo difere no peso, qual deles é?

Uma forma de descobrir seria comparando os grupos dois a dois, isto é, comparar, através de um teste t para amostras independentes: caucasianos e latinos; caucasianos e chineses; latinos e chineses. Deste modo, seríamos capazes de responder à questão colocada no parágrafo anterior. No entanto, surge um problema: como abordado logo no início, se em cada teste a probabilidade de cometer um erro tipo I for 0,05 (nível de significância normalmente escolhido), ao efetuar três testes a probabilidade de cometer pelo menos um erro tipo I é substancialmente maior (P = 0,05*3 = 0,15). Para resolver este problema, existem vários testes que ajustam o nível de significância, sendo que nesta unidade curricular é apenas abordado o teste (correção) de Bonferroni.

Como vimos, ao efetuar n testes, a probabilidade de cometer um erro tipo I é n*α (se α=0,05; n=3; então P=0,15). A correção de Bonferroni resolve este problema ao dividir o nível de significância, α, pelo número de repetições, n (neste caso, 3). Assim,α/n*n=α (no nosso caso, 0,05/3 * 3 = 0,05). Isto garante que a probabilidade de cometer um erro tipo I quando se efetuam múltiplas comparações é sempre α. Por outro lado, estamos a alterar o nosso nível de significância de α para α/n. Isto significa que apenas poderíamos rejeitar a hipótese nula quando o valor de p fosse menor do que α/n.

No SPSS, ao aplicarmos a correção de Bonferroni, o valor de p é automaticamente multiplicado por n e exibido dessa forma. Ou seja, embora, teoricamente, o nosso nível de significância seja α/n, para análise do resultado, porque a correção de Bonferroni multiplica este nível por n, deve considerar-se α. No caso da Figura 16.6., como podemos ver no fundo da tabela, o nível de significância é 0,05.

� de �90 116

Fig. 16.6. — Resultado da Correção de Bonferroni no SPSS.

Page 93: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Teste de Kolmogorov-Smirnov

O problemaEm todos os testes anteriores (chamados paramétricos), uma das

assunções era a assunção de Normalidade. Os testes paramétricos apenas podem ser aplicados se a variável for Normalmente distribuída na população. O Teste de Kolmogorov-Smirnov tem como objetivo estudar se os dados estão Normalmente distribuídos.

LimitaçõesA utilidade do teste de Kolmogorov-Smirnov é limitada, pois:- Tem muito pouco poder com uma amostra pequena, ou seja, aceita

facilmente a normalidade por falta de informação contrária;- É também muito sensível quando a amostra é grande, ou seja, obtém-se

um valor de p significativo com pequenos desvios da distribuição normal na amostra.

SoluçãoPelas limitações deste teste, a melhor forma de verificar a assunção de

normalidade é usar apenas a análise visual do histograma da variável na amostra em cada grupo.

BibliografiaDepartamento CIDES. Comparação de médias (testes t). 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.Graphpad. The Bonferroni Method. Disponível em: http://www.graphpad.com/guides/prism/6/statistics/index.htm?stat_the_bonferroni_method.htm. Consultado em 18-07-2015.

� de �91 116

Page 94: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XVII — Testes Não Paramétricos

Teste Wilcoxon signed-rank

O problemaComo vimos no capítulo anterior, um teste t para amostras emparelhadas só

pode ser aplicado quando a variável é normalmente distribuída na população. Se isto não se verificar, então tem de se aplicar um teste não paramétrico — o teste de Wilcoxon é um teste não paramétrico aplicado em amostras emparelhadas.

ExplicaçãoO teste chama-se teste de Wilcoxon signed-rank. A segunda parte do nome

vem do facto de o teste, comummente abreviado para teste de Wilcoxon, ser uma versão melhorada do teste de sinal, um teste simples baseado na mediana da distribuição.

Para cada par, o teste de sinal avalia a diferença entre as medidas da variável em estudo. O teste de sinal pode ser usado para avaliar se a mediana da diferença na população é igual a zero, ao considerar as diferenças na amostra e ao observar quantas delas são maiores ou menores do que zero. No entanto, um simples teste de sinal não dá relevância ao tamanho dessas diferenças.

O teste de Wilcoxon toma em consideração, não apenas os sinais das diferenças, mas também a sua magnitude, sendo por isso um teste com mais poder. A diferença individual é calculada para cada par de resultados. Ignoram-se as diferenças que dão zero e classificam-se as restantes como positivas ou negativas. Além disso, as diferenças são também organizadas de acordo com a sua magnitude absoluta, isto é, ignoram-se os sinais — ordenam-se as diferenças: à diferença menor dá-se a posição 1, à segunda a posição 2, e assim sucessivamente até à diferença que for superior, a qual fica com a posição n, existindo n diferenças. Se duas ou mais diferenças forem iguais em termos absolutos, recebem a posição que seja a média dos números que receberiam se não fossem iguais.

A hipótese nula é que não existe diferença, como tal, as somas das classificações das diferenças positivas e negativas, assumindo a hipótese nula verdadeira, deviam ser iguais.

Exemplo20 indivíduos obesos participaram num estudo de avaliação de uma dieta.

Cada indivíduo foi pesado antes de iniciar a dieta e 3 meses após o início da dieta. Os resultados encontram-se na Tabela 17.1.

Para cada indivíduo vamos agora registar a diferença de peso (valor absoluto) e o sinal da diferença (+ se foi aumento de peso, - se foi perda de peso) (Tabela 17.2.).

� de �92 116

Tab. 17.1. — Peso dos indivíduos antes e 3 meses após o início da dieta.

Tab. 17.2. — Mesma tabela, agora com a diferença de peso e o sinal da diferença.

Page 95: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Ordenamos todas as diferenças (excluindo os zeros) e registamos a posição de cada. No caso de empates, damos a posição média. Por exemplo, existem 5 indivíduos com diferença (positiva ou negativa) de 3 kg. Estes corresponderiam às posições 3, 4, 5, 6 e 7; como são empates atribuímos-lhes a posição média ([3+4+5+6+7]/5=5).

A soma das posições dos 15 indivíduos que perderam peso (sinal -) é: 1+5+5+5+5+8.5+8.5+12.5+12.5+12.5+12.5+12.5+12.5+14+15 = 146, ou seja, as perdas de peso (sinal -) têm uma posição média de 146/15 = 9,73.

A soma das posições dos 2 indivíduos que ganharam peso (sinal +) é: 2+5=7, ou seja, os ganhos de peso (sinal +) têm uma posição média de 7/2 = 3,5.

Se a dieta não tivesse efeito, era de esperar observar uma posição média idêntica para as perdas e aumentos de peso. Neste caso, porque a posição média das perdas de peso é superior à posição média dos ganhos de peso (i.e., no geral, os indivíduos perderam mais peso do que ganharam peso), a dieta deverá ter efeito. Mas… serão estes dois valores (9,73 e 3,5) diferentes o suficiente para concluir que a dieta tem efeito?

SPSSPara concluir acerca do efeito da dieta, pode utilizar-se o SPSS. O valor p é

então calculado como a probabilidade de observar uma diferença tão ou mais extrema como 9,73 vs. 3,5, se a dieta não tivesse efeito.

Para efetuar este teste estatístico no SPSS, basta ir a Analyse >> Nonparametric Tests >> 2 Related Samples, selecionando o teste Wilcoxon na janela que surge de seguida.

Teste Mann-Whitney U

O problemaComo vimos no capítulo anterior, um teste t para amostras independentes só

pode ser aplicado quando a variável é normalmente distribuída na população. Se isto não se verificar, então tem de se aplicar um teste não paramétrico — o teste Mann-Whitney U é um teste não paramétrico aplicado em amostras independentes.

ExplicaçãoO teste de Wilcoxon não faz assunções distribucionais e é o teste não

paramétrico equivalente ao teste t para amostras emparelhadas. O teste é baseado na soma das posições dos valores em cada um dos dois grupos. Um teste equivalente, para amostras independentes, é o teste Mann-Whitney U, embora este seja mais difícil de calcular à mão.

ExemploPretende-se estudar o efeito da cafeína no metabolismo muscular medido

pela razão das trocas de CO2 e O2 (RER). RER elevado (típico durante o exercício físico) indica que o organismo está a produzir mais CO2 e a consumir mais O2.

� de �93 116

Tab. 17.3. — Dados ordenados (excluíram-se os zeros).

Page 96: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Como fizemos no teste de Wilcoxon, vamos ordenar todos os valores, atribuindo-lhes a posição e registando a qual grupo pertencem (P — placebo ou C — cafeína).

Se não existisse efeito da cafeína, os “C’s” e os “P’s” na tabela deveriam estar misturados. Se houver efeito, os “C’s” devem concentrar-se nas posições menores e os “P’s” nas posições maiores.

Neste caso, de facto, parece que os “P’s” estão nas posições maiores e os “C’s” nas menores. Mas… será esta distribuição suficiente para garantir o efeito da cafeína?

SPSSPara concluir acerca do efeito da cafeína, pode utilizar-se o SPSS. O valor p

é então calculado como a probabilidade de observar uma distribuição de P’s e C’s tão ou mais extrema do que esta, se a cafeína não tiver efeito.

Para efetuar este teste estatístico no SPSS, basta ir a Analyse >> Nonparametric Tests >> 2 Independent Samples, selecionando o teste Mann-Whitney U na janela que surge de seguida.

� de �94 116

Fig. 17.1. — Resultados do estudo supramencionado.

Tab. 17.4. — Dados ordenados, com o grupo registado.

Fig. 17.2. — Resultados do Teste Mann-Whitney U no SPSS.

Page 97: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Neste caso, e porque p = 0,050, tal como referido no capítulo XV, cabe ao investigador decidir rejeitar ou não a hipótese nula.

Teste Kruskal-Wallis

O problemaPara que o teste one-way ANOVA possa ser aplicado, há dois requisitos

principais: a variável ser normalmente distribuída na população e as variâncias serem iguais em todos os grupos da população (testado pelo teste de Levene). Quanto ao primeiro requisito, este pode ser contornado pela aplicação de um teste não paramétrico, como é o caso do Kruskal-Wallis. Quanto ao segundo, uma vez que o Kruskal-Wallis continua a requerer a igualdade das variâncias, esta não é uma solução. Neste caso, pode ser aplicada uma transformação ou outros testes que não fazem parte do programa curricular. O próprio one-way ANOVA continua a ser um teste robusto neste caso, desde que a maior variância seja, no máximo, 4 vezes a menor variância. Assim, este capítulo incidirá unicamente acerca do teste não paramétrico Kruskal-Wallis.

ExplicaçãoEste teste não paramétrico é uma extensão do teste de Wilcoxon.

Considerando a hipótese nula de não existirem diferenças na distribuição entre grupos, a soma das posições em cada um dos grupos deve ser comparável.

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >>

Nonparametric Tests >> Legacy Dialogs >> K Independent Samples.

BibliografiaDepartamento CIDES. Testes Não Paramétricos. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.ProphetStat Guide. Do your data violate one-way ANOVA assumptions? 1996. Disponível em: http://www.basic.northwestern.edu/statguidefiles/oneway_anova_ass_viol.html. Consultado em 18-07-2015.

� de �95 116

Page 98: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XVIII — Tabelas de Contingência e Teste do Qui-Quadrado

O problema

Até agora, consideramos situações que envolviam uma variável contínua. Mas como podemos construir um teste de hipótese que só envolva variáveis categóricas? Um exemplo seria: temos dois grupos independentes de indivíduos (p.ex., homens homossexuais com e sem história de gonorreia); queremos saber se a proporção de indivíduos infetados com HHV-8 é a mesma em ambos os grupos.

Tabelas de Contingência

Como já vimos no capítulo XII, para estudarmos a relação entre duas variáveis categóricas podemos usar tabelas de contingência (tabelas de dupla entrada ou tabelas cruzadas).

Suponhamos que queremos estudar a relação entre o consumo de tabaco durante a gravidez e o grupo etário da mãe — ambas variáveis categóricas.

Para criar uma tabela de contingência no SPSS, basta ir a Analyse >> Descriptive Statistics >> Crosstabs.

Na Figura 18.1., temos disponível o que seria o aspeto de uma tabela de contingência criada no SPSS. Mas, nesta tabela, temos os dados em valores absolutos, quando pode ser útil ter os dados relativos (p.ex., percentagem) de forma a permitir uma análise mais cuidada da informação. Para obter os dados também em percentagem, no SPSS, deve ir-se a (Analyse >> Descriptive Statistics >> Crosstabs >>) Cells >> Assinalar as opções “Row”, “Column”, “Total” em “Percentages” >> Continue.

Tipos de PercentagemQuando pedimos, no SPSS, as várias percentagens, estas são exibidas

conforme mostrado na Figura 18.2. Para interpretar convenientemente tabelas de contingência, importa, portanto, perceber as diferenças entre os três tipos de percentagem que podem ser exibidos.

A percentagem de coluna é obtida ao dividir o valor de uma célula individual pelo valor total dessa coluna. Mostra, por isso, a proporção de pessoas (por exemplo) em cada linha de entre as pessoas na coluna. Na Figura 18.2., uma vez que as colunas correspondem a “smoked pregnancy”, a percentagem de coluna lê-se em “% within smoked pregnancy”. No caso em realce, esta percentagem é 73,7% e obtém-se por:

70 (valor da célula)/95 (valor total da coluna) * 100 = 73,7%� de �96 116

Fig. 18.1. — Tabela de contingência criada no SPSS.

Page 99: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Isto significa que, de entre todas as mães que fumaram durante a gravidez (coluna “Yes”), 73,7% têm entre 21 e 30 anos (linha “21-30 Years”).

A percentagem de linha é obtida ao dividir o valor de uma célula individual pelo valor total dessa linha. Mostra, por isso, a proporção de pessoas (por exemplo) em cada coluna de entre as pessoas na linha. Na Figura 18.2., uma vez que as linhas correspondem a “Mother’s age”, a percentagem de linha lê-se em “% within Mother’s age”. No caso em realce, esta percentagem é 38,1% e obtém-se por:

8 (valor da célula)/21 (valor total da coluna) * 100 = 38,1%Isto significa que, de entre todas as mães no grupo etário 13-20 anos (linha “13-20 Years”), 38,1% fumaram durante a gravidez (coluna “Yes”).

Por fim, a percentagem total é obtida ao dividir o valor de uma célula individual pelo total de dados disponível. Mostra, por isso, a proporção de pessoas (por exemplo) que estão numa determinada coluna E numa determinada linha. Na Figura 18.2., a percentagem total lê-se em “% of Total”. No caso em realce, esta percentagem é 1,3% e obtém-se por:

6 (valor da célula)/452 (valor total) * 100 = 1,3%Isto significa que 1,3% das mães fumaram durante a gravidez (coluna “Yes”) e estão entre os 36 e 55 anos (linha “Mother’s age”).

Teste do Qui-Quadrado

Olhando para a Figura 18.2., parece que as grávidas mais novas são mais fumadoras do que as mais velhas. O teste do Qui-Quadrado testa se as diferenças nas proporções têm significado estatístico, sendo a hipótese nula deste teste, para o exemplo apresentado: “% de fumadoras é idêntica em todos os grupos etários”, ou “o consumo de tabaco é independente do grupo etário”.

� de �97 116

Fig. 18.2. — Tabela de contingência, exibindo percentagens, criada no SPSS.

Page 100: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

AssunçõesPara que este teste possa ser aplicado, há três assunções que têm de ser

cumpridas:- Os dados são de amostras independentes.- Cada indivíduo é representado uma única vez no estudo.- As linhas (e as colunas) são mutualmente exclusivas, o que implica que

cada indivíduo possa pertencer apenas a uma linha e a uma coluna.- Não há mais do que 20% dos valores esperados menores que 5 (ver “Teste

Exato de Fisher”).

ExplicaçãoSe as proporções com uma determinada característica nos dois grupos

fossem iguais, esperaríamos observar a mesma percentagem de indivíduos com essa característica nos dois grupos. No exemplo anteriormente referido, no total, 21% das mães fumaram durante a gravidez. Se o consumo de tabaco não é dependente do grupo etário, deveríamos observar a mesma % de fumadoras em todos os grupos etários. Isto não acontece e é com base na discrepância entre valor esperado e valor observado que o teste do Qui-Quadrado funciona — a estatística do teste, que segue uma distribuição qui-quadrado com um grau de liberdade, calcula-se através da soma das diferenças (ao quadrado e relativizadas) entre os valores esperados (E) e os valores observados (O) de cada célula. O 1/2 presente na fórmula deve-se à aplicação de uma correção de continuidade, que não faz parte do âmbito desta unidade curricular, e, para facilitar o cálculo manual, pode ser ignorado.

Se o valor da estatística for muito grande, significa que os valores esperados, sendo hipótese nula verdadeira, são bastante diferentes dos observados. Ou seja, sendo H0 verdadeira, a probabilidade de obter a diferenças entre os valores esperados e os observados que observámos, ou mais extrema (valor de p), é muito pequena e rejeitamos H0. Por outro lado, um qui-quadrado perto de 0 (os valores esperados idênticos ao observados) vai ter um valor de p associado muito alto.

SPSSPara efetuar este teste estatístico no SPSS, basta ir a (Analyse >>

Descriptive Statistics >> Crosstabs >>) Statistics e assinalar a opção “Chi-square” na janela que surge de seguida.

� de �98 116

Fig. 18.3. — Resultados do Teste do Qui-Quadrado no SPSS.

Page 101: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Aplicando o teste do qui-quadrado ao nosso exemplo, verificamos que o valor de p é inferior a 0,05 e, como tal, rejeitamos a hipótese nula (i.e., afinal, o consumo de tabaco é dependente do grupo etário).

Teste Exato de FisherImporta, agora, relembrar uma das assunções deste teste: não há mais do

que 20% dos valores esperados menores que 5. Como se pode ver na Figura 18.3., imediatamente abaixo da tabela com os resultados do teste, existe uma nota a indicar a percentagem de células com um valor esperado inferior a 5 (neste caso essa percentagem é 12,5%). Neste caso, porque essa percentagem é inferior a 20%, o teste de qui-quadrado é válido.

Porém, se considerarmos os resultados presentes na Figura 18.4., podemos verificar que, nesse caso, essa percentagem corresponde a 25%. Uma vez que o teste qui-quadrado não deve ser aplicado nestas circunstâncias, neste caso, a leitura do valor de p deve ser efetuada na linha “Fisher’s Exact Test”. Embora os valores de p possam parecer semelhantes na linha “Fisher’s Exact Test” e “Pearson Chi Square”, os valores não são os mesmos e a leitura na linha errada pode levar um investigador a tomar a decisão errada, quando os valores numa e noutra linha forem, por exemplo, 0,04 e 0,06, respetivamente.

Duas notas finais: numa simples tabela de dupla entrada (2x2), porque só existem 4 células, basta que 1 delas (25%) tenha um valor esperado superior a 5 para que o teste de qui-quadrado não possa ser aplicado. Além disto, os leitores mais atentos poderão ter notado que, na Figura 18.3. não existe a linha correspondente ao Teste Exato de Fisher. Isto não se deve ao facto de o teste não ser necessário nesse caso — na realidade, a linha correspondente ao teste exato de Fisher é “sempre” exibida e cabe ao investigador ponderar acerca da validade do teste do qui-quadrado. O que aconteceu, naquele caso, é que o teste exato de Fisher requer a instalação de uma extensão adicional no SPSS. Quando o teste do qui-quadrado da Figura 18.3. foi aplicado, essa extensão não se encontrava instalada, por isso o teste não foi exibido. Nas aulas práticas e em contexto de exame, a linha do teste exato de Fisher estará sempre disponível.

BibliografiaDepartamento CIDES. Tabelas de Contingência e Teste do Qui Quadrado. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �99 116

Fig. 18.4. — Resultados do Teste do Qui-Quadrado no SPSS, mostrando um caso em que a aplicação do Teste Exato de Fisher é necessária.

Page 102: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XIX — Correlação

Introdução

A correlação está associada com a medição do grau de associação entre duas variáveis, x e y. Em primeiro lugar, assumimos que tanto x quanto y são variáveis contínuas (p.ex., peso e altura). Suponhamos que temos um par de valores, (x, y), medido em cada um dos n indivíduos da nossa amostra. Podemos marcar o ponto correspondente ao par de valores de cada indivíduo num gráfico de dispersão (também conhecido como scatterplot) bidimensional. Por convenção, coloca-se a variável x no eixo horizontal e a variável y no eixo vertical, mas isto não é obrigatório. Ao desenharmos os pontos para todos os n indivíduos, iremos observar um grupo de pontos que poderão indicar se existe ou não uma relação entre as duas variáveis.

Coeficiente de Correlação de Pearson

Diz-se que temos uma relação linear entre x e y se a linha que melhor se adapta ao conjunto de pontos for uma linha reta. O coeficiente de correlação produto-momento de Pearson, doravante denominado coeficiente de correlação de Pearson, mede o quão próximas estão as observações relativamente à linha reta que melhor descreve a relação linear. O seu valor na população é, como visto na Tabela 14.2., ρ, o qual é estimado na amostra por r.

O valor de r é, normalmente, calculado no computador.

Propriedades- r pode tomar qualquer valor entre -1 e +1.- O seu sinal indica se uma variável aumenta à medida que a outra também

aumenta (r > 0) ou se uma variável aumenta à medida que a outra diminui (r < 0).- A sua magnitude indica o quão próximos estão os pontos da linha reta. Em

particular, se r = +1 ou -1, então existe uma correlação perfeita com todos os pontos a coinciderem com a reta (o que é muito improvável, em termos práticos); se r = 0, então não existe qualquer correlação linear (embora possa existir uma relação não-linear). Quão mais próximo estiver r dos extremos, maior o grau de associação linear (Figura 19.1.).

- É adimensional, isto é, não tem unidades de medida.- O seu valor apenas é válido para o âmbito de valores de x e y na amostra.

O seu valor absoluto (ignorando o sinal) tende a aumentar à medida que o âmbito de valores de x e/ou y aumenta e, por isso, não se pode inferir que o coeficiente de correlação de Pearson terá o mesmo valor quando considerando valores de x ou y mais extremos do que os valores da amostra.

- x e y são interconvertíveis, sem afetar o valor de r.- Uma correlação entre x e y não implica uma relação “causa-efeito”.- r2 representa a proporção da variabilidade de uma variável que pode ser

explicada pela sua relação linear com a outra variável.

� de �100 116

Page 103: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Quando não calcular o valor de rPode ser contraprodutivo calcular o valor do coeficiente de correlação de

Pearson, quando:- existe uma relação não linear entre duas variáveis (Figura 19.2.a), como

uma relação quadrática.- os dados incluírem mais do que uma observação sobre cada indivíduo.- existirem valores extremos (outliers) (Figura 19.2.b).- os dados contiverem subgrupos de indivíduos para os quais os níveis

médios das observações em pelo menos uma das variáveis são diferentes (Figura 19.2.c).

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >> Correlate

>> Bivariate, selecionando a opção “Pearson” na janela que surge de seguida. Na Figura 19.3., encontra-se o output do SPSS num estudo em que se estudou a relação entre o peso de mães antes da gravidez e o peso de mães no momento do parto.

� de �101 116

Fig. 19.1. — 5 diagramas com diferentes valores de r,

em diferentes situações.

Fig. 19.2. — Diagramas que mostram quando é inadequado calcular o valor de

r. (a) Relação não linear, r = 0. (b) Na presença de outliers. (c) Dados com

subgrupos.

Fig. 19.3. — Resultados no SPSS.

Page 104: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Como se pode verificar, neste caso, r = 0,726.Outro dado que se pode retirar dos resultados devolvidos pelo SPSS é o

valor de p do teste de significância. Para este teste de significância, H0: ρ = 0. Este é um teste com pouca importância, pois:

- não temos interesse em saber se ρ = 0, mas sim saber a força da associação.

- se o tamanho da amostra for grande, H0 pode ser rejeitada, mesmo que r esteja próximo de zero.

- por outro lado, se o tamanho da amostra for reduzido, H0 pode não ser rejeitada, mesmo que r seja um valor elevado.

Pelos motivos supramencionados, tem mais interesse o cálculo do valor de r2,que representa a proporção da variabilidade de uma variável que pode ser explicada pela sua relação linear com a outra variável. Neste exemplo, r2 = 0,726 * 0,726 = 0,527. Isto significa que o peso antes da gravidez explica em 52,7% o peso no momento do parto.

Coeficiente de Correlação de Spearman

Calculamos o coeficiente de correlação de Spearman, o teste não paramétrico que equivale ao coeficiente de correlação de Pearson, se um dos seguintes for verdade:

- pelo menos uma das variáveis, x ou y, é medida numa escala ordinal.- nem x nem y são Normalmente distribuídos.- o tamanho da amostra é reduzido.- existem valores extremos (outliers) que podem afetar o teste de Pearson.

Este teste é semelhante à correlação de Pearson, mas é aplicado às posições dos valores, ao invés dos valores absolutos — os valores de cada variável são ordenados por posição e depois é aplicada a correlação de Pearson entre as posições. De forma mais detalhada:

1. Ordenar os valores de x por ordem crescente, começando pelo valor mais pequeno e atribuindo-lhes posições sucessivas (1, 2, 3, …, n). Os valores que fiquem com a mesma posição recebem a média das posições que estes valores teriam se não estivessem empatados.

2. Fazer o mesmo para os valores de y.3. rs é o coeficiente de correlação de Pearson entre as posições de x e y.

Importa referir que, no caso do coeficiente de correlação de Spearman, não se calcula o rs2, pois este não representaria a proporção da variabilidade de uma variável que pode ser explicada pela sua relação linear com a outra variável.

SPSSPara efetuar este teste estatístico no SPSS, basta ir a Analyse >> Correlate

>> Bivariate, selecionando a opção “Spearman” na janela que surge de seguida.Na Figura 19.4., pode comparar-se o coeficiente de correlação de Pearson

e o coeficiente de correlação de Spearman para um mesmo conjunto de dados, representado no gráfico à direita. Como se pode verificar, os resultados são bastante diferentes, pois o teste de Pearson é altamente influenciado pelos outliers presentes nos dados.

� de �102 116

Page 105: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

E se a relação for não linear?

Caso a relação seja não linear, uma possibilidade seria fazer uma transformação das variáveis, de modo a ser possível aplicar um teste para relações lineares. Estas transformações não fazem parte do programa da unidade curricular, no entanto, ficam disponíveis duas ligações que abordam este assunto, caso existam interessados.

- Transformations: an introduction — http://fmwww.bc.edu/repec/bocode/t/transint.html

- Nonlinear relationships — https://www3.nd.edu/~rwilliam/stats2/l61.pdf

BibliografiaDepartamento CIDES. Correlation: measuring association between continuous variables. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �103 116

Fig. 19.4. — Comparação entre o coeficiente de correlação de Pearson e Spearman para um mesmo conjunto de dados, que apresenta valores extremos.

Page 106: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

XX — Relação Linear (Simples)

O que é a regressão linear?

Para investigar a relação entre duas variáveis numéricas, x e y, medimos os valores de x e y de cada um dos indivíduos na amostra. Desenhamos os pontos num diagrama de dispersão e dizemos existir uma relação linear se os dados se aproximam de uma linha reta. Se acreditarmos que y depende de x, em vez do contrário, podemos determinar a linha de regressão linear que melhor descreve a relação entre as duas variáveis. Geralmente, descrevemos a regressão como univariável, pois apenas interessa uma variável x na análise; isto contrata com a regressão multivariável, que envolve mais do que um x.

A linha de regressão

A equação matemática que estima a linha de regressão linear simples é:ypred = α + βx,

sendo:- x a variável independente, preditora ou explicativa.- para um dado valor de x, ypred é o valor de y (chamado de variável dependente,

resultado ou resposta), o qual fica na linha estimada. É uma estimativa do valor que esperamos para y (i.e., a sua média), quando conhecemos o valor de x, e é chamado de valor ajustado de y (fitted value of y).

- α é o valor de ypred quando x = 0; é a ordenada na origem (Figura 20.1.).- β é o declive ou gradiente da linha de regressão linear; representa o quanto

aumenta ou diminui ypred, em média, se aumentarmos x em uma unidade (Figura 20.1.). Se β > 0, então y aumenta à medida que x aumenta. Se β < 0, então y diminui à medida que x aumenta.

α e β são chamados coeficientes de regressão, embora este termo, muitas vezes, seja reservado para β, apenas.

� de �104 116

Fig. 20.1. — Linha de regressão linear estimada que mostra a interceção com o eixo vertical, a (α), e o declive, b (β) (o aumento médio do Y [ypred] por aumento de unidade em x).

Page 107: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Método dos Quadrados Mínimos (Ordinary Least Squares [OLS])

Uma outra representação do modelo seria:y = α + βx + ε,

sendo ε o erro residual (Figura 20.2.). Para um determinado x, o modelo prevê ypred = α + βx,

então ε = y — ypred

ε ~ N(0, σy|x) — lê-se ε segue uma distribuição Normal de média 0 e desvio σy|x

Para desenhar a linha que melhor descreve os dados (ou, noutras palavras, para estimar o α e β), procuramos a linha cuja distância aos pontos no diagrama de dispersão seja ótima. Para tal, consideramos os erros residuais (ε), ou seja, a distância vertical entre cada ponto e a linha (i.e. erro residual = y [observado] — ypred). A linha é desenhada de modo a que a soma dos quadrados dos erros residuais seja mínima (utilizam-se os quadrados dos erros residuais, e não os erros residuais no seu estado bruto, para eliminar os sinais dos erros).

Então, e porque definimos que ε = y — ypred, para cada observação, i, temos:εi = yi — yipred

como ypred = α + βx, então:εi = yi — α — βxi

Como o objetivo é minimizar a soma dos quadrados dos erros, então:

O mínimo da soma dos quadrados corresponde ao zero da primeira derivada. Por isso:

� de �105 116

Fig. 20.2. — Linha de regressão linear estimada, exibindo o erro residual, ε (linha vertical tracejada) para cada ponto.

Page 108: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Esta solução corresponde ao mínimo e é conhecida como ordinary least squares estimator (OLS) para os parâmetros da regressão.

AssunçõesO método dos quadrados mínimos é o melhor estimador se as seguintes

assunções forem cumpridas:- Existe uma relação linear entre x e y.

- Confirma-se, se o gráfico de y em função de x for aproximadamente uma linha reta (Figura 20.4.), ou se o gráfico de ε em função de x for um aglomerado de pontos sem padrão aparente (Figura 20.5.).

- As observações na amostra são independentes.- As observações são independentes se não existir mais do que um

par de observações de cada indivíduo).- Para cada valor de x, existe uma distribuição dos valores de y na

população e esta distribuição é Normal (ou, por outras palavras, os erros residuais estão normalmente distribuídos [Figura 20.6.]). A média desta distribuição dos valores de y fica na verdadeira linha de regressão (Figura 20.3.).

- A variabilidade da distribuição dos valores de y na população é a mesma para todos os valores de x, isto é, a variância, σ2, é constante (homocedasticidade da variância) (Figura 20.3.).

- Confirma-se se o gráfico de ε em função de ypred for um aglomerado aleatório de pontos. Se o conjunto de erros residuais aumentar ou diminuir progressivamente à medida que ypred aumenta ou diminui, então esta assunção não é satisfeita (Figura 20.7.).

- A variável x pode ser medida sem erro. É de notar que nós não fazemos assunções relativamente à variável x.

� de �106 116

Fig. 20.3. — Ilustração das assunções em regressão linear.

Page 109: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

SPSS

Para efetuar este teste estatístico no SPSS, basta ir a Analyse >> Regression >> Linear. Na Figura 20.8. encontra-se o resultado de um estudo em que se utilizou a regressão linear para estudar a relação entre a idade gestacional e o tamanho da circunferência da cabeça.

Neste caso, o valor de β (lido na coluna “Unstandardized Coefficientes -> Beta”) é 3,392, e a ordenada na origem (α) é 210,042.

É importante notar que αˆ e βˆ (doravante, neste documento, serão representados como a e b, respetivamente, ao contrário do que está presente na apresentação disponibilizada pelo professor, pela dificuldade de escrever esses caracteres) são

� de �107 116

Fig. 20.4. — Diagrama de dispersão que exibe a relação entre pressão arterial sistólica (SBP)

Fig. 20.5. — Não existe nenhuma relação neste diagrama, o que indica que a relação

linear entre altura e SBP é apropriada.

Fig. 20.6. —A distribuição dos erros residuais é aproximadamente Normal.

Fig. 20.7. —Não existe tendência para os erros residuais aumentaram ou diminuírem

sistematicamente com os valores do ypred, por isso a assunção de homocedasticidade das

variâncias é satisfeita.

Fig. 20.8. —Resultado da regressão linear no SPSS.

Page 110: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

estimativas dos verdadeiros α e β, com base na amostra. Normalmente, interessa-nos fazer inferências relativamente ao verdadeiro valor de β.

Inferência sobre o valor de β (declive)

Após obter o modelo que melhor se ajusta, a típica questão é acerca da existência de um efeito estatisticamente significativo da variável x no resultado y. Esse efeito (de x sobre y) é dado por β. Se o valor do declive, β, for zero, então não existe uma relação linear entre as variáveis. Por isso, devemos testar H0: β=0.

O primeiro passo para testar a hipótese nula é calcular a estatística do teste, através de:

que segue uma distribuição t com (n — 2) graus de liberdade, sendo SE(b) o erro padrão (standard error) de b.

Imaginemos um exemplo simples: o que queremos testar é se "b" é significativamente diferente de 0, ou seja, se existe uma relação entre y e x. Para isso, usamos a estatística t. Imaginemos que: se(b) = 1; b = 3. Pela fórmula acima, t = 3/1= 3. Agora, imaginemos que a nossa amostra tem mais de 30 indivíduos e, por isso, podemos analisar estes dados pela distribuição Normal. Podemos rejeitar a 5% (1,96), a hipótese nula de b = 0. Muito provavelmente, existe uma relação positiva entre x e y.

No caso do resultado disponibilizado pelo SPSS, o valor de b calculado é 3,392 e o seu erro padrão, SE(b) é 0,434. Isto permite-nos calcular a estatística, t, do teste, que, neste caso, é 7,807. A estatística do teste, como nos outros testes já estudados, indica-nos a quantidade de evidência que temos contra a hipótese nula. É através desta estatística que se calcula o valor de p, que, neste caso, é inferior a 0,001 e, por isso, rejeitamos a hipótese nula e concluímos que o verdadeiro valor de β é diferente de zero (0). O teste para α tem pouco ou mesmo nenhum interesse.

Cálculo dos intervalos de confiança

Uma vez que conhecemos o valor do erro padrão, também podemos calcular os intervalos de confiança (a 95%) para α e β, a partir de a e b, respetivamente, através de:

� de �108 116

Fig. 20.9. — Mesma tabela que Fig. 20.8., mas com os valores de interesse realçados e legendados..

Page 111: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

a — t0.05 SE(a) até a + t0.05 SE(a)b — t0.05 SE(b) até b + t0.05 SE(b)

Mais uma vez, como visto em capítulos anteriores, é importante referir que, para valores amostrais de n superior a 30, t0.05 pode ser substituído por 1,96, sendo a leitura feita numa distribuição Normal.

No exemplo da Figura 20.8., podemos calcular o intervalo de confiança a 95% para α e β por:

α: 210,042 – 1,96*17,043 até 210,042 + 1,96*17,043 = 176,6 até 243,4β: 3,392 — 1,96*0,434 até 3,392 + 1,96*0,434 = 2,5 até 4,2,

sendo que o intervalo de confiança a 95% para β está de acordo com o valor de p obtido, já que este não contém o zero.

Estimativa da linha

Atrás, concluímos que ypred = α + βx. Mas o valor de y, dado um determinado x, é baseado nas estimativas de α e β (ou seja, é baseado em a e b), por isso, o próprio ypred é uma estimativa. Então:

ŷpred = a + bxAssim, também é possível construir um intervalo de confiança para o verdadeiro

ypred. No entanto, em primeiro lugar, importa explicar algumas definições.- ypred é a previsão de y para um indivíduo com um determinado x.- μy|x é a média de y para os indivíduos com um determinado x.As estimativas para ambos os valores acima são as mesmas, mas os intervalos de

confiança são muito diferentes, pois os erros padrão são diferentes.

Avaliação do Modelo

Além da importância de verificar as assunções do método dos quadrados mínimos, já explicado anteriormente, importa também estudar a qualidade do ajuste (goodness of fit). A qualidade do ajuste define-se por: o quão bem o modelo se ajusta aos dados, ou o quão bem x prevê y, ou o quanto da variação de y é explicado por x, ou o quão boa é a relação linear entre x e y.

� de �109 116

Fig. 20.10. — As linhas para ypred e μy|x são as mesmas, no entanto, os intervalos de confiança a 95% (95% Confidence Band) são diferentes.

Fig. 20.11. — Ilustração clara da qualidade do ajuste. A qualidade do ajuste é superior no gráfico da esquerda.

Page 112: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Podemos avaliar o quão bem a linha se ajusta aos dados ao calcular o valor de R2 (normalmente expresso em percentagem [no caso da correlação, utiliza-se letra minúscula (r); no caso da regressão linear, utiliza-se letra maiúscula (R)]), o qual é igual ao quadrado do coeficiente de correlação de Pearson. Isto representa a percentagem de variabilidade de y que pode ser explicada pela sua relação com x. O seu complementar, (100 — R2), representa a percentagem de variação de y que não é explicada pela relação. Não existe nenhum teste formal para avaliar o valor de R2. Temos de nos basear no julgamento subjetivo para avaliar a qualidade do ajuste da linha de regressão.

Análise da Tabela de Variâncias

Normalmente, o output do computador numa análise de regressão contém uma análise da tabela de variâncias. Na análise de variâncias, a variação total da variável de interesse, neste caso, y, é dividida nos seus componentes. Devido à relação linear de y em função de x, esperamos que y varie à medida que x varia — dizemos que esta variação é explicada pela regressão. A variabilidade que sobra é chamada de erro residual, ou variação não explicada. A variação residual deve ser o mais pequena possível, de tal modo que a maior parte da variação de y seja devida à sua relação com x e os pontos fiquem próximos da linha (i.e., de modo a que a linha seja um bom ajuste).

A variação total de y pode ser explicada pela soma dos quadrados de y:

Ou seja, a soma total dos quadrados (total sum of squares, TSS) corresponde à soma da variabilidade dos resultados em torno da média (y observado — y médio).

A soma total dos quadrados pode ser decomposta em:

Ou seja, a soma total dos quadrados corresponde à soma da soma explicada dos quadrados e a soma residual dos quadrados.

A soma explicada dos quadrados (explained sum of squares, ESS) corresponde à variabilidade dos valores previstos em torno da média (y previsto — y médio). Já a soma residual dos quadrados (residual sum of squares, RSS) corresponde à variabilidade dos valores em torno do valor previsto (y observado - y previsto).

� de �110 116

Fig. 20.11. — Explicação gráfica dos diferentes tipos de variação, na análise da regressão linear.

Page 113: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Isto poderá parecer confuso, mas se relembrarmos as definições torna-se mais simples:

y observado — corresponde ao valor de y, que correspondente a um determinado valor de x, na nossa amostra. É o y que, de facto, observamos;

y previsto — corresponde ao valor de y que é previsto pela nossa reta de regressão linear para um determinado valor de x.

y médio — corresponde ao valor médio de y na população, normalmente obtido através de estimativas complexas, para um dado valor de x.

Quando fazemos uma análise da regressão linear no SPSS, este fornece uma tabela ANOVA (Analysis of Variance), da qual podemos obter dados importantes. Como vimos anteriormente:

TSS = ESS + RSSentão, pela análise da coluna “Sum of Squares” da Figura 20.12.,

951,77 = 906,713 + 45,021

Estes dados podem servir para calcular o valor de R2. Como vimos anteriormente, este valor corresponde à percentagem de variabilidade de y que pode ser explicada pela sua relação com x. Como também vimos, a ESS corresponde, de forma semelhante, à variação de y devido à sua relação com x. Então, de forma intuitiva, o valor de R2 pode ser calculado através de:

Neste caso, R2 = 906,713/951,77 = 0,95 (ou 95%).

De forma igualmente intuitiva, percebe-se facilmente que:

Neste caso, 1 — R2 = 45,021/951,77 = 0,05 (ou 5%).

Por fim, na Figura 20.12., o valor de p apresentado (neste caso, 0,094) responde à questão “será a quantidade de variação explicada pelo modelo (i.e., ESS) significativamente diferente de zero?”. Testa a hipótese nula ESS = 0 e, neste caso, para um nível de significância de 5%, a hipótese nula não pode ser rejeitada (pois 0,094 > 0,05).

� de �111 116

Fig. 20.12. — Resultado do SPSS na análise da tabela de variâncias de uma regressão linear.

Page 114: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Curiosidade

O uso estatístico da palavra “regressão” deriva de um fenómeno conhecido como regressão à média, atribuído a Sir Francis Galton em 1889. Ele demonstrou que, apesar de pais altos tenderem a ter filhos altos, a altura média dos filhos é inferior à dos seus pais. A altura média dos filhos “regrediu” para a altura média de todos os pais na população. Por isso, em média, pais altos terão filhos mais baixos (mas, ainda assim, altos).

A regressão é um fenómeno observável, por exemplo, em ensaios clínicos, quando um subgrupo de pacientes pode ser selecionado para tratamento porque os seus níveis de uma dada variável (p.ex., colesterol) estão demasiado altos (ou demasiado baixos). Se a medida for repetida algum tempo depois, o valor médio da segunda leitura do subgrupo é, normalmente, inferior à primeira leitura, tendendo para (i.e., regredindo para) a média da população com a mesma idade e sexo. Os pacientes recrutados para um ensaio clínico com base num alto nível de colesterol provavelmente irão mostrar uma redução nos níveis de colesterol, em média, no segundo exame, mesmo que não tenham sido tratados durante este período.

BibliografiaDepartamento CIDES. Simple Linear Regression: modeling a continuous variable. 2014.Petrie A, Sabin C. Medical Statistics at a Glance. Wiley; 2005.

� de �112 116

Page 115: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

ANEXO I — FORMULÁRIO

Fator de Impacto ….………

Sensibilidade …………………………………………………………………….S — sensibilidadeVP — verdadeiros positivosFN — falsos negativos

Especificidade …………………………………………………………………E — especificidadeVN — verdadeiros negativosFP — falsos positivos

Probabilidade de um dado evento A …………………………………………P(A) — probabilidade de o evento A ocorrerCF — número de casos favoráveisCP — número de casos possíveis

Probabilidade condicionada ………………………………………………P(A|B) — probabilidade de o evento A ocorrer, sabendo que ocorreu o evento BP(A∩B) — probabilidade de ocorrerem os eventos A e BP(B) — probabilidade de o evento B ocorrer

Teorema de Bayes …………………………………………………………P(A|B) — probabilidade de o evento A ocorrer, sabendo que ocorreu o

evento BP(A) — probabilidade de o evento A ocorrerP(B|A) — probabilidade de o evento B ocorrer, sabendo que ocorreu o evento AP(B) — probabilidade de o evento B ocorrer

Distribuição de Bernoulli ……………………………………P(A=x) — probabilidade de A corresponder a x

Média ………………………………………………………………x ̅— médiaxi — observações da variável xn — número de observações

Variância (populacional) ……………………………………………………σ2 — variânciax ̅— média populacionalxi — observações da variável xn — número de observações

Variância (amostral) …………………………………………………………….s2 — variânciax ̅— média amostralxi — observações da variável xn — número de observações

� de �113 116

Page 116: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Desvio padrão (populacional) …………………………………………….σ — desvio padrãox ̅— média populacionalxi — observações da variável xn — número de observações

Desvio padrão (amostral) ……………………………………………………s — desvio padrãox ̅— média amostralxi — observações da variável xn — número de observações

Probabilidade de uma variável aleatória normal x, de média μ e desvio padrão σ, se encontrar entre

(μ — σ) e (μ + σ) é 0,68(μ — 1,96σ) e (μ + 1,96σ) é 0,95(μ — 2,58σ) e (μ + 2,58σ) é 0,99

Z-score ………………………………………………………………………………

z — z-scorex — variável aleatóriaμ — médiaσ — desvio padrão

Erro padrão da média ..…………………………………………………………EPM — erro padrão da médias — desvio padrãon — número (de indivíduos) na amostra

Erro padrão de uma proporção ……………………………………………… EPP =EPP — erro padrão da proporçãop — proporçãon — número (de indivíduos) na amostra

Intervalo de confiança a 95%, utilizando a distribuição Normal (Média da amostra — (1.96 * EPM) até Média da amostra + (1.96 * EPM))

ou(Proporção — (1.96 * EPP) até Proporção + (1.96 * EPP))

Intervalo de confiança a 95%, utilizando a distribuição t(Média da amostra — (t0,05 * EPM) até Média da amostra + (t0,05 * EPM))

ou(Proporção — (t0,05 * EPP) até Proporção + (t0,05 * EPP))

Poder de um teste estatístico ……………………………………………….. Poder = 100 — ββ — probabilidade de cometer um erro tipo II (em percentagem)

Estatística do Teste T para Uma Amostra (One Sample T Test) …………..t — estatística t do testex ̅— média amostralμ1 — valor hipotéticos — desvio padrãon — número (de indivíduos) na amostra

Estatística do Teste T para Duas Amostras Emparelhadas (Paired Samples T Test)t = média das diferenças/erro padrão das diferenças

� de �114 116

Page 117: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

Estatística do teste One-Way ANOVA ………………. F = Between Groups MS / Within Groups MSF — estatística f do testeMS — Mean Squares (Média dos Quadrados)

Estatística do teste Qui-Quadrado ………………………………………x2 — estatística do testeO — valor observadoE — valor esperado

Coeficiente de Correlação de Pearson ………………………r — coeficiente de correlação de Pearsonxi — valor observado da variável xx ̅— valor médio da variável xyi — valor observado da variável y — valor médio da variável y

Modelo de Regressão Linear …………………………………………………… y = α + βx + εy — valor de yα — ordenada na origemβ — declive da reta de regressãoε — erro residual

Estatística do teste t para o valor de β da reta de regressão linear …..….t — estatística do testeb — valor estimado de β com base na amostraSE(b) — erro padrão de b

Soma Total dos Quadrados ……..……………………………yi — valor observado da variável y — valor médio da variável y

Soma Explicada dos Quadrados ………………………..… Explained Sum of Squaresypred — valor previsto da variável y — valor médio da variável y

Soma Residual dos Quadrados …………………………… Residual Sum of Squares =yi — valor observado da variável yypred — valor previsto da variável y

Decomposição da Soma Total dos Quadrados ……………………………… TSS = ESS + RSSTSS — Total Sum of Squares (Soma Total dos Quadrados)ESS — Explained Sum of Squares (Soma Explicada dos Quadrados)RSS — Residual Sum of Squares (Soma Residual dos Quadrados)

Qualidade do Ajuste (da Reta de Regressão Linear) ……………………….R2 — percentagem de variabilidade de y que pode ser explicada pela sua relação

com x; indicador da qualidade do ajuste.ESS — Explained Sum of Squares (Soma Explicada dos Quadrados)TSS — Total Sum of Squares (Soma Total dos Quadrados)

� de �115 116

Page 118: Opúsculo BIDS I (v 1.0) - cld.pt · XI — Estatística descritiva I ... ano letivo 2014/2015 com apontamentos meus e coisas que fui lendo, ...

ANEXO II — TESTES DE HIPÓTESE

� de �116 116