Projeto de Experimentos Científicos Análise de Sistemas por Usuários Marcelo da Silva Hounsell...

Post on 16-Apr-2015

109 views 2 download

Transcript of Projeto de Experimentos Científicos Análise de Sistemas por Usuários Marcelo da Silva Hounsell...

Projeto de Experimentos CientíficosAnálise de Sistemas por Usuários

Marcelo da Silva Hounsell

Avanilde Kemczinski

Maio/2008

Objetivo de uma Pesquisa

O que ?– Conhecer um fenômeno

Como ?– Através de um experimento

• O que nos interessa observar• Resultado é a expectativa/tendência

Supõe-se que o Tema, Objetivo e Teminologias já tenham sido tratados antes

Estes normalmente aparecem na introdução e fundamentação do trabalho

Qual é o formato de pesquisa mais comum em Ciência da Computação?– Experimental– Exploratória

Quais técnicas são as mais usadas?

Pesquisa Experimental

Manipula variáveis relacionadas com o objeto de estudo com objetivo de identificar causa/efeito procurando evitar a interferência de variáveis intervenientes

Interfere-se na variável independente e observa-se o que acontece com a dependente.

Tendências, Regressão

Pesquisa Exploratória

Visa descobrir a relação existente entre as variáveis de interesse, principalmente quando há pouco conhecimento sobre o problema a ser estudado para, então, aumentar o entendimento sobre este

Associação, Correlação

Roteiro (M&L)

O ProblemaHipótesesVariáveisPúblicoEstratégiaColeta de Dados e TabulaçãoTratamento e Análise de Dados

O Problema

Como comparar o uso de dois sistemas computacionais ?

Uso– Avaliar resultado/performance– Avaliar satisfação

Hipóteses

Muitas vezes estas não ficam explícitas no texto

É uma suposta resposta ao objetivo e que será aceita ou refutada ao final da pesquisa.

Qual a hipótese do seu trabalho ?

Qual a resposta que se supõe será obtida ?

Hipóteses

Exemplos– Uma interface de RA aumenta o

aprendizado da inspeção de focos da dengue

– Uma interface com RA não influencia na avaliação do Controle Motor

– O uso de recursos computacionais aumentam o aprendizado da programação de robôs

Variáveis do Experimento

Características que podem ser observadas/medidas

Variáveis

Tipos– Dependentes– Independentes– Intervenientes

Formas– Quantitativas– Qualitativas

Tipos de Variáveis (CBS: 78)

Independentes (X)– Causa ou fator determinante– Não podem ser controlados

Dependentes (Y)– Fatores a serem observados/coletados– São afetadas pela var. independentes– Resultam da manipulação das v.ind.

Intervenientes (w)– Modificam a v.d. sem que tenha havido modificação

na v.i.

Exemplo (CBS: 78)

– Alunos da escola pública e de particulares (X) têm notas (y) diferentes no vestibular pelo nervosismo de uns ou de outros (w)

Variáveis Independentes (M&L:140)

É preciso avaliar a real importância de ...– Gênero (M/F) (influencia mesmo ?)– Idade (Faixa etária)– Ambiente do Experimento (Univ., Casa, Trab.)– Estado Emocional/Atenção (horário)– Escolaridade– Estilo Cognitivo– Familiaridade com o Computador– Familiaridade ou Conhecimento Específico

• Em RV/RA• Em Dengue• Com Jogos 3D

Formas das Variáveis (B:30)

Quantitativas– Cardinais

• Numéricas• Tempo de Serviço, Altura, ...

Qualitativas– Ordinais

• Quando há uma relação de ordem entre elas• Ex: básico|médio|avançado;

– Categóricas• Sem relação de ordem• Ex: regiões do país, estado civil

Variáveis Dependentes

Quantitativas/Objetivas– Tempo, Altura– Acertos/Erros– Repetições/Re-começos– Paradas/Retornos

Qualitativas/Subjetivas– Conhecimento– Fadiga/stress– Preferência/gosto

Qual usar ?

Selecionando as variáveis (B:30)

Em termos do trabalho que você exerce na empresa, você se sente:– Muito satisfeito,– Pouco satisfeito– Insatisfeito

Dê uma nota de 0 a 10, relativa ao seu nível de satisfação com o trabalho que você exerce na empresa. Nota: ____

“a pesquisa quantitativa tende a ser mais precisa e confiável” (CMC:115)

No caso da comparação de sistemas........

(Hounsell, 2008)

Dados qualitativos são indicativos da satisfação do usuário e devem ser confrontados com dados quantitativos de performance

Idealmente, um sistema deve ser bom para o usuário e promover boa performance

Roteiro (M&L)

O ProblemaHipótesesVariáveisPúblicoEstratégiaColeta de Dados e TabulaçãoTratamento e Análise de Dados

Público: Universo

Universo/Público-alvo– São as pessoas as quais queremos

que os resultados se apliquem (B:27)

– Quem são, quais as características do Universo ?

– Como identifica-lo dentre toda a população do planeta (rever variáveis independentes)

– Quantas são as pessoas que estão relacionadas com este experimento ?

Quem é o Universo do seu experimento ?

Exemplos

Pacientes pós-AVC, com gravidade abaixo de severa.

Crianças de 4a a 8a sériesInteressados em Programação de

Robôs

Público: Amostra

Amostra– Impossível avaliar Todo o Universo (Ideal).– É mesmo representativa do Universo ?– Quais os critérios para selecionar a amostra

do universo ? Porque ?– Quantos indivíduos são necessários para se

obter uma resposta confiável ?

Amostragem

Amostragem Sistemática– Quando se conhece algumas

características da população– Ex: se população=70% mulher, na

amostra isso tem que ocorrer.

Amostragem Aleatória Simples

Tamanho da Amostra

Depende da área também !!!

Análise do Controle Motor Eder = 53 (45 indivíduos pós hemiplégicos, -  8 indivíduos sem deficiência

motora) Dose = 53 (35 pessoas esquizofrênicas (medicadas com calmantes), 18

pessoas saudáveis) Sanches = (28 mulheres com fibromialgia, 3 tarefas com 10 tentativas cada) Subramanian = 23x20x24 (15 pacientes com hemiparesia,  8 sem deficiência

motora, 20 tentativas por alvo, 3 blocos de 24 tentativas cada) Viau = 15x6 (8 indivíduos saudáveis, 7 adultos com hemiparesia, 6

tentativas em cada ambiente (real e virtual) Luo = 3x30 (3 homens com AVC usando sistemas diferentes, Cada um

interagiu com 15 objetos virtuais, seguidos de 15 objetos reais) Tanaka = (8 indivíduos com SNU (Síndrome da Negligência Unilateral) Broeren = (5 indivíduos pós-AVC e hemiparéticos em fase crônica,  Número

pequeno da população não validou o estudo)

Tamanho da Amostra (B:58)

Para populações grandes, o tamanho da amostra é definido pelo Erro Amostral (ea)– na = 1 / ea2

– Assim, 25 pessoas equivale a um ea de 20%

Se a população é pequena, o cálculo é outro.

Público: Amostra

1 indivíduo = estudo de casoAlguns indivíduos = “estimativa”Muitos indivíduos = quase certeza

Por uma questão de probabilidade, para que se tenha confiança, Quanto mais, melhor (CMC:128)

Roteiro (M&L)

O ProblemaHipótesesVariáveisPúblicoEstratégiaColeta de Dados e TabulaçãoTratamento e Análise de Dados

Estratégia de Experimentação

Software 1

Software 2

Grupo de N pessoas

Estratégia de Experimentação

Basicamente são duas:

(1G2S) UM grupo avalia os DOIS softwares

(2g1S) O grupo é DIVIDIDO e avalia UM software em separado

Brainstorm

Quais seriam as vantagens das abordagens 1G2S e 2g1S ?

1G2S:Vantagens

Pode-se fazer a comparação direta e obter “o melhor”

Tamanho do grupo é menorPode-se obter clareza em quais

partes/itens um é melhor que o outro se for feito questionamentos por partes

2g1S: Vantagens

Experimento individual é mais rápido

Cada um avalia o seu sem ser influenciado pela existência do outro

Os dois sistemas podem ser bons – conclui-se que não há diferença

Brainstorm

Quais seriam os problemas das abordagens 1G2S e 2g1S ?

1G2S: Problemas

Qual a seqüência (pode influenciar no resultado final ?)

O usuário aprende com o experimento (isso influencia no resultado ?)

O objetivo real do teste deve ser omitido ?Duração do experimento é maiorPode gerar cansaço/fadiga devido a

repetição ?Faz tudo no mesmo dia, dá intervalo de

descanço, quanto ?

2g1S: Problemas

A comparação é indiretaUma avaliação ótima de um, pode ocorrer

até pela ignorância do quão bom é o outroComo manter o perfil dos dois grupos

parecido ?Precisa de mais indivíduos para se ter dois

grupos de tamanho “aceitável”Variáveis de gênero e idade podem levar a

que o grupo dividido seja menor ainda se elas influenciam no resultado

Análise

Se o objetivo é saber quem é O melhor, 1G2S é direto

Se o objetivo é identificar diferenças, 1G2S

Se os dois podem ser bons, 2g1s parece mais adequado

2o dia....

Roteiro (M&L)

O ProblemaHipótesesVariáveisPúblicoEstratégiaColeta de Dados e TabulaçãoTratamento e Análise de Dados

Coleta de Dados

Coleta é executar o experimento e fazer as anotações individuais conforme o especificado.

É um processo que ocorre antes, durante e depois do experimento propriamente dito.

“a única coisa realmente previsível na coleta de dados é o fato de que ela toma sempre mais tempo do que se espera” (CMC:183)

Coleta de Dados

Idealmente, faz-se primeiro um pré-teste para ter melhor clareza de– como será a coleta, – quanto tempo levará cada indivíduo,– clareza das tarefas e perguntas,– outros problemas de ordem práticas

Tratamento dos Dados

Tratar os dados significa aplicar procedimentos estatísticos para segmentar/agrupar dados (por variável independente)

Tratamento dos Dados

O que se quer saber das variáveis ?

Prevê-las !!!

No mínimo se quer tendência (expectativa) e dispersão (confiança)

Análise dos Dados

Através dos dados, evidencia-se a relação causal entre as variáveis dependentes e independentes para atender as hipóteses (:170)

Interpretar/Percepção– o que se entende pelos números obtidos?

Explicar/Proposição– porque essa relação ocorreu ?

Especificar/Delimitar alcance– até onde esta relação ocorre ?

Análise dos Dados Estatísticos

70% das escolas públicas de ensino médio não têm acesso à web !

Que isso significa ?

Omissões

A) Das 150 mil escolas públicas de EM do país, 80 mil estão em áreas rurais onde só 1% dispõem de Telefone/Web.

B) As escolas rurais têm menos alunos por sala e menos salas que as urbanas, de forma que dos 30 milhões de alunos do EM, 80% estão nas áreas urbanas

Então

A) desprezando o 1% para facilitar os cálculos, tem-se que ... 80 mil, correspondentes a 53,3%, de escolas sem web são da zona rural e os outros 17,7% (para completar os 70%) são da zona urbana.

B) tem-se 24 milhões de alunos na zona urbana e 6 milhões na rural sendo – 6,0 mi na rural não tem acesso a web e – 17,7 % dos 24 mi, ou seja, 4,25 mi na urbana não

tem acesso a web

Concluindo

(4,25 + 6,0) milhões de alunos não tem acesso a web e os demais 19,75 têm!

Resumindo, 66% de alunos das escolas públicas de EM têm acesso a web

70% das escolas públicas de EM não têm acesso à web

Escrita

É a fase final onde se vai colocar todos os itens anteriores em uma ordem lógica, em formatos adequados e atrativos

Acabou !

Rudimentos de Estatística

O quanto de estatística tenho que conhecer para desenvolver uma pesquisa científica ?

“se não é necessário um conhecimento profundo de estatística, ainda assim o pesquisador deve ter a ´visão estatística´ do problema” (CMC:122)

Tratamento Estatístico de Dados(Adaptado de B:109; CMC:126)

Análise Univariada– Qualitativas– Quantitativas

Análise Bivariada– Duas Quantitativas– Uma Quantitativa e Uma Qualitativa– Duas Qualitativas

Tratamento Estatítico de Dados

Análise Univariada– Qualitativas

• Distribuição (tabelas, gráficos)• Percentagens (gráficos de pizza)

– Quantitativas• Distribuição (histograma)• Tendência/Medidas de Posição• Dispersão

– Máximos e Mínimos– Desvio Padrão

Tratamento Estatístico de Dados

Análise Bivariada– Duas Quantitativas

• Correlação• Regressão

– Uma Quantitativa e Uma Qualitativa• Diferença de Médias

– Duas Qualitativas• Categóricas – Tabela de Contingências• Ordinais – Correlação de Ordem

Análise Univariada

Univariada.Distribuição(Tabelas e Gráficos)

Univariada.Distribuição(Histograma)

1 2 3 4 50

5

10

15

20

25

30

35

40

Peso de Recém-nascidos

Fre

qu

ên

cia

Peso (Kg)

freq

1,25 1,75 2,25 2,75 3,25 3,75 4,25 4,75 5,25

1 2 3 4 50

5

10

15

20

25

30

35

40Peso de Recém-nascidos

freq

Fre

qu

ênci

a

Peso (Kg)

O Problema da Média

Ao longo do dia, a temperatura média no deserto do Saara é agradável (24 C).

– Durante o dia chega a 44 C– Durante a noite cai a 4 C

Qual cálculo consegue definir a expectativa de um valor, a tendência de uma variável ?

Tendência – Expectativa (B:101)

Média – Valor Típico– Muito afetada por valores extremos

Moda– Valor de maior freqüência para variáveis discretas

Mediana– Valor que divide os dados ordenados no meio– Menos sensível a valores muito extremados– Mais adequada que a média quando a distribuição de

valores não é uniforme/simétrica– Diferença grande entre Média e Mediana indica a

distribuição não uniforme dos dados

Cálculo da Média

Média Aritmética

Média Para Dados Agrupados

fX

N

X

N

Média>Mediana>Moda

Média=Mediana=Moda

Desvio Padrão (dp)

É a média de quanto as variáveis observadas se distanciam da média geral– dp =

Para comparar duas variáveis quantitativas (quaisquer) quanto a sua dispersão calcula-se o coeficiente de variação – cv = dp / média * 100%

Influencia na probabilidade de se obter valores próximos a média geral

Distribuição Normal

Médias e desvios padrão

2012 15 1810 11 13 14 16 17 19 21 229

12 15 1810 11 13 14 16 17 19 20

Curvas com médias diferentes e desvios padrão diferentes

Curvas com médias diferentes e o mesmo desvio padrão

Associação (B:227)

Entre variáveis qualitativas (ordinais ou categóricas)

Indica a “probabilidade” de se prever uma variável pelo conhecimento de outra

Obtido pelo teste do qui-quadrado– Ex: clima (quente) -> ir a praia (maior)– Ex: sexo (masculino) -> fumante (sim)

Correlação (B:251)

Indica a associação entre duas variáveis quantitativas pareadas (x,y)

Exemplo– Altura e peso são positivamente

correlacionadas– Número de membros da familia e

renda familiar estão negativamente correlacionados

Regressão (B:267)

Dada uma correlação, a regressão estabelece como é o comportamento da correlação (aumenta, diminui, constante)

Resulta numa reta de relação entre as variáveis

Regressão

Referências

(M&L) Marconi & Lakatos. Fundamentos da Metodologia Científica. 6a. Edição, 2005

(B) Barbetta, P. A. Estatística Aplicada às Ciências Sociais. 6a ed. Editora da UFSC. 2006.

(CBS) Cervo, Bervian e Da Silva, Metodologia Científica, 6a ed, Pearson Prentice Hall, 2007

(CMC) Castro, C de M. A Prática da Pesquisa. 2a ed, Pearson Prentice Hall, 2006.