Curso - ebartacademy.files.wordpress.com · Análise Exploratória de Dados Módulo 1 Eric...

2

Curso

Análise Exploratória de Dados

Módulo 1

Eric Bartulici

Abril de 2020

3

Análise Exploratória de Dados

1ª Edição

2020

Eric Bartulici

Proibida a Cópia e Distribuição sem a autorização expressa do autor.

Cursos

4

Para minha amada família,

pelo suporte, pela fé e

apoio incondicional,

tornando possível esta

obra.

5

Sobre o Autor

Eric Bartulici é natural de São Paulo-SP, Engenheiro Metalúrgico e egresso da turma

de 1997/2 pela Escola de Minas de Ouro Preto / UFOP. Seu primeiro trabalho foi

como Analista Censitário pelo IBGE em 1991, e logo depois de formar trabalhou na

Indústria de Fundição Tupy, em Joinville-SC, de março de 1998 a abril de 2003,

atuando como Engenheiro de Processos nas áreas de Fundição e Moldagem,

Tratamentos Térmicos, Acabamento de Produtos e Proteção Superficial (Zincagem,

Roscagem e Inspeção de produtos). Em 2001 concluiu sua pós-graduação em Gestão

Industrial pela FGV – Fundação Getúlio Vargas, e logo em seguida certificou-se como

Black Belt Seis Sigma, tendo coordenado projetos nas Áreas de Fundição de Conexões

e Zincagem.

Em 2003 iniciou seu mestrado na Universidade Federal de Minas Gerais – UFMG, com ênfase em Metalurgia

Física com foco na obtenção de aços de alta resistência por meio de tratamentos térmicos de aços C-Mn, obtendo

elevadas resistências à tração, concluindo em 2005 o mesmo.

De volta ao mundo empresarial, de 2004 a 2014 atuou na Gerdau Açominas (Ouro Branco-MG) como Engenheiro

de Processos, Chefe de Área de Acabamento, Gerente de Logística Interna, Consultor Técnico e Coordenador de

Projetos estratégicos nas áreas de S&OP (Sales and Operation Planning), e Gerdau Template (líder de projeto

pela Logística Global), onde liderou a implantação do Projeto Global de Logística no SAP na América do Sul

(Uruguai, Argentina, Chile e Brasil).

Em 2015 foi chamado para assumir o cargo de professor EBTT no Instituto Federal de Ciência e Tecnologia de

Minas Gerais, após aprovação em concurso público, onde trabalha até os dias atuais, como docente nas áreas de

Fundição, Metalurgia do Pó, Pesquisa Operacional Metalúrgica (e como professor convidado para a turma de

Administração), Sistemas de Garantia da Qualidade e Estatística Aplicada à Engenharia , em projetos de ensino ,

pesquisa e extensão universitária.

Como ações de extensão, além do curso de Estatística Aplicada à Engenharia que foi aplicado à comunidade e

discentes do IFMG, é o autor e proprietário do Site eBart Academy, voltado para cursos à distância, notícias do

setor Mínero-Metalúrgico, para a democratização do ensino, e troca de informações e interação com a

comunidade acadêmica e empresarial, em busca do desenvolvimento da região em que atua.

Conselheiro Lafaiete, 15/04/2020

Z

6

Sumário

Capítulo 1 – Coleta e Análise de Dados ................................................................................................................. 10

Introdução ......................................................................................................................................................... 10

Categorização dos Dados................................................................................................................................... 10

A Coleta e Análise dos Dados ............................................................................................................................ 12

A Organização dos Dados .................................................................................................................................. 13

Comportamento dos Dados no Tempo ............................................................................................................. 14

Visualização Gráfica dos Dados Coletados ........................................................................................................ 15

Gráficos Sequenciais ...................................................................................................................................... 15

Gráficos de Pizza ............................................................................................................................................ 16

Gráficos de Barras / Colunas ......................................................................................................................... 16

Gráficos Combinados ..................................................................................................................................... 17

Stem and Leaf ................................................................................................................................................ 18

Histogramas ................................................................................................................................................... 19

Elaboração do Histograma no Excel .............................................................................................................. 20

EXERCÍCIOS RESOLVIDOS ................................................................................................................................... 22

Capítulo 2 – Variância nos Dados Amostrais ......................................................................................................... 25

Introdução ......................................................................................................................................................... 25

A Estatística Descritiva no Excel ........................................................................................................................ 25

O Desvio-padrão ................................................................................................................................................ 29

Teorema de Chebyshev ................................................................................................................................. 30

Exercícios Resolvidos ......................................................................................................................................... 30

Capítulo 3 – Análise de Tendência nos Dados ....................................................................................................... 33

Equações Lineares (primeira ordem) ................................................................................................................ 33

Equações Polinomiais (segunda ordem) ........................................................................................................... 37

Análise de Tendência e Correlação ................................................................................................................... 42

Regressão Linear Simples .................................................................................................................................. 43

Estimativas de Erro na Regressão ...................................................................................................................... 48


Capítulo 4 – Regressões Lineares Usando o Excel. ................................................................................................ 53

Introdução ......................................................................................................................................................... 53

Habilitando o SOLVER ........................................................................................................................................ 53

Utilizando o Solver em Regressões Lineares ..................................................................................................... 54

Métodos de Análise de Regressão com o Excel ................................................................................................ 55

Análise de Resíduos de Regressão ..................................................................................................................... 57

7

Regressão Linear Múltipla ................................................................................................................................. 58

R-Múltiplo .......................................................................................................................................................... 61


Bibliografia Consultada ...................................................................................................................................... 67

8

Prefácio

Esta obra é parte de um projeto maior, iniciado neste ano de 2020, após ter iniciado, no último ano, um curso

de extensão universitária para os alunos dos cursos de graduação de Engenharia Metalúrgica e de Administração

do Instituto Federal de Ciência e tecnologia de Minas Gerais – IFMG). Na verdade, ela remonta de anos

anteriores, onde ainda atuava no setor privado, trabalhando na empresa Gerdau – Usina Ouro Branco como

Consultor Técnico e Coordenador de Projetos, onde já planejava os anos nos quais iria atuar no ensino e na

elaboração de obras didáticas na área de engenharia, estatística e gestão.

Em 2019 foi dado o primeiro curso de estatística aplicada. Ofertei o curso “Estatística Aplicada à Engenharia”

para alunos e comunidade de Ouro Branco e região, ampliando o escopo e abrangência da atuação como

educador e servidor público federal. Tal iniciativa veio do entendimento de inadiável tarefa, e o do dever, de

levar à população um ensino sintonizado com as demanda atuais de formação do engenheiro e administradores

para as empresas, inseridas em um mercado amplamente competitivo e que demanda resultados cada vez mais

estáveis, sustentáveis e de qualidade superior, habilitando não só a continuidade empresarial e a sua expansão,

mas principalmente, a preparação de profissionais competentes e capazes de aturem e crescerem

profissionalmente neste ambiente.

O primeiro módulo, Análise Exploratória de Dados, é a preparação inicial para os demais que virão ao longo dos

próximos meses. Os objetivos deste módulo, em linhas gerais são:

• Capacitar o aluno a uma abordagem quantitativa e qualitativa dos dados amostrais, permitindo-o

analisar e propor ações nos processos onde atue.

• Levar ao aluno o entendimento do poder e amplitude da ferramenta estatística aplicada aos processos,

permitindo um trabalho de maior relevância e conteúdos superiores com foco em resultados superiores.

• Inserir esta área do conhecimento ao mundo do gestor, seja ele engenheiro ou administrador,

permitindo dar à gestão da rotina ou da melhoria nas empresas as bases para a análise metodológica e

científica.

Ao longo dos quatro capítulos, o estudante encontrará uma teoria aplicada, com apoio de exercícios propostos

e resolvidos, além de screencastings e vídeos disponíveis no canal do YouTube do curso, que reforçam o ensino

e dão visibilidade à prática, acelerando a compreensão dos tópicos apresentados no material didático em pdf.

Com a realização dos exercícios propostos o aluno estará habilitado a entrar no mundo da solução estatística de

problemas com uso de soluções básicas computacionais, e assim, abrir o horizonte de formação posterior nas

ciências estatísticas e matemáticas, tão indispensáveis para o mundo dos profissionais da área de exatas e

também Sociais Aplicadas.

Espero que aproveitem e gostem do conteúdo, que desde já se tornam abertos á melhoria contínua, revisões

pelos colegas e clientes, e que serão prontamente disponibilizadas pelos meios digitais propostos pela eBart

Academy, e assim, desde já, agradeço a todos pela prestimosa contribuição!

Eric Bartulici

Abril/2020

9

“Sem dados você é uma pessoa qualquer com uma opinião.”

Willian Edwards Deming

(1900 – 1993)

Capítulo 1 – Coleta e Análise dos Dados 10

Capítulo 1 – Coleta e Análise de Dados

Introdução

No mundo atual encontramos a crescente necessidade de se aprender a não só levantar dados de operações

bancárias, governamentais, etc, como também aprender a organizá-los e então obter valiosas informações para o

gerenciamento dos processos produtivos e prestação de serviços com a análise estruturada dos resultados, sejam

eles descritivos ou gráficos.

Vemos surgir neste século a demanda por profissionais que atuarão em meio às revoluções digitais, da Internet das

Coisas (IoT – Internet of Things), experts em Big Data, ou ainda de profissionais da Tecnologia da Informação, em

busca de atender à irreversível tendência de automação e controle de processos e Serviços à população, demandados

pelos governos ou do setor privado.

Neste capítulo iremos abordar a importância do levantamento de dados, a sua estruturação para adequar à aplicação

desejada, bem como a sua tratativa necessária para gerar informações úteis ao analista e público em geral.

Finalizaremos o mesmo abordando a elaboração de gráficos no Excel, capazes de ilustrar bem o conteúdo gerado

pelos dados, permitindo ao usuário uma visão mais ampla do conteúdo prático dos dados coletados, permitindo assim

a tomada de ações para otimizar seus produtos, processos e serviços.

Categorização dos Dados

As publicações sobre coleta e análise de dados são inúmeras, sejam aquelas das áreas de estudos estatísticos ou

das áreas de engenharia, administração, informática e automação de processos. Em meio a esse turbilhão de dados

que naturalmente nascem dos processos, surge a necessidade de categorizar os dados, ou seja, agrupá-los em

determinados critérios, classes e subclasses, que permitam compará-las entre si e ainda determinar ações específicas

de controle, gerenciamento e otimizações. Sem os dados, não gerenciamos os processos de forma satisfatória. Pelo

menos, não cientificamente... sabemos da história as grandes evoluções nas atividades humanas, mesmo não sendo

todos de cunho científico, muitas foram conseguidas em civilizações que, no processo de tentativa e erro, geraram

grandes e respeitáveis resultados. Entretanto, em um mundo de elevadíssima competitividade, não há espaços para

erros renitentes, que gerem perda de competitividade, em qualquer campo de atuação. Vemos nos esportes como

nas indústrias a utilização de softwares cada vez mais complexos e precisos, gerando informações que permitem a

superação de metas, a construção de novos e mais desafiadores objetivos para todos.

Categorizar dados significa em muitos casos tabulação. Organizá-los em tabelas com linhas e colunas suficientes e

adequadas ao nível de estratificação de dados que se queira chegar. E não mais que isso... devemos primar pela

minimização de controles, apenas controlar e relacionar as informações que sejam úteis ao propósito desejado.

Exceder no nível de informação significa dispêndio de energia desnecessária, pois serão bits gerados sem utilidade,

ou de reduzida importância para o processo (isso significa custo!). Quanto custa o armazenamento de dados no seu

computador pessoal?

Em seu livro “A Qualidade Desde o Projeto”, J. M. Juram1 explica em seu quinto capítulo a necessidade de provermos

medições em todas as etapas dos planejamentos dos processos em busca de garantir a qualidade superior de nossos

produtos e processos. O autor correlaciona a maior precisão necessária para a comunicação de informações

referentes à qualidade à estruturação de uma “comunicação numérica”. Para tanto, Juran assume a necessidade de

se criar um sistema de medições, que consiste em:

• Estabelecer uma unidade de medida: a define como sendo uma “quantidade definida de alguma

característica de qualidade, que permita avalia-la em números”, como horas nas prestações de serviços em

kilowatts gastos na execução de uma operação de máquina, etc...


• Utilizar um sensor: seria um método ou um instrumento para se avaliar o processo ou produto e traduzi-los

em números, ou seja, em unidades de medida úteis, como um relógio ou cronômetro para as horas, ou um

termômetro ou termopar para as temperaturas, cada qual com sua precisão e adequação ao rigor de

mensuração.

É comum nos estudos de melhoria contínua de processos se determinar quais informações são críticas para os

processos e produtos, e como se estabelecem seus controles operacionais. São atribuídas as classes de variáveis de

processos, de acordo com a sua área de geração e necessidade de controle. Cada processo terá seu conjunto de

variáveis a serem controladas ou verificadas periodicamente, na tentativa de com esta prática estabelecer um maior

nível de resultados, ou seja, maximizar os ganhos empresariais com a redução contínua de perdas e retrabalhos,

elevando as atividades que agregam valor ao produto eliminando ou reduzindo aquelas que não agregam e, até

mesmo, destroem valor na empresa. Este é um campo altamente explorado pela metodologia Lean, surgida e

desenvolvida amplamente na Toyota no século passado (Lean Manufacturing)2.

As variáveis podem ser classificadas em conformidade com o que é mostrado na figura 1.1 a seguir:

Figura 1.1 – Classificação geral das variáveis qualitativas e quantitativas.

Chamamos de variáveis qualitativas aquelas variáveis que se enquadram em classes não mensuráveis por escalas

métricas contínuas, mas são perfeitamente agrupadas segundo critérios objetivos por similaridade de características

intrínsecas dos materiais, ações ou categorias (por isso também conhecidas como categóricas). Já as variáveis

quantitativas são aquelas que podem ser mensuradas quantitativamente por escalas ou valores numéricos

racionalmente determinados para a relativização de suas grandezas, podendo assumir qualquer valor entre os

números reais.

As escalas de medição podem permitir uma leitura contínua, como no caso dos comprimentos, das horas, dos pesos,

etc, conhecidas como variáveis contínuas, e que surgem naturalmente do processo de medição. Para as variáveis

que não obedecem a uma escala contínua de medidas, mas são agrupadas segundo critérios de enumeração, como

as contagens de unidades, ou múltiplos de grandezas, como lotes, kits, conjuntos, unidades de produtos, etc... são

denominadas de variáveis discretas. A figura 1.2 exemplifica estas variáveis em questão:

Figura 1.2: variáveis discretas (contagem de itens) e variáveis contínuas (distância percorrida)

No campo das classificações das variáveis nominais estão as variáveis do tipo sim/não, passa/ não-passa, zero/um,

aprovado/reprovado, escolhas múltiplas entre opções, como meio de informação que o leitor utiliza como Revista,

jornal, internet, tv, etc..., ou seja, critérios ditos binários ou múltiplos objetivos, agrupando em duas classes todos os

itens avaliados. Por outro lado, podemos classificar as variáveis ordinais como sendo aquelas que permitem sua

enumeração em ordem crescente ou decrescente segundo escalas estabelecidas, como aquelas de classificação de

riscos alto, médio ou baixo, ou da Standard & Poors na classificação de riscos de investimento (AAA / AA / A / BBB /

BB / B ...). A figura 1.3 exemplifique estes dois tipos de variáveis em questão:


Figura 1. 3: variáveis nominais binárias. Fonte: adaptado de “O Globo”.

O leitor deve notar que há inúmeras possibilidades de organizações ente estes tipos de classificações, combinações

em diferentes níveis de relações ente elas. Não é menos importante o estudo e prática das técnicas de organização

de dados em tabelas. Esta é uma prática altamente recomendável para a estruturação dos dados, organizando-os

segundo as classificações desejadas pelo usuário, permitindo uma visualização global das informações geradas pela

coleta de dados. Vamos abordar agora a etapa de coleta de dados antes de entrar no mérito da estruturação de

tabelas e seus tipos básicos.

A Coleta e Análise dos Dados

A coleta de dados é naturalmente uma atividade excitante os pesquisadores no início dos seus trabalhos, seduzidos

pelo senso de urgência que devemos ter na condução dos projetos de pesquisa. Entretanto, há uma etapa anterior

muito mais importante do que se arvorar aos processos em busca de dados desejados para análise: definir quais

dados são necessários e preciso coletar! Somente após esta etapa devo coletar os dados desejados, uma vez que

agora já sei sobre sua forma e classificação (grandezas a serem medidas, instrumentos, aspectos qualitativos a serem

estabelecidos ou não, etc...).

É necessária a escolha de uma fonte confiável de dados, não só nas medições (aferições de instrumentos), mas

também na determinação das classes e níveis necessários ao agrupamento dos dados. Sem isso, a próxima etapa

não poderá ser feita corretamente, que é a sumarização dos dados, organizando-os em grupos racionais criteriosos,

para que possamos visualizar o “conjunto da obra”, e assim, permitir analisá-los. Em resumo, na figura 1.4 estão as

etapas que devem ser seguidas minimamente na atividade de coleta e análise de dados:

Pyzdek3 sugere que a análise exploratória de dados tem basicamente duas grande etapas:

• A fase Exploratória de Dados.

• A fase Confirmativa dos Dados.

O autor afirma que todo cientista de dados deve trabalhar realmente como um detetive de dados, e que, antes mesmo

de coletar as primeiras amostras (trial data) devemos examinar inteiramente e exaustivamente evidências dos dados,

ou seja, suas fontes, estruturas, apontamentos, veracidade, precisão, etc... Explorar os dados e então confirma-los,

dando garantias de que os dados trarão confiabilidade às análises e ao futuro processo decisório.

Apesar de já lidarmos com dados de processos há muitos anos, o tema da Análise Exploratória de Dados já fez vários

“aniversários”. Atribui-se a John W. Tukey, na Universidade americana de Stanford, as primeiras publicações e

palestras sobre o tema4. Vamos agora abordar as técnicas de organização dos dados.


A Organização dos Dados

A estruturação dos dados coletados é uma etapa de suma importância para iniciarmos a análise dos dados coletados.

Uma boa organização dos dados nos permitirá reduzir o tempo de análise e portando, da tomada de decisão. Há

diversos recursos para a execução desta atividade, graças à evolução dos aplicativos, softwares e técnicas da

tecnologia da informação. Vamos resumir aqui aquelas que são aplicáveis em escala simples, sejam manuais ou com

o suporte de uma simples planilha eletrônica (disponíveis nos softwares comerciais como Excel, Calc, Origin, Minitab,

etc...), que são soluções que permitem boa velocidade e praticidade de organização dos dados. No Excel por exemplo,

podemos gerar tabelas dinâmicas que são uma Excelente solução para a tratativa do problema de organização dos

dados. Vamos dar um exemplo, considerando os dados coletados na Tabela I a seguir (reduzida graficamente por

razões óbvias...). Nela, note o leitor que não há a menor possibilidade de se tirar uma conclusão direta e rápida da

tabela levantada com tamanha quantidade e variedade de dados (salvo o caso da superdotação de faculdades

intelectuais, claro!), pois a mesma é um extrato resumido de uma coleta de 999 dados de reduzida apropriações de

Figura 1.4 – Fluxo de Coleta e Análise de dados.

custos, despesa a despesa com os valores gastos pela área responsável pelo centro de custo em questão (CEO /

Diretoria / Gerência e Operação). Várias perguntas podem ser derivadas desta tabela, como por exemplo:

1. Qual é a classe de maior apropriação de despesas entre as apresentadas na tabela? Quanto?

2. Qual centro de custo na empresa como um todo tem o maior desembolso financeiro?

3. Qual é o principal grupo de conta detalhado por classes em débitos totais?

Tabela I – Exemplo de dados coletados no sistema de custos de uma empresa.


Para poder responder estas perguntas, o administrador deveria trabalhar a tabela e seus dados contidos para

estratificar os dados em uma análise vertical, estruturando do item desejado na pergunta para os níveis mais

detalhados em sequência, como por exemplo, apresentando as seguintes sequências de estratificação:

i) Classe > Grupo > Centro de Custo > Valor

ii) Centro de Custo > Valor

iii) Grupo > Classe > Valor

O diretor pode querer saber mais, como por exemplo, em qual área o custo está estourando ou não? Uma nova

tratativa de dados permite realizar esta observação, mas não antes de se aumentar o nível de “quebra” das

informações da tabela pela área contábil (Classe, na tabela I), inserindo novo campo de pesquisa que é o valor orçado

por centro de custo, por classe e por grupo! Como veem, as coisas vão se complicando à medida que aumentamos o

nível de detalhamento desejado... isso requer mais tempo de coleta, tempo de estruturação dos dados e tempo de

análise... portanto, custo de análise do pessoal envolvido nesta atividade. Não há como não se executar, desde o

início do processo de planejamento de coleta dos dados, o alinhamento de objetivos de resposta com esta atividade,

evitando perdas de tempo ou retrabalhos desnecessários e indesejáveis.

Comportamento dos Dados no Tempo

Em muitas situações serão necessárias outro tipo de abordagem, que permita avaliar como uma variável se comporta

não só em uma amostra, mas também o seu comportamento com o tempo no qual a atividade se processa. A análise

de Séries Temporais da estatística nos permite uma abordagem quantitativa superior, se comparado aos gráficos de

resumo de dados, dado a utilização de maior quantidade e visualização sequencial dos dados coletados. O Gráfico

da figura 1.5 mostra como se comportou o preço médio da tonelada de aço ao longo dos anos (mar-2000 a mar 2020).

O gráfico nos permite ver períodos de alta e de baixa no preço, bem como as oscilações de valor ocorridas no período,

que são informações extras que não teríamos se apenas analisássemos a tabela de dados coletados.

Figura 1.5 – Séries temporais para o preço da tonelada de aço bruto.

Fonte: https://www.indexmundi.com/pt/pre%C3%A7os-de-mercado/?mercadoria=min%C3%A9rio-de-ferro&meses=240

ID Grupo de Conta Classe Centro de Custo Valor Apropriado (R$)

1 Viagens Diretoria 2205 12.420,23R$

2 Refeições Gerência 1007 1.927,54R$

3 Salários Operação 990 90.523,93R$

4 Seguros CEO 1149 9.990,00R$

. . . .

. . . .

. . . .

997 Transportes Gerência 1010 5.875,28R$

998 Escritório Operação 750 4.925,05R$

999 Bônus CEO 1109 112.005,79R$

https://www.indexmundi.com/pt/pre%C3%A7os-de-mercado/?mercadoria=min%C3%A9rio-de-ferro&meses=240


As observações quando arranjadas graficamente de forma sequencial (time series plotting) favorecem as análises de

previsão (time series forecasting), como aquelas usadas à exaustão nas Bolsas de Valores, agências financeiras, ao

expressarem os seus índices em termos transacionais temporais, com vistas a determinação de valores futuros dos

mesmos5.

Como o leitor verá, ao longo dos módulos deste curso, o conhecimento dos dados, suas classes e métricas serão de

suma importância para o estabelecimento matemático e estatístico dos modelos para gerenciamento que serão

apresentados futuramente.

Visualização Gráfica dos Dados Coletados

A forma mais útil de se analisar dados numéricos é a sua exibição gráfica. Há inúmeros tipos de gráficos disponíveis

para se realizar esta tarefa, entretanto, não há uma forma aconselhável única e definitiva, mas sempre aquela que se

adequa a sua necessidade temporal.

Entre os tipos de gráficos e diagramas mais utilizados, podemos citar os seguintes:

• Gráficos Sequenciais

• Gráficos Tipo Pizza

• Gráfico de Barras

• Gráficos Combinados

• Diagrama de Pareto

• Etc...

A esta altura você deve estar se perguntando: qual a diferença entre gráficos e diagramas? Sendo ortograficamente

correto, gráficos são representações visuais de números de forma estruturada no plano cartesiano para facilitar sua

compreensão. Já por diagramas entende-se como sendo as representações gráficas de objetos por meio de linhas,

traçados, delineamentos ou esboços. Portanto, o nome Diagrama de Pareto estaria errado? Não necessariamente

como veremos, já que para os que já o conhecem há uma dupla interpretação nominal, visto que no mesmo há

representações numéricas em eixos coordenados, e também o percentual acumulado, que seriam traços ou linhas

que representam os valores acumulados dos percentuais individuais das classes representadas nele. Lembramos que

no passado, não havia computadores para realizar esta tarefa, e, portanto, o nome mais apropriado era Diagrama de

Pareto, visto que se tornava quase uma arte traçá-lo para os estudos numéricos mais complexos, pois eram feitos à

mão! Em homenagem aos seus precursores, trataremos aqui como Diagramas de Pareto.

Gráficos Sequenciais

Os gráficos sequenciais são mais indicados para visualização de dados que representam uma sequência lógica da

atividade em avaliação, sob a qual foram coletados os dados. São reconhecidamente úteis para os eventos temporais,

onde a ordem de análise importa no estudo. Veja o exemplo na figura 1.6.

Figura 1.6 – Exemplo de gráfico sequencial, relativo à produção horária média por dia de trabalho.


Os gráficos sequenciais podem ser elaborados no Excel a partir dos modelos de gráfico chamados “Dispersão”,

como veremos adiante. A vantagem de se elaborar esses gráficos a partir dos pontos isolados e depois ajustados

por linhas de tendência, é que admitimos equações de retas ou curvas que passando pelo ponto médio entre os

pontos permitem uma interpretação e representação matemática superior. Há modelos prontos disponíveis no Excel

que agilizam a elaboração dos gráficos e rápida análise dos dados coletados.

Outra aplicação conceitual, com as devidas adequações estatísticas, é a elaboração de cartas de controle estatístico

(CEP), que partem do conceito de plotagem temporal dos dados amostrais e permitem uma tratativa estatística

adequada para a análise de estabilidade dos processos produtivos.

Gráficos de Pizza

Os gráficos de pizza são comumente usados para visualizar a distribuição percentual ou quantitativa de itens

categorizados que foram analisados dentro de uma certa amostra. Isso se dá considerando que toda a sua

circunferência possui 100% dos dados totais e cada “fatia” representada possui a sua cota numérica ou percentual

desse total. Permite a visualização da categoria mais importante pela maior “fatia” de seu total, e outras menores até

a menor, sucessivamente. Veja o exemplo:

Figura 1.7 – Exemplo de gráfico sequencial, relativo à produção horária média por dia de trabalho.

Os gráficos de Pizza precisam de uma tabela de dados resumida, de forma a representar as quantidades nominais e

seus percentuais relativos.

Gráficos de Barras / Colunas

Estes gráficos são indicados para a visualização de montantes das categorias em uma escala comum de valores entre

as categorias, permitindo visualizar qual dos itens apresenta maior valor para esta categoria analisada dentre os

demais itens representados. Veja o exemplo:

Figura 1.8 – Exemplo de gráfico de colunas com dados de despesas ordenados pela coluna “item”.

Composição de Custo UnitárioItem Custo (R$) %

Vidros 220,00R$ 44%

Madeiras 190,00R$ 38%

Ferragens 45,00R$ 9%

Verniz 29,00R$ 6%

Silicone 15,00R$ 3%

Total = 499,00R$ 100%

Vidros; R$ 220,00

; 44%

Madeiras; R$

190,00 ; 38%

Ferragens; R$

45,00 ; 9%

Verniz; R$ 29,00 ; 6% Silicone; R$ 15,00 ; 3%

Custo Unitário (%)

Vidros Madeiras Ferragens Verniz Silicone

Item Despesa (R$)

Alimentação 1.200,00R$

Educação 850,00R$

Habitação 1.000,00R$

Trasnportes 600,00R$

Saúde 990,00R$

Viagens 450,00R$

Reservas 500,00R$

Total Despesas = 5.590,00R$

Orçamento Mensal

R$ -

R$ 200,00

R$ 400,00

R$ 600,00

R$ 800,00

R$ 1.000,00

R$ 1.200,00

Alimentação Educação Habitação Trasnportes Saúde Viagens Reservas

Despesa (R$) R$ 1.200,00 R$ 850,00 R$ 1.000,00 R$ 600,00 R$ 990,00 R$ 450,00 R$ 500,00

De

spe

sa M

en

sal (

R$)

Despesa (R$)


Na figura 1.9 as colunas não ficaram ordenadas por tamanho, pois a tabela estava ordenada por ordem alfabética dos

itens de custo. Ordenando a tabela agora pelos valores decrescentes do orçamento, teremos, de forma mais agradável

visualmente:

Figura 1.9 – Exemplo de gráfico de colunas reajustado por ordem decrescente de valores plotados.

Poderíamos expressar o mesmo gráfico acima na forma de barras, no caso de querer visualizar os dados de forma

mais “limpa” na tela, obtendo:

Figura 1.10 – Exemplo de gráfico de barras, por ordem decrescente de valores de despesa.

Gráficos Combinados

Estes gráficos são especiais, e que podem apresentar dois eixos verticais com escalas diferentes para a representação

de mais de uma variável no mesmo espaço gráfico. São úteis para representar o efeito de uma mesma variável (eixo

X) em suas grandezas (variáveis Y nos eixos verticais esquerdo e direito).

Podem ser construídos com barras, linhas, pontos ou combinações entre eles. Veja o exemplo:

Figura 1.11 – Exemplo de gráfico de duplo eixo (combinados), com grandezas distintas para uma mesma relação no eixo x

(quantidades produzidas).

Item Despesa (R$)

Alimentação 1.200,00R$

Habitação 1.000,00R$

Saúde 990,00R$

Educação 850,00R$

Trasnportes 600,00R$

Reservas 500,00R$

Viagens 450,00R$

Total Despesas = 5.590,00R$

Orçamento Mensal

R$ -

R$ 200,00

R$ 400,00

R$ 600,00

R$ 800,00

R$ 1.000,00

R$ 1.200,00

Alimentação Habitação Saúde Educação Trasnportes Reservas Viagens

Despesa (R$) R$ 1.200,00 R$ 1.000,00 R$ 990,00 R$ 850,00 R$ 600,00 R$ 500,00 R$ 450,00

De

spe

sa M

en

sal (

R$)

Despesa (R$)

Quantidade Peso Rendimento

100 2.495 89

250 6.200 92

500 12.000 91

750 18.750 94

1.000 25.000 93

1.250 31.250 95

1.500 37.500 9586

87

88

89

90

91

92

93

94

95

96

-

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

100 250 500 750 1.000 1.250 1.500

Re

nd

ime

nto

(%)

Pe

so (

kg)

Quantidade Produzida (Unidades)

Peso (kg) x Rendimento (%)

Peso Rendimento


Entre os gráficos citados, resta abordar o Diagramas de Pareto, o que deixaremos para mais a frente onde serão

abordados no capítulo 3.

A visualização de dados numéricos permitiu um grande avanço na interpretação de dados numéricos estatisticamente

trabalhados na indústria e na sociedade em geral. Com eles podemos entender melhor o comportamento de

indicadores muito utilizados nos estudos acadêmicos e empresariais.

Muitos são os tipos e formatos, entretanto citaremos aqui alguns, já nos preparando para o capítulo 2, onde os

utilizaremos em maior intensidade, e que são, sem dúvida, muito importantes para os atuais e também futuros

engenheiros, administradores e estatísticos no mercado.

Stem and Leaf

Estes diagramas de visualização de dados são conhecidos como Diagramas Ramo e Folha, sendo os dados

organizados em grupos (os ramos) e em valores de cada grupo (as folhas). Com esta organização, permite-se a

análise de em quais grupos os dados estão mais concentrados, nos dando uma nossa de “Densidade de Distribuição”.

Exemplo 1.1

Considere os seguintes dados coletados, a respeito de um indicador que registra as perdas de alimento nos pratos de

clientes de um restaurante (Resto Ingesta), onde tem como saída a amostragem de vários pratos (peso em gramas)

com sobras em um dia de coleta:

94; 141; 51; 84;19; 71; 60; 72; 104; 62; 28; 82; 45; 129; 77; 50; 90; 65; 49; 71; 83; 69; 73; 52; 64; 76; 87.

Para elaborar o diagrama Stem and Leaf procedemos da seguinte forma:

i. Em uma primeira coluna colocamos o valor dos decimais das amostras (ou centenas), partindo do menor para

o maior valor decimal. No nosso exemplo, a amostra de menor valor em peso é 19 e a maior é 141 gramas.

Assim, vamos ordenar em uma coluna valores de 10 a 140.

ii. Nas demais colunas à direita da primeira, vamos preenchendo com os números das unidades, em ordem de

ocorrência, até esgotarem os números da amostra. Por exemplo, o primeiro número da amostragem, 19, estará

na linha da dezena 10 e à direita escreve-se o número da unidade 9. Para o Número 60, escreve-se zero ao

lado direito do número 60, e assim sucessivamente.

Assim, obtemos o diagrama:

Figura 1.12 – Diagrama Stem and Leaf para o Resto Ingesta.

Note que poderíamos escrever o ramo em ordem crescente de 1 a 14 apenas, que o efeito final seria o mesmo

visualmente... a informação importante que o diagrama traz é que os dados dos pesos médios de Resto Ingesta estão

em torno de 70 gramas. Para saber o valor médio correto, devemos usar as técnicas estatísticas, que abordaremos

no capítulo 3. Para o empresário neste momento não necessitaria um valor mais confiável, mas já pode estimar o

comportamento do indicador de sobras nos pratos após refeições e o quanto de peso ele está em média descartando

10 9

20 8

30

40 5 9

50 1 0 2

60 0 2 5 9 4

70 1 2 7 1 3 6

80 4 2 3 7

90 4 0

100 4

110

120 9

130

140 1


diariamente, bastando multiplicar o valor médio estimado pelo número de pratos servidos naquele dia. Da mesma

forma poderia estimar o peso médio de pratos pesados pelos clientes no dia de trabalho. Para estimativas mais

precisas aconselha-se a utilização de análises de médias, medianas e variância dos dados amostrais, através das

metodologias estatísticas.

Histogramas

Ao analisarmos o diagrama Stem and Leaf, vemos que há uma relação de frequências de ocorrência de alguns valores

em torno de valores médios, visualmente observáveis no diagrama anterior (figura 1.12). Uma nova forma de relacionar

estas frequências foi desenvolvida pelos estatísticos em forma de um gráfico de barras, onde no eixo Y relacionam-

se as frequências relativas para algumas classes observáveis, sendo estas últimas expressas no eixo X. Assim, para

cada variação entre essas classes apontam-se os valores nelas contidos de forma cumulativa, levando a obter-se

maiores barras no gráfico para as classes mais presentes nas amostras levantadas, tendo assim, por consequência,

que estas representariam as classes mais frequentes na amostra estudada. Vamos ver esse exemplo:

Exemplo 1.2

Neste exemplo, foram coletados em um restaurante os pesos dos pratos que continham sobras de comida após a

refeição, o chamado Resto Ingesta. A amostragem se deu aleatoriamente ao longo do serviço em um mês de

atendimento, tendo gerado os seguintes dados (pesos em gramas):

Para a elaboração dos histogramas devemos determinar as classes que comporão a base do gráfico. Há algumas

sugestões de regras de elaboração, mas esta é livre ao usuário, devendo se preocupar em não ter uma quantidade

mínima que prejudique a análise (visualização de uma dispersão nem tão larga, a ponto de gerar apenas uma

observação por classe, e nem tão curta, a ponto de gerar em uma única classe todas as observações). Está disponível

no material do curso um screencasting para visualizar a elaboração deste histograma, com explicação do passo a

passo.

SC Ex. 01.01 - Resto Ingesta

Figura 1.13 – Histograma para o Resto Ingesta

As classes presentes no eixo X foram obtidas por critérios aleatórios, mas em geral, podem ter a quantidade de classes

determinadas ou estimadas pela raiz quadrada do tamanho da amostra (n), no nosso caso, pela raiz quadrada de 23

amostras, o que daria, arredondando, para 5 classes. Como o menor valor era 19 e o maior valor 141, escolhemos

94 141 51 84 19 71 60 72 104 62 28 82 45 129 77 50 90 65 49 71 83 69 73


varia de 30 em 30 gramas, obtendo as cinco classes necessárias. Após esta escolha, bastou contar quantos valores

de amostras estão com valores abaixo de 30 (ou de zero a 30), e obtemos apenas duas amostras (a de valor 19 e de

valor 28). A próxima classe vai de 31 a 60. Depois de 61 a 90, e assim, sucessivamente. Uma vez determinadas as

quantidades de números em cada classe, fazemos o gráfico, marcando a altura da coluna como sendo o número

encontrado em cada classe. No Excel podemos elaborar o histograma, mas com alguns ajustes.

Elaboração do Histograma no Excel

No Excel, primeiramente temos que digitar em uma coluna os números amostrados. No nosso caso, os 23 números

de restos na bandeja dos clientes do restaurante. Uma vez completada a etapa inicial, escolhemos as classes para as

quais elaboraremos o histograma, e ao lado dos valores amostrados, digitamos nova coluna com as classes escolhidas

(estas serão nosso eixo x do histograma). Agora o resto é com o Excel. Para iniciar o histograma, faça o seguinte

passo-a-passo:

• Passo 1: Ao lado da coluna com os dados digitados, escolha as classes necessárias e digite-as em de acordo

com seu critério de formação escolhido. Como havia sido relatado anteriormente, as classes seriam 30, 60,

90, 120 e 150, pelos critérios adotados no exemplo.

• Passo 2: agora, em Dados, escolha a ação “Análise de Dados”, em histograma e clique em OK.

• Passo 3: ao clicar em Ok, abrirá a seguinte caixa de diálogo:

O preenchimento deverá seguir as seguintes orientações:

• Em Intervalo de entrada, preencha com o intervalo nos quais estão as amostras coletadas. No caso do

exemplo, foram as células $C$2 a $C$24, portanto, com os 23 números amostrados.

• Em intervalo de bloco, preencha com o intervalo onde digitou as classes escolhidas (de 30 a 150), que no

exemplo foram as células de $E$6 a $E$10. Caso você não deseje escolher as classes, deixe em branco

este campo, o Excel determinará automaticamente para você.

• Em intervalo de saída, escolha qualquer área de qualquer tamanho para sair os dados, e o Excel escolherá

o tamanho necessário e adequará seus limites.

• Marque as caixas de diálogo Pareto, Porcentagem cumulativa e resultado gráfico.


Os resultados do Excel, serão os seguintes:

Tabela do Histograma

Há uma opção de se determinar apenas a frequência para uma análise inicial através do Excel. É a função:

“=FREQUENCIA(matriz_dados;matriz_bin)”,

onde :

• a matriz de dados é a coluna na qual estão os dados amostrados, sem o rótulo, e

• a matriz_bin é a sequencia dos valores de bloco, ou seja, a base do histograma ou eixo X que você

determinou.

Para o exemplo 1.1, temos a saída gráfica para o histograma dos dados fornecidos (figura 1.14):

Figura 1.14 – Histograma Classificado (padrão gerado pelo Excel), sem ordenamento de classes.

Na verdade este é um Pareto gerado pelo Excel.

Note que o histograma classificado não está da mesma forma que o histograma apresentado anteriormente na figura

1,13, pois se reparar, no eixo das classes, os números não estão ordenados do menor para o maior. Corrigindo-se

esta questão, o gráfico será igual ao da figura 1.14. Este gráfico não é um histograma, e sim, um Pareto! Há nele as

frequências acumuladas e, portanto, obteríamos o histograma tradicional fazendo no Excel apenas um gráfico

utilizando as colunas “Bloco” e “Frequência” da tabela de histograma acima, gerada pelo Excel.

Uma vez introduzidos os principais gráficos mais usuais para uma primeira visualização dos dados coletados, estamos

preparados para dar sequência aos demais temas. Não se esgotam aqui os tipos de gráficos, mas estes serão os

necessários nessa etapa. À medida que os módulos do curso forem estudados, outros serão apresetnados e

estudados.

Para uma fixação do conteúdo, só tem um jeito senhores: Hands On! Mãos à obra!! Segue agora alguns exercícios

para seu estudo e elaboração, com as respostas e screencastings disponíveis no material do curso.

Bloco Freqüência % cumulativo Bloco Freqüência % cumulativo

30 2 8,70% 90 12 52,17%

60 5 30,43% 60 5 73,91%

90 12 82,61% 30 2 82,61%

120 2 91,30% 120 2 91,30%

150 2 100,00% 150 2 100,00%

Mais 0 100,00% Mais 0 100,00%


EXERCÍCIOS RESOLVIDOS

Instruções:

Para o melhor andamento dos estudos, sugere-se os seguintes passos:

1. Identifique o código do exercício resolvido.

2. Verifique a sua disponibilidade no material do curso, no formato de screencasting.

3. Leia o enunciado e em seguida assista à resolução.

4. Faça novamente usando os recursos apresentados.

5. Em caso de dúvida, intercale a revisão do screencasting com o texto explicativo.

OBS: Os exercícios a seguir estão com as soluções disponíveis em screencasting no material do curso (código

relacionado no enunciado de cada exercício).

01. (SC01.01) Com base nos dados fornecidos, organize-os e elabore um gráfico tipo Pizza para responder as

questões a seguir:

Dados: disponíveis no arquivo ExR 1.1.xls no material do curso.

a. Qual foi o item mais vendido pela empresa no mês (quantidades em percentual)?

R: O Item mais vendido foi a Pizza de 4 queijos, com 531 unidades vendidas no mês.

b. Ordene as vendas por ordem decrescente de itens vendidos. Qual item trouxe maior faturamento para a

empresa?

R: O maior faturamento foi também o de pizza 4 queijos, com R$ 16.032,67 vendidos no mês.

c. Qual foi o faturamento diário médio da empresa com a venda de todas as pizzas? Faça um gráfico

sequencial.

Rótulos de Linha Soma de Quant. Soma de Receita

4 Queijos 531 16.032,67R$

Calabresa 450 13.216,99R$

Frango 454 12.827,11R$

Mussarela 369 8.775,59R$

Peperoni 398 11.432,46R$

Total Geral 2.202 62.284,82R$


R: o faturamento diário médio foi de R$ 2.076,16, para um total faturado de R$62.284,82 nos 30 dias do mês.

02. (SC01.02) Para os dados da questão anterior, elabore um gráfico de barras para as quantidades vendidas e outro

para a receita de vendas.

R:

03. (SC01.03) Ainda para o exercício 1, qual seria o gráfico ideal para ler simultaneamente os valores de quantidades

vendidas e receita de vendas de pizzas? Elabore-o.


R: o melhor gráfico é o gráfico combinado (Barras + Linhas) com dois eixos, pois as escalas são diferentes das

duas variáveis dependentes (Receita e Quantidade).

04. (SC01.04) Elaborar:



a. Um histograma para os valores vendidos diários, com os dados da planilha do exercício 1.

b. Um Pareto com os dados de Receita da planilha do exercício 1.

05. (SC01.05) Com base nos dados da amostragem a seguir, referente à medições de correntes elétricas (ampères)

em um condutor metálico, elabore o diagrama Stem and Leaf para os dados e, em seguida, faça um histograma,

considerando os dados do Bloco do Histograma como sendo os mesmos do “Ramo” adotado. Os resultados da

análise de tendência de média dos valores, em ambos métodos, seriam os mesmos? Justifique.


R: as médias avaliadas nos dois métodos diferem, mesmo utilizando a mesma base para trabalhar os dados. No

Stem and Leaf indicaria uma média em torno de 0,90 ampères, enquanto o histograma indicaria uma média entre

1 e 1,1 amperes. Se calcularmos a média aritmética dos dados fornecidos chegaríamos a 0,932 amperes, o que

estaria entre as médias dos dois métodos. Isso comprova que graficamente não podemos admitir precisão para

estas medições, devendo recorrer à estatística descritiva.

0,75 0,79 0,92 1,1 1,05 1,01 0,83 0,93 0,59 0,84 1,05 1,09 0,99 0,66 0,93 0,89 0,88 0,94 1,14 1,26 0,932

0,5 9

0,6 6

0,7 5 9

0,8 3 4 9 8

0,9 2 3 9 3 4

1 5 1 5 9

1,1 0 4

1,2 6

Capítulo 2 – Variância nos Dados Amostrais 25

Capítulo 2 – Variância nos Dados Amostrais

Introdução

Neste capítulo vamos abordar a obtenção de estimativas de variância (e

portanto, de desvio-padrão) para os dados amostrais coletados. Usaremos

as técnicas estatísticas para realizar esta análise, entretanto, com o auxílio

do Excel. Muito esforço manual deve ser executado para chegar aos

mesmos resultados possíveis de se obter rapidamente pelo Excel. Isso não

exime o estudante de procurar entender a forma de cálculo, mas essa

tarefa foi realizada pelos professores dos cursos de Estatística na

academia. Partiremos do princípio com o qual o estudante já possui certa

familiaridade com essa área do conhecimento, e que, com um foco prático

neste curso, possam ser habilitados ao rápido exercício da técnica.

Poderíamos aqui entrar nas explicações das fórmulas estatísticas, suas

origens, principais estatísticos atuantes na área, mas nada disso permitirá

no momento uma visualização prática das análises que aqui queremos

focar.

Entretanto, apenas como uma breve descrição, vamos relembrar apenas

alguns conceitos, suas fórmulas e componentes principais. O primeiro

conceito importante, é aquele relacionado à natural variação dos dados

amostrais dos indicadores de processo. Sabemos que ao coletar dados de

uma linha produtiva, por exemplo, haverá diferentes valores levantados,

pois há variações naturais gerados pelas inumeráveis causas atuantes no

processo e que influenciam no valor do indicador em estudo. Podemos

então entender e revisar o conceito de variação.

Aqui faremos a abordagem para os dados obtidos após realização do

procedimento de amostragem, que é a coleta, de forma aleatória, de itens

da produção, ou das informações disponíveis, para estudos estatísticos.

Vamos agora rever alguns conceitos importantes para nosso estudo.

A Estatística Descritiva no Excel

Ao coletar a amostra de tamanho “n” com média �̅� dos valores de uma grandeza mensurável qualquer, extraída de uma população com média

populacional e variância populacional 𝟐 em estudo, podemos calcular a

sua variância amostral 𝑺𝟐, ou seja, estimados pela fórmula a seguir:

𝑆2 = 1

𝑛−1∑ (𝑛𝑖=1 𝑋𝑖 − �̅� )

2 (eq. 1)

A Raiz quadrada da equação 1 nos fornece o valor do desvio-padrão

amostral “S”. Lembramos que a média �̅� é obtida pela média aritmética

simples, ou seja, a somo de todos os valores medidos do comprimento 𝑿𝒊

dividida pela quantidade de amostras realizadas n. Assim:

�̅� =1

𝑛 ∑ 𝑋𝑖

𝑛𝑖=1 (eq. 2)

Vamos ilustrar estas e outras variáveis de interesse estatístico, aplicando o Excel em uma amostra de dados de

processo fornecido pelo exemplo a seguir.

Análise de Dados Excel

No Excel clique na seguinte

sequência de funções:

1. Arquivo

2. Opções

3. Suplementos

4. Ferramentas de análise

5. Ir

6. OK

Após executar esta sequência,

deverá surgir no seu menu principal

no caminho “Dados > Caixa Análise

> Função “Análise de dados”, no

canto superior direito do seu menu

principal do Excel.

É nesta opção que será gerada a

Análise descritiva de dados do

exemplo I.

Caso não consiga se localizar,

consulte o vídeo de habilitação

dessa ferramenta disponível no

material do Curso.

Arquivo (Pasta Cap. 2):

> Tutorial Suplementos Excel.mp4


Exemplo 02.01

Uma fábrica de barras cilíndricas laminadas de aço está desejando conhecer a variação de comprimento de seus

produtos ao final da linha de corte. Sabe-se que há uma variação natural do processo, devido à imprecisão da tesoura

de corte, mas não se sabe o quanto ela está próxima ou distante da média visada no processo, especificado em valor

igual a 2 metros. Para isso o engenheiro de processos de produção coletou várias amostras durante a produção destas

barras, ao longo de um mês inteiro de produção, alternando horários, turnos e posição de amostragem das barras ao

longo da sequência de cortes de cada lote laminado. Assim, posteriormente o engenheiro elaborou a seguinte tabela

de dados amostrais (Tabela I – disponível em Ex 2.1.xls):

Tabela I: Comprimentos amostrados das barras laminadas

Uma abordagem correta para os dados da tabela I é dispô-los em gráficos sequenciais e analisar se há tendências na

distribuição dos dados, e como está a média amostral em relação à média especificada. Essa tarefa fica muito mais

fácil quando utilizamos os softwares estatísticos como o Minitab, por exemplo, onde os gráficos de controle estão

disponíveis para serem obtidos a partir dos dados amostrados, como os constantes da tabela I. No Excel é também

perfeitamente possível obtê-lo, demandando algum trabalho de preparação da planilha com os cálculos necessários.

Por outro lado, uma análise mais simplificada através da análise descritiva dos dados já nos fornece informações

preciosas e rápidas sobre os números constantes da tabela I. Podemos gerar automaticamente no Excel uma tabela

que nos trará informações diversas como média, mediana, moda, quartis, variância, desvio-padrão entre outras,

bastando executar uma rotina de modo muito fácil. Vamos ver como fazê-la, passo-a-passo.

No Excel, você deverá possuir a função “Análise de dados” configurada na aba “Dados” do menu principal. Se seu

Excel não exibir a imagem da figura 1.14, siga o passo a passo detalhado s seguir.

Uma vez liberada, vamos ao método de geração da Tabela da Análise Descritiva dos Dados. Para gerar a análise,

disponha os dados fornecidos pela tabela em duas colunas consecutivas no Excel, em uma planilha nova, sem

formatação. Após isso, selecione na Aba Dados a ação “Análise de dados” habilitada por você no Excel. Execute os

seguintes passos para gerar a análise descritiva:

Passo 1:

Clique: Dados > Análise de dados > Estatística Descritiva

Passo 2: Selecione a área onde estão inseridos os seus dados amostrais. No meu exemplo, eles estão inseridos na

coluna C, da célula C4 a C28, conforme a figura abaixo:

AmostraComprim.

(metros) Coluna1Amostra

Comprim.

(metros)2Amostra

Comprim.

(metros)

1 2,02 11 1,98 21 2,04

2 1,98 12 2,06 22 2,06

3 1,97 13 2,04 23 1,99

4 1,99 14 1,99 24 1,98

5 1,98 15 1,98 25 2,02

6 2,01 16 2,05

7 2,02 17 2,09

8 2,07 18 1,94

9 1,95 19 1,99

10 1,97 20 1,94


Neste passo, foram selecionados na janela de diálogo da Estatística descritiva as opções:

• Colunas: os dados estão dispostos em uma única coluna (C).

• Intervalo de Saída: selecionado um campo qualquer ao lado da coluna de dados para o Excel plotar os

dados obtidos;

• Resumo Estatístico: Selecionado para poder gerar os dados procurados (a estatística descritiva). Por

padrão serão gerados dados com 95% de confiabilidade.

• Após isso, clicar em OK. Aparecerá o seguinte resultado:

Os dados obtidos informam que a média dos cortes

estão muito próximas ao valor de 2 metros, com

mediana de 1,99 metros, desvio-padrão de 0,041m,

variando entre um mínimo valor de 1,94m e máximo de

2,09m, nos 25 dados amostrados. Com isso, o

engenheiro já pode analisar o comportamento geral dos

dados medidos e de uma forma, ainda que incipiente,

avaliar a qualidade do processo segundo as medições

executadas. Obviamente, não se esgotam aqui, longe

disso, as análises e medições do processo. Na

metodologia Seis Sigma aprendemos a avaliar muito

mais profundamente o processo produtivo, com

técnicas e ferramentas estatísticas avançadas para

explorar a capacidade do processo de gerar resultados

estáveis e dentro das especificações dos clientes. Aqui

apenas introduzimos uma abordagem inicial de um

“instante do processo” obtido pela amostragem

realizada. Em breve abordaremos aqui a questão do

Erro-padrão e outras análises quanto ao desvio-padrão

e variância.

Assim pode-se concluir que o valor médio está próximo à meta visada de 2 metros, o que chamamos de centralização

da média amostral, mas, por outro lado, não podemos de antemão assumir que a variação do processo esteja

adequada. Isso se deve ao fato de que não foram fornecidas as especificações dos valores mínimo e máximo

toleráveis em torno da média. Qual seria a faixa de especificação do produto? Poderíamos assumir que seria a média

mais ou menos o desvio-padrão? Não! Veremos que o intervalo estatístico do processo, chamado intervalo de

confiança, deve ser calculado, o que faremos em outro momento. Vamos ficar por aqui, apenas com os conceitos

iniciais, e em outro curso abordaremos o tema estatístico do intervalo de confiança.

Vamos abordar agora o conceito de Erro-padrão. Em estatística, a mensuração do valor da média obtida a partir da

amostra é suscetível de erros de medição, já que em estatística, estamos no mundo não-determinístico, mas

Estatística descritiva

Média 2,0044

Erro padrão 0,008227596

Mediana 1,99

Modo 1,98

Desvio padrão 0,041137979

Variância da amostra 0,001692333

Curtose -0,668881663

Assimetria 0,382996691

Intervalo 0,15

Mínimo 1,94

Máximo 2,09

Soma 50,11

Contagem 25


probabilístico. Há uma probabilidade razoável de 95% de certeza de estes dados encontrados na estatística descritiva

estarem corretos. Mas, por isso, há um erro nesse valor, que chamamos de erro-padrão amostral. Ele pode ser

calculado dividindo-se o desvio-padrão (S) pela raiz quadrada do tamanho da amostra (n), assim:

𝑥 =𝑆

√𝑛 (eq. 03)

No nosso exemplo, o erro-padrão pode ser assim determinado:

𝑥 =𝑆

√𝑛= =

0,0411

√25 = 0,008228. (Vide Estatística descritiva anterior).

Note que pela fórmula, o erro-padrão (𝑥) é inversamente proporcional à raiz quadrada do tamanho da amostra (n),

ou seja, quanto maior a amostra, menor será o erro em torno do valor real da média amostral. Amostras grandes

tendem a aproximar o valor da média ao valor real da população analisada. Salvo restrições de elevados custos e

riscos de se levantar estas amostras em maior quantidade, devemos sempre assim proceder pelo bem da precisão

da análise, cuja quantidade mínima está atrelada ao nível de variação do processo produtivo e sua necessidade de

precisão da medida.

Uma outra forma de verificarmos a variação da amostra em torno da média, é determinar o seu coeficiente de

variação (CV%), que pode ser calculado pela divisão do desvio-padrão da amostra pela média obtida, ou seja:

𝐶𝑉 =𝑆

�̅� . 100 (eq. 04)

No nosso exemplo, podemos determinar o valor do coeficiente de variação, calculando:

𝐶𝑉 =0,0411

2,0044 . 100 = 2,05%.

Quanto menor for o coeficiente de variação, menor é a variação dos dados em torno da média, dando maior precisão

e confiabilidade ao processo para o nível amostral adotado. Cuidado com amostras pequenas, elas podem não ser

representativas do processo, e amargas surpresas surgirem...

De uma forma geral, podemos assim resumir a questão da variância (e, portanto, do desvio-padrão):

• Se aumentar a concentração de valores amostrais em torno da média amostral (baixas amplitudes de

variação), menor será a variância e o desvio-padrão.

• Se os valores amostrais forem todos iguais, sem qualquer variação na medida entre eles, tanto a

variância quanto o desvio-padrão serão nulos.

• Não há como os valores de variância e desvio-padrão serem negativos, já que não há diferenças

negativas na faixa de variação, que são sempre positivas para amostras diferentes de zero.

Como a variância amostral sempre traz (n-1) graus de liberdade na sua determinação, o valor da variância amostral

tende a ser maior do que aquela da população (supondo que as médias amostral e populacional sejam próximas). À

medida que aumente significativamente o valor de “n”, essa diferença vai ficando cada vez menor e a variância

amostral tende à variância populacional.


Vamos agora abordar um exemplo ilustrativo.

Exemplo 02.02

Considere a tabela abaixo, referente à amostragem de diâmetros internos médios de peças cilíndricas laminadas

(tubos), sob os quais se deseja avaliar a variação dos dados obtidos no processo em determinado período de produção

(diâmetros em mm). Para tanto, deseja-se calcular qual seria a variância e desvio-padrão da amostra e inferir sobre

qual seria a variância da população (todos os tubos laminados nesse processo desse mesmo tipo).

Dados: disponível em Ex 2.2.xls

De acordo com as fórmulas disponíveis no

Excel, podemos calcular as variâncias da

amostra e da população:

• Amostral (𝑆2):

=VAR.A(intervalo dados)

• Populacional (2):

=VAR.P(intervalo de dados)

O leitor deve notar que os erros de

aproximação pelos métodos estão na

quinta casa decimal entre os

métodos, portanto, a escolha está

vinculada ao rigor da análise e das

grandezas em questão.

Note que no campo “Fórmula de

relação” foi executada o seguinte

cálculo:

2= 𝑛−1

𝑁 x 𝑆2=

20−1

20 x 0,02192522

Em termos práticos, quando o tamanho da amostra é maior do que 30, os valores das variâncias tende a se

aproximar, a variância amostral tende a se igualar à variância populacional, por isso, recomenda-se amostras

maiores sempre que possível, apesar de que continua ainda sendo sensível aos valores extremos da amostra (valor

maior e valor menor amostrado).

O Desvio-padrão

Uma desvantagem de se usar a variância, é que sua unidade expressa uma grandeza ao quadrado, já que em sua

fórmula, utiliza-se a elevação ao quadrado da diferença entre o valor individual da amostra e sua média. Fica

estranho utilizar uma grandeza de variação ao quadrado, já que por vezes representará unidades de itens que melhor

se expressam em variações por unidades e não por unidades ao quadrado. Imagine que a variância do exemplo

anterior fosse escrita assim:

O processo de medição dos diâmetros internos dos tubos resultou em uma média de 5,010 mm e variância de

0,0219mm2... fica de difícil interpretação ao relativizar estas duas grandezas, em mm e em mm2...

Para resolver isso, introduziu-se o conceito de desvio-padrão (s), que é a raiz quadrada da variância:

= √2 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙. (eq.06)

𝑠 = √𝑆2 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙. (eq.07)

OBS: 𝐴𝑑𝑜𝑡𝑎 − 𝑠𝑒 𝑜 𝑣𝑎𝑙𝑜𝑟 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 𝑑𝑎 𝑟𝑎𝑖𝑧 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑎 𝑑𝑎 𝑣𝑎𝑟𝑖â𝑐𝑖𝑎.

No Excel podemos calcular o desvio-padrão aplicando a fórmula da raiz ou a fórmula direta de determinação do

desvio-padrão, como se segue:

• fórmula =DESV.PAD.P(intervalo de dados), para desvio-padrão populacional.

• fórmula =DESV.PAD.A(intervalo de dados), para desvio-padrão amostral.

• Ou cálculo pela raiz: =RAIZ(seleciona célula da variância na planilha).

Diâmetros Internos

Amostra mm

1 5,01

2 5,06

3 4,98

4 4,92

5 5,2

6 4,79

7 4,82

8 5,24

9 4,89

10 4,93

11 4,77

12 5,2

13 5,07

14 5,16

15 4,98

16 4,81

17 5,17

18 5,07

19 5,13

20 4,93

Média = 5,010526316

Usando as fórmulas do Excel:

Amostral = 0,02190816

Populacional = 0,02081275

Usando as fórmulas Estatísticas:

Amostral = 0,02192522

Populacional = 0,02082896

Fórmula de relação = 0,020828961


Analogamente ao que foi demonstrado para a variância, podemos associar os valores de desvio-padrão amostral e

populacional segundo a fórmula deduzida:

2 = 𝑛−1

𝑁 . 𝑆2 ou

= ට𝑛−1

𝑁 . 𝑆 (eq.8)

Teorema de Chebyshev

Quando se deseja conhecer como estão distribuídos os valores da amostra em torno da média encontrada, utilizando

os valores do desvio-padrão encontrado, utilizamos o teorema de Chebyshev para determiná-lo. O teorema pode ser

resumido em uma regra prática aplicável aos dados estatísticos conhecidos:

• Considere uma variável X com média �̅� e desvio-padrão “s” conhecidos.

• Intervalo expresso como �̅� ± 1 𝑠, para se ter 68% de dados contidos em ± um desvio-padrão em torno da

média amostral.

• Intervalo expresso como �̅� ± 2 𝑠, para se ter 95% de dados contidos em ± dois desvios-padrão em torno da

média amostral.

• Intervalo expresso como �̅� ± 3 𝑠, para se ter próximo a 100% de dados contidos em ± três desvios-padrão

em torno da média amostral.

Aplicando ao nosso exemplo dos diâmetros dos tubos, teríamos:

�̅� ± 3 𝑠

5,01 ±3 . 0,219

5,01 ±0,657

O intervalo que contêm aproximadamente 100% dos dados é (4,353 a 5,667mm). De fato, o leitor verá que o menor

valor na tabela de diâmetro interno foi de 4,77mm e o maior igual a 5,24mm, que estão, portanto, 100% contidos

neste intervalo.

Exercícios Resolvidos

Instruções:

Para o melhor andamento dos estudos, sugere-se os seguintes passos:

1. Identifique o código do exercício resolvido.

2. Verifique a sua disponibilidade no material do curso, no formato de screencasting.

3. Leia o enunciado e em seguida assista à resolução.

4. Faça novamente usando os recursos apresentados.

5. Em caso de dúvida, intercale a revisão do screencasting com o texto explicativo.

OBS: Os exercícios a seguir estão com as soluções disponíveis em screencasting no material do curso (código

relacionado no enunciado de cada exercício).

1. (SC2.01) Um fabricante de rodas de alumínio levantou duas amostras de seus produtos, em peso – kg),

produzidas em duas linhas de fundição, tecnologicamente iguais, mas que, devido a ajustes diversos pela

manutenção, estão produzindo peças com médias e variações distintas, conforme mostra a tabela a seguir.

Após uma reforma geral da máquina, o engenheiro de manutenção levantou as medições constantes da

tabela, e afirma ter melhorado o processo. Você concorda com ele? Justifique.


Dados: Disponíveis no arquivo ExR 02.01

Resposta: após realizar a análise descritiva dos dados pelo Excel, obtêm-se:

• Ao observar a média, vemos que não houve alteração sensível após a reforma.

• Os limites inferior e superior da faixa de dados amostrados são praticamente os mesmos, só

alterando no inferior, com 0,1kg a mais em uma amostra, mantendo o mesmo intervalo,

praticamente, de 1,2 para 1,3 kg ente a peça mais leve e a mais pesada.

• Os pesos totais de todas as peças antes e depois são os mesmos, mantendo 120,6 kg para as 8

peças amostradas em cada caso.

• Houve no entanto uma redução do desvio-padrão, o que indica que os dados estão com menor

variação, tornando o processo mais preciso que o anterior, o que pode ser visto com o intervalo

de Chebychev para 95% de confiança, que saiu de (14,14 – 16,01) para (14,36 – 15,79), ou de

uma média de 15,075 ± 0,9304 para 15,075 ± 0,7151 (considerando 2 sigmas).

• Concluindo, não há evidências de uma melhora significativa do processo, dada a amostragem

pequena, sugerindo ainda uma melhor análise dos dados após reforma.

• Obs: posteriormente veremos este caso novamente, e o leitor irá verificar que muitas vezes as

amostras podem estar “contaminadas” de nossos desejos ou “medos”... isso altera os dados e

resultados, mas não a estatística, que permanece forte ao longo das décadas... outras ferramentas

serão introduzidas para poder dar uma resposta mais segura a este problema, como os estudos

de capacidade de processos.

2. Calcule o coeficiente de variação do exercício 1, antes e depois da reforma. Os valores reforçam a sua

explicação para a variação do processo no exercício 1?

Resposta: O coeficiente de variação nos dois casos são:

• Antes: CV = 𝑆

�̅�=

0,4652

15,075= 0,0308

• Depois CV = 0,3575

15,075̅̅ ̅̅ ̅̅ ̅̅ ̅̅= 0,0237

• Os CV´s confirmam o exposto anteriormente, já que a variação caiu no processo, obtendo um

menor desvio-padrão, mas não houve mudança na média (denominador da fórmula) e nem no

intervalo entre valores mínimos e máximos da faixa amostrada.

Antes Depois

15,3 14,6

15,1 15,1

14,9 15,2

14,5 14,9

15,8 15,8

15,6 15,2

14,8 15

14,6 14,8

Antes Depois

Média 15,075 Média 15,075

Erro padrão 0,164479699 Erro padrão 0,1264205

Mediana 15 Mediana 15,05

Modo #N/D Modo 15,2

Desvio padrão 0,465218843 Desvio padrão 0,357571172

Variância da amostra 0,216428571 Variância da amostra 0,127857143

Curtose -1,081462602 Curtose 2,112693112

Assimetria 0,404366278 Assimetria 1,046789298

Intervalo 1,3 Intervalo 1,2

Mínimo 14,5 Mínimo 14,6

Máximo 15,8 Máximo 15,8

Soma 120,6 Soma 120,6

Contagem 8 Contagem 8


3. Uma amostragem do peso de 30 bags de pós metálicos resultou em um intervalo com 95% de confiança

de 200±25 kg. Calcule o erro-padrão da média para este processo.

Resposta: Sabemos que para um nível de confiança de 95%, temos no intervalo especificado 2 sigmas de

variação, ou seja:

• 2 sigmas = 25, portanto, sigma = 12,5kg.

• Sabemos que o Erro-padrão é calculado segundo a equação 03, assim:

• Erro-padrão = s / √𝑛

• Erro-padrão = 12,5 / √30 = 2,282kg

• A média está expressa em termos de 200±2,282kg.

4. Uma empresa de seguros está analisando a variabilidade de seus preços de seguros para uma determinada

classe de risco. Ela obteve em uma amostragem de 40 apólices, um desvio-padrão de US$15,75, e pede

que seja estimada a variância da população. Faça os cálculos e determine-a.

Resposta: Pelos dados fornecidos temos:

• Desvio-padrão amostral = US$15,75

• Amostra (n) = 40

• Pela equação 08 temos: = ට𝑛−1

𝑁 . 𝑆

• Assim, = ට40−1

40 . 15,75 = 15,55

• A variância será então (15,55)2 = 241,80.

Capítulo 3 – Análise de Tendência nos Dados 33

Capítulo 3 – Análise de Tendência nos Dados

Imagine que você tenha coletado algumas amostras no seu processo e tenha se deparado com uma situação peculiar:

uma disposição linear, ou sugestivamente linear, dos dados no gráfico sequencial gerado. Sabemos que uma equação

reduzida de uma reta descrita pela equação do tipo “y = aX + b” pode ser expressa em termos de sua inclinação

(parâmetro “a” ou coeficiente angular da reta) e pelo seu intercepto linear (parâmetro “b”, ou ponto de intercepto no

eixo Y). Podemos calcular essas componentes pelos métodos algébricos aplicados aos sistemas lineares, bem como

aqui detalhar o passo a passo segundo as técnicas disponíveis na literatura. Entretanto, a melhor opção para entender

essa abordagem é a da aplicação prática.

Nos itens seguintes serão apresentados os sistemas lineares (ou de primeira ordem) e os sistemas polinomiais

(focaremos nos sistemas de segunda ordem). Em dois casos práticos, aplicados à contabilidade gerencial,

conseguiremos ver como o Excel e as técnicas matemáticas nos auxiliam na obtenção de equações representativas

do comportamento dos sistemas produtivos segundo a ótica de organização e representação gráfica dos dados.

Equações Lineares (primeira ordem)

Uma das aplicações mais clássicas dos sistemas lineares são aquelas em que a taxa de variação de uma grandeza

qualquer é constante com o tempo, ou seja, seu valor permanece invariável. Dizemos nestes casos que o sistema em

análise apresenta um comportamento linear. Para ilustrar esse comportamento, vamos abordar através de um

exemplo o que ele significa para um administrador que esteja interessado em analisar como se comportará a receita

de vendas em uma empresa.

• Comportamento Linear: se considerarmos a venda de um produto, cujo valor unitário de venda seja R$50, e

quisermos gerar um gráfico que represente a Receita de Vendas desse produto, podemos construir a

seguinte tabela e gráfico da receita de vendas:

• Estamos considerando nesta tabela 1 o fato de que o horizonte de planejamento da empresa estima vendas

entre 1 e 100 unidades do produto no período considerado. (dias, por exemplo).

• Apesar da empresa poder vender mais do que 100 unidades, ela deseja saber neste intervalo como se

comportam as vendas diárias. Para isso, traçou um gráfico com os valores da tabela, sendo o eixo X a

quantidade vendida (unidades) e o eixo Y a receita de vendas (R$).

Figura 3.01 – Gráfico de dispersão para a receita de vendas.

Unidades Receita

1 50,00R$

10 500,00R$

20 1.000,00R$

30 1.500,00R$

40 2.000,00R$

50 2.500,00R$

100 5.000,00R$


Ao observar o gráfico da figura 3.01 notamos que os pontos estão alinhados em uma reta. Para ter certeza disso, e

não apenas confiar no gráfico, cuja escala pode nos iludir quanto a isto, devemos utilizar alguns recursos matemáticos.

Sabemos que em uma reta todos os pontos estão alinhados e são crescentes ou decrescentes à uma taxa constante,

definida pela inclinação da reta. Recordando o que é uma equação de uma reta (primeira ordem), vejamos:

• Uma equação reduzida da reta pode ser representada pela equação: Y = aX + b, onde:

o a = coeficiente angular da reta;

o b = intercepto linear da reta;

• (X;Y) o par ordenado no plano cartesiano do ponto pertencente à reta.

• A inclinação da reta “a” pode ser determinada fazendo uma análise gráfica ou algébrica, pois corresponde à

tangente aos pontos pertencentes à reta, fazendo um ângulo com o eixo das abcissas (eixo X). Vamos ver

isso graficamente:

Figura 3.02 – Linha de Tendência aplicada para receita de vendas

Traçando uma reta pelos pontos da figura 3.02 anterior, e escolhendo dois pontos aleatórios (X;Y), que neste nosso

exemplo são o par (Unidades; Receita de Venda), identificados pelas setas, podemos definir a equação da reta que

foi traçada sobre os demais pontos. Lembramos que uma reta só pode ser definida quando temos pelo menos dois

pontos pertencentes a ela. Em um ponto podemos passar infinitas retas, por isso escolhemos dois. A figura 3.03

demonstra as escolhas feitas.

Figura 3.03 – Pontos e inclinação da reta definida pelo ângulo .

Relembrando os conceitos de álgebra, uma equação de reta pode ser definida através de alguns métodos, entre eles

citamos:

• Aplicando a fórmula reduzida da reta nos dois pontos, teremos um sistema de duas equações e duas

incógnitas, e com a sua resolução, encontramos os valores de “a” e de “b”. Veja:

• Para o ponto M temos que a equação reduzida da reta pode ser escrita como:

o 3.000 = a. 60 + b (onde sabemos os valore do ponto M(X1;Y1) ou M( 60; 3.000).

• Para o ponto N temos que a equação reduzida da reta pode ser escrita como:

o = a. 80 + b


(onde sabemos os valores do ponto N(X2;Y2) ou N(80; 4.000).

Assim, temos o sistema de equações:

60ª + b = 3.000 (equação 1)

80ª + b = 4.000 (equação 2)

Subtraindo a equação 2 pela equação 1, temos:

80ª +b – (60ª +b) = 4.000 – 3.000

20ª + 0 = 1.000

a = 1.000 / 20

a = 50.

Obs: note que o valor de a foi igual a 50, ou seja, é igual ao valor do preço unitário de venda do produto em questão

(R$50).

Assim, podemos determinar o valor de b, basta substituir o valor de a na equação 1 ou na equação 2, tanto faz,

obtendo:

60ª + b = 3.000

60 (50) + b = 3.000

3.000 + b = 3.000

B = 0

▪ A equação que representa os pontos M e N é: Y = 50.X + 0 ou somente Y = 50.X

▪ Como sabemos que Y é a receita de vendas e X é a quantidade vendida do produto, podemos escrever

que: Receita = 50. Quantidade Vendida do produto, ou :

o R = 50*Q

▪ Outro método é usar o sistema de determinantes, da seguinte forma:

o Uma reta “s” que passa pelos pontos (X1; Y1) e (X2; Y2) pode ser conhecida aplicando a

determinantes dos pontos. Para tanto devemos criar a matriz para essa determinação, sendo:

𝑥 𝑦 1𝑥𝑎 𝑦𝑎 1𝑥𝑏 𝑦𝑏 1

= 0

Notar que foi inserida uma nova coluna de valor unitário, para que a matriz seja “quadrada”, ou seja, o número de

colunas seja igual ao número de linhas.

Iguala-se a matriz a zero e passamos a utilizar a técnica de determinantes de forma que com isso iremos obter a

equação geral da reta definida por : aX + bY +c = 0

A regra de resolução de determinantes é a seguinte:


• Reescrevemos as duas primeiras colunas da matriz ao lado da terceira coluna, substituindo os valores dos

pontos, obtendo:

𝑋 𝑌 160 3.000 180 4.000 1

𝑋 𝑌60 3.00080 4.000

• Multiplica-se os valores das diagonais decrescentes a partir de X da primeira coluna, passando pela diagonal

de Y e pela diagonal do valor 1 da terceira coluna, somando os resultados, e em seguida subtrai pela soma das

diagonais crescentes partindo dos valores 80, 4.000 e 1, respectivamente, assim:

e

As contas são as seguintes:

[(X * 3.000 * 1) + (Y * 1 * 80) + (1 * 60 * 4.000)] – [(80 * 3.000 * 1) + (4.000 * 1 * X) + (1 * 60 * Y)] = 0

3.000 X + 80Y + 240.000 – (240.000 + 4.000X + 60Y) = 0

- 1.000X + 20Y + 0= 0

20Y = 1.000X

Y = 50 X. Obtemos, portanto, a mesma equação do método anterior:

• Receita = Preço de venda * Quantidade vendida

• R = 50 * Q

Não importando qual foi o método utilizado para obter as equações anteriores, basta analisarmos que ambas

chegaram ao mesmo resultado. Agora falta concluir sobre nosso questionamento. A reta traçada representa a reta

que passa pelos pontos da nossa tabela original? Em caso positivo devemos concluir que as retas de ambos os casos

seriam a mesma, ou seja, os pontos plotados no gráfico devem pertencer à reta encontrada. Para isso ser checado,

basta substituir os valores de X (ou quantidades vendidas) na equação de reta obtida, e verificar se o valor de Y

(Receita de Vendas) é aquele valor na tabela de dados. Sendo iguais, dizemos que a reta encontrada é a reta que

passa pelos pontos especificados na tabela inicial. Vamos conferir:

• Usando o ponto da tabela onde X=50 (vendidas 50 unidades do produto), calculamos Y (receita de vendas)

usando a equação obtida Y = 50.X. Assim, obtemos:

o Y = 50.X

o Y = 50.50

o Y = 2.500 unidades. Note que este valor é igual ao que está na tabela para X=50, ou seja, a equação da

reta usada conseguiu representar esse comportamento de vendas para 50 unidades.

Para checarmos apenas mais um ponto, fazendo o valor de X= 10 agora, temos que Y = 50.10 = 500, ou seja, R$ 500

vendidos, o que também bate com o valor da tabela para a receita de vendas de 10 unidades.

Podemos concluir assim que a reta representativa dos pontos da tabela é Y = 50.X ou Receita de Vendas = 50. Quantidade

vendida.

Fizemos todo esse “algebrismo” em detalhes apenas para demonstrar o conceito aplicado de equações de primeiro grau

(as retas) em Pesquisa Operacional, que será nossa base para estudos de Programação Linear em nosso curso.

Vamos agora interpretar o gráfico obtido à luz econômica. Podemos afirmar que:

•

Curso - ebartacademy.files.wordpress.com · Análise Exploratória de Dados Módulo 1 Eric...

Documents

Transcript of Curso - ebartacademy.files.wordpress.com · Análise Exploratória de Dados Módulo 1 Eric...

Análise Exploratória de Dados 2011/1 Variáveis Qualitativas.

Análise exploratória de hierarquias em base de dados ... · Análise exploratória de hierarquias em base de dados multidimensionais ii Nota biográfica Nuno Filipe Rufino Ferreira

ANÁLISE EXPLORATÓRIA DOS DADOS DE ABATE DE ......ANÁLISE EXPLORATÓRIA DOS DADOS DE ABATE DE LAGOMORFOS E AVES PARA CONSUMO HUMANO EM PORTUGAL ENTRE JANEIRO DE 2011 E DEZEMBRO DE

Uma Análise Exploratória de Dados Aplicado ao Mercado ...

Análise Exploratória de Dados R – LIG/09 – maio de 2008.

Análise Exploratória de Dados 2011 Aula lig-01 – 17/3 R - UMA INTRODUÇÃO.

O Professor de Matemática e a análise exploratória de ...livros01.livrosgratis.com.br/cp032761.pdf1 RICARDO CARDOSO O Professor de Matemática e a análise exploratória de dados

Como fazer Análise Exploratória de Dados com o Br.Office Calcmarcelo.menezes.reis/AEDCalc.pdf · Análise Exploratória de Dados utilizando o Calc 6 Figura 6 – Layout da tabela

ANÁLISE EXPLORATÓRIA DE DADOS (1) - antigo.enap.gov.brantigo.enap.gov.br/downloads/ec43ea4fAnalise_exploratoria_de_dados... · OBSERVAÇÕES ATÍPICAS (Outliers) Dados díspares,

Capítulo 1 - Análise Exploratória de Dados

Análise Exploratória de Dados 2006

Redes Sociais na Internet: uma análise exploratória a partir de dados do Orkut

INE 5644 – Mineração de Dados Análise Exploratória de Dados

Aula 03 Análise Exploratória dos Dados (Medidas ...

Como fazer Análise Exploratória de Dados com o Br.Office ...marcelo.menezes.reis/AEDCalc.pdf · Análise Exploratória de Dados utilizando o Calc 3 O objetivo deste texto é apresentar

Análise exploratória de dados · IntroduçãoDadosResumo de dados qualitativosResumo de dados quantitativos Análise exploratória de dados Susana Barbosa Mestrado em Ciências

ANÁLISE EXPLORATÓRIA DE DADOS R – Histograma / Medidas de Posição e Dispersão.

Análise Exploratória de Dados R – LIG/11 – 06 de junho de 2006.

Análise Exploratória de Dados Biológicos...UNIVERSIDADE FEDERAL DO ACRE - UFAC 6 Análise Exploratória de Dados Biológicos – Rogério L. Craveiro e Edcarlos M. de Souza que

Análise Exploratória de Dados R – 03 de junho de 2008.