Post on 15-Oct-2020
2
Curso
Análise Exploratória de Dados
Módulo 1
Eric Bartulici
Abril de 2020
3
Análise Exploratória de Dados
1ª Edição
2020
Eric Bartulici
Proibida a Cópia e Distribuição sem a autorização expressa do autor.
Cursos
4
Para minha amada família,
pelo suporte, pela fé e
apoio incondicional,
tornando possível esta
obra.
5
Sobre o Autor
Eric Bartulici é natural de São Paulo-SP, Engenheiro Metalúrgico e egresso da turma
de 1997/2 pela Escola de Minas de Ouro Preto / UFOP. Seu primeiro trabalho foi
como Analista Censitário pelo IBGE em 1991, e logo depois de formar trabalhou na
Indústria de Fundição Tupy, em Joinville-SC, de março de 1998 a abril de 2003,
atuando como Engenheiro de Processos nas áreas de Fundição e Moldagem,
Tratamentos Térmicos, Acabamento de Produtos e Proteção Superficial (Zincagem,
Roscagem e Inspeção de produtos). Em 2001 concluiu sua pós-graduação em Gestão
Industrial pela FGV – Fundação Getúlio Vargas, e logo em seguida certificou-se como
Black Belt Seis Sigma, tendo coordenado projetos nas Áreas de Fundição de Conexões
e Zincagem.
Em 2003 iniciou seu mestrado na Universidade Federal de Minas Gerais – UFMG, com ênfase em Metalurgia
Física com foco na obtenção de aços de alta resistência por meio de tratamentos térmicos de aços C-Mn, obtendo
elevadas resistências à tração, concluindo em 2005 o mesmo.
De volta ao mundo empresarial, de 2004 a 2014 atuou na Gerdau Açominas (Ouro Branco-MG) como Engenheiro
de Processos, Chefe de Área de Acabamento, Gerente de Logística Interna, Consultor Técnico e Coordenador de
Projetos estratégicos nas áreas de S&OP (Sales and Operation Planning), e Gerdau Template (líder de projeto
pela Logística Global), onde liderou a implantação do Projeto Global de Logística no SAP na América do Sul
(Uruguai, Argentina, Chile e Brasil).
Em 2015 foi chamado para assumir o cargo de professor EBTT no Instituto Federal de Ciência e Tecnologia de
Minas Gerais, após aprovação em concurso público, onde trabalha até os dias atuais, como docente nas áreas de
Fundição, Metalurgia do Pó, Pesquisa Operacional Metalúrgica (e como professor convidado para a turma de
Administração), Sistemas de Garantia da Qualidade e Estatística Aplicada à Engenharia , em projetos de ensino ,
pesquisa e extensão universitária.
Como ações de extensão, além do curso de Estatística Aplicada à Engenharia que foi aplicado à comunidade e
discentes do IFMG, é o autor e proprietário do Site eBart Academy, voltado para cursos à distância, notícias do
setor Mínero-Metalúrgico, para a democratização do ensino, e troca de informações e interação com a
comunidade acadêmica e empresarial, em busca do desenvolvimento da região em que atua.
Conselheiro Lafaiete, 15/04/2020
Z
6
Sumário
Capítulo 1 – Coleta e Análise de Dados ................................................................................................................. 10
Introdução ......................................................................................................................................................... 10
Categorização dos Dados................................................................................................................................... 10
A Coleta e Análise dos Dados ............................................................................................................................ 12
A Organização dos Dados .................................................................................................................................. 13
Comportamento dos Dados no Tempo ............................................................................................................. 14
Visualização Gráfica dos Dados Coletados ........................................................................................................ 15
Gráficos Sequenciais ...................................................................................................................................... 15
Gráficos de Pizza ............................................................................................................................................ 16
Gráficos de Barras / Colunas ......................................................................................................................... 16
Gráficos Combinados ..................................................................................................................................... 17
Stem and Leaf ................................................................................................................................................ 18
Histogramas ................................................................................................................................................... 19
Elaboração do Histograma no Excel .............................................................................................................. 20
EXERCÍCIOS RESOLVIDOS ................................................................................................................................... 22
Capítulo 2 – Variância nos Dados Amostrais ......................................................................................................... 25
Introdução ......................................................................................................................................................... 25
A Estatística Descritiva no Excel ........................................................................................................................ 25
O Desvio-padrão ................................................................................................................................................ 29
Teorema de Chebyshev ................................................................................................................................. 30
Exercícios Resolvidos ......................................................................................................................................... 30
Capítulo 3 – Análise de Tendência nos Dados ....................................................................................................... 33
Equações Lineares (primeira ordem) ................................................................................................................ 33
Equações Polinomiais (segunda ordem) ........................................................................................................... 37
Análise de Tendência e Correlação ................................................................................................................... 42
Regressão Linear Simples .................................................................................................................................. 43
Estimativas de Erro na Regressão ...................................................................................................................... 48
Exercícios Resolvidos ......................................................................................................................................... 49
Capítulo 4 – Regressões Lineares Usando o Excel. ................................................................................................ 53
Introdução ......................................................................................................................................................... 53
Habilitando o SOLVER ........................................................................................................................................ 53
Utilizando o Solver em Regressões Lineares ..................................................................................................... 54
Métodos de Análise de Regressão com o Excel ................................................................................................ 55
Análise de Resíduos de Regressão ..................................................................................................................... 57
7
Regressão Linear Múltipla ................................................................................................................................. 58
R-Múltiplo .......................................................................................................................................................... 61
Exercícios Resolvidos ......................................................................................................................................... 61
Bibliografia Consultada ...................................................................................................................................... 67
8
Prefácio
Esta obra é parte de um projeto maior, iniciado neste ano de 2020, após ter iniciado, no último ano, um curso
de extensão universitária para os alunos dos cursos de graduação de Engenharia Metalúrgica e de Administração
do Instituto Federal de Ciência e tecnologia de Minas Gerais – IFMG). Na verdade, ela remonta de anos
anteriores, onde ainda atuava no setor privado, trabalhando na empresa Gerdau – Usina Ouro Branco como
Consultor Técnico e Coordenador de Projetos, onde já planejava os anos nos quais iria atuar no ensino e na
elaboração de obras didáticas na área de engenharia, estatística e gestão.
Em 2019 foi dado o primeiro curso de estatística aplicada. Ofertei o curso “Estatística Aplicada à Engenharia”
para alunos e comunidade de Ouro Branco e região, ampliando o escopo e abrangência da atuação como
educador e servidor público federal. Tal iniciativa veio do entendimento de inadiável tarefa, e o do dever, de
levar à população um ensino sintonizado com as demanda atuais de formação do engenheiro e administradores
para as empresas, inseridas em um mercado amplamente competitivo e que demanda resultados cada vez mais
estáveis, sustentáveis e de qualidade superior, habilitando não só a continuidade empresarial e a sua expansão,
mas principalmente, a preparação de profissionais competentes e capazes de aturem e crescerem
profissionalmente neste ambiente.
O primeiro módulo, Análise Exploratória de Dados, é a preparação inicial para os demais que virão ao longo dos
próximos meses. Os objetivos deste módulo, em linhas gerais são:
• Capacitar o aluno a uma abordagem quantitativa e qualitativa dos dados amostrais, permitindo-o
analisar e propor ações nos processos onde atue.
• Levar ao aluno o entendimento do poder e amplitude da ferramenta estatística aplicada aos processos,
permitindo um trabalho de maior relevância e conteúdos superiores com foco em resultados superiores.
• Inserir esta área do conhecimento ao mundo do gestor, seja ele engenheiro ou administrador,
permitindo dar à gestão da rotina ou da melhoria nas empresas as bases para a análise metodológica e
científica.
Ao longo dos quatro capítulos, o estudante encontrará uma teoria aplicada, com apoio de exercícios propostos
e resolvidos, além de screencastings e vídeos disponíveis no canal do YouTube do curso, que reforçam o ensino
e dão visibilidade à prática, acelerando a compreensão dos tópicos apresentados no material didático em pdf.
Com a realização dos exercícios propostos o aluno estará habilitado a entrar no mundo da solução estatística de
problemas com uso de soluções básicas computacionais, e assim, abrir o horizonte de formação posterior nas
ciências estatísticas e matemáticas, tão indispensáveis para o mundo dos profissionais da área de exatas e
também Sociais Aplicadas.
Espero que aproveitem e gostem do conteúdo, que desde já se tornam abertos á melhoria contínua, revisões
pelos colegas e clientes, e que serão prontamente disponibilizadas pelos meios digitais propostos pela eBart
Academy, e assim, desde já, agradeço a todos pela prestimosa contribuição!
Eric Bartulici
Abril/2020
9
“Sem dados você é uma pessoa qualquer com uma opinião.”
Willian Edwards Deming
(1900 – 1993)
Capítulo 1 – Coleta e Análise dos Dados 10
Capítulo 1 – Coleta e Análise de Dados
Introdução
No mundo atual encontramos a crescente necessidade de se aprender a não só levantar dados de operações
bancárias, governamentais, etc, como também aprender a organizá-los e então obter valiosas informações para o
gerenciamento dos processos produtivos e prestação de serviços com a análise estruturada dos resultados, sejam
eles descritivos ou gráficos.
Vemos surgir neste século a demanda por profissionais que atuarão em meio às revoluções digitais, da Internet das
Coisas (IoT – Internet of Things), experts em Big Data, ou ainda de profissionais da Tecnologia da Informação, em
busca de atender à irreversível tendência de automação e controle de processos e Serviços à população, demandados
pelos governos ou do setor privado.
Neste capítulo iremos abordar a importância do levantamento de dados, a sua estruturação para adequar à aplicação
desejada, bem como a sua tratativa necessária para gerar informações úteis ao analista e público em geral.
Finalizaremos o mesmo abordando a elaboração de gráficos no Excel, capazes de ilustrar bem o conteúdo gerado
pelos dados, permitindo ao usuário uma visão mais ampla do conteúdo prático dos dados coletados, permitindo assim
a tomada de ações para otimizar seus produtos, processos e serviços.
Categorização dos Dados
As publicações sobre coleta e análise de dados são inúmeras, sejam aquelas das áreas de estudos estatísticos ou
das áreas de engenharia, administração, informática e automação de processos. Em meio a esse turbilhão de dados
que naturalmente nascem dos processos, surge a necessidade de categorizar os dados, ou seja, agrupá-los em
determinados critérios, classes e subclasses, que permitam compará-las entre si e ainda determinar ações específicas
de controle, gerenciamento e otimizações. Sem os dados, não gerenciamos os processos de forma satisfatória. Pelo
menos, não cientificamente... sabemos da história as grandes evoluções nas atividades humanas, mesmo não sendo
todos de cunho científico, muitas foram conseguidas em civilizações que, no processo de tentativa e erro, geraram
grandes e respeitáveis resultados. Entretanto, em um mundo de elevadíssima competitividade, não há espaços para
erros renitentes, que gerem perda de competitividade, em qualquer campo de atuação. Vemos nos esportes como
nas indústrias a utilização de softwares cada vez mais complexos e precisos, gerando informações que permitem a
superação de metas, a construção de novos e mais desafiadores objetivos para todos.
Categorizar dados significa em muitos casos tabulação. Organizá-los em tabelas com linhas e colunas suficientes e
adequadas ao nível de estratificação de dados que se queira chegar. E não mais que isso... devemos primar pela
minimização de controles, apenas controlar e relacionar as informações que sejam úteis ao propósito desejado.
Exceder no nível de informação significa dispêndio de energia desnecessária, pois serão bits gerados sem utilidade,
ou de reduzida importância para o processo (isso significa custo!). Quanto custa o armazenamento de dados no seu
computador pessoal?
Em seu livro “A Qualidade Desde o Projeto”, J. M. Juram1 explica em seu quinto capítulo a necessidade de provermos
medições em todas as etapas dos planejamentos dos processos em busca de garantir a qualidade superior de nossos
produtos e processos. O autor correlaciona a maior precisão necessária para a comunicação de informações
referentes à qualidade à estruturação de uma “comunicação numérica”. Para tanto, Juran assume a necessidade de
se criar um sistema de medições, que consiste em:
• Estabelecer uma unidade de medida: a define como sendo uma “quantidade definida de alguma
característica de qualidade, que permita avalia-la em números”, como horas nas prestações de serviços em
kilowatts gastos na execução de uma operação de máquina, etc...
Capítulo 1 – Coleta e Análise dos Dados 11
• Utilizar um sensor: seria um método ou um instrumento para se avaliar o processo ou produto e traduzi-los
em números, ou seja, em unidades de medida úteis, como um relógio ou cronômetro para as horas, ou um
termômetro ou termopar para as temperaturas, cada qual com sua precisão e adequação ao rigor de
mensuração.
É comum nos estudos de melhoria contínua de processos se determinar quais informações são críticas para os
processos e produtos, e como se estabelecem seus controles operacionais. São atribuídas as classes de variáveis de
processos, de acordo com a sua área de geração e necessidade de controle. Cada processo terá seu conjunto de
variáveis a serem controladas ou verificadas periodicamente, na tentativa de com esta prática estabelecer um maior
nível de resultados, ou seja, maximizar os ganhos empresariais com a redução contínua de perdas e retrabalhos,
elevando as atividades que agregam valor ao produto eliminando ou reduzindo aquelas que não agregam e, até
mesmo, destroem valor na empresa. Este é um campo altamente explorado pela metodologia Lean, surgida e
desenvolvida amplamente na Toyota no século passado (Lean Manufacturing)2.
As variáveis podem ser classificadas em conformidade com o que é mostrado na figura 1.1 a seguir:
Figura 1.1 – Classificação geral das variáveis qualitativas e quantitativas.
Chamamos de variáveis qualitativas aquelas variáveis que se enquadram em classes não mensuráveis por escalas
métricas contínuas, mas são perfeitamente agrupadas segundo critérios objetivos por similaridade de características
intrínsecas dos materiais, ações ou categorias (por isso também conhecidas como categóricas). Já as variáveis
quantitativas são aquelas que podem ser mensuradas quantitativamente por escalas ou valores numéricos
racionalmente determinados para a relativização de suas grandezas, podendo assumir qualquer valor entre os
números reais.
As escalas de medição podem permitir uma leitura contínua, como no caso dos comprimentos, das horas, dos pesos,
etc, conhecidas como variáveis contínuas, e que surgem naturalmente do processo de medição. Para as variáveis
que não obedecem a uma escala contínua de medidas, mas são agrupadas segundo critérios de enumeração, como
as contagens de unidades, ou múltiplos de grandezas, como lotes, kits, conjuntos, unidades de produtos, etc... são
denominadas de variáveis discretas. A figura 1.2 exemplifica estas variáveis em questão:
Figura 1.2: variáveis discretas (contagem de itens) e variáveis contínuas (distância percorrida)
No campo das classificações das variáveis nominais estão as variáveis do tipo sim/não, passa/ não-passa, zero/um,
aprovado/reprovado, escolhas múltiplas entre opções, como meio de informação que o leitor utiliza como Revista,
jornal, internet, tv, etc..., ou seja, critérios ditos binários ou múltiplos objetivos, agrupando em duas classes todos os
itens avaliados. Por outro lado, podemos classificar as variáveis ordinais como sendo aquelas que permitem sua
enumeração em ordem crescente ou decrescente segundo escalas estabelecidas, como aquelas de classificação de
riscos alto, médio ou baixo, ou da Standard & Poors na classificação de riscos de investimento (AAA / AA / A / BBB /
BB / B ...). A figura 1.3 exemplifique estes dois tipos de variáveis em questão:
Capítulo 1 – Coleta e Análise dos Dados 12
Figura 1. 3: variáveis nominais binárias. Fonte: adaptado de “O Globo”.
O leitor deve notar que há inúmeras possibilidades de organizações ente estes tipos de classificações, combinações
em diferentes níveis de relações ente elas. Não é menos importante o estudo e prática das técnicas de organização
de dados em tabelas. Esta é uma prática altamente recomendável para a estruturação dos dados, organizando-os
segundo as classificações desejadas pelo usuário, permitindo uma visualização global das informações geradas pela
coleta de dados. Vamos abordar agora a etapa de coleta de dados antes de entrar no mérito da estruturação de
tabelas e seus tipos básicos.
A Coleta e Análise dos Dados
A coleta de dados é naturalmente uma atividade excitante os pesquisadores no início dos seus trabalhos, seduzidos
pelo senso de urgência que devemos ter na condução dos projetos de pesquisa. Entretanto, há uma etapa anterior
muito mais importante do que se arvorar aos processos em busca de dados desejados para análise: definir quais
dados são necessários e preciso coletar! Somente após esta etapa devo coletar os dados desejados, uma vez que
agora já sei sobre sua forma e classificação (grandezas a serem medidas, instrumentos, aspectos qualitativos a serem
estabelecidos ou não, etc...).
É necessária a escolha de uma fonte confiável de dados, não só nas medições (aferições de instrumentos), mas
também na determinação das classes e níveis necessários ao agrupamento dos dados. Sem isso, a próxima etapa
não poderá ser feita corretamente, que é a sumarização dos dados, organizando-os em grupos racionais criteriosos,
para que possamos visualizar o “conjunto da obra”, e assim, permitir analisá-los. Em resumo, na figura 1.4 estão as
etapas que devem ser seguidas minimamente na atividade de coleta e análise de dados:
Pyzdek3 sugere que a análise exploratória de dados tem basicamente duas grande etapas:
• A fase Exploratória de Dados.
• A fase Confirmativa dos Dados.
O autor afirma que todo cientista de dados deve trabalhar realmente como um detetive de dados, e que, antes mesmo
de coletar as primeiras amostras (trial data) devemos examinar inteiramente e exaustivamente evidências dos dados,
ou seja, suas fontes, estruturas, apontamentos, veracidade, precisão, etc... Explorar os dados e então confirma-los,
dando garantias de que os dados trarão confiabilidade às análises e ao futuro processo decisório.
Apesar de já lidarmos com dados de processos há muitos anos, o tema da Análise Exploratória de Dados já fez vários
“aniversários”. Atribui-se a John W. Tukey, na Universidade americana de Stanford, as primeiras publicações e
palestras sobre o tema4. Vamos agora abordar as técnicas de organização dos dados.
Capítulo 1 – Coleta e Análise dos Dados 13
A Organização dos Dados
A estruturação dos dados coletados é uma etapa de suma importância para iniciarmos a análise dos dados coletados.
Uma boa organização dos dados nos permitirá reduzir o tempo de análise e portando, da tomada de decisão. Há
diversos recursos para a execução desta atividade, graças à evolução dos aplicativos, softwares e técnicas da
tecnologia da informação. Vamos resumir aqui aquelas que são aplicáveis em escala simples, sejam manuais ou com
o suporte de uma simples planilha eletrônica (disponíveis nos softwares comerciais como Excel, Calc, Origin, Minitab,
etc...), que são soluções que permitem boa velocidade e praticidade de organização dos dados. No Excel por exemplo,
podemos gerar tabelas dinâmicas que são uma Excelente solução para a tratativa do problema de organização dos
dados. Vamos dar um exemplo, considerando os dados coletados na Tabela I a seguir (reduzida graficamente por
razões óbvias...). Nela, note o leitor que não há a menor possibilidade de se tirar uma conclusão direta e rápida da
tabela levantada com tamanha quantidade e variedade de dados (salvo o caso da superdotação de faculdades
intelectuais, claro!), pois a mesma é um extrato resumido de uma coleta de 999 dados de reduzida apropriações de
Figura 1.4 – Fluxo de Coleta e Análise de dados.
custos, despesa a despesa com os valores gastos pela área responsável pelo centro de custo em questão (CEO /
Diretoria / Gerência e Operação). Várias perguntas podem ser derivadas desta tabela, como por exemplo:
1. Qual é a classe de maior apropriação de despesas entre as apresentadas na tabela? Quanto?
2. Qual centro de custo na empresa como um todo tem o maior desembolso financeiro?
3. Qual é o principal grupo de conta detalhado por classes em débitos totais?
Tabela I – Exemplo de dados coletados no sistema de custos de uma empresa.
Capítulo 1 – Coleta e Análise dos Dados 14
Para poder responder estas perguntas, o administrador deveria trabalhar a tabela e seus dados contidos para
estratificar os dados em uma análise vertical, estruturando do item desejado na pergunta para os níveis mais
detalhados em sequência, como por exemplo, apresentando as seguintes sequências de estratificação:
i) Classe > Grupo > Centro de Custo > Valor
ii) Centro de Custo > Valor
iii) Grupo > Classe > Valor
O diretor pode querer saber mais, como por exemplo, em qual área o custo está estourando ou não? Uma nova
tratativa de dados permite realizar esta observação, mas não antes de se aumentar o nível de “quebra” das
informações da tabela pela área contábil (Classe, na tabela I), inserindo novo campo de pesquisa que é o valor orçado
por centro de custo, por classe e por grupo! Como veem, as coisas vão se complicando à medida que aumentamos o
nível de detalhamento desejado... isso requer mais tempo de coleta, tempo de estruturação dos dados e tempo de
análise... portanto, custo de análise do pessoal envolvido nesta atividade. Não há como não se executar, desde o
início do processo de planejamento de coleta dos dados, o alinhamento de objetivos de resposta com esta atividade,
evitando perdas de tempo ou retrabalhos desnecessários e indesejáveis.
Comportamento dos Dados no Tempo
Em muitas situações serão necessárias outro tipo de abordagem, que permita avaliar como uma variável se comporta
não só em uma amostra, mas também o seu comportamento com o tempo no qual a atividade se processa. A análise
de Séries Temporais da estatística nos permite uma abordagem quantitativa superior, se comparado aos gráficos de
resumo de dados, dado a utilização de maior quantidade e visualização sequencial dos dados coletados. O Gráfico
da figura 1.5 mostra como se comportou o preço médio da tonelada de aço ao longo dos anos (mar-2000 a mar 2020).
O gráfico nos permite ver períodos de alta e de baixa no preço, bem como as oscilações de valor ocorridas no período,
que são informações extras que não teríamos se apenas analisássemos a tabela de dados coletados.
Figura 1.5 – Séries temporais para o preço da tonelada de aço bruto.
Fonte: https://www.indexmundi.com/pt/pre%C3%A7os-de-mercado/?mercadoria=min%C3%A9rio-de-ferro&meses=240
ID Grupo de Conta Classe Centro de Custo Valor Apropriado (R$)
1 Viagens Diretoria 2205 12.420,23R$
2 Refeições Gerência 1007 1.927,54R$
3 Salários Operação 990 90.523,93R$
4 Seguros CEO 1149 9.990,00R$
. . . .
. . . .
. . . .
997 Transportes Gerência 1010 5.875,28R$
998 Escritório Operação 750 4.925,05R$
999 Bônus CEO 1109 112.005,79R$
https://www.indexmundi.com/pt/pre%C3%A7os-de-mercado/?mercadoria=min%C3%A9rio-de-ferro&meses=240
Capítulo 1 – Coleta e Análise dos Dados 15
As observações quando arranjadas graficamente de forma sequencial (time series plotting) favorecem as análises de
previsão (time series forecasting), como aquelas usadas à exaustão nas Bolsas de Valores, agências financeiras, ao
expressarem os seus índices em termos transacionais temporais, com vistas a determinação de valores futuros dos
mesmos5.
Como o leitor verá, ao longo dos módulos deste curso, o conhecimento dos dados, suas classes e métricas serão de
suma importância para o estabelecimento matemático e estatístico dos modelos para gerenciamento que serão
apresentados futuramente.
Visualização Gráfica dos Dados Coletados
A forma mais útil de se analisar dados numéricos é a sua exibição gráfica. Há inúmeros tipos de gráficos disponíveis
para se realizar esta tarefa, entretanto, não há uma forma aconselhável única e definitiva, mas sempre aquela que se
adequa a sua necessidade temporal.
Entre os tipos de gráficos e diagramas mais utilizados, podemos citar os seguintes:
• Gráficos Sequenciais
• Gráficos Tipo Pizza
• Gráfico de Barras
• Gráficos Combinados
• Diagrama de Pareto
• Etc...
A esta altura você deve estar se perguntando: qual a diferença entre gráficos e diagramas? Sendo ortograficamente
correto, gráficos são representações visuais de números de forma estruturada no plano cartesiano para facilitar sua
compreensão. Já por diagramas entende-se como sendo as representações gráficas de objetos por meio de linhas,
traçados, delineamentos ou esboços. Portanto, o nome Diagrama de Pareto estaria errado? Não necessariamente
como veremos, já que para os que já o conhecem há uma dupla interpretação nominal, visto que no mesmo há
representações numéricas em eixos coordenados, e também o percentual acumulado, que seriam traços ou linhas
que representam os valores acumulados dos percentuais individuais das classes representadas nele. Lembramos que
no passado, não havia computadores para realizar esta tarefa, e, portanto, o nome mais apropriado era Diagrama de
Pareto, visto que se tornava quase uma arte traçá-lo para os estudos numéricos mais complexos, pois eram feitos à
mão! Em homenagem aos seus precursores, trataremos aqui como Diagramas de Pareto.
Gráficos Sequenciais
Os gráficos sequenciais são mais indicados para visualização de dados que representam uma sequência lógica da
atividade em avaliação, sob a qual foram coletados os dados. São reconhecidamente úteis para os eventos temporais,
onde a ordem de análise importa no estudo. Veja o exemplo na figura 1.6.
Figura 1.6 – Exemplo de gráfico sequencial, relativo à produção horária média por dia de trabalho.
Capítulo 1 – Coleta e Análise dos Dados 16
Os gráficos sequenciais podem ser elaborados no Excel a partir dos modelos de gráfico chamados “Dispersão”,
como veremos adiante. A vantagem de se elaborar esses gráficos a partir dos pontos isolados e depois ajustados
por linhas de tendência, é que admitimos equações de retas ou curvas que passando pelo ponto médio entre os
pontos permitem uma interpretação e representação matemática superior. Há modelos prontos disponíveis no Excel
que agilizam a elaboração dos gráficos e rápida análise dos dados coletados.
Outra aplicação conceitual, com as devidas adequações estatísticas, é a elaboração de cartas de controle estatístico
(CEP), que partem do conceito de plotagem temporal dos dados amostrais e permitem uma tratativa estatística
adequada para a análise de estabilidade dos processos produtivos.
Gráficos de Pizza
Os gráficos de pizza são comumente usados para visualizar a distribuição percentual ou quantitativa de itens
categorizados que foram analisados dentro de uma certa amostra. Isso se dá considerando que toda a sua
circunferência possui 100% dos dados totais e cada “fatia” representada possui a sua cota numérica ou percentual
desse total. Permite a visualização da categoria mais importante pela maior “fatia” de seu total, e outras menores até
a menor, sucessivamente. Veja o exemplo:
Figura 1.7 – Exemplo de gráfico sequencial, relativo à produção horária média por dia de trabalho.
Os gráficos de Pizza precisam de uma tabela de dados resumida, de forma a representar as quantidades nominais e
seus percentuais relativos.
Gráficos de Barras / Colunas
Estes gráficos são indicados para a visualização de montantes das categorias em uma escala comum de valores entre
as categorias, permitindo visualizar qual dos itens apresenta maior valor para esta categoria analisada dentre os
demais itens representados. Veja o exemplo:
Figura 1.8 – Exemplo de gráfico de colunas com dados de despesas ordenados pela coluna “item”.
Composição de Custo UnitárioItem Custo (R$) %
Vidros 220,00R$ 44%
Madeiras 190,00R$ 38%
Ferragens 45,00R$ 9%
Verniz 29,00R$ 6%
Silicone 15,00R$ 3%
Total = 499,00R$ 100%
Vidros; R$ 220,00
; 44%
Madeiras; R$
190,00 ; 38%
Ferragens; R$
45,00 ; 9%
Verniz; R$ 29,00 ; 6% Silicone; R$ 15,00 ; 3%
Custo Unitário (%)
Vidros Madeiras Ferragens Verniz Silicone
Item Despesa (R$)
Alimentação 1.200,00R$
Educação 850,00R$
Habitação 1.000,00R$
Trasnportes 600,00R$
Saúde 990,00R$
Viagens 450,00R$
Reservas 500,00R$
Total Despesas = 5.590,00R$
Orçamento Mensal
R$ -
R$ 200,00
R$ 400,00
R$ 600,00
R$ 800,00
R$ 1.000,00
R$ 1.200,00
Alimentação Educação Habitação Trasnportes Saúde Viagens Reservas
Despesa (R$) R$ 1.200,00 R$ 850,00 R$ 1.000,00 R$ 600,00 R$ 990,00 R$ 450,00 R$ 500,00
De
spe
sa M
en
sal (
R$)
Despesa (R$)
Capítulo 1 – Coleta e Análise dos Dados 17
Na figura 1.9 as colunas não ficaram ordenadas por tamanho, pois a tabela estava ordenada por ordem alfabética dos
itens de custo. Ordenando a tabela agora pelos valores decrescentes do orçamento, teremos, de forma mais agradável
visualmente:
Figura 1.9 – Exemplo de gráfico de colunas reajustado por ordem decrescente de valores plotados.
Poderíamos expressar o mesmo gráfico acima na forma de barras, no caso de querer visualizar os dados de forma
mais “limpa” na tela, obtendo:
Figura 1.10 – Exemplo de gráfico de barras, por ordem decrescente de valores de despesa.
Gráficos Combinados
Estes gráficos são especiais, e que podem apresentar dois eixos verticais com escalas diferentes para a representação
de mais de uma variável no mesmo espaço gráfico. São úteis para representar o efeito de uma mesma variável (eixo
X) em suas grandezas (variáveis Y nos eixos verticais esquerdo e direito).
Podem ser construídos com barras, linhas, pontos ou combinações entre eles. Veja o exemplo:
Figura 1.11 – Exemplo de gráfico de duplo eixo (combinados), com grandezas distintas para uma mesma relação no eixo x
(quantidades produzidas).
Item Despesa (R$)
Alimentação 1.200,00R$
Habitação 1.000,00R$
Saúde 990,00R$
Educação 850,00R$
Trasnportes 600,00R$
Reservas 500,00R$
Viagens 450,00R$
Total Despesas = 5.590,00R$
Orçamento Mensal
R$ -
R$ 200,00
R$ 400,00
R$ 600,00
R$ 800,00
R$ 1.000,00
R$ 1.200,00
Alimentação Habitação Saúde Educação Trasnportes Reservas Viagens
Despesa (R$) R$ 1.200,00 R$ 1.000,00 R$ 990,00 R$ 850,00 R$ 600,00 R$ 500,00 R$ 450,00
De
spe
sa M
en
sal (
R$)
Despesa (R$)
Quantidade Peso Rendimento
100 2.495 89
250 6.200 92
500 12.000 91
750 18.750 94
1.000 25.000 93
1.250 31.250 95
1.500 37.500 9586
87
88
89
90
91
92
93
94
95
96
-
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
100 250 500 750 1.000 1.250 1.500
Re
nd
ime
nto
(%)
Pe
so (
kg)
Quantidade Produzida (Unidades)
Peso (kg) x Rendimento (%)
Peso Rendimento
Capítulo 1 – Coleta e Análise dos Dados 18
Entre os gráficos citados, resta abordar o Diagramas de Pareto, o que deixaremos para mais a frente onde serão
abordados no capítulo 3.
A visualização de dados numéricos permitiu um grande avanço na interpretação de dados numéricos estatisticamente
trabalhados na indústria e na sociedade em geral. Com eles podemos entender melhor o comportamento de
indicadores muito utilizados nos estudos acadêmicos e empresariais.
Muitos são os tipos e formatos, entretanto citaremos aqui alguns, já nos preparando para o capítulo 2, onde os
utilizaremos em maior intensidade, e que são, sem dúvida, muito importantes para os atuais e também futuros
engenheiros, administradores e estatísticos no mercado.
Stem and Leaf
Estes diagramas de visualização de dados são conhecidos como Diagramas Ramo e Folha, sendo os dados
organizados em grupos (os ramos) e em valores de cada grupo (as folhas). Com esta organização, permite-se a
análise de em quais grupos os dados estão mais concentrados, nos dando uma nossa de “Densidade de Distribuição”.
Exemplo 1.1
Considere os seguintes dados coletados, a respeito de um indicador que registra as perdas de alimento nos pratos de
clientes de um restaurante (Resto Ingesta), onde tem como saída a amostragem de vários pratos (peso em gramas)
com sobras em um dia de coleta:
94; 141; 51; 84;19; 71; 60; 72; 104; 62; 28; 82; 45; 129; 77; 50; 90; 65; 49; 71; 83; 69; 73; 52; 64; 76; 87.
Para elaborar o diagrama Stem and Leaf procedemos da seguinte forma:
i. Em uma primeira coluna colocamos o valor dos decimais das amostras (ou centenas), partindo do menor para
o maior valor decimal. No nosso exemplo, a amostra de menor valor em peso é 19 e a maior é 141 gramas.
Assim, vamos ordenar em uma coluna valores de 10 a 140.
ii. Nas demais colunas à direita da primeira, vamos preenchendo com os números das unidades, em ordem de
ocorrência, até esgotarem os números da amostra. Por exemplo, o primeiro número da amostragem, 19, estará
na linha da dezena 10 e à direita escreve-se o número da unidade 9. Para o Número 60, escreve-se zero ao
lado direito do número 60, e assim sucessivamente.
Assim, obtemos o diagrama:
Figura 1.12 – Diagrama Stem and Leaf para o Resto Ingesta.
Note que poderíamos escrever o ramo em ordem crescente de 1 a 14 apenas, que o efeito final seria o mesmo
visualmente... a informação importante que o diagrama traz é que os dados dos pesos médios de Resto Ingesta estão
em torno de 70 gramas. Para saber o valor médio correto, devemos usar as técnicas estatísticas, que abordaremos
no capítulo 3. Para o empresário neste momento não necessitaria um valor mais confiável, mas já pode estimar o
comportamento do indicador de sobras nos pratos após refeições e o quanto de peso ele está em média descartando
10 9
20 8
30
40 5 9
50 1 0 2
60 0 2 5 9 4
70 1 2 7 1 3 6
80 4 2 3 7
90 4 0
100 4
110
120 9
130
140 1
Capítulo 1 – Coleta e Análise dos Dados 19
diariamente, bastando multiplicar o valor médio estimado pelo número de pratos servidos naquele dia. Da mesma
forma poderia estimar o peso médio de pratos pesados pelos clientes no dia de trabalho. Para estimativas mais
precisas aconselha-se a utilização de análises de médias, medianas e variância dos dados amostrais, através das
metodologias estatísticas.
Histogramas
Ao analisarmos o diagrama Stem and Leaf, vemos que há uma relação de frequências de ocorrência de alguns valores
em torno de valores médios, visualmente observáveis no diagrama anterior (figura 1.12). Uma nova forma de relacionar
estas frequências foi desenvolvida pelos estatísticos em forma de um gráfico de barras, onde no eixo Y relacionam-
se as frequências relativas para algumas classes observáveis, sendo estas últimas expressas no eixo X. Assim, para
cada variação entre essas classes apontam-se os valores nelas contidos de forma cumulativa, levando a obter-se
maiores barras no gráfico para as classes mais presentes nas amostras levantadas, tendo assim, por consequência,
que estas representariam as classes mais frequentes na amostra estudada. Vamos ver esse exemplo:
Exemplo 1.2
Neste exemplo, foram coletados em um restaurante os pesos dos pratos que continham sobras de comida após a
refeição, o chamado Resto Ingesta. A amostragem se deu aleatoriamente ao longo do serviço em um mês de
atendimento, tendo gerado os seguintes dados (pesos em gramas):
Para a elaboração dos histogramas devemos determinar as classes que comporão a base do gráfico. Há algumas
sugestões de regras de elaboração, mas esta é livre ao usuário, devendo se preocupar em não ter uma quantidade
mínima que prejudique a análise (visualização de uma dispersão nem tão larga, a ponto de gerar apenas uma
observação por classe, e nem tão curta, a ponto de gerar em uma única classe todas as observações). Está disponível
no material do curso um screencasting para visualizar a elaboração deste histograma, com explicação do passo a
passo.
SC Ex. 01.01 - Resto Ingesta
Figura 1.13 – Histograma para o Resto Ingesta
As classes presentes no eixo X foram obtidas por critérios aleatórios, mas em geral, podem ter a quantidade de classes
determinadas ou estimadas pela raiz quadrada do tamanho da amostra (n), no nosso caso, pela raiz quadrada de 23
amostras, o que daria, arredondando, para 5 classes. Como o menor valor era 19 e o maior valor 141, escolhemos
94 141 51 84 19 71 60 72 104 62 28 82 45 129 77 50 90 65 49 71 83 69 73
Capítulo 1 – Coleta e Análise dos Dados 20
varia de 30 em 30 gramas, obtendo as cinco classes necessárias. Após esta escolha, bastou contar quantos valores
de amostras estão com valores abaixo de 30 (ou de zero a 30), e obtemos apenas duas amostras (a de valor 19 e de
valor 28). A próxima classe vai de 31 a 60. Depois de 61 a 90, e assim, sucessivamente. Uma vez determinadas as
quantidades de números em cada classe, fazemos o gráfico, marcando a altura da coluna como sendo o número
encontrado em cada classe. No Excel podemos elaborar o histograma, mas com alguns ajustes.
Elaboração do Histograma no Excel
No Excel, primeiramente temos que digitar em uma coluna os números amostrados. No nosso caso, os 23 números
de restos na bandeja dos clientes do restaurante. Uma vez completada a etapa inicial, escolhemos as classes para as
quais elaboraremos o histograma, e ao lado dos valores amostrados, digitamos nova coluna com as classes escolhidas
(estas serão nosso eixo x do histograma). Agora o resto é com o Excel. Para iniciar o histograma, faça o seguinte
passo-a-passo:
• Passo 1: Ao lado da coluna com os dados digitados, escolha as classes necessárias e digite-as em de acordo
com seu critério de formação escolhido. Como havia sido relatado anteriormente, as classes seriam 30, 60,
90, 120 e 150, pelos critérios adotados no exemplo.
• Passo 2: agora, em Dados, escolha a ação “Análise de Dados”, em histograma e clique em OK.
• Passo 3: ao clicar em Ok, abrirá a seguinte caixa de diálogo:
O preenchimento deverá seguir as seguintes orientações:
• Em Intervalo de entrada, preencha com o intervalo nos quais estão as amostras coletadas. No caso do
exemplo, foram as células $C$2 a $C$24, portanto, com os 23 números amostrados.
• Em intervalo de bloco, preencha com o intervalo onde digitou as classes escolhidas (de 30 a 150), que no
exemplo foram as células de $E$6 a $E$10. Caso você não deseje escolher as classes, deixe em branco
este campo, o Excel determinará automaticamente para você.
• Em intervalo de saída, escolha qualquer área de qualquer tamanho para sair os dados, e o Excel escolherá
o tamanho necessário e adequará seus limites.
• Marque as caixas de diálogo Pareto, Porcentagem cumulativa e resultado gráfico.
Capítulo 1 – Coleta e Análise dos Dados 21
Os resultados do Excel, serão os seguintes:
Tabela do Histograma
Há uma opção de se determinar apenas a frequência para uma análise inicial através do Excel. É a função:
“=FREQUENCIA(matriz_dados;matriz_bin)”,
onde :
• a matriz de dados é a coluna na qual estão os dados amostrados, sem o rótulo, e
• a matriz_bin é a sequencia dos valores de bloco, ou seja, a base do histograma ou eixo X que você
determinou.
Para o exemplo 1.1, temos a saída gráfica para o histograma dos dados fornecidos (figura 1.14):
Figura 1.14 – Histograma Classificado (padrão gerado pelo Excel), sem ordenamento de classes.
Na verdade este é um Pareto gerado pelo Excel.
Note que o histograma classificado não está da mesma forma que o histograma apresentado anteriormente na figura
1,13, pois se reparar, no eixo das classes, os números não estão ordenados do menor para o maior. Corrigindo-se
esta questão, o gráfico será igual ao da figura 1.14. Este gráfico não é um histograma, e sim, um Pareto! Há nele as
frequências acumuladas e, portanto, obteríamos o histograma tradicional fazendo no Excel apenas um gráfico
utilizando as colunas “Bloco” e “Frequência” da tabela de histograma acima, gerada pelo Excel.
Uma vez introduzidos os principais gráficos mais usuais para uma primeira visualização dos dados coletados, estamos
preparados para dar sequência aos demais temas. Não se esgotam aqui os tipos de gráficos, mas estes serão os
necessários nessa etapa. À medida que os módulos do curso forem estudados, outros serão apresetnados e
estudados.
Para uma fixação do conteúdo, só tem um jeito senhores: Hands On! Mãos à obra!! Segue agora alguns exercícios
para seu estudo e elaboração, com as respostas e screencastings disponíveis no material do curso.
Bloco Freqüência % cumulativo Bloco Freqüência % cumulativo
30 2 8,70% 90 12 52,17%
60 5 30,43% 60 5 73,91%
90 12 82,61% 30 2 82,61%
120 2 91,30% 120 2 91,30%
150 2 100,00% 150 2 100,00%
Mais 0 100,00% Mais 0 100,00%
Capítulo 1 – Coleta e Análise dos Dados 22
EXERCÍCIOS RESOLVIDOS
Instruções:
Para o melhor andamento dos estudos, sugere-se os seguintes passos:
1. Identifique o código do exercício resolvido.
2. Verifique a sua disponibilidade no material do curso, no formato de screencasting.
3. Leia o enunciado e em seguida assista à resolução.
4. Faça novamente usando os recursos apresentados.
5. Em caso de dúvida, intercale a revisão do screencasting com o texto explicativo.
OBS: Os exercícios a seguir estão com as soluções disponíveis em screencasting no material do curso (código
relacionado no enunciado de cada exercício).
01. (SC01.01) Com base nos dados fornecidos, organize-os e elabore um gráfico tipo Pizza para responder as
questões a seguir:
Dados: disponíveis no arquivo ExR 1.1.xls no material do curso.
a. Qual foi o item mais vendido pela empresa no mês (quantidades em percentual)?
R: O Item mais vendido foi a Pizza de 4 queijos, com 531 unidades vendidas no mês.
b. Ordene as vendas por ordem decrescente de itens vendidos. Qual item trouxe maior faturamento para a
empresa?
R: O maior faturamento foi também o de pizza 4 queijos, com R$ 16.032,67 vendidos no mês.
c. Qual foi o faturamento diário médio da empresa com a venda de todas as pizzas? Faça um gráfico
sequencial.
Rótulos de Linha Soma de Quant. Soma de Receita
4 Queijos 531 16.032,67R$
Calabresa 450 13.216,99R$
Frango 454 12.827,11R$
Mussarela 369 8.775,59R$
Peperoni 398 11.432,46R$
Total Geral 2.202 62.284,82R$
Capítulo 1 – Coleta e Análise dos Dados 23
R: o faturamento diário médio foi de R$ 2.076,16, para um total faturado de R$62.284,82 nos 30 dias do mês.
02. (SC01.02) Para os dados da questão anterior, elabore um gráfico de barras para as quantidades vendidas e outro
para a receita de vendas.
R:
03. (SC01.03) Ainda para o exercício 1, qual seria o gráfico ideal para ler simultaneamente os valores de quantidades
vendidas e receita de vendas de pizzas? Elabore-o.
Dados: disponíveis no arquivo ExR 1.5.xls no material do curso.
R: o melhor gráfico é o gráfico combinado (Barras + Linhas) com dois eixos, pois as escalas são diferentes das
duas variáveis dependentes (Receita e Quantidade).
04. (SC01.04) Elaborar:
Capítulo 1 – Coleta e Análise dos Dados 24
Dados: disponíveis no arquivo ExR 1.4.xls no material do curso.
a. Um histograma para os valores vendidos diários, com os dados da planilha do exercício 1.
b. Um Pareto com os dados de Receita da planilha do exercício 1.
05. (SC01.05) Com base nos dados da amostragem a seguir, referente à medições de correntes elétricas (ampères)
em um condutor metálico, elabore o diagrama Stem and Leaf para os dados e, em seguida, faça um histograma,
considerando os dados do Bloco do Histograma como sendo os mesmos do “Ramo” adotado. Os resultados da
análise de tendência de média dos valores, em ambos métodos, seriam os mesmos? Justifique.
Dados: disponíveis no arquivo ExR 1.5.xls no material do curso.
R: as médias avaliadas nos dois métodos diferem, mesmo utilizando a mesma base para trabalhar os dados. No
Stem and Leaf indicaria uma média em torno de 0,90 ampères, enquanto o histograma indicaria uma média entre
1 e 1,1 amperes. Se calcularmos a média aritmética dos dados fornecidos chegaríamos a 0,932 amperes, o que
estaria entre as médias dos dois métodos. Isso comprova que graficamente não podemos admitir precisão para
estas medições, devendo recorrer à estatística descritiva.
0,75 0,79 0,92 1,1 1,05 1,01 0,83 0,93 0,59 0,84 1,05 1,09 0,99 0,66 0,93 0,89 0,88 0,94 1,14 1,26 0,932
0,5 9
0,6 6
0,7 5 9
0,8 3 4 9 8
0,9 2 3 9 3 4
1 5 1 5 9
1,1 0 4
1,2 6
Capítulo 2 – Variância nos Dados Amostrais 25
Capítulo 2 – Variância nos Dados Amostrais
Introdução
Neste capítulo vamos abordar a obtenção de estimativas de variância (e
portanto, de desvio-padrão) para os dados amostrais coletados. Usaremos
as técnicas estatísticas para realizar esta análise, entretanto, com o auxílio
do Excel. Muito esforço manual deve ser executado para chegar aos
mesmos resultados possíveis de se obter rapidamente pelo Excel. Isso não
exime o estudante de procurar entender a forma de cálculo, mas essa
tarefa foi realizada pelos professores dos cursos de Estatística na
academia. Partiremos do princípio com o qual o estudante já possui certa
familiaridade com essa área do conhecimento, e que, com um foco prático
neste curso, possam ser habilitados ao rápido exercício da técnica.
Poderíamos aqui entrar nas explicações das fórmulas estatísticas, suas
origens, principais estatísticos atuantes na área, mas nada disso permitirá
no momento uma visualização prática das análises que aqui queremos
focar.
Entretanto, apenas como uma breve descrição, vamos relembrar apenas
alguns conceitos, suas fórmulas e componentes principais. O primeiro
conceito importante, é aquele relacionado à natural variação dos dados
amostrais dos indicadores de processo. Sabemos que ao coletar dados de
uma linha produtiva, por exemplo, haverá diferentes valores levantados,
pois há variações naturais gerados pelas inumeráveis causas atuantes no
processo e que influenciam no valor do indicador em estudo. Podemos
então entender e revisar o conceito de variação.
Aqui faremos a abordagem para os dados obtidos após realização do
procedimento de amostragem, que é a coleta, de forma aleatória, de itens
da produção, ou das informações disponíveis, para estudos estatísticos.
Vamos agora rever alguns conceitos importantes para nosso estudo.
A Estatística Descritiva no Excel
Ao coletar a amostra de tamanho “n” com média �̅� dos valores de uma grandeza mensurável qualquer, extraída de uma população com média
populacional e variância populacional 𝟐 em estudo, podemos calcular a
sua variância amostral 𝑺𝟐, ou seja, estimados pela fórmula a seguir:
𝑆2 = 1
𝑛−1∑ (𝑛𝑖=1 𝑋𝑖 − �̅� )
2 (eq. 1)
A Raiz quadrada da equação 1 nos fornece o valor do desvio-padrão
amostral “S”. Lembramos que a média �̅� é obtida pela média aritmética
simples, ou seja, a somo de todos os valores medidos do comprimento 𝑿𝒊
dividida pela quantidade de amostras realizadas n. Assim:
�̅� =1
𝑛 ∑ 𝑋𝑖
𝑛𝑖=1 (eq. 2)
Vamos ilustrar estas e outras variáveis de interesse estatístico, aplicando o Excel em uma amostra de dados de
processo fornecido pelo exemplo a seguir.
Análise de Dados Excel
No Excel clique na seguinte
sequência de funções:
1. Arquivo
2. Opções
3. Suplementos
4. Ferramentas de análise
5. Ir
6. OK
Após executar esta sequência,
deverá surgir no seu menu principal
no caminho “Dados > Caixa Análise
> Função “Análise de dados”, no
canto superior direito do seu menu
principal do Excel.
É nesta opção que será gerada a
Análise descritiva de dados do
exemplo I.
Caso não consiga se localizar,
consulte o vídeo de habilitação
dessa ferramenta disponível no
material do Curso.
Arquivo (Pasta Cap. 2):
> Tutorial Suplementos Excel.mp4
Capítulo 2 – Variância nos Dados Amostrais 26
Exemplo 02.01
Uma fábrica de barras cilíndricas laminadas de aço está desejando conhecer a variação de comprimento de seus
produtos ao final da linha de corte. Sabe-se que há uma variação natural do processo, devido à imprecisão da tesoura
de corte, mas não se sabe o quanto ela está próxima ou distante da média visada no processo, especificado em valor
igual a 2 metros. Para isso o engenheiro de processos de produção coletou várias amostras durante a produção destas
barras, ao longo de um mês inteiro de produção, alternando horários, turnos e posição de amostragem das barras ao
longo da sequência de cortes de cada lote laminado. Assim, posteriormente o engenheiro elaborou a seguinte tabela
de dados amostrais (Tabela I – disponível em Ex 2.1.xls):
Tabela I: Comprimentos amostrados das barras laminadas
Uma abordagem correta para os dados da tabela I é dispô-los em gráficos sequenciais e analisar se há tendências na
distribuição dos dados, e como está a média amostral em relação à média especificada. Essa tarefa fica muito mais
fácil quando utilizamos os softwares estatísticos como o Minitab, por exemplo, onde os gráficos de controle estão
disponíveis para serem obtidos a partir dos dados amostrados, como os constantes da tabela I. No Excel é também
perfeitamente possível obtê-lo, demandando algum trabalho de preparação da planilha com os cálculos necessários.
Por outro lado, uma análise mais simplificada através da análise descritiva dos dados já nos fornece informações
preciosas e rápidas sobre os números constantes da tabela I. Podemos gerar automaticamente no Excel uma tabela
que nos trará informações diversas como média, mediana, moda, quartis, variância, desvio-padrão entre outras,
bastando executar uma rotina de modo muito fácil. Vamos ver como fazê-la, passo-a-passo.
No Excel, você deverá possuir a função “Análise de dados” configurada na aba “Dados” do menu principal. Se seu
Excel não exibir a imagem da figura 1.14, siga o passo a passo detalhado s seguir.
Uma vez liberada, vamos ao método de geração da Tabela da Análise Descritiva dos Dados. Para gerar a análise,
disponha os dados fornecidos pela tabela em duas colunas consecutivas no Excel, em uma planilha nova, sem
formatação. Após isso, selecione na Aba Dados a ação “Análise de dados” habilitada por você no Excel. Execute os
seguintes passos para gerar a análise descritiva:
Passo 1:
Clique: Dados > Análise de dados > Estatística Descritiva
Passo 2: Selecione a área onde estão inseridos os seus dados amostrais. No meu exemplo, eles estão inseridos na
coluna C, da célula C4 a C28, conforme a figura abaixo:
AmostraComprim.
(metros) Coluna1Amostra
Comprim.
(metros)2Amostra
Comprim.
(metros)
1 2,02 11 1,98 21 2,04
2 1,98 12 2,06 22 2,06
3 1,97 13 2,04 23 1,99
4 1,99 14 1,99 24 1,98
5 1,98 15 1,98 25 2,02
6 2,01 16 2,05
7 2,02 17 2,09
8 2,07 18 1,94
9 1,95 19 1,99
10 1,97 20 1,94
Capítulo 2 – Variância nos Dados Amostrais 27
Neste passo, foram selecionados na janela de diálogo da Estatística descritiva as opções:
• Colunas: os dados estão dispostos em uma única coluna (C).
• Intervalo de Saída: selecionado um campo qualquer ao lado da coluna de dados para o Excel plotar os
dados obtidos;
• Resumo Estatístico: Selecionado para poder gerar os dados procurados (a estatística descritiva). Por
padrão serão gerados dados com 95% de confiabilidade.
• Após isso, clicar em OK. Aparecerá o seguinte resultado:
Os dados obtidos informam que a média dos cortes
estão muito próximas ao valor de 2 metros, com
mediana de 1,99 metros, desvio-padrão de 0,041m,
variando entre um mínimo valor de 1,94m e máximo de
2,09m, nos 25 dados amostrados. Com isso, o
engenheiro já pode analisar o comportamento geral dos
dados medidos e de uma forma, ainda que incipiente,
avaliar a qualidade do processo segundo as medições
executadas. Obviamente, não se esgotam aqui, longe
disso, as análises e medições do processo. Na
metodologia Seis Sigma aprendemos a avaliar muito
mais profundamente o processo produtivo, com
técnicas e ferramentas estatísticas avançadas para
explorar a capacidade do processo de gerar resultados
estáveis e dentro das especificações dos clientes. Aqui
apenas introduzimos uma abordagem inicial de um
“instante do processo” obtido pela amostragem
realizada. Em breve abordaremos aqui a questão do
Erro-padrão e outras análises quanto ao desvio-padrão
e variância.
Assim pode-se concluir que o valor médio está próximo à meta visada de 2 metros, o que chamamos de centralização
da média amostral, mas, por outro lado, não podemos de antemão assumir que a variação do processo esteja
adequada. Isso se deve ao fato de que não foram fornecidas as especificações dos valores mínimo e máximo
toleráveis em torno da média. Qual seria a faixa de especificação do produto? Poderíamos assumir que seria a média
mais ou menos o desvio-padrão? Não! Veremos que o intervalo estatístico do processo, chamado intervalo de
confiança, deve ser calculado, o que faremos em outro momento. Vamos ficar por aqui, apenas com os conceitos
iniciais, e em outro curso abordaremos o tema estatístico do intervalo de confiança.
Vamos abordar agora o conceito de Erro-padrão. Em estatística, a mensuração do valor da média obtida a partir da
amostra é suscetível de erros de medição, já que em estatística, estamos no mundo não-determinístico, mas
Estatística descritiva
Média 2,0044
Erro padrão 0,008227596
Mediana 1,99
Modo 1,98
Desvio padrão 0,041137979
Variância da amostra 0,001692333
Curtose -0,668881663
Assimetria 0,382996691
Intervalo 0,15
Mínimo 1,94
Máximo 2,09
Soma 50,11
Contagem 25
Capítulo 2 – Variância nos Dados Amostrais 28
probabilístico. Há uma probabilidade razoável de 95% de certeza de estes dados encontrados na estatística descritiva
estarem corretos. Mas, por isso, há um erro nesse valor, que chamamos de erro-padrão amostral. Ele pode ser
calculado dividindo-se o desvio-padrão (S) pela raiz quadrada do tamanho da amostra (n), assim:
𝑥 =𝑆
√𝑛 (eq. 03)
No nosso exemplo, o erro-padrão pode ser assim determinado:
𝑥 =𝑆
√𝑛= =
0,0411
√25 = 0,008228. (Vide Estatística descritiva anterior).
Note que pela fórmula, o erro-padrão (𝑥) é inversamente proporcional à raiz quadrada do tamanho da amostra (n),
ou seja, quanto maior a amostra, menor será o erro em torno do valor real da média amostral. Amostras grandes
tendem a aproximar o valor da média ao valor real da população analisada. Salvo restrições de elevados custos e
riscos de se levantar estas amostras em maior quantidade, devemos sempre assim proceder pelo bem da precisão
da análise, cuja quantidade mínima está atrelada ao nível de variação do processo produtivo e sua necessidade de
precisão da medida.
Uma outra forma de verificarmos a variação da amostra em torno da média, é determinar o seu coeficiente de
variação (CV%), que pode ser calculado pela divisão do desvio-padrão da amostra pela média obtida, ou seja:
𝐶𝑉 =𝑆
�̅� . 100 (eq. 04)
No nosso exemplo, podemos determinar o valor do coeficiente de variação, calculando:
𝐶𝑉 =0,0411
2,0044 . 100 = 2,05%.
Quanto menor for o coeficiente de variação, menor é a variação dos dados em torno da média, dando maior precisão
e confiabilidade ao processo para o nível amostral adotado. Cuidado com amostras pequenas, elas podem não ser
representativas do processo, e amargas surpresas surgirem...
De uma forma geral, podemos assim resumir a questão da variância (e, portanto, do desvio-padrão):
• Se aumentar a concentração de valores amostrais em torno da média amostral (baixas amplitudes de
variação), menor será a variância e o desvio-padrão.
• Se os valores amostrais forem todos iguais, sem qualquer variação na medida entre eles, tanto a
variância quanto o desvio-padrão serão nulos.
• Não há como os valores de variância e desvio-padrão serem negativos, já que não há diferenças
negativas na faixa de variação, que são sempre positivas para amostras diferentes de zero.
Como a variância amostral sempre traz (n-1) graus de liberdade na sua determinação, o valor da variância amostral
tende a ser maior do que aquela da população (supondo que as médias amostral e populacional sejam próximas). À
medida que aumente significativamente o valor de “n”, essa diferença vai ficando cada vez menor e a variância
amostral tende à variância populacional.
Capítulo 2 – Variância nos Dados Amostrais 29
Vamos agora abordar um exemplo ilustrativo.
Exemplo 02.02
Considere a tabela abaixo, referente à amostragem de diâmetros internos médios de peças cilíndricas laminadas
(tubos), sob os quais se deseja avaliar a variação dos dados obtidos no processo em determinado período de produção
(diâmetros em mm). Para tanto, deseja-se calcular qual seria a variância e desvio-padrão da amostra e inferir sobre
qual seria a variância da população (todos os tubos laminados nesse processo desse mesmo tipo).
Dados: disponível em Ex 2.2.xls
De acordo com as fórmulas disponíveis no
Excel, podemos calcular as variâncias da
amostra e da população:
• Amostral (𝑆2):
=VAR.A(intervalo dados)
• Populacional (2):
=VAR.P(intervalo de dados)
O leitor deve notar que os erros de
aproximação pelos métodos estão na
quinta casa decimal entre os
métodos, portanto, a escolha está
vinculada ao rigor da análise e das
grandezas em questão.
Note que no campo “Fórmula de
relação” foi executada o seguinte
cálculo:
2= 𝑛−1
𝑁 x 𝑆2=
20−1
20 x 0,02192522
Em termos práticos, quando o tamanho da amostra é maior do que 30, os valores das variâncias tende a se
aproximar, a variância amostral tende a se igualar à variância populacional, por isso, recomenda-se amostras
maiores sempre que possível, apesar de que continua ainda sendo sensível aos valores extremos da amostra (valor
maior e valor menor amostrado).
O Desvio-padrão
Uma desvantagem de se usar a variância, é que sua unidade expressa uma grandeza ao quadrado, já que em sua
fórmula, utiliza-se a elevação ao quadrado da diferença entre o valor individual da amostra e sua média. Fica
estranho utilizar uma grandeza de variação ao quadrado, já que por vezes representará unidades de itens que melhor
se expressam em variações por unidades e não por unidades ao quadrado. Imagine que a variância do exemplo
anterior fosse escrita assim:
O processo de medição dos diâmetros internos dos tubos resultou em uma média de 5,010 mm e variância de
0,0219mm2... fica de difícil interpretação ao relativizar estas duas grandezas, em mm e em mm2...
Para resolver isso, introduziu-se o conceito de desvio-padrão (s), que é a raiz quadrada da variância:
= √2 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙. (eq.06)
𝑠 = √𝑆2 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙. (eq.07)
OBS: 𝐴𝑑𝑜𝑡𝑎 − 𝑠𝑒 𝑜 𝑣𝑎𝑙𝑜𝑟 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 𝑑𝑎 𝑟𝑎𝑖𝑧 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑎 𝑑𝑎 𝑣𝑎𝑟𝑖â𝑐𝑖𝑎.
No Excel podemos calcular o desvio-padrão aplicando a fórmula da raiz ou a fórmula direta de determinação do
desvio-padrão, como se segue:
• fórmula =DESV.PAD.P(intervalo de dados), para desvio-padrão populacional.
• fórmula =DESV.PAD.A(intervalo de dados), para desvio-padrão amostral.
• Ou cálculo pela raiz: =RAIZ(seleciona célula da variância na planilha).
Diâmetros Internos
Amostra mm
1 5,01
2 5,06
3 4,98
4 4,92
5 5,2
6 4,79
7 4,82
8 5,24
9 4,89
10 4,93
11 4,77
12 5,2
13 5,07
14 5,16
15 4,98
16 4,81
17 5,17
18 5,07
19 5,13
20 4,93
Média = 5,010526316
Usando as fórmulas do Excel:
Amostral = 0,02190816
Populacional = 0,02081275
Usando as fórmulas Estatísticas:
Amostral = 0,02192522
Populacional = 0,02082896
Fórmula de relação = 0,020828961
Capítulo 2 – Variância nos Dados Amostrais 30
Analogamente ao que foi demonstrado para a variância, podemos associar os valores de desvio-padrão amostral e
populacional segundo a fórmula deduzida:
2 = 𝑛−1
𝑁 . 𝑆2 ou
= ට𝑛−1
𝑁 . 𝑆 (eq.8)
Teorema de Chebyshev
Quando se deseja conhecer como estão distribuídos os valores da amostra em torno da média encontrada, utilizando
os valores do desvio-padrão encontrado, utilizamos o teorema de Chebyshev para determiná-lo. O teorema pode ser
resumido em uma regra prática aplicável aos dados estatísticos conhecidos:
• Considere uma variável X com média �̅� e desvio-padrão “s” conhecidos.
• Intervalo expresso como �̅� ± 1 𝑠, para se ter 68% de dados contidos em ± um desvio-padrão em torno da
média amostral.
• Intervalo expresso como �̅� ± 2 𝑠, para se ter 95% de dados contidos em ± dois desvios-padrão em torno da
média amostral.
• Intervalo expresso como �̅� ± 3 𝑠, para se ter próximo a 100% de dados contidos em ± três desvios-padrão
em torno da média amostral.
Aplicando ao nosso exemplo dos diâmetros dos tubos, teríamos:
�̅� ± 3 𝑠
5,01 ±3 . 0,219
5,01 ±0,657
O intervalo que contêm aproximadamente 100% dos dados é (4,353 a 5,667mm). De fato, o leitor verá que o menor
valor na tabela de diâmetro interno foi de 4,77mm e o maior igual a 5,24mm, que estão, portanto, 100% contidos
neste intervalo.
Exercícios Resolvidos
Instruções:
Para o melhor andamento dos estudos, sugere-se os seguintes passos:
1. Identifique o código do exercício resolvido.
2. Verifique a sua disponibilidade no material do curso, no formato de screencasting.
3. Leia o enunciado e em seguida assista à resolução.
4. Faça novamente usando os recursos apresentados.
5. Em caso de dúvida, intercale a revisão do screencasting com o texto explicativo.
OBS: Os exercícios a seguir estão com as soluções disponíveis em screencasting no material do curso (código
relacionado no enunciado de cada exercício).
1. (SC2.01) Um fabricante de rodas de alumínio levantou duas amostras de seus produtos, em peso – kg),
produzidas em duas linhas de fundição, tecnologicamente iguais, mas que, devido a ajustes diversos pela
manutenção, estão produzindo peças com médias e variações distintas, conforme mostra a tabela a seguir.
Após uma reforma geral da máquina, o engenheiro de manutenção levantou as medições constantes da
tabela, e afirma ter melhorado o processo. Você concorda com ele? Justifique.
Capítulo 2 – Variância nos Dados Amostrais 31
Dados: Disponíveis no arquivo ExR 02.01
Resposta: após realizar a análise descritiva dos dados pelo Excel, obtêm-se:
• Ao observar a média, vemos que não houve alteração sensível após a reforma.
• Os limites inferior e superior da faixa de dados amostrados são praticamente os mesmos, só
alterando no inferior, com 0,1kg a mais em uma amostra, mantendo o mesmo intervalo,
praticamente, de 1,2 para 1,3 kg ente a peça mais leve e a mais pesada.
• Os pesos totais de todas as peças antes e depois são os mesmos, mantendo 120,6 kg para as 8
peças amostradas em cada caso.
• Houve no entanto uma redução do desvio-padrão, o que indica que os dados estão com menor
variação, tornando o processo mais preciso que o anterior, o que pode ser visto com o intervalo
de Chebychev para 95% de confiança, que saiu de (14,14 – 16,01) para (14,36 – 15,79), ou de
uma média de 15,075 ± 0,9304 para 15,075 ± 0,7151 (considerando 2 sigmas).
• Concluindo, não há evidências de uma melhora significativa do processo, dada a amostragem
pequena, sugerindo ainda uma melhor análise dos dados após reforma.
• Obs: posteriormente veremos este caso novamente, e o leitor irá verificar que muitas vezes as
amostras podem estar “contaminadas” de nossos desejos ou “medos”... isso altera os dados e
resultados, mas não a estatística, que permanece forte ao longo das décadas... outras ferramentas
serão introduzidas para poder dar uma resposta mais segura a este problema, como os estudos
de capacidade de processos.
2. Calcule o coeficiente de variação do exercício 1, antes e depois da reforma. Os valores reforçam a sua
explicação para a variação do processo no exercício 1?
Resposta: O coeficiente de variação nos dois casos são:
• Antes: CV = 𝑆
�̅�=
0,4652
15,075= 0,0308
• Depois CV = 0,3575
15,075̅̅ ̅̅ ̅̅ ̅̅ ̅̅= 0,0237
• Os CV´s confirmam o exposto anteriormente, já que a variação caiu no processo, obtendo um
menor desvio-padrão, mas não houve mudança na média (denominador da fórmula) e nem no
intervalo entre valores mínimos e máximos da faixa amostrada.
Antes Depois
15,3 14,6
15,1 15,1
14,9 15,2
14,5 14,9
15,8 15,8
15,6 15,2
14,8 15
14,6 14,8
Antes Depois
Média 15,075 Média 15,075
Erro padrão 0,164479699 Erro padrão 0,1264205
Mediana 15 Mediana 15,05
Modo #N/D Modo 15,2
Desvio padrão 0,465218843 Desvio padrão 0,357571172
Variância da amostra 0,216428571 Variância da amostra 0,127857143
Curtose -1,081462602 Curtose 2,112693112
Assimetria 0,404366278 Assimetria 1,046789298
Intervalo 1,3 Intervalo 1,2
Mínimo 14,5 Mínimo 14,6
Máximo 15,8 Máximo 15,8
Soma 120,6 Soma 120,6
Contagem 8 Contagem 8
Capítulo 2 – Variância nos Dados Amostrais 32
3. Uma amostragem do peso de 30 bags de pós metálicos resultou em um intervalo com 95% de confiança
de 200±25 kg. Calcule o erro-padrão da média para este processo.
Resposta: Sabemos que para um nível de confiança de 95%, temos no intervalo especificado 2 sigmas de
variação, ou seja:
• 2 sigmas = 25, portanto, sigma = 12,5kg.
• Sabemos que o Erro-padrão é calculado segundo a equação 03, assim:
• Erro-padrão = s / √𝑛
• Erro-padrão = 12,5 / √30 = 2,282kg
• A média está expressa em termos de 200±2,282kg.
4. Uma empresa de seguros está analisando a variabilidade de seus preços de seguros para uma determinada
classe de risco. Ela obteve em uma amostragem de 40 apólices, um desvio-padrão de US$15,75, e pede
que seja estimada a variância da população. Faça os cálculos e determine-a.
Resposta: Pelos dados fornecidos temos:
• Desvio-padrão amostral = US$15,75
• Amostra (n) = 40
• Pela equação 08 temos: = ට𝑛−1
𝑁 . 𝑆
• Assim, = ට40−1
40 . 15,75 = 15,55
• A variância será então (15,55)2 = 241,80.
Capítulo 3 – Análise de Tendência nos Dados 33
Capítulo 3 – Análise de Tendência nos Dados
Imagine que você tenha coletado algumas amostras no seu processo e tenha se deparado com uma situação peculiar:
uma disposição linear, ou sugestivamente linear, dos dados no gráfico sequencial gerado. Sabemos que uma equação
reduzida de uma reta descrita pela equação do tipo “y = aX + b” pode ser expressa em termos de sua inclinação
(parâmetro “a” ou coeficiente angular da reta) e pelo seu intercepto linear (parâmetro “b”, ou ponto de intercepto no
eixo Y). Podemos calcular essas componentes pelos métodos algébricos aplicados aos sistemas lineares, bem como
aqui detalhar o passo a passo segundo as técnicas disponíveis na literatura. Entretanto, a melhor opção para entender
essa abordagem é a da aplicação prática.
Nos itens seguintes serão apresentados os sistemas lineares (ou de primeira ordem) e os sistemas polinomiais
(focaremos nos sistemas de segunda ordem). Em dois casos práticos, aplicados à contabilidade gerencial,
conseguiremos ver como o Excel e as técnicas matemáticas nos auxiliam na obtenção de equações representativas
do comportamento dos sistemas produtivos segundo a ótica de organização e representação gráfica dos dados.
Equações Lineares (primeira ordem)
Uma das aplicações mais clássicas dos sistemas lineares são aquelas em que a taxa de variação de uma grandeza
qualquer é constante com o tempo, ou seja, seu valor permanece invariável. Dizemos nestes casos que o sistema em
análise apresenta um comportamento linear. Para ilustrar esse comportamento, vamos abordar através de um
exemplo o que ele significa para um administrador que esteja interessado em analisar como se comportará a receita
de vendas em uma empresa.
• Comportamento Linear: se considerarmos a venda de um produto, cujo valor unitário de venda seja R$50, e
quisermos gerar um gráfico que represente a Receita de Vendas desse produto, podemos construir a
seguinte tabela e gráfico da receita de vendas:
• Estamos considerando nesta tabela 1 o fato de que o horizonte de planejamento da empresa estima vendas
entre 1 e 100 unidades do produto no período considerado. (dias, por exemplo).
• Apesar da empresa poder vender mais do que 100 unidades, ela deseja saber neste intervalo como se
comportam as vendas diárias. Para isso, traçou um gráfico com os valores da tabela, sendo o eixo X a
quantidade vendida (unidades) e o eixo Y a receita de vendas (R$).
Figura 3.01 – Gráfico de dispersão para a receita de vendas.
Unidades Receita
1 50,00R$
10 500,00R$
20 1.000,00R$
30 1.500,00R$
40 2.000,00R$
50 2.500,00R$
100 5.000,00R$
Capítulo 3 – Análise de Tendência nos Dados 34
Ao observar o gráfico da figura 3.01 notamos que os pontos estão alinhados em uma reta. Para ter certeza disso, e
não apenas confiar no gráfico, cuja escala pode nos iludir quanto a isto, devemos utilizar alguns recursos matemáticos.
Sabemos que em uma reta todos os pontos estão alinhados e são crescentes ou decrescentes à uma taxa constante,
definida pela inclinação da reta. Recordando o que é uma equação de uma reta (primeira ordem), vejamos:
• Uma equação reduzida da reta pode ser representada pela equação: Y = aX + b, onde:
o a = coeficiente angular da reta;
o b = intercepto linear da reta;
• (X;Y) o par ordenado no plano cartesiano do ponto pertencente à reta.
• A inclinação da reta “a” pode ser determinada fazendo uma análise gráfica ou algébrica, pois corresponde à
tangente aos pontos pertencentes à reta, fazendo um ângulo com o eixo das abcissas (eixo X). Vamos ver
isso graficamente:
Figura 3.02 – Linha de Tendência aplicada para receita de vendas
Traçando uma reta pelos pontos da figura 3.02 anterior, e escolhendo dois pontos aleatórios (X;Y), que neste nosso
exemplo são o par (Unidades; Receita de Venda), identificados pelas setas, podemos definir a equação da reta que
foi traçada sobre os demais pontos. Lembramos que uma reta só pode ser definida quando temos pelo menos dois
pontos pertencentes a ela. Em um ponto podemos passar infinitas retas, por isso escolhemos dois. A figura 3.03
demonstra as escolhas feitas.
Figura 3.03 – Pontos e inclinação da reta definida pelo ângulo .
Relembrando os conceitos de álgebra, uma equação de reta pode ser definida através de alguns métodos, entre eles
citamos:
• Aplicando a fórmula reduzida da reta nos dois pontos, teremos um sistema de duas equações e duas
incógnitas, e com a sua resolução, encontramos os valores de “a” e de “b”. Veja:
• Para o ponto M temos que a equação reduzida da reta pode ser escrita como:
o 3.000 = a. 60 + b (onde sabemos os valore do ponto M(X1;Y1) ou M( 60; 3.000).
• Para o ponto N temos que a equação reduzida da reta pode ser escrita como:
o = a. 80 + b
Capítulo 3 – Análise de Tendência nos Dados 35
(onde sabemos os valores do ponto N(X2;Y2) ou N(80; 4.000).
Assim, temos o sistema de equações:
60ª + b = 3.000 (equação 1)
80ª + b = 4.000 (equação 2)
Subtraindo a equação 2 pela equação 1, temos:
80ª +b – (60ª +b) = 4.000 – 3.000
20ª + 0 = 1.000
a = 1.000 / 20
a = 50.
Obs: note que o valor de a foi igual a 50, ou seja, é igual ao valor do preço unitário de venda do produto em questão
(R$50).
Assim, podemos determinar o valor de b, basta substituir o valor de a na equação 1 ou na equação 2, tanto faz,
obtendo:
60ª + b = 3.000
60 (50) + b = 3.000
3.000 + b = 3.000
B = 0
▪ A equação que representa os pontos M e N é: Y = 50.X + 0 ou somente Y = 50.X
▪ Como sabemos que Y é a receita de vendas e X é a quantidade vendida do produto, podemos escrever
que: Receita = 50. Quantidade Vendida do produto, ou :
o R = 50*Q
▪ Outro método é usar o sistema de determinantes, da seguinte forma:
o Uma reta “s” que passa pelos pontos (X1; Y1) e (X2; Y2) pode ser conhecida aplicando a
determinantes dos pontos. Para tanto devemos criar a matriz para essa determinação, sendo:
𝑥 𝑦 1𝑥𝑎 𝑦𝑎 1𝑥𝑏 𝑦𝑏 1
= 0
Notar que foi inserida uma nova coluna de valor unitário, para que a matriz seja “quadrada”, ou seja, o número de
colunas seja igual ao número de linhas.
Iguala-se a matriz a zero e passamos a utilizar a técnica de determinantes de forma que com isso iremos obter a
equação geral da reta definida por : aX + bY +c = 0
A regra de resolução de determinantes é a seguinte:
Capítulo 3 – Análise de Tendência nos Dados 36
• Reescrevemos as duas primeiras colunas da matriz ao lado da terceira coluna, substituindo os valores dos
pontos, obtendo:
𝑋 𝑌 160 3.000 180 4.000 1
𝑋 𝑌60 3.00080 4.000
• Multiplica-se os valores das diagonais decrescentes a partir de X da primeira coluna, passando pela diagonal
de Y e pela diagonal do valor 1 da terceira coluna, somando os resultados, e em seguida subtrai pela soma das
diagonais crescentes partindo dos valores 80, 4.000 e 1, respectivamente, assim:
e
As contas são as seguintes:
[(X * 3.000 * 1) + (Y * 1 * 80) + (1 * 60 * 4.000)] – [(80 * 3.000 * 1) + (4.000 * 1 * X) + (1 * 60 * Y)] = 0
3.000 X + 80Y + 240.000 – (240.000 + 4.000X + 60Y) = 0
- 1.000X + 20Y + 0= 0
20Y = 1.000X
Y = 50 X. Obtemos, portanto, a mesma equação do método anterior:
• Receita = Preço de venda * Quantidade vendida
• R = 50 * Q
Não importando qual foi o método utilizado para obter as equações anteriores, basta analisarmos que ambas
chegaram ao mesmo resultado. Agora falta concluir sobre nosso questionamento. A reta traçada representa a reta
que passa pelos pontos da nossa tabela original? Em caso positivo devemos concluir que as retas de ambos os casos
seriam a mesma, ou seja, os pontos plotados no gráfico devem pertencer à reta encontrada. Para isso ser checado,
basta substituir os valores de X (ou quantidades vendidas) na equação de reta obtida, e verificar se o valor de Y
(Receita de Vendas) é aquele valor na tabela de dados. Sendo iguais, dizemos que a reta encontrada é a reta que
passa pelos pontos especificados na tabela inicial. Vamos conferir:
• Usando o ponto da tabela onde X=50 (vendidas 50 unidades do produto), calculamos Y (receita de vendas)
usando a equação obtida Y = 50.X. Assim, obtemos:
o Y = 50.X
o Y = 50.50
o Y = 2.500 unidades. Note que este valor é igual ao que está na tabela para X=50, ou seja, a equação da
reta usada conseguiu representar esse comportamento de vendas para 50 unidades.
Para checarmos apenas mais um ponto, fazendo o valor de X= 10 agora, temos que Y = 50.10 = 500, ou seja, R$ 500
vendidos, o que também bate com o valor da tabela para a receita de vendas de 10 unidades.
Podemos concluir assim que a reta representativa dos pontos da tabela é Y = 50.X ou Receita de Vendas = 50. Quantidade
vendida.
Fizemos todo esse “algebrismo” em detalhes apenas para demonstrar o conceito aplicado de equações de primeiro grau
(as retas) em Pesquisa Operacional, que será nossa base para estudos de Programação Linear em nosso curso.
Vamos agora interpretar o gráfico obtido à luz econômica. Podemos afirmar que:
•