Analise de agrupamentos uem

84
UNIVERSIDADE EDUARDO MONDLANE FACULDADE DE CIÊNCIAS DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA Trabalho de Licenciatura em Estatística CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM MOÇAMBIQUE Autor: Frederico Machado Almeida Maputo, Abril de 2014

Transcript of Analise de agrupamentos uem

Page 1: Analise de agrupamentos uem

UNIVERSIDADE EDUARDO MONDLANE

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA

Trabalho de Licenciatura em Estatística

CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE

SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM

MOÇAMBIQUE

Autor:

Frederico Machado Almeida

Maputo, Abril de 2014

Page 2: Analise de agrupamentos uem

UNIVERSIDADE EDUARDO MONDLANE

FACULDADE DE CIÊNCIAS

DEPARTAMENTO DE MATEMÁTICA E INFORMÁTICA

Trabalho de Licenciatura em Estatística

CONTRIBUIÇÃO DA ANÁLISE DE AGRUPAMENTOS NA IDENTIFICAÇÃO DE

SEGMENTOS DE DISTRITOS POTENCIAIS PRODUTORES DE CEREAIS EM

MOÇAMBIQUE

Autor: Supervisor:

Frederico Machado Almeida Dr. Osvaldo Francisco Loquiha

Maputo, Abril de 2014

Page 3: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

iii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Em memória de:

Zeferino António Sócrates e

Anatol António Sócrates

Page 4: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

iv Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

“A coisa mais bela que o homem pode

experimentar é o mistério. É essa emoção

que está na raiz de toda ciência e toda a

arte”.

Albert Einsten, físico Alemão (1879-1955)

Page 5: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

v Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

AGRADECIMENTOS

Esta foi uma das partes mais difíceis deste trabalho, pois, não é fácil enumerar ou listar em

poucas linhas, todos quanto directa ou indirectamente contribuíram para a formação do homem

que hoje sou e, consciente que o anónimo também tem o seu lugar reservado no fundo do meu

coração.

Deste modo, agradeço em primeiro lugar à Deus que sempre me guiou e estendeu suas mãos nos

momentos difíceis, me dando força, coragem e saúde para vencer os obstáculos.

Ao meu supervisor, o Dr. Osvaldo Loquiha, expresso toda a minha gratidão pela confiança

irrestrita, pelo seu apoio e incentivos que foram fundamentais para a construção de um ambiente

que permitiu o desenvolvimento deste trabalho.

Ao Eng. agrónomo Aurélio Mathe, vai o meu agradecimento pela compreensão, paciência e, pela

ajuda tanto na obtenção da base de dados como pelas referências bibliográficas por ele

recomendadas.

Expresso também, todo o meu agradecimento aos meus pais Machado Almeida e Matilde

Marcelino, pela minha formação moral e educacional, e que por vezes privaram-se materialmente

em prol da minha formação.

A toda a minha família no geral e, em especial aos meus irmãos, Ereneu M. Almeida, Sónia A.

Sócrates, aos meus sobrinhos Fausio, Zeferino António Jr. e José Machado Jr.

Ao meu irmão José Machado Almeida vai um agradecimento especial por tudo o que fez em prol

da minha formação, pelos conselhos que me tornaram na pessoa que hoje sou, pelo apoio

financeiro e moral, em fim, por ter acreditado no meu potencial.

A todos os docentes do Departamento de Matemática e Informática, em especial ao MSc.

Alberto Mulenga a Drª. Ida Alvarinho, a Drª. Rafica, ao Prof. Dr. Manuel Alves, ao dr. Jonas

Nassabe e ao dr. Rachid Muleia vai um agradecimento especial pelos conhecimentos transmitido.

Aos meus colegas do curso e do departamento, em especial ao Mabjaia, Lucasse, Cristóvão

Tinga, Cumbe, Aly e, aos drs. Mauro Langa, Alberto Chauque, Zacarias Mutombene e Américo

Tamele, um agradecimento pelo crescimento que obtivemos em conjunto.

Page 6: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

vi Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

DECLARAÇÃO DE HONRA

Declaro que este trabalho é resultado da minha própria investigação, que não foi submetido para outro

grau que não seja o indicado-Licenciatura em Estatística, da Universidade Eduardo Mondlane.

Maputo, aos 01 de Abril de 2014

O estudante

_____________________________________

(Frederico Machado Almeida)

Page 7: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

vii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

RESUMO

A agricultura constitui uma importante fonte de rendimento e de auto-sustento para maior parte

da população africana no geral e a moçambicana em particular. Em Moçambique, o sector

agrário tem beneficiado de recursos do estado bastante reduzidos, embora a maior parte da

população se dedique a agricultura. Com o objectivo de encontrar segmentos de distritos com

semelhantes níveis na produção de cereais, foram usados os métodos de análise de

Agrupamentos, que com base nas medidas de similaridade ou dissimilaridade permite segmentar

sujeitos ou casos em grupos homogéneos relativamente a uma ou mais características em

comum. A população do presente trabalho é o total dos 128 distritos existentes em Moçambique

no período em análise, destes, foram seleccionados 94 distritos abrangidos pelo Trabalho de

Inquéritos Agrícolas. Com base no coeficiente de correlação cofenética, conclui-se que o critério

de ligação completa apresentou bons resultados em relação ao método de Ward. Uma aplicação

da MANOVA mostrou que as duas variáveis respostas usadas são potências em diferenciar os

vectores de média entre dos grupos, sendo, a variável estimativa do orçamento total a mais

poderosa em diferenciar os grupos segundo os intervalos simultâneos de Bonferroni. Uma análise

conjunta das potencialidades dos distritos mostrou que no geral, distritos com altas precipitações

e/ou altas temperaturas, tendem a ser por vezes potenciais produtores de arroz, feijão nhemba e

feijão manteiga.

Palavras-chaves: Agricultura, Análise de Agrupamentos, ligação completa, distância euclidiana e

Manova.

Page 8: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

viii Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

LISTA DE ABREVIATURAS

AA Análise de Agrupamentos

ANOVA Análise Univariada de Variância

COF Coeficiente de Correlação Cofénetica

DUAT Direito de Uso e Aproveitamento de Terra

EM Estatística Multivariada

FAO Food and Agriculture Organization

INAM Instituto Nacional de Meteorologia

INE Instituto Nacional de Estatística

MANOVA Análise Multivariada de Variância

MINAG Ministério de Agricultura

PDA Programa de Desenvolvimento da Agricultura

PIB Produto Interno Bruto

ERV Estratégia Revolução Verde

SPSS Statistic Package for the Social Sciences

SQPC Soma dos Quadrados e Produtos Cruzado

Tª Min Temperatura Mínima

Tª Max Temperatura Máxima

TIA Trabalhos de Inquéritos Agrícolas

UPA´s Unidades de Amostragens Primarias

Page 9: Analise de agrupamentos uem

ÍNDICE PÁGINAS

CAPÍTLO I: INTRODUÇÃO .............................................................................................. 1

1.1 OBJECTIVOS ................................................................................................................... 3

1.1.1 Objectivo geral ........................................................................................................... 3

1.1.2 Objectivos Específicos ............................................................................................... 3

CAPÍTULO II: REVISÃO DA LITERATURA ................................................................. 4

2.1 A politica agrária em Moçambique ................................................................................... 4

2.2 Algumas considerações e conceitos importantes .............................................................. 6

CAPÍTULO III: MATERIAL E MÉTODOS ..................................................................... 9

3.1 Material .............................................................................................................................. 9

3.2 Métodos ........................................................................... Error! Bookmark not defined.

3.2.1 Técnicas Estatísticas ................................................. Error! Bookmark not defined.

3.2.2 Análise de Agrupamentos ......................................... Error! Bookmark not defined.

3.2.3 Etapas para a realização da AA ................................ Error! Bookmark not defined.

3.2.4 Medidas de Semelhanças e Distância ....................... Error! Bookmark not defined.

3.2.4.1 Medidas de Similaridade para Variáveis QuantitativasError! Bookmark not

defined.

3.2.4.2 Medidas de Semelhança para variáveis qualitativasError! Bookmark not defined.

3.2.4.3 Coeficientes Combinados ................................................................................ 14

3.2.5 Métodos de Agrupamentos ....................................... Error! Bookmark not defined.

3.2.5.1 Métodos hierárquicos ...................................... Error! Bookmark not defined.

3.2.5.2 Métodos não-hierárquicos ............................................................................... 18

3.3 Critérios para a determinação do número de grpos à reter .............................................. 19

Page 10: Analise de agrupamentos uem

3.4 Formação dos Agrupamentos .......................................... Error! Bookmark not defined.

3.5 Suposições em Análise de Agrupamentos ....................... Error! Bookmark not defined.

3.6 Métodos de validação dos agrupamentos ........................ Error! Bookmark not defined.

3.6.1 Coeficiente de Correlação Cofenética ..................... Error! Bookmark not defined.

3.6.2 Testes de Singnificancia entre os agrupamentos (MANOVA) ................................ 24

3.6.2.1 Suposições em Manova ................................................................................... 27

3.6.2.2 Comparações Múltiplas ................................................................................... 29

CAPÍTULO IV: RESULTADOS E DISCUSSÃO ............ Error! Bookmark not defined.

4.1 Caracterização da amostra ............................................... Error! Bookmark not defined.

4.2 Verificação das suposições em Análise de AgrupamentosError! Bookmark not defined.

4.3 Determinação do número de grupos à reter ..................... Error! Bookmark not defined.

4.4 Análise Hierárquica ......................................................... Error! Bookmark not defined.

4.4.1 Aplicação do método de Ward .................................. Error! Bookmark not defined.

4.4.2 Aplicação do método de ligação completa ................ Error! Bookmark not defined.

4.5 Interpretação dos Agrupamentos ..................................................................................... 37

4.6 Validação dos Agrupamentos .......................................................................................... 39

CAPÍTULO V: CONCLUSÕES E RECOMENDAÇÕES .............................................. 45

5.1 Conclusões ....................................................................................................................... 45

5.2 Recomendações ............................................................................................................... 46

5.3 Referências Bibliográficas .............................................................................................. 47

ANEXOS

Page 11: Analise de agrupamentos uem

ÍNDICE DE TABELAS PÁGINAS

Tabela 3.1 Descrição das variáveis usadas no estudo ............................................................. 9

Tabela 3.2 Tabela de contingência ........................................ Error! Bookmark not defined.

Tabela 3.3 Critérios de ligação entre as observações ............................................................ 17

Tabela 3.4 Quadro da Manova para a comparação dos vectores de médiaError! Bookmark not

defined.

Tabela 3.5 Distribuições aproximadas dos testes multivariados ........................................... 27

Tabela 4.1 Estatísticas descritivas das variáveis Climáticas ................................................. 31

Tabela 4.2 Estatísticas descritivas dos Cereais ...................... Error! Bookmark not defined.

Tabela 4.3 Análise da Influencia dos outliers nas estatísticas descritivasError! Bookmark not

defined.

Tabela 4.4 Ilustração dos valores do R2 ................................ Error! Bookmark not defined.

Tabela 4.5 Comparação do tamanho dos agrupamentos ....................................................... 38

Tabela 4.6 Identificação da melhor estrutura dos agrupamentos .......................................... 39

Tabela 4.7 Testes de Normalidade Univariada ...................................................................... 39

Tabela 4.8 Teste de Levene para igualdade de variâncias Univariadas ................................ 40

Tabela 4.9 Teste M de Box para igualdade de matrizes de variâncias-covariancias............. 40

Tabela 4.10 Teste de esfericidade de Bartltett ....................................................................... 40

Tabela 4.11 Testes Multivariados ......................................................................................... 41

Tabela 4.12 Média das variáveis nos agrupamentos formado Error! Bookmark not defined.

Tabela 4.13 Matriz das distâncias entre os centoide dos agrupamentosError! Bookmark not

defined.

INDÍCE DE FIGURAS E GRÁFICOS

Gráfico 3.1 Relação entre os métodos aglomerativos e divisivosError! Bookmark not defined.

Figura 4.1 Representação Espacial dos Agrupamentos ......................................................... 44

Page 12: Analise de agrupamentos uem

CAPÍTULO I: INTRODUÇÃO

Em África, a agricultura desempenha um papel preponderante na economia, tanto como fonte de

emprego da população e, como fonte de receitas através de exportação de produtos agrários para

maior parte dos países africanos.

Moçambique não está alheia a essa realidade, a pobreza é um fenómeno generalizado com mais

predominância nas zonas rurais, onde mais da metade da população vive na pobreza1. O baixo

nível de desenvolvimento da agricultura é uma das principais causas da pobreza e, os

rendimentos familiares são geralmente baixos e distribuídos de forma desigual (MINAG, 2010).

Problemas como a fome e a pobreza afectam o desenvolvimento do país, como resultado da

baixa produtividade agrícola a qual é motivada pela debilidade dos solos e a fraca utilização de

tecnologias modernas, incluindo as sementes melhoradas, fertilizantes e a mecanização.

O sector de agricultura é de extrema importância para o desenvolvimento do país, pois, além de

contribuir significativamente no Produto Interno Bruto, constitui uma fonte de emprego para

cerca de 90% da força laboral feminina e 70% da força laboral masculina e, possui um grande

potencial para tirar muitas pessoas da pobreza (INE, 2011).

Consciente na importância da agricultura, em 1998, o Governo em colaboração com os principais

parceiros desenhou o Programa de Desenvolvimento da Agricultura, com o objectivo de

melhorar a coordenação das intervenções públicas na agricultura e orientar de forma adequada o

investimento em diversas áreas do sector.

No contexto do Programa de Desenvolvimento Agrário, o Conselho de Ministros aprovou em

2007 a Estratégia Revolução Verde2, com principal objectivo de promover o aumento da

produção e produtividade especialmente nos pequenos produtores, para uma maior oferta de

alimentos de forma competitiva e sustentável (MINAG,2010).

A implementação do programa de desenvolvimento da agricultura e a estratégia revolução verde

exigiu a utilização de novas tecnologias, o que requer a alocação de recursos financeiros

adicionais e muita formação técnica dos agricultores.

1 Define-se como sendo o estado em que o nível de consumo ou da renda das pessoas é inferior a um valor mínimo de

subsistência determinado para cada local e/ou a nível global, que geralmente é inferior em relação a média.

2 Define-se como sendo a incorporação de avanços científicos no melhoramento de plantas com pacotes tecnológicos que tem

permitido a realização do potencial dos cultivos (FAO, 1996).

Page 13: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

3 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

A escolha deste tema justifica-se pela própria relevância da agricultara em Moçambique,

portanto, com o objectivo de encontrar semelhantes características entre os distritos, utilizar-se-á

as técnicas de AA, que através dos critérios de similaridade ou dissimilaridade e algoritmos

matemáticos, permite reunir objectos em grupos a partir de uma série de variáveis seleccionadas

à priori. Assim, pode-se colocar a seguinte questão de investigação:

Pode a análise de agrupamentos contribuir de forma significativa na identificação de segmentos

de distritos potenciais produtores de cereais em Moçambique?

Page 14: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

4 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

1.1 OBJECTIVOS

1.1.1 OBJECTIVO GERAL

Aplicar a análise de agrupamentos para encontrar segmentos de distritos potenciais produtores de

cereais em Moçambique.

1.1.2 OBJECTIVOS ESPECÍFICOS

Descrever as características dos cereais usados no processo de agrupamento dos distritos;

Encontrar o melhor critério de agrupamento dos distritos tendo em conta as características

das variáveis de agrupamento;

Aplicar os testes da MANOVA para validar os agrupamentos formados,

Classificar os grupos formados e identificar o grupo de distritos com elevado potencial na

produção de um dado cereal;

Identificar geograficamente a região com maior potencialidade na produção de cereais.

Page 15: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

5 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

CAPÍTULO II: REVISÃO DA LITERATURA

O combate a pobreza absoluta assente num crescimento económico sustentável e abrangente,

constitui a principal finalidade do Governo Moçambicano na actualidade, esta tarefa está a ser

implementada tanto nas áreas urbanas como nas áreas rurais de Moçambique.

A experiência histórica de Moçambique demonstra que a batalha pelo desenvolvimento humano

só será sustentável e viável se, a longo prazo, a generalidade do território e da população forem

integrados de forma eficiente e equitativa no processo de crescimento e do desenvolvimento

económico do país.

Conforme Sitoe (2010), a maior parte do território Moçambicano é predominantemente rural.

Não obstante, o processo de urbanização acelerado nas décadas passadas, a maior parte da

população Moçambicana continua a nascer, residir e depender das áreas rurais.

Consciente da experiência histórica e dos enormes desafios que o país terá de enfrentar no futuro,

o Governo tem vindo a repensar e equacionar uma estratégia de desenvolvimento

especificamente para as áreas rurais. Esta estratégia ou visão estratégica invocada pelo Governo

não é por acaso, nem simples retórica, mais sim tem-se em vista uma diferença substancial na

planificação por um lado e, a estratégia ou pensamento estratégico, por outro lado.

2.1 A POLÍTICA AGRÁRIA EM MOÇAMBIQUE

Em Moçambique o sector agrário tem beneficiado de recursos do Estado bastante reduzidos,

embora a maior parte da população se dedique a agricultura. Paralelamente a este aspecto, a

componente de recursos humanos qualificados, o fraco acesso à tecnologia são alguns dos

constrangimentos que afectam com certa severidade o sector agrário. Assim, para a erradicação

da pobreza e o combate a fome por meio do aumento da produtividade agrícola requer uma

política deliberada, orientada para maiores investimentos3 públicos e privados no sector agrário.

A análise dos sistemas agrícolas de um determinado lugar parte do pressuposto de que analisar e

especificar um objecto, é também estudar a sua dinâmica da evolução através do tempo, e as

3 Refere-se aos investimentos em infra-estruturas de rega, mecanização agrícola e o acesso a créditos bancários.

Page 16: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

6 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

relações que esse sistema mantém com o resto do mundo nos seus diferentes estágios de

evolução.

Com o objectivo de estimular a produtividade induzindo o crescimento e a equidade nos

pequenos agricultores, o Governo implementou em 2007 a Estratégia Revolução Verde. Cujo a

ideia mais vulgarizada desta Revolução está relacionada com à transformação tecnológica da

agricultura principalmente na Ásia entre 1950-1960 com a introdução e utilização de variedades

altamente produtivas de arroz e trigo, fertilizantes inorgânicos, pesticidas e irrigação (Sitoe,

2010).

Em Moçambique, apesar da Revolução Verde contribuir significativamente no aumento dos

níveis de produtividades, ela tem sido criticada por vários investigadores desta área.

Conforme Uaiene e Arndt (2007) a Revolução Verde que se advoca centra-se na provisão de

sementes melhoradas, uso de fertilizantes e pesticidas, irrigação e mecanização agrícola. A mera

provisão destes importantes insumos não garante, contudo, o seu uso eficiente para que se possa

atingir a máxima produção possível. Uma melhor gestão, informação e utilização dos recursos

são igualmente importantes e devem ser enfatizados.

Langa (2010), citado por Lopes e Magalhães (2010), afirma que na agricultura moderna, a

produtividade é assegurada pelo recurso a insumos agrícolas e a investigação científica.

Na Revolução Verde de Moçambique, apenas 5% dos produtores das 3.3 milhões de explorações

agrícolas existentes no país usa sementes melhoradas e fertilizantes.

Sendo que a maior parte dos agricultores continuam a fazer a agricultura com enxada de cabo

curto e com preces para poder ajudar na colheita. A extensão agrária é uma das componentes

mais importantes para promover a produtividade agrária no país e tem uma desoladora

abrangência de menos de 5% dos produtores, o que quer dizer que a maioria dos agricultores

nunca viu um extensionista na sua machamba.

O mesmo autor citado anteriormente acrescentou que apenas a Estratégia RV não é suficiente

para resolver os problemas que o sector agrário enfrenta, pois, existem outros factores que

influenciam nos níveis de produtividade, entre os quais se destacam:

Page 17: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

7 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

a) A rotação de culturas que consiste em fazer uma alternância nas culturas de forma a

evitar o empobrecimento do solo em substâncias minerais e orgânicas.

b) A adubação verde é o segundo factor que tem como objectivo melhorar a fertilidade do

solo e aumentar a sua capacidade produtiva.

c) O uso de fertilizantes que servem para acelerar o crescimento das plantas e aumentar o

rendimento das culturas. Os fertilizantes podem ser orgânicos ou químicos4.

d) A irrigação é uma técnica utilizada na agricultura e tem por objectivo o fornecimento de

água às plantas em quantidade suficiente.

e) O capital ou a renda é um factor muito importante para a produção agrícola, pois, o sector

agrário é dependente de equipamentos mais modernos, e para isso, é necessários que se

façam grandes investimentos. Principalmente no que diz respeito o acesso ao crédito

bancário por parte dos pequenos agricultores.

f) Acesso à terra, segundo a Constituição da República (2007), a terra e os recursos naturais

situados no solo e no subsolo, nas águas territoriais e na plataforma continental são

propriedade do estado e portanto não devem ser vendidos.

Quando se diz que a terra é propriedade do Estado significa que os particulares apenas podem ter

Direito de Uso e Aproveitamento da Terra (DUAT).

2.2 ALGUMAS CONSIDERAÇÕES E CONCEITOS IMPORTANTES

Nesta secção são apresentados alguns conceitos imprescindíveis para a realização deste trabalho.

2.2.1 Potencialidade Agrícola

A potencialidade agrícola é definida como sendo a capacidade que uma região tem na produção

de um determinado bem de consumo (produto).

4 Os fertilizantes orgânicos provêm de produtos animais ou vegetais, enquanto os fertilizantes químicos são produtos

obtidos através de processos industriais e que contem os nutrientes essenciais às plantas.

Page 18: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

8 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Conforme MINAG (2010), esta potencialidade pode ser definida pelos níveis de precipitação,

temperatura e o tipo de solo que cada distrito apresenta. Contudo, maior parte dos distritos das

zonas Norte e Centro do país possuem um bom potencial agrícola, por apresentar várias bacias

hidrográficas com um regime de escoamento mais permanente que os da zona Sul, que são

caracterizados por solos arenosos e por um regime de precipitação irregular, condições não

favoráveis para a agricultura, assim, a presença de barragens e sistemas de regadio nestas zonas

potenciam a agricultura regada.

2.2.2 Agricultura

Segundo a FAO (1996), o conceito de agricultura, é vista como sendo toda a actividade feita pelo

homem com relação a terra de uma forma metódica e sistemática, tendo como principal objectivo

a produção de alimentos.

2.2.3 Conceito de distrito

Normalmente o termo distrito é usado para indicar uma certa subdivisão territorial dentro de um

país e/ou província. Esta divisão pode ter natureza puramente administrativa, ordem política,

judicial, entre outras.

Neste trabalho dar-se-á menção ao termo distrito aplicado a divisões rurais, ou seja, distritos que

se localizam principalmente nas zonas rurais e outras áreas similares.

As técnicas de AA têm sido amplamente usada em diversas áreas de investigação. Um exemplo

de aplicação desta técnica foi apresentado por Vicini (2005), onde propõem uma abordagem

alternativa para o agrupamento de algumas regiões estaduais do Brasil com semelhantes

características nos níveis de produção de grão no sector agro-industrial no período de 1990 à

2002. Neste estudo, a autora concluiu que as diferenças encontradas entre a classificação

convencional e a obtida era significativa, apesar de existirem grupos com alguns estados mal

classificados, ou seja, no mesmo grupo encontrar-se dois estados, sendo um, potencial produtor

de um dado grão, e o outro não.

Oliveira e Padovani (2008) aplicaram a AA com objectivo de caracterizar o perfil produtivo e

climatológico no Sudeste do Estado de Mato Grosso segundo microrregiões semelhantes a partir

das suas características observadas nas medidas de produtividade e climática. Neste estudo, os

Page 19: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

9 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

autores concluíram que as regiões com baixas temperaturas são as potenciais produtoras de milho

e feijão, enquanto, nas regiões com altas temperaturas correspondem a menor produtividade de

arroz. Concluíram ainda que as regiões com maiores índices pluviométricos tendem a apresentar

baixas produtividades de arroz e banana.

No país, estudos de natureza ainda não foram conduzidos na sua generalidade, mas, o Governo

classificou os distritos como potenciais produtores de cereais usando apenas a informação

referente ao tipo de solo, níveis de precipitação e a temperatura registada em cada um dos

distritos (MINAG, 2010).

Portanto, este tipo de classificação não garante a definição de grupos consistentes, visto que os

mesmos foram agrupados de forma aleatória. Sendo que, com a aplicação da AA neste trabalho,

poder-se-á garantir com uma certa margem que os grupos formados apresentam uma alta

homogeneidade dentro e alta heterogeneidade entre os grupos.

CAPÍTULO III: MATERIAL E MÉTODOS

3.1 MATERIAL

Page 20: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

10 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Os dados para a realização deste trabalho foram fornecidos pelo Ministério de Agricultura em

uma base de dados secundária contendo observações de 94 distritos e um total de 11 tipos de

cereais colectados entre 2006 à 2009. Dos quais apenas 5 farão parte da variável estatística de

agrupamento por serem os mais cultivados um pouco por todo país.

Os indicadores climáticos como a média da temperatura mínima anual, a média da temperatura

máxima anual e o nível de precipitação média anual para cada distrito foram fornecidos pelo

INAM em uma base de dados secundária, contendo observações dos 94 distritos usados no

estudo.

A população do presente trabalho é o total dos 128 distritos existentes em Moçambique5. No que

diz respeito a amostra, serão considerados os 94 distritos abrangidos pelo Trabalho de Inquéritos

Agrícolas (TIA), este inquérito foi realizado em 658 Unidades Primárias de Amostragem

seleccionadas (UPA’s).

Tabela 3.1 Descrição das variáveis usadas no estudo

Variáveis Descrição da variável Unidade de Medida

Precipitação Precipitação Média registada Mm

Temperatura Mínima Média da Tª Mínima registada ˚ C

Temperatura Máxima Média da Tª Máxima registada ˚ C

Milho Quantidade total de Milho produzido Mil toneladas

Arroz Quantidade total de Arroz produzido Mil toneladas

Feijão Nhemba Quantidade total de F. Nhemba produzido Mil toneladas

Feijão Manteiga Quantidade total de F. Manteiga produzido Mil toneladas

Feijão Bóer Quantidade total de F. Bóer produzido Mil toneladas

Orçamento Estimativa do Orçamento Total Mil Meticais

Área de cultiva Estimativa do Total de Área cultivada Mil Hectares

Os dados foram processados nos seguintes Softwares estatísticos:

SPSS versão 17.0;

5 No período considerado em Moçambique havia cerca de 128 distritos.

Page 21: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

11 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

MINITAB versão 14.0;

R, Versão 2.8.1 e

ARCGIS, Versão 10.1

E, foi usado 5% como nível de significância durante o processamento e análise dos resultados

obtidos.

3.2 MÉTODOS

3.2.1 Técnicas Estatísticas

As técnicas estatísticas podem ser classificadas em técnicas de dependência e interdependência.

A principal diferença entre elas reside no facto das técnicas de dependência serem aplicáveis para

avaliar as relações entre uma ou mais variáveis. Enquanto as técnicas de interdependência são

úteis nos casos em que as variáveis ou observações estiverem relacionadas de modo não

capturadas pelas relações de dependência. Ou seja, as técnicas de interdependência ajudam a

avaliar a estrutura dos dados (Hair, et al. 2005).

Fazem parte das técnicas de interdependência: a análise factorial, análise de agrupamentos e o

escalonamento multidimensional.

3.2.2 ANÁLISE DE AGRUPAMENTOS

A AA é conforme Hair, et al. (2005), Maroco (2007) e Reis (2001) uma técnica exploratória de

análise multivariada que permite agrupar sujeitos ou variáveis em grupos homogéneos

relativamente a uma ou mais características comuns. Cada observação pertencente a um

determinado grupo é similar a todas as outras pertencentes a esse grupo, e diferente das

observações pertencentes aos outros grupos. Ou seja, a ideia chave é que os grupos tenham

significado e sejam interpretáveis.

Para uma mesma amostra, a análise de agrupamentos pode portanto conduzir a vários conjuntos

(de grupos) sendo que, alguns deles poderão ser solução. Algumas limitações deste tipo de

análise devem-se ao facto de:

Page 22: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

12 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Não detectar o número óptimo de grupos existentes (por natureza) na amostra;

Não identificar a melhor solução;

Nem sempre criar grupos facilmente identificáveis e de igual dimensão;

Não tomar em consideração as relações existentes entre as variáveis.

Uma noção fundamental em AA é a de semelhanças e/ ou de dissemelhanças entre os objectos a

agrupar, pois pretende-se que os elementos de um mesmo grupo sejam o mais semelhante

possível (homogeneidade intra-grupos) e que os elementos de dois grupos distintos sejam o mais

dissemelhante possível (heterogeneidade inter-grupos).

3.2.3 Etapas para a realização de AA

Para a aplicação da técnica multivariada de AA é necessário:

Definir os objectivos da AA, obtenção dos dados e tratamento dos mesmos;

Escolher a técnica de Agrupamentos e da medida de distância a ser usada;

Formar os grupos a partir das definições efectuadas;

Validar, avaliar e interpretar os resultados obtidos.

3.2.4 Medidas de Semelhanças e Distância

Segundo Reis (2001) e Hãrdle e Simar (2007), a análise teórica das relações de semelhança tem

sido denominada pelos modelos geométricos. Estes modelos representam as observações como

ponto em qualquer espaço de coordenadas de forma que as dissemelhanças observadas entre

objectos correspondam a distâncias métricas entre os respectivos pontos.

Hair, et al. (2005) defende que a similaridade é uma medida de correspondência ou semelhança

entre objectos a serem agrupados. E podem se destacar as medidas de correlação, associação e as

medidas de distância.

Estas medidas de classificação exigem que os índices de semelhança ou dissemelhança respeitem

as propriedades das métricas que são:

Page 23: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

13 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Simetria: VUVUVU dd ,),(),( ,0

Desigualdade triangular: We V U,),(),(),( VWWUWU ddd .

Diferenciabilidade de não idênticos: VUVUd ,0),( .

Indiferenciabilidade de idênticos: '' ,0),( UUUU

d

.

3.2.4.1 Medidas de Similaridade e Dissimilaridade para Variáveis Quantitativas

Para iniciar com o processo de agrupamento dos objectos, é necessário definir uma medida de

similaridade ou dissimilaridade e, com base nessa medida os objectos similares são agrupados e

os demais são colocados em grupos separados.

As medidas de distância têm um papel central nos algoritmos de agrupamento. Através delas são

definidos critérios para avaliar se dois pontos estão próximos e, se podem ou fazer parte de um

mesmo grupo, caso contrário os dois pontos estarão em grupos diferentes.

Para medir esta dissemelhança, várias medidas de distância foram propostas para agrupar os

objectos de uma matriz de dados (tabela 1 anexo IV).

A distância City-Block substitui a soma dos quadrados das diferenças pela soma das diferenças

absolutas em cada par de indivíduos ao longo da variável estatística de agrupamentos. Esta

distância é apropriada nos casos em que as variáveis que compõem a variável estatística de

agrupamentos não estão correlacionadas, caso contrário os agrupamentos são considerados

inválidos Hair, et al, (2005).

A distância de Mahalonobis para além de ser uma generalização da distância Euclideana, ela

contém por si só um procedimento de padronização sobre os dados e soma a variância-

covariância acumulada dentro dos grupos ajustando assim as inter-correlações entre as variáveis.

Para certos valores do factor de ponderação S, a distância Euclideana ponderada assume as

seguintes características:

Page 24: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

14 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

S=1nxn, a ponderação é a matriz identidade, portanto, obter-se-á a Euclideana distância

usual;

122

2

2

1 ).....,,.........,.( psssdiagS , Obter-se-á a distância de variáveis padronizadas;

1S , Onde 1 é a inversa da matriz de covariância, tem-se então a distância de

Mahalanobis.

3.2.4.2 Medidas de Semelhança para variáveis qualitativas

As medidas de similaridade por associação são geralmente usadas para comparar objectos cujas

características são medidas em termos não métricos (medida nominal ou ordinal).

Estas medidas representam a similaridades pela percentagem de concordâncias nos respondentes

ao longo da variável estatística de agrupamento, sendo, pelas simultâneas presenças ou ausências

de determinadas características nos objectos, nos quais, objectos similares têm mais característica

em comum do que indivíduos não similares Hair, et al. (2005).

Considerando os seguintes objectos i e j caracterizados por p-variáveis binárias poder-se-á

construir a seguinte tabela de contingência:

Tabela 3.2 Tabela de contingência

1 0 Totais

1 a 1 a 2 a 1 +a 2

0 a 3 a 4 a 3 +a 4

Totais a 1 +a 3 a2+a4 p=a 1 +a 2 +a 3 +a 4

Objecto j

Objecto i

Onde:

a1- Representa o número de presenças simultâneas de características (1-1) entre os objectos i e j

no total de p-variáveis.

a2- Representa o número de ausências de características no objecto i e presença de características

no objecto j (0-1).

Page 25: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

15 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

a3- Representa o número de presença de características no objecto i e ausência de características

no objecto j (1-0).

a4- Representa o número de ausências simultâneas de características (0-0) entre os objectos i e j.

Com base na tabela de contingência definida anteriormente, Hãrdle e Simar (2007), definiram a

seguinte medida de semelhança:

)( 3241

41

aaaa

aaS ij

, com 10 ijS (1)

Onde: e são factores de ponderação. Assim, para diferentes valores de e ter-se-á os

coeficientes de similaridade da tabela 2 (Anexo IV).

3.2.4.3 Coeficientes Combinado

Os coeficientes de aglomerações combinadas são úteis, quando se tem um conjunto misto de

variáveis, ou seja, variáveis de naturezas diferentes.

Quando isso acontece, é necessário definir uma matriz de similaridade e/ou dissimilaridade, que

será a combinação linear de duais ou mais matrizes, dependendo da natureza de cada variável

existente. Para casos em que houver variáveis de natureza qualitativa e quantitativa, as matrizes

combinadas serão calculadas pela seguinte fórmula (Barroso e Artes, 2003):

qqoonnnxn SNSNSNS *** e qqoonnnxn DNDNDND *** (2)

Onde:

Nn: Representa o número de variáveis nominais existente

No: Representa o número de variáveis ordinais existente

Nq: Representa o número de variáveis quantitativas existente, por sua vez,

Sn e Dn: Representam as matrizes de similaridade e dissimilaridade geradas com base nas

variáveis nominais;

So e Do: Representam as matrizes de similaridade e dissimilaridade geradas com base nas

variáveis ordinais;

Page 26: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

16 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Sq e Dq: Representam as matrizes de similaridade e dissimilaridade geradas com base nas

variáveis quantitativas.

3.2.5 MÉTODOS DE AGRUPAMENTOS

O método de agrupamentos depende da natureza dos dados e do objectivo inicial, uma vez que a

AA é uma técnica descritiva e exploratória, ao contrário dos testes estatísticos que tem um

objectivo inferencial e confirmatório, é necessário na AA testar nos mesmos dados vários

algoritmos. Dadas as diferentes soluções obtidas cabe ao investigador reter a melhor solução com

base na interpretação dos resultados e do conhecimento a prior do caso em estudo.

Existem dois métodos de agrupamentos, os métodos hierárquicos e os métodos por partição

(métodos não-hierárquicos6).

3.2.5.1 Métodos hierárquicos

Os métodos hierárquicos envolvem a construção de hierarquia em uma estrutura do tipo árvore.

Ou seja, são métodos baseados em uma série de sucessivas junções (métodos aglomerativos) ou

uma série de sucessivas divisões (métodos divisivos).

Nos métodos hierárquicos aglomerativos, cada elemento inicia-se representando um grupo, e a

cada passo, um grupo ou elemento é ligado ao outro de acordo com a sua similaridade, até o

último passo onde é formado um grupo único com todos os elementos.

Os métodos hierárquicos divisivos começam com um só grupo constituído por todas as

observações existentes. Em passos sucessivos, os objectos mais diferentes entre si são separados

e transformados em agrupamentos menores. Esse processo continua até que cada objecto seja um

agrupamento por si mesmo.

Fazem parte das limitações deste método, o facto de não serem tratáveis para analisar amostras

muito grandes, ser fortemente influenciado pelas observações atípicas e, apresentar estrutura de

agrupamentos inadequadas quando se incluir variáveis irrelevantes.

6 Abordagem mais aprofundada para os métodos não-hierárquicos pode ser encontrada em Reis (2001), Maroco (2007) e Hair, et

al (2005)

Page 27: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

17 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 1: Relação entre os métodos aglomerativos e divisivos

Fonte: Adaptado pelo autor

Os resultados dos agrupamentos tanto de métodos divisivos como dos aglomerativos podem ser

visualizados a partir de um digrama de dispersão (nos casos em que se tem apenas duas variáveis

na variável estatística de agrupamento).

Nos casos em que se tem mais de duas variáveis é comum o uso do dendograma, que é um

gráfico bidimensional que ilustra as agregações ou divisões feitas em níveis sucessivos. O eixo

horizontal representa a distância usada para unir os grupos e, o eixo vertical representa as

observações agregadas. A leitura do dendograma nos métodos aglomerativos é feita da esquerda

para a direita, enquanto nos métodos divisivos a leitura é feita de forma contrária.

Nos métodos aglomerativos, os grupos são aglomerados de acordo com as semelhanças ou

diferenças entre eles, assim, far-se-á menção a 6 critérios por serem os mais comummente

usados.

Page 28: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

18 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Tabela 3.3 Critérios de ligação entre as observações

Critério de Ligação Expressão Matemática

Critério do vizinho mais próximo kjkikij ddd ;min)(

Critério do vizinho mais afastado kjkikij ddd ;max)(

Critério de ligação mediana 42

)(

UVVWUW

WUV

dddd

Critério da média entre os grupos

)(

1 1)(

)(*

1 UV WN

q

N

l

ql

WUV

WUV dNN

d

Critério dos centroides 2)(

)(

****

VU

UVVU

VU

VWVUWU

WUVNN

dNN

NN

dNdNd

Critério de Ward

k

l

n

j

jij

j

XXMinSQE1 1

2__

)(

Fonte: Adaptado pelo autor com base em Hair, et al. (2005) e Albuquerque (2005)

O critério de ligação simples é baseado em distância mínima. Ele encontra os dois objectos

separados pela menor distância e coloca-os no mesmo agrupamento.

Inversamente ao critério de ligação simples, no critério de ligação completa os objectos são

agregados com base na distância máxima ou menor similaridade. Essa técnica tem sido

comummente usada pelo facto de eliminar o problema de encadeamento identificado na ligação

simples (Hair, et al., 2005).

No critério de ligação média os objectos são agrupados com base na distância média de todos os

objectos pertencente a um agrupamento ao demais em um outro. Esta técnica tem a vantagem de

não depender de valores extremos como ocorre com ligação simples e completa.

Conforme Reis (2001) e Hair, et al. (2005) abordagens de ligação média tendem a combinar

agrupamentos com pequena variação interna, elas também tendem a produzir agregados com

aproximadamente a mesma variância.

Page 29: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

19 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

O critério dos centroides foi proposto com o objectivo de caracterizar os dados como pontos no

espaço de Mahalanobis. Neste critério, a distância entre dois grupos é definida como a distância

entre os seus centroides7. Uma das desvantagens na utilização deste método é que se os primeiros

dois grupos formados forem muito diferentes em termo de dimensão, o centroide do novo grupo

estará mais próximo daquele que tiver maior número de objectos e, as características do grupo

menor tenderam a se perder (Albuquerque, 2005).

O critério de Ward baseia-se na perda de informação resultante do agrupamento dos indivíduos e,

é medida através da soma dos quadrados dos desvios das observações individuais relativamente

às médias dos grupos em que são classificadas.

No início do processo de agrupamento, cada individuo constitui um grupo cuja sua soma dos

quadrados do erro é nula, em seguida são agrupados os dois indivíduos que provocam um

aumento mínimo no valor da soma dos quadrados dos erros, passando a existir (n-1) grupos,

assim por diante (Reis, 2001).

3.2.5.2 Métodos não-hierárquicos

Os métodos não-hierárquicos destinam-se a agrupar objectos ou indivíduos (mas não variáveis)

em um conjunto de grupos cujo número é definido a prior pelo analista. Estes métodos

apresentam como principal vantagem, relativamente aos métodos hierárquicos, a facilidade com

que são aplicados a matrizes de dados muito grandes, uma vez que não é preciso calcular e

armazenar uma nova matriz de dissemelhança em cada passo do algoritmo (Maroco, 2007).

Existem vários métodos não-hierárquicos, que diferem-se no modo como se desenrola a primeira

agregação dos objectos nos grupos, e no modo como as novas distâncias entre os centroides dos

grupos e os sujeitos são calculadas. De entre vários métodos, os mais usados são:

1. Critério k-médias: que consiste em transferir um objecto para um dado grupo cujo centroide se

encontra a uma menor distância.

Para tal, é necessário que se conheçam os centoides de cada grupo ou terão de ser calculados a

partir dos dados originais.

7 Medias ou valores médios dos objectos contidos no agrupamento sobre cada variável usada no processo de agrupamento ou no

processo de validação.

Page 30: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

20 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

2. Critério de referência sequencial: Este critério começa pela selecção de uma semente de

agrupamento8 e inclui todos os objectos dentro de uma distância pré-especificada. Quando todos

os objectos dentro de uma distância são incluídos, uma nova semente de agrupamento é

seleccionada e todos os objectos dentro da distância pré-especificada são incluídos. Este processo

continua até que todos os objectos sejam agrupados.

3. Critério de referência paralela: O critério de referências paralelas escolhe diversas sementes de

agrupamento simultaneamente no começo e designa objectos dentro da distância de referência

até a semente mais próxima. À medida que o processo se desenvolve, a distância de referência

pode ser ajustada para incluir menos ou mais objectos nos agrupamentos. Ainda assim, em

algumas variantes desse método, os objectos permanecem não agrupados se estiverem fora da

distância de referência pré-especificada a partir de qualquer semente de agrupamentos (Hair, et.

al, 2005).

3.3 CRITÉRIOS PARA A DETERMINAÇÃO DO NÚMERO DE GRUPOS A RETER

Em AA, ainda não existe um procedimento padrão para a determinação do número de grupos a

formar. Maroco (2007) sugere dois critérios que podem ajudar a identificar o número de grupos

que justifique a estrutura dos dados. O critério de distância entre os agrupamentos e o critério

do R2.

a) Critério de distância entre os agrupamentos

Neste critério, se a distância entre dois ou mais agrupamentos for a mínima possível, eles devem

ser unidos. Caso contrário, estes agrupamentos devem manter-se separados e, esta distância é

obtida com base na coluna de coeficientes de aglomeração obtida no output de AA.

b) Critérios do R2 e da Variabilidade Ganha (G)

O R2 mede o quão diferentes são os agrupamentos a cada passo do algoritmo. Ele mede a

percentagem da variabilidade total que é retida em cada um dos agrupamentos. No caso em que

8 Centroides dos agrupamentos definidos a prior. Este centoide deixa de ser uma semente em estágios futuros quando um objecto

é agrupado a ele.

Page 31: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

21 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

houver apenas um único grupo, é óbvio que a variabilidade é nula e, caso existam tantos grupos

quantos objectos, a variabilidade entre os grupos é igual a variabilidade total.

Por sua vez, o critério da variabilidade ganha, mede a variabilidade ganha ao passar de k grupos

para (k+1)

O R2 e o G podem ser calculados pelas seguintes fórmulas:

p

i

k

j

ni

l

ijl

p

i

k

j

ijiij

XX

XXn

SQT

SQBR

1 1 1

2__

1 1

2____

2

)(

)(

(3)

)1(

)1()(

kSQW

kSQWkSQWG (4)

Onde:

SQB: É a Soma dos Quadrados entre os agrupamentos,

SQW (k): É a soma dos Quadrados do Erro, quando há k grupos

SQW (k+1): É a soma dos Quadrados do Erro, quando há k+1 grupos

SQT: É a Soma dos Quadrados dos Totais.

3.4 FORMAÇÃO DOS AGRUPAMENTOS

Para a formação dos agrupamentos, foram aplicados os procedimentos hierárquicos, com os

métodos aglomerativos. Pois, para além de serem rápidos e não dependerem das habilidades do

pesquisador, eles são apropriados quando temos amostras inferiores a 250 objectos como

sugerido por Hair, et. al (2005) e Prearo (2008).

Foi usada a distância Euclideana como medida de dissimilaridade entre os objectos, pois:

A variável estatística de agrupamentos é composta por um conjunto de variáveis métricas.

Tem sido uma das medidas de dissimilaridade mais utilizadas, sendo que muitas outras são

variantes desta.

Page 32: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

22 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Como critério de ligação entre os objectos, foram usados os critérios de ligação completa e, o

critério de Ward, com a retenção de 3 a 5 agrupamentos, sendo este, o número de grupos que

justifica a estrutura dos dados disponíveis. No fim foi calculado o ),( FCCOF para a escolher da

melhor estrutura de agrupamentos.

A razão que justifica o uso do critério de ligação completa é aquela ressaltada por Hair, et. al,

(2005) segundo a qual este critério elimina o problema de encadeamento9 ou correntes

prolongadas identificado na ligação individual. Em decorrência disso, as chances de encontrar

grupos mais equilibrados e menos dissimilares aumentam.

O critério de Ward tem a vantagem de basear-se na perda mínima de informação e, gerar grupos

com alta homogeneidade tanto para as distâncias Euclidianas quanto para outras distâncias como

sugerido por Prearo (2008).

3.5 SUPOSIÇÕES EM ANÁLISE DE AGRUPAMENTOS

Como foi mencionado anteriormente, a AA é uma técnica exploratória pois não tem bases para a

inferência estatística portanto, a representatividade da amostra e a multicolinearidade são as

questões mais críticas nestas técnicas. Para tal, ao aplicar a AA é sempre bom estar confiante de

que as variáveis que compõem a variável estatística de agrupamentos não estão fortemente

correlacionadas uma da outra e, estar ciente que a amostra é representativa da população. Pois,

em alguns casos as observações atípicas podem realmente ser apenas uma subamostra de grupos

divergente que, quando descartadas, introduzem um viés na estimação da estrutura (Hair et. al,

2005).

A padronização de variáveis é aplicável quando estas apresentam diferentes escalas de medidas.

Em geral, variáveis com maior dispersão têm maior impacto sobre as medidas de distâncias. Mas

o processo de padronização não pode ser tomado como uma solução ideal para todos os casos,

porque muitas vezes este processo anula a influência natural de uma dada variável no processo

de agrupamentos, estabelecendo assim um mesmo peso para todas as variáveis.

9 Encadeamento é um termo que descreve a situação onde há um primeiro grupo de um ou mais elementos que passa a incorporar

em cada interacção um grupo unitário. Assim, é formada uma longa cadeia onde torna-se difícil definir um nível de corte para

classificar os elementos em grupos.

Page 33: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

23 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Outro ponto que merece uma grande atenção está relacionado com a presença de observações

atípicas, pois, apesar de ser uma técnica exploratória, a AA é muito sensível a observações

atípicas. Isto porque, pode se tratar de valores absurdos que não são representativos da população

geral ou, uma subamostra de grupos reais na população que provoca uma sub-representação da

população na amostra. De um modo geral, as observações atípicas destorcem a verdadeira

estrutura dos agrupamentos tornando-os não representativos da verdadeira estrutura da

população.

3.6 MÉTODOS DE VALIDAÇÃO DOS AGRUPAMENTOS ENCONTRADOS

A validação inclui tentativas de garantir que a solução de agrupamentos seja representativa da

população geral, e assim seja generalizável para outros objectos e, estável com o passar do tempo

(Hair, et. al, 2005).

A validação dos agrupamentos formados pode ser feita usando diversos métodos, entre os quais

destacam-se:

Partição da amostra em análise;

Selecção de variáveis não usadas na análise (validação preditiva);

Gráficos de perfil dos agrupamentos;

Gráficos de radar;

Coeficiente de correlação cofenética,

Aplicação da MANOVA.

3.6.1 Coeficiente de Correlação Cofenética

O coeficiente de correlação cofenética foi usado como medida para a escolha da melhor partição

de entre as obtidas com base nos dois critérios de aglomeração usado.

Este coeficiente pode ser calculado através dos valores de duas matrizes, a matriz de distâncias

originais (matriz fenética F) e a matriz reconstituída com base no dendograma (matriz cofenética

C).

Page 34: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

24 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Segundo Vicini (2005), este coeficiente permite medir o grau de associação linear entre essas

duas matrizes. Ele equivale ao coeficiente de correlação de Pearson e, foi proposto como uma

medida de concordância entre os agrupamentos obtidos e a matriz de distância original.

A matriz cofenética é construída substituindo os valores da matriz de distância (reduzida) pelos

valores correspondentes a distância que ocorreu na junção real entre dois objectos, utilizando por

isso os mesmos valores que permitiram a construção do dendograma.

Assim, o coeficiente de correlação cofenética entre as matrizes F (matriz de distância reduzida) e

C (a matriz relativa a F), é dado por:

1

1 1

2__1

1 1

2_

1

1 1

____

)()(

))((

),(n

j

n

ji

ji

n

j

n

ji

ji

n

j

n

ji

jiji

ffcc

ffcc

FCCOF , Com _____

,1 ni e_____

1,1 nj (5)

Onde __

c e __

f são as médias aritméticas, definidas por:

1

1 1

__

)1(

2 n

j

n

ji

ijcnn

c e

1

1 1

__

)1(

2 n

j

n

ji

ijfnn

f

Sendo: n o número de elementos que compõem a matriz C, cada ic corresponde a uma

observação da matriz Cofenética e, cada fi corresponde a uma observação da matriz fenética.

Geralmente um valor de 7.0),( FCCOF , indica que a matriz cofenética gerada a partir do

dendograma representou uma boa simplificação da matriz de distância ou fenética e, portanto, a

AA efectuada forneceu grupos puramente homogéneos.

3.6.2 Testes de Significância entre os Agrupamentos (MANOVA)

Uma vez formado os agrupamentos, é preciso verificar o quão heterogéneo são esses grupos em

relação a uma ou mais características não usada no processo de agrupamento.

Para testar a existência ou não de diferenças estatisticamente significativas entre os grupos,

recorrer-se-á aos testes estatísticos multivariados da MANOVA, que é uma extensão da análise

de variância simples (ANOVA).

Page 35: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

25 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

A principal diferença entre as duas técnicas, reside no facto da ANOVA avaliar as diferenças

para uma única variável critério yi, enquanto na MANOVA, se procede a comparação de

vectores de médias para diversas variáveis critério simultaneamente.

O modelo da MANOVA a um factor e p-variáveis dependentes é dado por :

ijrjrrijrY ,

_____

,1 jni ,

_____

,1 gj , pr .,.........3,2,1 (6)

Com a seguinte suposição: ),0(~

pijr N e restrição:

01

j

g

j

jn

Com este modelo, pretende-se testar a significância dos vectores de média dos k grupos

existentes, com nas seguintes hipóteses:

kH .......: 210

jia jijiH que tal, com ),(:

Seja W a matriz da SQPC intra-grupos, e B a matriz da SQPC inter-grupos a matriz da SSCP do

total, será dada por: T=B+W, onde as matrizes B e W, podem ser obtidas com base nas seguintes

fórmulas (Rincher, 2002):

Tk

i

T

ii

T

i

k

i

i YYk

YYn

YYYYnB ....

1

..

__

...

1

__

,,. *1

*1

(6.1)

T

iij

iij

T

ijij

T

iij

k

i

nk

j

iij YYn

YYYYYYW

.

__

.

1 1

__

, *1

* (6.2)

Tabela 3.4 Quadro da Manova para a comparação dos vectores de média dos k grupos

Page 36: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

26 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

 Fonte de Variação  Graus de liberdade   Matriz da SQPC

Grupos

Total Corrigido

 Erro

1 gvH

T

k

i

T

ii YYk

YYn

B ....

1

.. *1

*1

gnvvg

k

kWk 1

T

iij

iij

T

ijij YYn

YYW

.*1

*

11

g

k

knWBT

Definida as matrizes, passa-se a descrever resumidamente alguns destes testes cujas deduções

matemáticas podem ser encontradas em Reis (2001) e Rencher (2002).

a) Teste Lamba de Wilks

Teste Lambda de Wilks, resulta do quociente entre os determinantes da matriz da soma dos

quadrados e produtos cruzados dentro dos grupos e do total, também pode ser obtido a partir dos

valores próprios da matriz da W-1

T, αi, isto é:

S

i

i

WB

W

1

1

1

O determinante de W é uma medida de variabilidade dentro dos grupos, enquanto o determinante

de T, fornece a medida de variabilidade total. Assim, quanto maior for a semelhança entre os

determinantes, menor serão as diferenças entre os grupos B, e mais próximo de 1 estará a

estatística . Pelo contrário, se a diferença entre os grupos forem elevadas quando comparadas

com a variabilidade dentro dos grupos, o valor de tenderá a aproximar-se de zero.

b) Traço de Hotelling-Lowley

Este teste resulta do quociente entre os determinantes das matrizes da soma dos quadrados e

produtos cruzados entre os grupos B e dentro dos grupos W, ou através dos valores próprios da

matriz W-1

B, αi, isto é:

S

i

iW

BT

1

, Assim, quanto maior for o valor de T, maior será a diferença entre os grupos.

Page 37: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

27 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

c) Traço de Pilai

O traço de Pilai resulta no quociente entre os determinantes das matrizes da soma dos quadrados

e produtos cruzados entre os grupos e do total, ou através dos valores próprios da matriz T-1

B, αi,

isto é:

S

i i

i

WB

BV

1 1

, Maiores valores de V indicam a existência de diferenças

estatisticamente significativas entre os grupos.

d) Maior raiz característica de Roy

Este teste baseia-se no primeiro valor próprio da matriz T-1

B, αi, isto é:

Max

Max

1, Sendo αmax o maior valor próprio da matriz T

-1B. Maiores valores de indicam

existência de diferenças entre os grupos.

Tabela 3.5 Distribuições aproximadas dos testes multivariados10

Teste Fórmula Distribuição amostral aproximada

Wilks

S

i

i

WB

W

1

1

1

1121));1((1

1

1*

)1(

1121

kprtkp

t

t

Fkp

kprt

Hotelling-Lowlay

S

i

iW

BT

1

))1(2();12(

0

2*

)12(

)1(2

SNSMSFT

SMS

SN

Pilai

S

i i

i

WB

BV

1 1

10

Maiores detalhes das distribuições aproximadas dos testes multivariados e as respectivas deduções podem ser encontrados em

Reis (2001) e Rencher, (2002).

Page 38: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

28 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

))12();12(

0

*)12

12

SNSSMSF

VS

V

SM

SN

Roy

Max

Max

1 1,

0

max*1

dvdH

HF

d

dv

Sendo: )(2

11 kpnr ;

5

422

22

H

H

vp

vpt ;

2

1

pvM

H e

2

1

pvN E

p = representa o número de variáveis;

n = o número de indivíduos;

k = o número de grupos e

s = min (p, vH), representa o número de autovalores não nulo de cada uma das matrizes que

geram os autovalores

VH = Graus de liberdade da matriz hipótese B (VH=k-1)

VE = Graus de liberdade da matriz do erro W (VE=n-k)

d = max(p, vH).

3.6.2.1 Suposições em Manova

Diferentemente das técnicas de AA, para a que os procedimentos dos testes multivariados da

MANOVA sejam validos, três suposições devem ser atendidas, a saber:

a) Independência das observações

Quando a distribuição do vector aleatório Y é normal p-variada, é possível construir testes de

hipóteses para a avaliação da matriz das correlações. O teste usualmente usado para testar a

independência das p-variáveis respostas é o teste de Bartlett (Sartório, 2008).

Assim, supondo a existência de uma amostra aleatória de tamanho n, do vector alectório Y,

podem ser construída as seguintes hipóteses:

IRH :0

Page 39: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

29 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

IRH a :

Onde: I representa a matriz identidade das p-variáveis e, R representa a matriz das correlações

teóricas das p-variáveis.

A Ho, equivale dizer que as p-variáveis são independentes, ou que a matriz das covariâncias S de

Y, é diagonal. Sob a imposição da Ho, a estatística de teste é definida por:

)1(2

12

1

~)ln(1126

1

pp

p

i

i XpnX , para n>30 (6.3)

b) Igualdade de matrizes de variância e covariâncias

A suposição das matrizes de variância e covariância nos grupos serem igual, é de maior

importância na MANOVA. O teste estatístico clássico para verificar esta suposição, foi proposto

por Box, como uma generalização do teste univariado de Bartlett para a verificação de igualdade

de variâncias.

As hipóteses a testar são:

gH ...............: 210

jia jijiH ),,(:

O teste M de Box é dados por: k

g

k

k SvSgnM lnln)(1

(6.4)

Com gn

WS

, 1 kk nv , são os graus de liberdade associados ao grupo e, kS é o

determinante da matriz de variância e covariancia do k-gésimo grupo.

A aproximação à X2 é indicada quando o número de dimensões dos grupos é superior a 20 e, um

número de variáveis e grupos inferior a 6, esta aproximação é dada por:

)1)(1(~2

12 gppXMC , Onde

g

k k gnvgp

ppC

1

211

)1)(1(6

1321 (6.5)

Page 40: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

30 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

A aproximação à F é indicada para todas as outras situações e, esta aproximação é dada por

(Sartório, 2008):

),(

0

1

~

1

ovvFv

v

vaM

(6.6)

Onde 2

)1)(2(

gppv ,

12

2

0

2

aa

vv

, Ca 11 e,

21

22

11

)1(6

)2)(1(

gnvg

ppa

g

k k

c) Normalidade das p-variáveis

A normalidade multivariada considera que o efeito conjunto de duas ou mais variáveis é

distribuído normalmente. Hair, et.al (2005), acrescenta que a violação da suposição de

normalidade, cria problemas na aplicação do teste M de Box, para a homogeneidade das matrizes

de variância e co-variâncias. A não existência de testes directos para a normalidade multivariada,

obriga o uso dos testes univariados para a normalidade, como os testes de Kolmogorov-Smirnov

e de Shapiro-Wilks.

3.6.2.2 Comparações Múltiplas

De igual forma como acontece na ANOVA, a rejeição da hipótese nula H0 não indica quais

grupos ou tratamentos são diferentes entre si. Esta rejeição pode ocorrer devido a existência de

diferenças entre grupos em uma dada variável, mas também, pode ser devido a existência de

diferenças entre os grupos ligados a certa combinação linear de variáveis. De entre os diversos

métodos de comparação múltipla existentes, utilizou-se os intervalos simultâneos de Bonferroni.

Quando a H0 é rejeitada, aqueles vectores que levam a rejeição desta hipótese são de interesse e,

pode-se identificar quais os pares de vectores de médias são diferentes entre si. A aproximação

de Bonferroni pode ser usada para construir intervalos de confiança simultâneos para as

diferenças de médias nos grupos lk .

Page 41: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

31 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Sejam

g

k

knn1

e, kj o j-ésimo componente (da variável j), e k a média associada ao grupo k,

como k é estimado por ____

yy k , tem-se que ____^

yy kk e

____^^

ljkjlkj yy que é a

diferença entre duais medias independentes. Logo, para o modelo MANOVA descrito em (6), a

(1-α)% de confiança, Bonferroni definiu o seguinte IC para a diferença de médias:

lk

jj

gpggn

ljkjnngn

wtyy

11

)1(

____

, ______

,1 pj , ____

,1 jkl e jjw é o (j, j)-ésimo elemento

da matriz W.

Page 42: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

32 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

CAPÍTULO IV: RESULTADOS E DISCUSSÃO

4.1 CARACTERIZAÇÃO DA AMOSTRA EM ESTUDO

4.1.1 CARACTERIZAÇÃO DAS VARIÁVEIS CLIMÁTICAS

Tabela 4.1 Estatísticas descritivas das variáveis Climáticas

Variáveis

Mín

imo

Máx

imo

Des

vio

Pad

rão

Med

ia a

par

ada

a 5%

Méd

ia

Err

o P

adrã

o d

a M

édia

Coeficientes

Ass

im/E

. P

adrã

o

Curt

ose

/E. P

adrã

o

Ass

imet

ria

Curt

ose

Precipitação 101.8 168.3 13.66 145.2 144.5 1.41 -0,72 0.58 -2,9 1.18

Tª Mínima 10.31 22.45 2.92 15.8 15.84 0.3 0.18 -0,6 0.72 -1,2

Tª Máxima 20.98 33.98 2.88 26.58 26.62 0.3 0.02 -0,7 0.08 -1,4

4.1.1.1 Precipitação

Da tabela 4.1, observa-se que:

O valor médio (da Precipitação Média Anual) registado nos 94 distritos durante o período em

análise foi aproximadamente igual a 144,5mm e, esta associada a um erro padrão de 1,41mm, no

mesmo período em análise, a precipitação média anual variou entre 101,8mm e 168,3mm.

Excluindo 5% dos valores extremos desta variável obtêm-se a média aparada que é igual a

145,2mm. O quociente entre o coeficiente de assimetria pelo seu erro11

padrão a um nível de 5%

de significância leva a concluir que a variável Precipitação Média Anual é assimétrica negativa,

ou enviesada a esquerda, visto que este valor esta fora do intervalo simétrico de 96,1 desvios.

A mesma conclusão pode ser tirada observando o comportamento da curva de Gauss no

11

Os erros padrão dos coeficientes de assimetria e curtose são iguais a 0,249 e 0,493, respectivamente.

Page 43: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

33 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

histograma das variáveis climáticas da figura1 ou pelo gráfico1 de caule e folhas (anexo I),

quanto ao achatamento da curva de distribuição normal, a variável é.mesocurtica.

O gráfico de caule e folhas (grafico1, do anexo I) identificou duas observações atípicas que são

as observações 58 e 59 (figura3 do anexo I), ou seja, no período em análise as precipitações

médias anuais registadas nos distritos de Alto Molôcue e Chinde são considerados valores

atípicos.

4.1.1.2 Temperaturas Mínima e Máxima

Quanto as Temperaturas, observou-se que:

Os valores médios registados nos 94 distritos foram iguais a 15,84 ºC e 26,62 ºC ambos

associados a um erro padrão de 0,30 ºC. As variabilidades médias anuais registadas para as duas

temperaturas foram de 8,29 ºC2 e 8,53 ºC

2 no mesmo período em análise, as temperaturas

registaram uma variações na ordem dos 10,31 ºC à 22,45 ºC para a Temperatura Mínima e 20,98º

C à 33,09 ºC, respectivamente.

Excluindo 5% dos valores extremos em ambas as variáveis obtêm-se as seguintes médias

aparadas 15.80 ºC e 26.58 ºC, ambas estão abaixo das médias calculadas com base no total das

observações. As duas variáveis são simétricas e, mesocurticas quanto à curtose. Tanto os

gráfico2 e 3 de caule e folhas como os boxplots apresentado no histograma da figura1 (em anexo

I) nenhum deles detectou a presença de valores atípicos para estas variáveis.

Os percentis da tabela1 no (anexo I) mostram que 25% dos distritos registaram uma precipitação

de 120mm e, 156mm é a precipitação registada por 75% dos distritos. De igual modo, 21,73 ºC é

a Temperatura Máxima registada por cerca de 25% dos distritos e, 28.58 ºC foi a Temperatura

Máxima registada por cerca de 75% dos distritos.

Page 44: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

34 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

4.1.2 CARACTERIZAÇÃO DOS CEREAIS

Tabela 4.2 Estatísticas descritivas dos Cereais

Variáveis M

ínim

o

Máx

imo

Des

vio

Pad

rão

Med

ia a

par

ada

a 5%

Méd

ia

Err

o P

adrã

o d

a M

édia

Coeficientes

Ass

im/E

. P

adrã

o

Curt

ose

/E. P

adrã

o

Ass

imet

ria

Curt

ose

Milho 1.19 2.92 0.23 2.05 2.07 0.03 0.94 4.15 3.78 8.42

Arroz 0.39 2.09 0.4 1.01 1.02 0.04 0.42 -0,6 1.69 -1,22

Feijão Nhemba 0.09 1.48 0.32 0.5 0.53 0.03 1.07 0.67 4.31 1.36

Feijão Manteiga 0.06 1.83 0.38 0.58 0.61 0.04 0.91 0.18 3.65 0,37

Feijão Bóer 0.13 2.22 0.41 0.82 0.84 0.05 0.47 0.3 1.89 0,61

4.1.2.1 Análise Descritiva dos Cereais

De acordo com os resultados da tabela 4.2, observa-se que:

No geral a média aparada a 5% registou um ligeiro decréscimo em todos os cereais, comparando

com a média obtida com base nas 94 observações e, a quantidade total de Feijão Bóer mostrou-se

ser a mais dispersa comparando com os restantes cereais. Quanto a assimetria e curtose,

constatou-se que cereais como o Feijão Nhemba e Manteiga são ambas assimétricas positiva e,

mesocurtica respectivamente. Por sua vez, a quantidade total de Milho produzida é assimétrica

positiva e leptocurtica quanto ao curtose ao nível de significância considerado nestas análises.

Da tabela2 no (anexo I), observa-se que 25% dos distritos produziram até 1,83 mil toneladas de

Milho, 0.306 mil toneladas de Feijão Nhemba, 0.138 mil toneladas de Feijão Bóer, 0.74 mil

toneladas de Feijão Manteiga e 0.472 mil toneladas de Arroz, respectivamente. De igual modo,

observa-se que 75% dos distritos produziram cerca de 2.15 mil toneladas de Milho, 0.684 mil

toneladas de Feijão Nhemba, 0.898 mil toneladas de Feijão Bóer, 1.087 mil toneladas de Feijão

Manteiga e, 1.313 mil toneladas de Arroz, respectivamente.

Page 45: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

35 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

4.1.3 IMPACTO DOS VALORES ATÍPICOS NAS ESTATÍSTICAS DESCRITIVAS

Tabela 4.3 Análise da Influencia dos valores atípicos nas estatísticas descritivas

Variáveis

Estatísticas (Com Outliers) Estatística (Sem Outliers)

Média Desvio-

Padrão

Média

aparada a 5% Média

Desvio-

Padrão

Média

aparada a 5%

Precipitação 144.52 13.665 145.23 145.436 12.295 145.76

Milho 2.067 0.234 2.051 2.024 0.129 2.021

Feijão Nhemba 0.526 0.318 0.504 0.489 0.269 0.473

Feijão Manteiga 0.836 0.411 0.819 0.822 0.387 0.821

Feijão Bóer 0.608 0.381 0.584 0.595 0.369 0.575

Arroz 0.84 0.41 0.82 0.84 0.41 0.82

Tª. Mínima 15.84 2.92 15.8 15.84 2.92 15.8

Tª. Máxima 26.62 2.88 26.58 26.62 2.88 26.58

Com base nos resultados da tabela 4.3, observa-se que:

De uma forma geral, o impacto dos valores atípicos nas estatísticas descritivas foi moderado,

sendo que a média aparada a 5% variou de forma não significativa, como é óbvio para o seu

cálculo são excluídos 5% das observações superiores e inferiores. Sendo que alguns destes são

potenciais valores atípicos.

4.2 VERIFICAÇÃO DAS SUPOSIÇÕES EM AA

Como foi descrito nos itens anteriores, em AA duas questões são críticas para a condução desta

técnica, que são a representatividade da amostra e a multicolinearidade. Portanto, a amostra para

a realização deste trabalho é considerada representativa da população extraída, visto que o

conjunto de distritos seleccionados produz cada um dos cereais.

Quanto a questão de multicolinearidade, procura-se verificar a existência ou não de variáveis

altamente correlacionadas, analisando a matriz de coeficientes de correlação de Pearson entre as

variáveis.

Neste contexto, pode-se observar no gráfico8 do anexo I, que os níveis de correlações são em

geral baixos ou aceitáveis, com excepção das correlações apresentada pelas variáveis

Page 46: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

36 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

(Temperatura Mínima, Temperatura Máxima); (Feijão Manteiga, Feijão Bóer) e, (Feijão Bóer,

Milho) que apesar de estarem correlacionadas de forma moderada e significativa, nenhuma delas

será excluída no estudo.

4.3 DETERMINAÇÃO DO NÚMERO DE GRUPOS À RETER

Para a determinação do número de grupos a reter, foram usados os critérios do R_quadrado,e o

da variabilidade entre os agrupamentos (fórmula (3) e (4)), onde as somas dos quadrados dos

totais e, dos tratamentos, estão apresentados na tabela 3 (Anexo I)

Tabela 4.4 Ilustração dos valores do R2

Número de Grupos 1 2 3 4 5 6 7 8 9

R_Quadrado 0 0,598 0,717 0,794 0,859 0,877 0,899 0,906 0,916

Ganho da Variabilidade 0,598 0,119 0,077 0,065 0,018 0,022 0,007 1E-04 ------

Uma solução aceitável do número de grupos que justifica a estrutura dos dados reside entre 3 a 5

grupos, pois, o ganho das variabilidades retidas é relativamente pequena quando comparada com

a evolução verificada entre 1 a 3, sendo o ponto referente a definição de 4 grupos onde a

variabilidade reduziu significativamente segundo o gráfico 10 (Anexo I), sugerindo portanto a

definição de uma estrutura com 4 agrupamentos.

4.4 ANÁLISE HIERÁRQUICA

4.4.1 APLICAÇÃO DO MÉTODO DE WARD

Uma vez que os métodos aglomerativos iniciam com tantos grupos quanto objectos, os mais

similares são agrupados nas primeiras interacções, enquanto os mais dissimilares são agrupados

nas últimas interacções. Em cada uma destas interacções é calculado o coeficiente de

aglomeração que reflecte a distância entre os casos a serem agrupados, ou seja, quanto mais

dissimilares forem os casos a agrupar, maior será o valor do coeficiente de aglomeração, sendo

que para casos similares este coeficiente tende a zero.

Nesse contexto, com base nos resultados da tabela1 do anexo II, observa-se que o primeiro

agrupamento a ser definido é composto pelos distritos de Machanga (44) e Mavago (75), pelo

Page 47: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

37 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

facto de estes apresentarem um menor valor do coeficiente de aglomeração (0,648). De seguida,

o distrito de Cheringoma (41) junta-se aos distritos de Machanga e Mavago na 12ª interação e,

Homoine (80) na 15ª interação, assim sucessivamente.

Uma análise crítica do coeficiente de aglomeração mostrou que, por exemplo da interacção 88

para 89 (o que corresponde a aglomeração de 6 para 5 grupos), aumentou em 458.193 unidades

(passando de 2244.048 para 2702.241).

Da interacção 89 para 90 (o que corresponde a aglomeração de 5 para 4 grupos), o coeficiente

aumentou em 958.21 unidades (passando de 2702.241para 3660.451).

Da interacção 90 para 91 (o que corresponde a aglomeração de 4 para 3 grupos), o coeficiente

aumentou em 1319.512 unidades (passando de 3660.451 para 4979.963).

Da interacção 91 para 92 (o que corresponde a aglomeração de 3 para 2 grupos), o coeficiente

aumentou em 2650.344 unidades (passando de 4979.963para 7630.307). E finalmente, da

interacção 92 para 93 (o que corresponde a aglomeração de 2 para 1 grupo), o coeficiente

aumentou em 11357.294 unidades (passando de 7630.307 para 18987,511).

A AA forneceu o dendograma apresentado na figura1 do anexo II, onde constatou-se a definição

de 3 agrupamentos distintos para um nível de corte de aproximadamente igual a 4,5 unidades de

medida.

A tabela2 do anexo II mostra a distribuição dos distritos em cada um dos 3 agrupamentos, onde

pode-se observar que o tamanho de cada agrupamento em função do número de agrupamentos

por definir.

4.4.2 APLICAÇÃO DO MÉTODO DE LIGAÇÃO COMPLETA

Uma análise geral da tabela1 anexo III, mostrou que não há variações significativas no processo

de agregação dos objectos comparando com os do método de Ward. A única diferença esta

relacionada com as interacções segundo os quais os objectos foram agregados aos respectivos

grupos.

Page 48: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

38 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

A tabela1 do anexo III mostra que o primeiro agrupamento a ser definido é composto pelos

distritos de Machanga (44) e Mavago (75), pelo facto de estes apresentarem um menor valor do

coeficiente de aglomeração. De seguida, o distrito de Cheringoma (41) junta-se aos distritos de

Machanga e Mavago na 12ª interacção e, Homoine (80) na 15ª interacção, assim sucessivamente.

Nas primeiras 88 interacções, o coeficiente de aglomeração registou pequenas variações.

Da 89ª para a 90ª interacção (o que corresponde a aglomeração de 5 para 4 grupos) o coeficiente

aumentou em 298.097 unidades (passando de 618.899 para 322.802).

Da interacção 90 para 91 (o que corresponde a aglomeração de 4 para 3 grupos), o coeficiente

aumentou em 118.41 unidades (passando de 618.899 para 737.309).

Da interacção 91 para 92 (o que corresponde a aglomeração de 3 para 2 grupos), o coeficiente

aumentou em 1157.603 unidades (passando de 737.309 para 1894.912).

Da interacção 92 para 93 (o que corresponde a aglomeração de 2 para 1 grupos), o coeficiente

aumentou em 2554.264 unidades (passando de 1894.912 para 4449.176).

4.5 Interpretação dos agrupamentos

Os resultados da aplicação de AA usando os critérios de ligação completa e, o critério de Ward

para a definição de 3, 4 e 5 agrupamentos estão ilustradas na tabela 3 (anexo III). Onde, o

método de Ward mostrou tendências em formar grupos estáveis em relação a variação do

tamanho dos agrupamentos, ou seja, agrupamentos com uma dimensão aproximadamente igual,

tal como foi reiterado pela literatura segundo a qual o método de Ward tende a produzir grupos

com aproximadamente o mesmo número de elementos.

Contrariamente aos agrupamentos definidos com base no método de Ward, o critério de ligação

completa, mostrou uma elevada variabilidade em relação a dimensão dos agrupamentos,

principalmente na estrutura com três agrupamentos. Este método identificou os distritos de Alto-

Molócue, Chinde e Namacurra como potenciais valores atípicos por ter agregado nas últimas

interacções nas 3 estruturas de agrupamentos.

O dendograma apresentado na figura1 do anexo III foi obtido com base no método de ligação

completa, onde foram identificados 4 agrupamentos distintos para um nível de corte de

Page 49: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

39 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

aproximadamente igual a 4,5 unidades de medida, no qual um dos agrupamentos é composto por

apenas 3 distritos e, um outro agrupamento com um maior número de distritos.

Da tabela 4.5, observa-se que aplicando o método de Ward, maior parte dos distritos que

apresentam uma similaridade na variável estatística de agrupamentos pertencem ao 1º grupo o

que corresponde a 31% do total de distritos em estudo.

Por sua vez, com a aplicação do método de ligação completa maior percentagem dos distritos

com similaridade na variável estatística de agrupamentos fazem parte do 2º agrupamento com

cerca de 53% do total dos distritos em análise e, o 4º grupo passou de 20 distritos (método de

Ward) para 3 distritos (com base no método de ligação completa).

Tabela 4.5 Comparação do tamanho dos agrupamentos

Grupos Método de Ward Método de Ligação Completa

Nº de Casos % de Casos Nº de Casos % de Casos

1 29 31 28 30

2 25 27 50 53

3 20 21 13 14

4 20 21 3 3

Total 94 100 94 100

Identificação da melhor estrutura dos agrupamentos

Por definição, um valor de 7.0),( FCCOF , indica que a matriz cofenética gerada a partir do

dendograma representou uma boa simplificação da matriz de distância ou fenética e, portanto, a

AA efectuada forneceu grupos puramente homogéneos.

Tabela 4.6 Identificação da melhor estrutura dos agrupamentos

Critério de Ligação Número de Grupos COF (F, C)

Page 50: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

40 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Ward 4 0.788

Ligação Completa 4 0.859

Com base no valor do ),( FCCOF apresentado na tabela 4.6, conclui-se que os dois métodos

usados na definição dos agrupamentos forneceram grupos homogéneos, visto que ambos

apresentaram um valor do ),( FCCOF superior a 0.7, mas a matriz cofenetica gerada com base no

dendograma d o método de ligação completa mostrou uma melhor simplificação da matriz

fenética. Portanto, passar-se-á a considerar os agrupamentos obtido com base no método de

ligação completa.

4.6 VALIDAÇÃO DOS AGRUPAMENTOS

Antes de aplicar os testes multivariados, foram avaliadas em primeiro lugar as três suposições

descritas anteriormente.

Tabela 4.7 Testes de Normalidade Univariada

Variáveis Grupos

Kolmogorov-Smirnova Shapiro-Wilk

Estatística gl Sig. Estatística Gl Sig.

Estimativa do total de

área cultivada

1 0,157 28 0,073 0,958 28 0,318

2 0,086 50 0,20 0,963 50 0,113

3 0,171 13 0,20 0,976 13 0,95

4 0,321 3 . 0,883 3 0,332

Estimativa do

Orçamento Total

1 0,141 28 0,161 0,945 28 0,147

2 0,097 50 0,20 0,976 50 0,395

3 0,153 13 0,20 0,925 13 0,291

4 0,254 3 . 0,963 3 0,632

a Significância corregida por Lilliefors

A primeira suposição avaliada foi a de normalidade nas variáveis respostas e, com base no teste

de Kolmogorov-Smirnov apresentado na tabela 4.7 conclui-se que as duas variáveis dependentes

Page 51: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

41 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

estão normalmente distribuídas nos 4 grupos, visto que em todos os casos a probabilidade

associada a esta estatística é superior a 0,05.

Tabela 4.8 Teste de igualdade de variâncias Tabela 4.9 Teste M de Box

O teste de Levene para a igualdade de variâncias (tabela 4.8), mostrou que as duas variáveis

respostas apresentam variâncias idênticas nos 4 grupos. De igual modo, o teste M de Box (tabela

4.9), mostrou que analisando as duas variáveis de forma conjunta, as matrizes de variância e

covariância nos quatro grupos são idêntica, pois, o valor_p é maior que 0,05. Como as duas

variáveis resposta estão normalmente distribuídas, conclui-se que os resultados deste teste são

confiáveis.

Tabela 4.10 Teste de esfericidade de Bartltetta

Razão de Verosimilhança ,000

Estatística de Bartlett 183,970

Graus de liberdade 2

Intercorrelação entre as duas variáveis respostas 0.499

Significância ,000

a Modelo: Intercepto + Grupos

A última suposição a ser verificada, esta relacionada com a independência entre as variáveis

resposta. O teste de Bartlett está associado a um valor_p inferior a 0,05 o que leva a rejeição da

hipótese de independência entre as duas variáveis respostas.

Uma avaliação do coeficiente de correlação de Pearson mostrou que as duas variáveis estão

correlacionadas de forma moderada, portanto, tendo em conta o nível de correlação das variáveis

e, levando em consideração o facto de o valor_p estar muito próximo de 0,05 vai-se prosseguir

com a MANOVA.

Box's M 10,102

F ,921

gl1 9

gl2 318,931

Sig. ,507

Variáveis F gl1 gl2 Sig.

Estimativa do total de área

cultivada

,508 3 90 ,678

Estimativa do Orçamento Total ,925 3 90 ,432

Page 52: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

42 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Analisadas as suposições inerentes a aplicação MANOVA, vai-se prosseguir com a avaliação de

significância dos vectores de média dos 4 grupos.

Uma avaliação dos resultados da tabela 4.11, leva a rejeição da hipótese nula (à de igualdade dos

vectores de medias nos 4 grupos) nas duas variáveis respostas, ou seja, existem pelo menos dois

grupos com vectores de médias diferentes, estas conclusões também podem ser tiradas com base

no quadro da MANOVA da tabela 3 (anexo III).

Tabela 4.11 Testes Multivariados b

Efeitos Valor F gl

grupo

gl do

erro Sig.

Poder do

Teste

Inte

rcep

to

Traço de Pillai 0,84 237,25a 2 89 0.00 1.0

Lambda de Wilk 0,16 237,25a 2 89 0.00 1.0

Traço de Hotelling 5,33 237,25a 2 89 0.00 1.0

Maior raiz característica de Roy 5,33 237,25a 2 89 0.00 1.0

Gru

pos

Traço de Pillai 0,27 4,6 6 180 0.00 0,986

Lambda de Wilk 0,74 4,92a 6 178 0.00 0,991

Traço de Hotelling 0,36 5,24 6 176 0.00 0,994

Maior raiz característica de Roy 0,35 10,51 3 90 0.00 0,998

a Estatística exacta

b Modelo: Intercepto+Grupos

Após detectar a existência de diferenças significativas entre os vectores de média, é altura de

identificar o par (ou pares) de grupos que apresentam diferenças nos vectores de média com base

nos intervalos simultâneos de Bonferroni.

Assim, como há 4 grupos e 2 variáveis respostas então obter-se-á 62

4

pares de médias. Com

base nos resultados da tabela 4 (anexo III), observa-se que a variável Estimativa de total da área

cultivada tem pouco puder em diferenciar os vectores de média, visto que nesta variável, tem-se

apenas dois grupos com vectores de média diferente (grupo 2 e grupo 3), contrariamente a isso, a

Page 53: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

43 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

variável estimativa do orçamento total, é altamente poderoso em diferenciar os vectores de

média, com excepção dos pares (4-3) e (1-3).

Tabela 4.12 Média das variáveis nos 4 agrupamentos formado

Variáveis Grupos

Grande Centroide Grupo 1 Grupo 2 Grupo 3 Grupo 4

Precipitação 138,789 154,827 126,033 106,417 144,523

Temperatura Mínima 15,156 16,053 15,910 18,400 15,841

Temperatura Máxima 26,554 26,729 26,382 26,310 26,615

Milho 2,082 2,055 2,078 2,064 2,067

Arroz 1,012 1,009 1,107 0,909 1,021

Feijão Nhemba ,521 0,531 0,594 0,204 0,526

Feijão Bóer ,533 0,661 0,549 0,678 0,608

Feijão Manteiga ,866 0,768 1,006 0,965 0,836

A descrição a seguir compara os perfis de cada grupo com os demais criados. Para facilitar a sua

compreensão é recomendado a observação dos gráficos2 e 2A em anexo ou com base na tabela

4.12, que contêm as médias das variáveis que compõem a variável estatística de agrupamentos,

onde constatou-se que:

O grupo1 é composto pelos distritos que apresentam em média, baixo potencial na produção do

feijão bóer, valores intermediários de precipitação e temperaturas máximas, um potencial

intermediário na produção do arroz e, alto potencial na produção de milho.

O grupo2 é composto pelos distritos que apresentam em média, baixo potencial na produção do

milho e feijão manteiga, um potencial intermediário na produção de arroz, feijão nhemba e feijão

bóer, valores intermediários de temperaturas mínimas e, altos valores de precipitação e

temperaturas máximas.

Page 54: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

44 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

O grupo3 é caracterizado pelos distritos que apresentam em média, baixo potencial na produção

do feijão bóer, valores intermediários de precipitação, temperaturas mínimas e máximas,

produção do milho e, alto potencial na produção de arroz, feijão nhemba e, feijão manteiga.

Finalmente observa-se que o 4º agrupamento é caracterizado pelos distritos que apresentam em

média baixo potencial na produção de arroz, feijão nhemba, baixos valores de precipitação e

temperaturas máximas, um potencial intermediários na produção de milho e feijão manteiga,

altos valores de temperaturas mínimas e, alto potencial na produção do feijão bóer.

Tabela 4.13 Matriz das distâncias entre os centroide dos agrupamentos

Grupos Grupo 1 Grupo 2 Grupo 3 Grupo 4

Grupo 1 0 16,065 12,781 32,538

Grupo 2 16,065 0 28,798 48,471

Grupo 3 12,781 28,798 0 19,779

Grupo 4 32,538 48,471 19,779 0

Da matriz de distância entre os centroide dos agrupamentos (tabela 4.13), constatou-se que os

agrupamentos 4 e 2 estão muito distantes um do outro, ou seja, são os mais heterogéneos e, os

agrupamentos 1 e 3 estão muito mais próximos um do outro, sendo os menos heterogéneos.

A representação geométrica dos agrupamentos (mapa da figura 4.1), mostra claramente que

maior parte dos distritos que fazem parte do primeiro e segundo grupo são maioritariamente da

região norte do país. E, foi identificada como sendo a região com elevadas precipitações e alta

potencialidade na produção de cereais, o que faz com que esta região seja altamente

representativa em relação as estruturas de agrupamentos obtidos.

A zona centro, foi classificada como sendo a segunda região mais representativa na estrutura dos

agrupamentos, pelo facto de apresentar um número considerável de distritos como potências

produtores de cereais, e com um nível moderado do índice pluviométrico. Por fim, a zona sul foi

classificada como sendo a região com baixa potencialidade na produção de cereais e, baixos

índices pluviométricos de entre as três regiões.

Figura 4.1 Representação Geométrica dos Agrupamentos

Page 55: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

45 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Page 56: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

46 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

CAPÍTLO V: CONCLUSÕES E RECOMENDAÇÕES

5.1 CONCLUSÕES

Com base nas análises feitas sobre os dados, conclui-se que a matriz das correlações, não

identificou a existência de grandes correlações entre as variáveis, com excepção das variáveis

temperatura mínima que esta correlacionada de forma moderada com a variável temperatura

máxima. Os critérios alternativos param a definição do número de grupos mostraram que uma

solução de 4 grupos justifica a estrutura dos dados.

A AA efectuada na retenção de uma estrutura de 4 agrupamentos mostrou que o método de Ward

tende a formar agrupamentos com tamanhos aproximadamente igual. Já, o método de ligação

completa forneceu agrupamentos com grandes variações quanto ao tamanho dos mesmos.

A aplicação dos testes da MANOVA sobre a estrutura dos agrupamentos mostraram que existem

pelo menos dois grupos com vectores de médias diferentes nas duas variáveis respostas usadas e,

a identificação destes grupos foi feita com base nos intervalos simultâneos de Bonferroni.

Uma análise feita com base nos valores médios das variáveis em cada um dos agrupamentos,

mostrou que:

Em geral distritos com baixas temperaturas e/ou baixas precipitações tendem a ser potenciais

produtores do feijão bóer.

Distritos com valores moderados de precipitação e temperaturas tendem a ser potenciais

produtores de feijão nhemba, feijão manteiga e arroz.

Distritos com altas precipitações e/ou altas temperaturas, tendem a ser por vezes potenciais

produtores de arroz, feijão nhemba e feijão manteiga.

De forma geral, constatou-se que a zona norte do país apresenta uma elevada potencialidade na

produção de cereais, apesar desta região apresentar algumas características naturais e económicas

que dificultam a realização do potencial, como por exemplo a falta de infra-estrutura de estradas

adequadas, o fraco acesso a tecnologias modernas por parte dos agricultores, leva a concluir mais

uma vez, que maiores investimentos em agro-processamento e infra-estruturas localizam-se na

zona sul do país, apesar da região da apresentar uma baixa potencialidade agrícola.

Page 57: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

47 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Por fim, constatou-se que a estrutura dos agrupamentos encontrada é significativamente diferente

com a definida pelo Governo no âmbito da estratégia RV12

tanto no critério de definição do

número de agrupamentos como no tamanho dos agrupamentos, apesar de houver alguns casos

classificação que contrariam aquilo que é o conhecimento a prior em relação a sua potencialidade

na produção de um dado cereal, ou seja, distritos que são potenciais produtores de um dado

cereal mas, foram alocados em grupos de distritos com baixa potencialidade na produção deste

cereal, como por exemplo os distritos de Sanga, Mogovala, Balama, entre outros.

5.2 RECOMENDAÇÕES

Em primeiro lugar considera-se que esses resultados podem orientar as investigações futuras no

sector agrário, na tentativa de explorar e dar mais aprofundamento ao tema por forma a

implementar as conclusões encontradas na melhoria dos sistemas agrários em Moçambique.

Sugere-se ao Governo como aos potenciais investidores, a implementação de uma análise de

segmentação dos distritos usando as técnicas de análise de agrupamentos para que se possa

garantir com uma certa margem de erro que os agrupamentos encontrados são significativos e,

não destorcem a verdadeira estrutura. Bem como a análise das condições climáticas como uma

alavanca para que possa ter uma ideia em relação ao tipo de cereal a produzir e, a análise das

relações existentes entre o tipo de solo, as temperaturas e, os níveis de precipitações que muita

das vezes tem sido irregular no país.

Será igualmente crucial a exploração do potencial agrícola das zonas centro e norte, combinando

os investimentos na produção de culturas a investimentos em agro-processamento, construção de

sistemas de rega, elaboração de políticas que possam facilitar o acesso a crédito bancário por

parte dos pequenos agricultores, entre outras áreas que possam adicionar valor à produção

agrícola.

12

A estrutura definida pelo Governo no âmbito da estratégia RV pode ser encontrada em MINAG (2010)

Page 58: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

48 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

5.3 REFERÊNCIAS BIBLIOGRÁFICAS

Albuquerque, M. A. (2005). Estabilidade em análise de agrupamentos, dissertação de mestrado

em biometria, Universidade Federal de Pernambuco, Brasil.

Barroso, L. P e Artes, R (2003). Análise Multivariada de Dados, Artigo científico, Universidade

de São Paulo, Brasil.

Constituição da República (2007). Princípios e direitos fundamentais, Maputo, Moçambique.

Hair, et al. (2005). Análise Multivariada de dados, 5a edição.

Hãrdle, W e Simar, L. (2007). Applied multivariate statistical analysis, second edition, Berlin.

INE (2011). Estatísticas sectoriais e agricultura em Moçambique.

FAO (1996). Food and Agriculture Organization of the United Nations. Report of the eighth

session of committee on Word Food Security, Rome.

Lopes e Magalhães (2010). Estudo sobre impacto da política agrária em Moçambique, artigo

científico.

Maroco, J. (2007). Análise estatística com utilização do SPSS, Edições Sílabo Lda, Lisboa.

MINAG (2010). Plano estratégico para o Desenvolvimento do sector Agrário, Moçambique.

Oliveira, J. R, T e Padovani, C. R. (2010). Utilização da análise de agrupamentos na

caracterização do perfil agrícola e climatológico da região do sudeste do Estado de Mato Grosso,

Brasil.

Prearo, L. C. (2008). O uso de técnicas estatísticas multivariadas em dissertações e teses sobre o

comportamento do consumidor (Um estudo exploratório), São Paulo, Brasil.

Page 59: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

49 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Reis, E. (2001). Estatística Multivariada Aplicada, 2a edição, editora Sílabo, Lisboa.

Rencher, A. C. (2002). Methods of Multivariate Analysis, second edition, Canada.

Sitoe, T.A. (2005). Agricultura Familiar em Moçambique estratégias de Desenvolvimento

sutentavel, Maputo.

Sartório, S. D. (2008), Aplicações de técnicas de análise multivariadas em experimentos agro-

pecuário usando o software R, Piracicaba, Brasil.

Uaiene e Arndt (2007). Eficiência técnica dos agregados familiares rurais em Moçambique,

artigo científico.

Vicini, L. (2005). Análise multivariada da teoria à prática, Santa Mária, RS, Brasil.

Page 60: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

50 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

ANEXO I

CARACTERIZAÇÃO DAS VARIÁVEIS

1. CARACTERIZAÇÃO DAS VARIÁVEIS CLIMÀTICAS

Figra1 Histogramas das variáveis Climáticas

22201816141210

Median

Mean

17.016.516.015.515.0

A nderson-Darling Normality Test

V ariance 8.532

Skewness 0.179647

Kurtosis -0.601084

N 94

Minimum 10.310

A -Squared

1st Q uartile 13.463

Median 15.550

3rd Q uartile 17.850

Maximum 22.450

95% C onfidence Interv al for Mean

15.243

0.35

16.439

95% C onfidence Interv al for Median

14.950 16.770

95% C onfidence Interv al for StDev

2.555 3.411

P-V alue 0.466

Mean 15.841

StDev 2.921

95% Confidence Intervals

Média da Tª Minima

323028262422

Median

Mean

27.627.226.826.426.0

A nderson-Darling Normality Test

V ariance 8.281

Skewness 0.015487

Kurtosis -0.598381

N 94

Minimum 20.980

A -Squared

1st Q uartile 24.515

Median 26.660

3rd Q uartile 28.580

Maximum 33.090

95% C onfidence Interv al for Mean

26.026

0.31

27.205

95% C onfidence Interv al for Median

25.990 27.690

95% C onfidence Interv al for StDev

2.517 3.360

P-V alue 0.555

Mean 26.615

StDev 2.878

95% Confidence Intervals

Média da Tª Maxima

165150135120105

Median

Mean

150148146144142

A nderson-Darling Normality Test

V ariance 186.73

Skewness -0.715878

Kurtosis 0.507535

N 94

Minimum 101.75

A -Squared

1st Q uartile 136.94

Median 146.25

3rd Q uartile 156.00

Maximum 168.25

95% C onfidence Interv al for Mean

141.72

0.84

147.32

95% C onfidence Interv al for Median

141.50 150.10

95% C onfidence Interv al for StDev

11.95 15.96

P-V alue 0.029

Mean 144.52

StDev 13.66

95% Confidence Intervals

Precipitação

Page 61: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

51 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Grafico1 Caule e folha da variável Precipitação Média Anual

Gráfico 2 Caule e folha da variável Média da Temperatura Mínima Anual

Frequências Caule & Folhas

5.00 10 . 34778

2.00 11 . 17

12.00 12 . 124555556668

9.00 13 . 123445789

10.00 14 . 0224556799

13.00 15 . 0112334455699

9.00 16 . 144577899

13.00 17 . 0233334566899

6.00 18 . 002578

8.00 19 . 12467999

3.00 20 . 038

1.00 21 . 2

3.00 22 . 034

Stem width: 1.00

Each leaf: 1 case(s)

Frequência Caule & Folhas

2.00 Extremes (=<103)

1.00 11 . 4

.00 11 .

5.00 12 . 00344

5.00 12 . 66778

8.00 13 . 00011444

11.00 13 . 66788899999

12.00 14 . 000011112334

12.00 14 . 555677777889

11.00 15 . 00001112344

13.00 15 . 5556666678899

12.00 16 . 000000011114

2.00 16 . 88

Stem width: 10.00

Each leaf: 1 case(s)

Page 62: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

52 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 3 Caule e folha da variável Média da Temperatura Máxima Anual

Frequência Caule & Folhas

1.00 20 . 9

6.00 21 . 355789

4.00 22 . 1167

10.00 23 . 0224667999

8.00 24 . 04555679

9.00 25 . 145555699

12.00 26 . 001144566689

10.00 27 . 0122446789

16.00 28 . 0112223344568889

8.00 29 . 13445788

4.00 30 . 2257

3.00 31 . 378

2.00 32 . 28

1.00 33 . 0

Stem width: 1.00

Each leaf: 1 case(s)

Tabela 1 Percentis das variáveis climáticas

5 10 25 50 75 90 95

Médias Ponderadas Precipitação Média 120 126.5 136.9 146.3 156 160.6 161.2

Temperatura Mínima 10.85 12.39 13.46 15.55 17.85 19.94 20.95

Temperatura Máxima 21.73 22.41 24.52 26.66 28.58 30.23 31.75

Precipitação 137 146.3 156

Temperatura Mínima 13.48 15.55 17.82

Temperatura Máxima 24.53 26.66 28.57

Percentis

Tukey's Hinges

(Defininição1)

Page 63: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

53 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

1. CARACTERIZAÇÃO DOS CEREAIS

Figura 2 Histogramas dos cereais

2.01.61.20.80.4

Median

Mean

0.950.900.850.800.75

A nderson-Darling Normality Test

V ariance 0.16895

Skewness 0.471319

Kurtosis 0.294320

N 94

Minimum 0.12900

A -Squared

1st Q uartile 0.47025

Median 0.86650

3rd Q uartile 1.08750

Maximum 2.21700

95% C onfidence Interv al for Mean

0.75199

0.67

0.92037

95% C onfidence Interv al for Median

0.75198 0.95901

95% C onfidence Interv al for StDev

0.35950 0.47994

P-V alue 0.076

Mean 0.83618

StDev 0.41103

95% Confidence Intervals

Feijão Boer

1.81.51.20.90.60.30.0

Median

Mean

0.700.650.600.550.500.450.40

A nderson-Darling Normality Test

V ariance 0.14487

Skewness 0.912258

Kurtosis 0.177256

N 94

Minimum 0.05500

A -Squared

1st Q uartile 0.31075

Median 0.50200

3rd Q uartile 0.89750

Maximum 1.82600

95% C onfidence Interv al for Mean

0.53001

2.67

0.68592

95% C onfidence Interv al for Median

0.40300 0.58003

95% C onfidence Interv al for StDev

0.33290 0.44442

P-V alue < 0.005

Mean 0.60797

StDev 0.38061

95% Confidence Intervals

Feijão Manteiga

1.51.20.90.60.3

Median

Mean

0.600.550.500.450.40

A nderson-Darling Normality Test

V ariance 0.10092

Skewness 1.06778

Kurtosis 0.66510

N 94

Minimum 0.09400

A -Squared

1st Q uartile 0.30625

Median 0.45550

3rd Q uartile 0.68450

Maximum 1.48300

95% C onfidence Interv al for Mean

0.46107

2.51

0.59121

95% C onfidence Interv al for Median

0.37200 0.53502

95% C onfidence Interv al for StDev

0.27786 0.37094

P-V alue < 0.005

Mean 0.52614

StDev 0.31768

95% Confidence Intervals

Feijão Nhemba

2.72.42.11.81.51.2

Median

Mean

2.122.102.082.062.042.022.00

A nderson-Darling Normality Test

V ariance 0.0549

Skewness 0.94237

Kurtosis 4.15158

N 94

Minimum 1.1900

A -Squared

1st Q uartile 1.9380

Median 2.0020

3rd Q uartile 2.1475

Maximum 2.9180

95% C onfidence Interv al for Mean

2.0186

5.21

2.1146

95% C onfidence Interv al for Median

1.9880 2.0430

95% C onfidence Interv al for StDev

0.2049 0.2735

P-V alue < 0.005

Mean 2.0666

StDev 0.2343

95% Confidence Intervals

Milho

2.11.81.51.20.90.6

Median

Mean

1.151.101.051.000.950.900.85

A nderson-Darling Normality Test

V ariance 0.1569

Skewness 0.418719

Kurtosis -0.595887

N 94

Minimum 0.3873

A -Squared

1st Q uartile 0.6749

Median 0.9810

3rd Q uartile 1.3133

Maximum 2.0934

95% C onfidence Interv al for Mean

0.9397

0.86

1.1019

95% C onfidence Interv al for Median

0.8634 1.1141

95% C onfidence Interv al for StDev

0.3464 0.4625

P-V alue 0.026

Mean 1.0208

StDev 0.3961

95% Confidence Intervals

Arroz

Page 64: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

54 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 4 Caule e folha da variável Milho

Frequência Caule & Folhas

1.00 Extremes (=<1.19)

2.00 17 . 89

2.00 18 . 03

12.00 18 . 788889999999

8.00 19 . 00233334

22.00 19 . 5566688888888889999999

10.00 20 . 0002222334

10.00 20 . 5555566678

4.00 21 . 0014

6.00 21 . 568899

4.00 22 . 1112

1.00 22 . 7

2.00 23 . 03

.00 23 .

2.00 24 . 12

8.00 Extremes (>=2.47)

Stem width: .100

Each leaf: 1 case(s)

Gráfico 5 Caule e folha da variável Feijão Nhemba

Frequência Caule & Folhas

10.00 0 . 0111111111

34.00 0 . 2222222222223333333333333333333333

22.00 0 . 4444444444555555555555

10.00 0 . 6666677777

10.00 0 . 8888899999

1.00 1 . 0

3.00 1 . 222

4.00 Extremes (>=1.3)

Stem width: 1.000

Each leaf: 1 case(s)

Page 65: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

55 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 6 Caule e folha da variável Feijão Bóer

Frequência Caule & Folhas

7.00 0 . 0011111

30.00 0 . 222222222222223333333333333333

20.00 0 . 44444444455555555555

10.00 0 . 6666667777

10.00 0 . 8888999999

8.00 1 . 00000001

5.00 1 . 22233

3.00 1 . 444

1.00 Extremes (>=1.8)

Stem width: 1.000

Each leaf: 1 case(s)

Gráfico 7 Caule e folha da variável Feijão Manteiga

Frequência Caule & Folhas

3.00 0 . 111

15.00 0 . 222223333333333

12.00 0 . 444444455555

12.00 0 . 666677777777

20.00 0 . 88888888999999999999

18.00 1 . 000000000001111111

6.00 1 . 222333

5.00 1 . 44555

1.00 1 . 6

1.00 1 . 8

Stem width: 1.000

Each leaf: 1 case(s)

Gráfico 8 Caule e folha da variável Arroz

Frequência Caule & Folhas

6.00 0 . 334444

42.00 0 . 555555555666666666667777777778888889999999

33.00 1 . 000000001111122222222233333334444

12.00 1 . 555555667788

1.00 2 . 0

Stem width: 1.0000

Each leaf: 1 case(s)

Page 66: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

56 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Tabela 2 Percentis dos cereais

5 10 25 50 75 90 95

Médias Ponderadas Milho 1.829 1.89 1.938 2.002 2.148 2.42 2.597

Feijão Nhemba 0.138 0.175 0.306 0.456 0.684 0.975 1.246

Feijão Bóer 0.174 0.209 0.311 0.502 0.898 1.156 1.398

Feijão Manteiga 0.247 0.307 0.47 0.866 1.087 1.377 1.539

Arroz 0.472 0.527 0.675 0.981 1.313 1.547 1.75

Milho 1.937 2.002 2.145

Feijão Nhemba 0.307 0.456 0.679

Feijão Bóer 0.312 0.502 0.891

Feijão Manteiga 0.475 0.866 1.085

Arroz 0.677 0.981 1.304

Tukey's Hinges

(Definição1)

Percentis

Figura 3 Identificação de outliers com base nos boxplots

Page 67: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

57 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 9 Matriz das correlações entre as variáveis

Precip

10 16 22

0. 095

0. 074

1.5 2.5

0. 052

0. 053

0.2 1.0

0. 042

0. 035

0.5 2.0

60

120

0.17

.

10

18

MeTªMin 0.69***

0. 03

0.25

*0.13

0. 066

0. 11

MdTªMax 0. 032

0.18

.0.20

*0.23

*

22

30

0. 087

1.5

Milho 0.12

0. 089

0. 11

0.35

***

Arroz 0. 11

0. 086

0.5

2.0

0. 055

0.2

1.2

F_Nhem 0.15

0.12

F_Mant0.0

1.5

0.34***

60 120

0.5

2.0

22 28 0.5 1.5 0.0 1.5

F_Boer

Matriz Scatterplot e correlações:Projecto

Page 68: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

58 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Tabela 3 Tabela ANOVA para o cálculo do R2 para 9 grupos

SQ Gl QM F Sig.

Entre Grupos 16440.4 8 2055.05 188.785 0

Dentro dos Grupos 925.283 85 10.886

Total 17365.7 93

Entre Grupos 474.892 8 59.361 15.84 0

Dentro dos Grupos 318.548 85 3.748

Total 793.439 93

Entre Grupos 464.613 8 58.077 16.158 0

Dentro dos Grupos 305.519 85 3.594

Total 770.132 93

Entre Grupos 0.168 8 0.021 0.363 0.937

Dentro dos Grupos 4.933 85 0.058

Total 5.101 93

Entre Grupos 1.529 8 0.191 1.244 0.284

Dentro dos Grupos 13.062 85 0.154

Total 14.591 93

Entre Grupos 1.477 8 0.185 1.984 0.058

Dentro dos Grupos 7.911 85 0.093

Total 9.388 93

Entre Grupos 1.234 8 0.154 1.071 0.391

Dentro dos Grupos 12.234 85 0.144

Total 13.468 93

Entre Grupos 1.18 8 0.148 0.863 0.551

Dentro dos Grupos 14.529 85 0.171

Total 15.71 93

Arroz

Feijão Nhemba

Feijão Bóer

Feijão Manteiga

ANOVA

Precipitação

Temperatura Mínima

Temperatura Máxima

Milho

Gráfico 10 Ilustração do comportamento da variação do R2 e G

Page 69: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

59 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

ANEXO II

APLICAÇÃO DO MÉTODO DE WARD

Tabela 1 Quadro de Aglomeração usando o método de Ward

Interacção Grupos Combinados

Coeficientes

Estágio da primeira

aparição dos grupos Próximo

Estágio Grupo 1 Grupo 2 Grupo 1 Grupo 2

1 44 75 .648 0 0 12

2 74 85 1.385 0 0 58

3 28 62 2.154 0 0 51

4 22 65 2.969 0 0 38

5 87 91 3.891 0 0 30

6 61 78 4.929 0 0 37

7 26 77 6.020 0 0 17

8 2 20 7.278 0 0 38

9 30 37 8.536 0 0 35

10 33 34 9.843 0 0 75

11 7 49 11.187 0 0 65

12 41 44 12.994 0 1 15

13 6 56 14.868 0 0 67

14 72 81 16.772 0 0 57

15 41 80 18.706 12 0 43

16 60 63 20.718 0 0 49

17 26 55 22.757 7 0 70

18 39 68 24.859 0 0 64

19 13 50 26.978 0 0 59

20 16 79 29.103 0 0 44

21 21 92 31.280 0 0 39

22 19 42 33.592 0 0 46

23 25 32 36.000 0 0 63

24 45 52 38.414 0 0 33

25 40 76 40.849 0 0 30

26 1 36 43.608 0 0 71

27 11 23 46.560 0 0 55

28 4 35 49.535 0 0 69

29 38 89 52.526 0 0 43

30 40 87 55.560 25 5 47

31 9 51 58.782 0 0 62

32 5 64 62.006 0 0 46

33 45 93 65.251 24 0 48

34 58 59 68.530 0 0 90

35 30 90 72.000 9 0 58

Page 70: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

60 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

36 47 83 75.749 0 0 63

37 61 66 79.660 6 0 51

38 2 22 83.616 8 4 56

39 8 21 87.641 0 21 76

40 29 86 92.156 0 0 73

41 69 82 96.882 0 0 68

42 27 73 102.046 0 0 61

43 38 41 107.644 29 15 65

44 16 94 113.490 20 0 56

45 18 71 119.765 0 0 57

46 5 19 126.463 32 22 69

47 17 40 133.885 0 30 61

48 14 45 141.532 0 33 62

49 60 88 149.508 16 0 53

50 3 10 157.791 0 0 60

51 28 61 167.244 3 37 64

52 12 24 177.020 0 0 74

53 43 60 186.980 0 49 75

54 48 84 197.116 0 0 72

55 11 57 207.258 27 0 74

56 2 16 218.596 38 44 70

57 18 72 229.939 45 14 72

58 30 74 241.925 35 2 66

59 13 53 254.201 19 0 85

60 3 46 267.064 50 0 84

61 17 27 280.694 47 42 81

62 9 14 295.280 31 48 73

63 25 47 312.244 23 36 71

64 28 39 330.947 51 18 79

65 7 38 349.777 11 43 77

66 30 31 368.625 58 0 80

67 6 54 388.378 13 0 82

68 69 70 409.700 41 0 78

69 4 5 434.907 28 46 76

70 2 26 461.757 56 17 82

71 1 25 490.161 26 63 79

72 18 48 521.746 57 54 86

73 9 29 553.732 62 40 85

74 11 12 586.123 55 52 78

75 33 43 629.563 10 53 87

76 4 8 673.101 69 39 80

77 7 15 724.294 65 0 81

78 11 69 786.022 74 68 83

79 1 28 851.720 71 64 88

80 4 30 933.456 76 66 86

Page 71: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

61 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

81 7 17 1.017.159 77 61 84

82 2 6 1.133.279 70 67 88

83 11 67 1.267.816 78 0 87

84 3 7 1.402.693 60 81 91

85 9 13 1.557.491 73 59 89

86 4 18 1.731.931 80 72 89

87 11 33 1.944.230 83 75 90

88 1 2 2.244.048 79 82 92

89 4 9 2.702.241 86 85 91

90 11 58 3.660.451 87 34 92

91 3 4 4.979.963 84 89 93

92 1 11 7.630.307 88 90 93

93 1 3 18.987.511 92 91 0

Page 72: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

62 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Figura 1 Dendograma (Método de Ward)

Page 73: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

63 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

ANEXO III

APLICAÇÃO DO MÉTODO DE LIGAÇÃO COMPLETA

Tabela 1 Quadro de Aglomeração usando o método de ligação completa

Interacção

Grupos Combinados

Coeficientes

Estágio da primeira aparição

dos grupos Próxi

mo

Estági

o Grupo

1 Grupo 2 Grupo 1 Grupo 2

1 44 75 1.297 0 0 12

2 74 85 1.474 0 0 47

3 28 62 1.538 0 0 51

4 22 65 1.629 0 0 37

5 87 91 1.844 0 0 33

6 61 78 2.076 0 0 35

7 26 77 2.182 0 0 17

8 2 20 2.516 0 0 37

9 30 37 2.517 0 0 30

10 33 34 2.614 0 0 68

11 7 49 2.687 0 0 61

12 41 44 3.589 0 1 15

13 6 56 3.748 0 0 71

14 72 81 3.807 0 0 58

15 41 80 3.972 12 0 44

16 60 63 4.024 0 0 46

17 26 55 4.160 7 0 65

18 39 68 4.204 0 0 54

19 13 50 4.239 0 0 62

20 16 79 4.250 0 0 42

21 21 92 4.354 0 0 40

22 19 42 4.624 0 0 49

23 25 32 4.815 0 0 69

24 45 52 4.830 0 0 36

25 40 76 4.869 0 0 33

26 1 36 5.519 0 0 81

27 11 23 5.904 0 0 53

28 4 35 5.950 0 0 58

29 38 89 5.982 0 0 44

30 30 90 6.432 9 0 47

31 9 51 6.445 0 0 60

32 5 64 6.447 0 0 49

33 40 87 6.512 25 5 52

34 58 59 6.558 0 0 87

Page 74: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

64 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

35 61 66 6.743 6 0 54

36 45 93 7.057 24 0 48

37 2 22 7.147 8 4 57

38 47 83 7.498 0 0 63

39 29 86 9.030 0 0 70

40 8 21 9.289 0 21 67

41 69 82 9.451 0 0 68

42 16 94 10.020 20 0 57

43 27 73 10.328 0 0 64

44 38 41 10.827 29 15 61

45 18 71 12.551 0 0 72

46 60 88 13.351 16 0 74

47 30 74 14.497 30 2 73

48 14 45 14.794 0 36 60

49 5 19 15.141 32 22 67

50 3 10 16.568 0 0 66

51 28 31 16.862 3 0 69

52 17 40 17.754 0 33 64

53 11 57 18.278 27 0 79

54 39 61 19.186 18 35 63

55 12 24 19.553 0 0 76

56 48 84 20.272 0 0 75

57 2 16 20.298 37 42 65

58 4 72 20.794 28 14 72

59 43 54 21.673 0 0 71

60 9 14 23.513 31 48 70

61 7 38 24.045 11 44 78

62 13 53 25.853 19 0 83

63 39 47 27.279 54 38 77

64 17 27 27.386 52 43 80

65 2 26 27.911 57 17 84

66 3 46 28.901 50 0 85

67 5 8 34.341 49 40 73

68 33 69 37.443 10 41 74

69 25 28 38.980 23 51 77

70 9 29 42.805 60 39 83

71 6 43 43.022 13 59 84

72 4 18 47.452 58 45 75

73 5 30 48.845 67 47 82

74 33 60 55.702 68 46 86

75 4 48 58.556 72 56 82

76 12 70 62.622 55 0 79

77 25 39 76.638 69 63 81

78 7 15 77.254 61 0 80

79 11 12 89.604 53 76 86

Page 75: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

65 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

80 7 17 99.302 78 64 85

81 1 25 101.513 26 77 89

82 4 5 134.689 75 73 88

83 9 13 154.210 70 62 88

84 2 6 157.384 65 71 89

85 3 7 168.060 66 80 90

86 11 33 202.022 79 74 91

87 58 67 240.387 34 0 92

88 4 9 283.171 82 83 90

89 1 2 322.802 81 84 91

90 3 4 618.899 85 88 93

91 1 11 737.309 89 86 92

92 1 58 1.894.912 91 87 93

93 1 3 4.449.176 92 90 0

Tabela 2 Membro dos agrupamentos (Método de ligação completa)

Casos 5 Grupos 4 Grupos 3 Grupos

1:Angoche 1 1 1

2:Lalaua 1 1 1

3:Malema 2 2 2

4:Mecubúri 3 2 2

5:Memba 3 2 2

6:Mogincua 1 1 1

7:Mogovola 2 2 2

8:Murrupula 3 2 2

9:Mossuril 3 2 2

10:Muecate 2 2 2

11:Nacarôa 4 3 1

12:Ribaué 4 3 1

13:Ancuabe 3 2 2

14:Balama 3 2 2

15:Chiúre 2 2 2

16:Macomia 1 1 1

17:Moeda 2 2 2

18:Meluco 3 2 2

19:Montepuez 3 2 2

20:Muidumbe 1 1 1

21:Namuno 3 2 2

22:Nangade 1 1 1

23:Palma 4 3 1

24:Quissanga 4 3 1

25:Cuamba 1 1 1

Page 76: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

66 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

26:Lago 1 1 1

27:Majune 2 2 2

28:Mandimba 1 1 1

29:Marrupa 3 2 2

30:Maúa 3 2 2

31:Mavago 1 1 1

32:Mecanhelas 1 1 1

33:Mecula 4 3 1

34:Metarica 4 3 1

35:Muembe 3 2 2

36:N'gauma 1 1 1

37:Nipepe 3 2 2

38:Sanga 2 2 2

39:Búzi 1 1 1

40:Chemba 2 2 2

41:Cheringoma 2 2 2

42:Chibabava 3 2 2

43:Marringue 1 1 1

44:Machanga 2 2 2

45:Marromeu 3 2 2

46:Muanza 2 2 2

47:Nhamatanda 1 1 1

48:Angónia 3 2 2

49:Cahora-Bassa 2 2 2

50:Changara 3 2 2

51:Chifunde 3 2 2

52:Macanga 3 2 2

53:Marávia 3 2 2

54:Moatize 1 1 1

55:Mutarara 1 1 1

56:Tsangano 1 1 1

57:Zumbo 4 3 1

58:Alto Molócue 5 4 3

59:Chinde 5 4 3

60:Gilé 4 3 1

61:Gurué 1 1 1

62:Ile 1 1 1

63:Maganja da Costa 4 3 1

64:Milange 3 2 2

65:Mocuba 1 1 1

66:Morrumbala 1 1 1

67:Namacurra 5 4 3

68:Namarroi 1 1 1

69:Nicoadala 4 3 1

70:Bárue 4 3 1

Page 77: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

67 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

71:Gondola 3 2 2

72:Guro 3 2 2

73:Machaze 2 2 2

74:Manica 3 2 2

75:Mossurize 2 2 2

76:Sussundenga 2 2 2

77:Tambara 1 1 1

78:Funhalouro 1 1 1

79:Govuro 1 1 1

80:Homoíne 2 2 2

81:Inharrime 3 2 2

82:Inhassoro 4 3 1

83:Jangamo 1 1 1

84:Massinga 3 2 2

85:Panda 3 2 2

86:Chibuto 3 2 2

87:Chicualacuala 2 2 2

88: Chókwe 4 3 1

89:Guijá 2 2 2

90:Mabalane 3 2 2

91:Manjacaze 2 2 2

92:Magude 3 2 2

93:Manhiça 3 2 2

94:Matutuíne 1 1 1

Tabela 3 Análise da variabilidade nos tamanhos dos agrupamentos

Nº de Grupos Grupos Métodos

Ward Ligação Completa

3 Grupos

1 29 41

2 45 50

3 20 3

4 Grupos

1 29 28

2 25 50

3 20 13

4 20 3

5 Grupos

1 29 28

2 25 19

3 20 31

4 18 13

5 2 3

Page 78: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

68 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 1 Dendograma (Método de ligação completa)

Page 79: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

69 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 2 Valores médios das variáveis segundo os diferentes grupos criados

Page 80: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

70 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Gráfico 2A Valores médios das variáveis segundo os diferentes grupos criados

Page 81: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

71 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Tabela 3 Quadro da MANOVA

Fonte de

Variação Variaveis Dependentes SQ com o Erro tipo III gl Quadrado Médio F Sig.

Noncent.

Parameter

Poder

do Teste

Estimativa do total de area

cultivada 1.132.639.744,19 3 377.546.581,40 2,78 0,05 8,34 0,65

Estimativa do Orçamento

Total 245,51 3 81,84 10,26 0,00 30,79 1,00

Estimativa do total de area

cultivada 38.410.406.150,04 1 38.410.406.150,04 282,79 0,00 282,79 1,00

Estimativa do Orçamento

Total 3.683,46 1 3.683,46 461,89 0,00 461,89 1,00

Estimativa do total de area

cultivada 1.132.639.744,19 3 377.546.581,40 2,78 0,05 8,34 0,65

Estimativa do Orçamento

Total 245,51 3 81,84 10,26 0,00 30,79 1,00

Estimativa do total de area

cultivada 12.224.500.458,43 90 135.827.782,87

Estimativa do Orçamento

Total 717,72 90 7,97

Estimativa do total de area

cultivada 101.585.848.548,28 94

Estimativa do Orçamento

Total 8.122,11 94

Estimativa do total de area

cultivada 13.357.140.202,62 93

Estimativa do Orçamento

Total 963,24 93

Modelo

Corrigido

Intercepto

Grupos

Erro

Total

Total

Corrigido

Page 82: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

72 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Tabela 4 Intervalos de comparações simultaneas de Bonferroni

Limite inferior Limite superior

2 5006,5639000 2750,91764741 ,072 -458,6141537 10471,7419537

3 -3845,7940385 3911,42981984 ,328 -11616,5320793 3924,9440024

4 -4440,1291667 7080,03671383 ,532 -18505,8578533 9625,5995199

1 -5006,5639000 2750,91764741 ,072 -10471,7419537 458,6141537

3 -8852,3579385 3628,33937877 ,017 -16060,6874073 -1644,0284696

4 -9446,6930667 6927,66073659 ,176 -23209,7002787 4316,3141453

1 3845,7940385 3911,42981984 ,328 -3924,9440024 11616,5320793

2 8852,3579385 3628,33937877 ,017 1644,0284696 16060,6874073

4 -594,3351282 7464,86561258 ,937 -15424,5935905 14235,9233341

1 4440,1291667 7080,03671383 ,532 -9625,5995199 18505,8578533

2 9446,6930667 6927,66073659 ,176 -4316,3141453 23209,7002787

3 594,3351282 7464,86561258 ,937 -14235,9233341 15424,5935905

2 2082,30013201 666,562432900 ,002 758,05751677 3406,54274724

3 -1653,34742285 947,760896908 ,084 -3536,23986742 229,54502171

4 -3937,63915706 1715,531725000 ,024 -7345,84235889 -529,43595523

1 -2082,30013201 666,562432900 ,002 -3406,54274724 -758,05751677

3 -3735,64755486 879,166530477 ,000 -5482,26531800 -1989,02979172

4 -6019,93928907 1678,610190033 ,001 -9354,79141737 -2685,08716076

1 1653,34742285 947,760896908 ,084 -229,54502171 3536,23986742

2 3735,64755486 879,166530477 ,000 1989,02979172 5482,26531800

4 -2284,29173421 1808,777877695 ,210 -5877,74469361 1309,16122520

1 3937,63915706 1715,531725000 ,024 529,43595523 7345,84235889

2 6019,93928907 1678,610190033 ,001 2685,08716076 9354,79141737

3 2284,29173421 1808,777877695 ,210 -1309,16122520 5877,74469361

(J)

Grupos

Estim

ativa d

o O

rçam

ento

Tota

l

1

2

3

4

Estim

ativa d

o tota

l de a

rea c

ultiv

ada 1

2

3

4

Variáveis

Dependentes

Diferença de

Médias (I-J)Erro Padrão Sig.

Intervalo de confiança a 95% (I)

Grupos

Page 83: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

73 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

ANEXO IV

Medidas de Semelhanças e Dissemelhanças

Tabela 1 Medidas de Semelhança e Distância

Coeficiente

Distância de Mahalanobis

Medida de semelhança de Coseno

Distância de Canberra

Distância de Minkowski

Distância Absoluta (r=1 )

Coeficiente de Correlação

Distância de Chebishev

Distância Euclideana Ponderada

Expressão Matemática

Distância Euclideana (r=2 )

Quadrado da Distância Euclideana

rp

v

r

jvivij XXD

/1

1

p

v

jvivij XXD1

p

v

jvivij XXD1

2)(

p

v

jvivij XXD1

22 )(

)()( 1

jvivjvivij XXXXD

jvivv

ij XXD max

p

v

jjv

p

v

iiv

p

v

jjviiv

ij

XXXX

XXXX

r

1

2__

1

2__

1

____

)(*)(

))((

)()( jijiij XXSXXD

p

v

jv

p

v

iv

p

v

jviv

XX

XX

jiCoSIN

1

2

1

2

1

*

*

),(

p

v jviv

jviv

ijXX

XXD

1 )(

Fonte: Adaptado pelo autor com base em Maroco (2007) e Reis (2001)

Page 84: Analise de agrupamentos uem

Contribuição da Análise de Agrupamentos na Identificação de Segmentos de

Distritos Potenciais Produtores de Cereais em Moçambique 2014

74 Autor: Frederico Machado Almeida Trabalho de Licenciatura em Estatística-UEM

Tabela 2 Alguns coeficientes de semelhança para variáveis binárias

1 2

0 1

1 1

Russel e Rao

Gower e Legendre

- -

- -

0 0.5

- -

Rogers e Tanimoto

Concordância Simples

Dice

Kulczynski

Shokal e Sneath

Jaccard

Representa a razão entre os casos de presenças simultâneas e os casos de

não-simultâniedade

Atribui pesos iguais para as presenças (1-1) e ausências simultâneas (0-0).

Atribui pesos duplos para presenças (1-1) e ausências simultâneas (0-0).

Considera irrelevante as ausências simultâneas e atribui peso duplo as

presenças simultâneas (1-1).

Descrição

Considera as presenças e ausências simultâneas no numerador, e atribui peso

duplo para casos de não-simultaneidade (1-0) e (0-1).

Exclui as ausências simultâneas no numerador.

Atribui pesos iguais para a presença (1-1) e ausências simultâneas (0-0).

Considera irrelevantes as ausências simultâneas (0-0).

Nome Fórmula

321

1

aaa

a

4321

41

)(*2 aaaa

aa

p

aa 41

p

a1

321

1

2

2

aaa

a

3241

41

)(2

)(2

aaaa

aa

)(2

13241

41

aaaa

aa

321

1

2

2

aaa

a

Fonte: Adaptado por Hãrdle e Simar (2007)