Ageing Workforce · O envelhecimento da população mundial tem vindo a revelar-se um desafio para...

i

Ageing Workforce

Ana Margarida Sabino Guerreiro

Determinar e caracterizar os diferentes clusters de

colaboradores para uma melhor compreensão da sua

diversidade

Projeto apresentado como requisito parcial para obtenção do

grau de Mestre em Gestão de Informação com especialização

em Gestão do Conhecimento e Business Intelligence

i

20

18

Ageing Workforce - Determinar e caracterizar os diferentes clusters de colaboradores para uma melhor compreensão da sua diversidade


i

NOVA Information Management School

Instituto Superior de Estatística e Gestão de Informação

Universidade Nova de Lisboa

AGEING WORKFORCE

DETERMINAR E CARACTERIZAR OS DIFERENTES CLUSTERS DE COLABORADORES

PARA UMA MELHOR COMPREENSÃO DA SUA DIVERSIDADE

por


Projeto apresentado como requisito parcial para obtenção do grau de Mestre em Gestão de

Informação com especialização em Gestão do Conhecimento e Business Intelligence

Orientador: Professor Roberto Henriques

Coorientador: Professor Guilherme Martins Victorino

Novembro 2018

ii

AGRADECIMENTOS

Aos colegas e novos amigos que tive a oportunidade de conhecer e partilhar experiências de trabalho

em grupo durante este ciclo, Paula Torrão, Pedro Nina, Patrícia Brito entre outros.

À tutora da empresa, agradeço a orientação e disponibilidade total que teve para me apoiar no

desenvolvimento do trabalho. Agradeço ainda todas as aprendizagens que tive a oportunidade de ter

com ela dada a sua experiência na área de Recursos Humanos.

Ao professor Roberto Henriques e Guilherme Vitorino por terem aceite orientar este trabalho e pelo

acompanhamento no desenvolvimento do mesmo.

Aos meus colegas de trabalho e à minha chefia atual por me terem permitido ter os tempos que

considerei necessários para trabalhar na tese durante a fase final sem nunca levantarem obstáculos

quanto aos dias que escolhi para me ausentar.

À minha família, sem dúvida o pilar mais importante na minha formação pessoal e a qual considero o

pilar de maior importância em todos os aspetos da minha vida. Obrigada a todos os que de uma forma

ou de outra contribuíram para a realização deste caminho académico.

iii

RESUMO

O presente trabalho consiste numa análise de clusters com foco na importância que a temática do

Ageing Workforce assume atualmente na organização em estudo. Para explorar a relevância do tema

são abordados conceitos inerentes ao People Analytics e também algumas técnicas de Data Mining

utilizadas em contexto organizacional.

A bibliografia disponível aponta para uma mudança na função de Recursos Humanos que tem vindo a

ser registada ao longo dos últimos anos. Esta mudança resulta da necessidade de tornar os dados de

Recursos Humanos úteis para uma gestão estratégica da organização. Estes deixam de ser úteis apenas

para a função de Recursos Humanos e passam a ser utilizados também em outras áreas de negócio de

forma estratégica e assegurando a evolução de desempenho de uma organização.

Comprova-se a importância crescente de ferramentas que tenham por base o conceito de People

Analytics na função de Recursos Humanos. É importante que as organizações tenham conhecimento

sobre os seus colaboradores, desta forma é crucial garantir o armazenamento dos dados de forma a

assegurar a sua qualidade e disponibilidade.

Os objetivos da análise de clusters passam por: analisar a estrutura dos dados, verificar e relacionar os

aspetos dos dados entre si e ajudar a caracterizar os colaboradores. O trabalho desenvolvido permite

à organização aumentar o conhecimento sobre o perfil dos colaboradores, com vista a uma análise das

práticas vigentes de Recursos Humanos e uma eventual adequação das mesmas.

PALAVRAS-CHAVE

People Analytics; Ageing Workforce; Data Mining; Análise de Clusters; k-means.

iv

ABSTRACT

This study shows the results of a cluster analysis focused on the importance that the Ageing Workforce

has nowadays, namely in the context of the organization considered for this study. To study the

relevancy of the thematic this study addresses concepts related to People Analytics and some Data

Mining techniques used in an organizational context.

The worldwide bibliography available points to a change in the Human Resources function which has

been registered in the last few years. This change comes from a need of finding Human Resources Data

useful to support the strategic management of the organization. Data becomes useful in other business

areas, not only in the Human Resources context, which ensures the performance improvement of an

organization.

It’s possible to prove the growing importance of tools based on the People Analytics concept in a

Human Resources function. It’s always considered important that organizations have an awareness of

their employees, so it is critical to guarantee an efficient data storage in order to provide quality and

availability of data.

The objective of the cluster analysis presented in this study is to analyze the data structure verified

and relate data with each other in order to improve the employee’s characterization. It allows an

increase in the knowledge about the employees in the organizational context with the goal to analyze

the current Human Resources policies and an eventual adequation of these policies.

KEYWORDS

People Analytics; Ageing Workforce; Data Mining; Cluster analysis; k-means.

v

ÍNDICE

1. Introdução .................................................................................................................... 1

Enquadramento e relevância ................................................................................ 1

Motivação .............................................................................................................. 2

2. Revisão da literatura ..................................................................................................... 4

Analytics................................................................................................................. 4

2.1.1. People Analytics ............................................................................................. 5

2.1.2. Conceito de Ageing Workforce ...................................................................... 9

Informação e conhecimento ............................................................................... 11

Data Science e Data Mining ................................................................................. 12

2.3.1. Aprendizagem não supervisionada – Modelação Descritiva ....................... 12

2.3.2. Aprendizagem Supervisionada – Modelação Preditiva................................ 14

3. Metodologia ............................................................................................................... 17

O processo SEMMA ............................................................................................. 17

3.1.1. Dados utilizados - Amostragem .................................................................... 17

3.1.2. Identificação da base de dados .................................................................... 18

3.1.3. Identificação das variáveis ........................................................................... 18

3.1.4. Análise Exploratória dos dados - Exploração ............................................... 18

3.1.5. Modificação .................................................................................................. 24

3.1.6. Construção dos clusters ............................................................................... 24

3.1.7. Avaliação dos clusters .................................................................................. 28

4. Resultados e discussão ............................................................................................... 34

Análise das características dos clusters ............................................................... 34

4.1.1. O Clima Organizacional e a Gestão na Liderança ......................................... 34

5. Conclusões .................................................................................................................. 38

6. Limitações e possÍveis trabalhos futuros ................................................................... 39

7. Bibliografia .................................................................................................................. 40

8. Anexos ........................................................................................................................ 43

Anexo I – Tabela com as estatísticas descritivas das variáveis intervalares.......... 44

Anexo II – Matriz de correlações entre variáveis obtida através do SAS Enterprise Miner 45

Anexo III – Gráfico representativo da expectativa de evolução da população entre 2016 e 2080 46

Anexo IV – Critérios para a extração de regras ..................................................... 47

vi

Anexo V – Diagrama criado na aplicação SAS Enterprise Miner 14.2 para a modelação descritiva 48

vii

ÍNDICE DE FIGURAS

Figura 1.1 – Distribuição da população residente em Portugal por grupo etário (INE, 2017). . 1

Figura 2.1 - Modelo Analítico proposto por (Bersin, 2016). ...................................................... 6

Figura 2.2 - Processo de DCBD (Santos & Ramos, 2009) p. 105............................................... 12

Figura 2.3 – Exemplo de classificação de uma árvore de decisão com base no algoritmo C4.5.

(Bação, n.d.)...................................................................................................................... 14

Figura 3.1 – Contextualização do universo de colaboradores em estudo. .............................. 19

Figura 3.2 – Gráfico representativo dos dias perdidos por acidente de trabalho em função da

idade do colaborador. ...................................................................................................... 21

Figura 3.3 - Gráfico representativo das horas de formação em função da idade do colaborador.

.......................................................................................................................................... 21

Figura 3.4 – Gráfico representativo da taxa de absentismo por faixa etária. ......................... 22

Figura 3.5 – Gráfico representativo dos dias perdidos por acidentes de trabalho e da

percentagem de colaboradores com dias perdidos por acidentes por faixa etária. ....... 22

Figura 3.6 – Gráfico representativo dos dias perdidos por acidentes de trabalho e da

percentagem de colaboradores com dias perdidos por acidentes por faixa etária (<45 e

>= 45 anos). ...................................................................................................................... 23

Figura 3.7 – Gráfico representativo da distribuição do número de colaboradores por faixa

etária e por senioridade do gestor de loja. ...................................................................... 23

Figura 3.8 – Gráfico representativo da distribuição do número de colaboradores por faixa

etária do gestor de loja e por senioridade do gestor de loja. .......................................... 24

Figura 3.9 – Gráfico cotovelo. .................................................................................................. 27

Figura 3.10 – Variáveis incluídas no cluster colaboradores. .................................................... 27

Figura 3.11 – Distribuição da amostra por cluster. .................................................................. 28

Figura 3.12 – Gráficos de perfil obtidos através do SAS Enterprise Miner para o segmento 1.

.......................................................................................................................................... 29

Figura 3.13 - Gráficos de perfil obtidos através do SAS Enterprise Miner para o segmento 2.

.......................................................................................................................................... 30


.......................................................................................................................................... 31


.......................................................................................................................................... 31

Figura 4.1 – Mudanças na gestão de pessoas e carreiras profissionais (Bersin, 2014). .......... 35

viii

ÍNDICE DE TABELAS

Tabela 3.1 – Resumo de correspondências entre metodologias (Azevedo & Santos, 2008). . 17

Tabela 3.2 – Resultados obtidos a partir do método automático de construção de clusters. 25

Tabela 3.3 – Valores utilizados para a construção do gráfico cotovelo. .................................. 26

Tabela 3.4 – Importância das variáveis e valores que assumem por cluster. .......................... 32

Tabela 3.5 – Ordem de importância e descrição do conteúdo das variáveis. ......................... 32

ix

LISTA DE ACRÓNIMOS

CCC Cubic Clustering Criterion

CRISP‐DM Cross‐Industry Standard Process for Data Mining

SEMMA Sample, Explore, Modify, Model, Assess

DCBD Descoberta de Conhecimento em Base de Dados

RH Recursos Humanos

RMSD Root Mean Square Deviation

1

1. INTRODUÇÃO

ENQUADRAMENTO E RELEVÂNCIA

O envelhecimento da população mundial tem vindo a revelar-se um desafio para as próximas décadas.

Segundo dados do Eurostat (Eurostat, 2017), as baixas taxas de natalidade bem como o aumento da

esperança média de vida registados na união europeia estão na base do fenómeno de envelhecimento.

Num futuro próximo, a sociedade será fortemente afetada pelas consequências do aumento de

longevidade, quer no que respeita ao estado de saúde quer na participação da população na sociedade

(Cabral & Ferreira, 2014).

Desta forma, o prolongamento da vida ativa representa um verdadeiro desafio durante as próximas

décadas na medida em que é necessário manter as pessoas integradas e sem quebras na produtividade

laboral até ao fim das suas carreiras.

A distribuição de idades da população Europeia é um tema de estudo que tem ganho importância na

literatura ao longo dos últimos anos. Este facto deve-se sobretudo às alterações demográficas que têm

vindo a ser registadas. No gráfico abaixo (Figura 1.1), é possível verificar as alterações registadas na

população residente em Portugal no período 2012-2016.

Figura 1.1 – Distribuição da população residente em Portugal por grupo etário (INE, 2017).

Devido às alterações demográficas registadas, é expectável que durante as próximas décadas existam

mudanças ao nível da gestão de pessoas, com a tendência para manter os colaboradores no ativo até

mais tarde.

Paralelamente, existe também a evolução das Tecnologias de Informação (TI) (e o consequente

crescimento das indústrias de informação e conhecimento), as quais têm representado as mais

recentes inovações do século, pois permitem aumentar o conhecimento das organizações em

2

diferentes contextos. Todo esse conhecimento é crucial como forma de apoiar o processo de tomada

de decisão, o que resulta em novas indústrias e modelos de negócio que têm vindo a sofrer alterações.

De acordo com (Santos & Ramos, 2009) uma gestão eficaz do conhecimento permite aumentar o valor

construído a partir do histórico da organização, o que resulta numa aprendizagem organizacional

responsável pela mudança organizacional.

A informação que uma organização tem representa uma vantagem competitiva. É um ativo e é, ao

mesmo tempo um risco, mas permite às organizações tomar decisões de forma mais eficiente,

adequada e relevante. Aliado ao conceito de Data Mining existe a ideia de que os dados do passado

contêm informação útil para a tomada de decisão futura. O objetivo do Data Mining relaciona-se

sobretudo com a descoberta de padrões no histórico de dados que permitam explicar as necessidades,

preferências e propensões (Berry & Linoff, 2004). Existem diversas técnicas de Data Mining que

permitem fazer a análise exploratória dos dados, os quais podem surgir de diferentes contextos de

informação.

A necessidade de desenvolver esta análise surge devido ao facto de a organização atribuir uma elevada

importância ao estudo sobre seus colaboradores. A análise do comportamento adotado pelas pessoas

poderá permitir a identificação de oportunidades de melhoria para o negócio da organização no

futuro.

MOTIVAÇÃO

Com recurso a técnicas de análise as organizações podem trabalhar para aprender e inovar criando

impacto nas condições de negócio, o que por outro lado anteriormente era feito apenas com base na

eficiência e eficácia alcançada pela componente operacional de uma organização. Desta forma, as

organizações podem utilizar dados, os quais depois de analisados podem ser importantes e/ou ter

impacto em diferentes contextos organizacionais.

O objetivo deste trabalho consiste em desenvolver uma análise descritiva, recorrendo a técnicas de

Data Mining, com vista a uma melhor compreensão dos diferentes perfis de colaboradores, tendo em

conta a visão do envelhecimento e desgaste profissional dos mesmos.

Este tipo de análise permite sobretudo obter um conhecimento orientado aos dados acrescentando

valor ao processo de gestão de pessoas de forma objetiva (Sothmann & Mehta, 2017).

Desta forma, será desenvolvida uma análise para determinar e caracterizar os diferentes clusters de

colaboradores, por forma a identificar e caracterizar os diferentes perfis existentes, tendo em conta

as variáveis consideradas. Para a realização desta análise serão utilizadas variáveis que caracterizam

as diferentes dimensões do colaborador, tais como informação demográfica (como a faixa etária,

estado civil, formação académica), informação de contexto profissional na companhia (como o número

de anos na companhia, número de horas de formação), informação relativa à loja em que o

colaborador se encontra no período estudado e informação relativa à sua chefia (igualmente dados

demográficos e de contexto profissional na Companhia).

A análise de clusters é um método exploratório de dados que permite um agrupamento dos indivíduos

em grupos/clusters homogéneos. Desta forma, os indivíduos com determinadas características

pertencem a um grupo assegurando que clusters diferentes incluem pessoas com perfis diferentes.

Será também possível relacionar fatores pessoais e fatores que relacionam a pessoa com a sua função

3

e identificar padrões de absentismo, acidentes de trabalho, e/ou envolvimento. Associados à análise

de clusters existem fatores importantes a considerar como a seleção das variáveis, a definição do

critério de semelhança e o contexto dos dados.

Numa primeira vertente, este trabalho pretende contribuir para reforçar a importância que o

fenómeno de envelhecimento da população e o consequente aumento do tempo de longevidade têm

atualmente no ativo laboral.

Numa segunda vertente o trabalho desenvolvido pretende dar enfâse à importância de uma gestão de

conhecimento eficaz, na medida em que os dados do passado possuem informação útil para a tomada

de decisão futura. Assim sendo, e aplicado ao contexto organizacional, mais concretamente ao nível

da gestão de pessoas do caso de estudo, este trabalho consiste no desenvolvimento de uma análise

segmentada da base de dados dos colaboradores.

No capítulo de revisão de literatura - capítulo 2 - são abordados os conceitos utilizados no

desenvolvimento do trabalho, tais como Analytics, People Analytics e Ageing Workforce, Informação

e Conhecimento, Data Science, Data Mining e análise de clusters, de forma a referir todos os conceitos

teóricos importantes para a realização do trabalho.

No capítulo seguinte - capítulo 3 - é abordada a metodologia utilizada no desenvolvimento da análise

de clusters. Depois de uma primeira análise descritiva aos dados, é apresentada a análise de clusters

seguida da interpretação dos resultados obtidos. Os resultados obtidos são analisados de forma critica

e identificam os diferentes perfis de colaboradores existentes na organização, tendo em conta as

variáveis consideradas.

No capítulo 4, é feita uma análise das características dos clusters e é abordada a temática da Gestão

na Liderança numa organização, para contextualização dos resultados obtidos. Seguidamente são

apresentadas as conclusões – capítulo 5 – e identificadas as limitações e possíveis trabalhos futuros –

capítulo 6.

4

2. REVISÃO DA LITERATURA

ANALYTICS

Analytics é definida como a área de estudo que permite a interseção entre a engenharia, ciências

informáticas, tomada de decisão e métodos quantitativos que contribuem para organizar, analisar e

dar significado a grandes volumes de dados provenientes de diversos sectores (Mortenson, Doherty,

& Robinson, 2015).

O termo Analytics pode ser utilizado pelo menos de três formas relacionadas (Watson, 2013).

Primeiramente, por volta de 1970, surgiu através de sistemas de apoio à tomada de decisão. Mais

tarde foi popularizado através do termo Business Intelligence (BI) - por volta de 1990 - e mais

recentemente surgiu o termo Analytics.

Segundo (Watson, 2014) hoje em dia as organizações recolhem, armazenam e analisam grandes

volumes de dados, referidos como Big Data devido ao seu volume, velocidade e variedade. A chave

para a criação de valor a partir de Big Data passa pela utilização de técnicas analíticas (Analytics). De

acordo com o autor existem diferentes tipos de técnicas utilizadas em Analytics, tais como:

1) Análise Descritiva, que recorre a algoritmos de Data Mining para obter conhecimento sobre os

dados.

2) Análise Preditiva, a qual prevê o que ocorre no futuro através de técnicas de regressão,

machine learning ou redes neuronais, e que pode ser também realizada com recurso ao

software SAS Enterprise Miner.

3) Análise Prescritiva, permite identificar a melhor solução e é muitas vezes utilizada como

complemento à análise descritiva e preditiva.

Em suma a análise descritiva é a forma primária de obter uma retrospetiva sobre o que aconteceu

criando uma base de fundamento para transformar dados em informação. A previsão é uma técnica

de análise mais avançada para obtenção de resultados futuros e a prescrição interpreta os resultados

e recomenda uma ação.

Hoje em dia, áreas como a banca, o sector do retalho ou dos seguros recorrem a técnicas de analytics

para a gestão de pessoas.

Exemplos da utilização de Analytics por uma organização

Ao longo do seu trabalho (Watson, 2014) apresenta exemplos práticos resultantes da utilização de

analytics no dia a dia de uma organização. Dos exemplos apresentados, destacam-se a introdução de

um novo produto pela organização Starbucks, um exemplo aplicado ao sector dos seguros e outro

relativamente ao sector das telecomunicações. O sector dos seguros automóveis utiliza técnicas de

analytics de forma a definir os preços, identificar o risco associado a cada cliente, deteção de fraudes

e também na resposta rápida a reclamações dos clientes. O sector das telecomunicações analisa os

padrões de serviços e a rentabilidade dos clientes através das redes sociais de forma a minimizar a

rotatividade dos seus clientes mantendo-os satisfeitos.

O maior valor da análise preditiva está no facto de permitir a análise de grandes quantidades de dados

para identificar padrões de eventos, ou atividades, que preveem as ações das pessoas. Outras

5

aplicações deste tipo de análise podem ser a renovação de um contrato de telefone, no sector das

telecomunicações, ou o encerramento de uma conta corrente, para o sector bancário. Quando uma

organização tem a oportunidade de prever este tipo de ação, poderá ter também a oportunidade de

interceder com uma oferta ou uma possibilidade de mudança de forma a manter o cliente fidelizado.

Exemplos da utilização de Analytics em Recursos Humanos

Na área de Recursos Humanos (RH) a utilização de dados pode ser útil em diferentes contextos como

para a análise de processos de recrutamento, desempenho ou mobilidade de colaboradores. O valor

criado a partir deste tipo de análise poderá permitir:

- O desenvolvimento de programas de gestão de talentos para manter equipas bem preparadas,

motivadas e dinâmicas;

- O investimento em formação e desenvolvimento dos colaboradores, com ênfase nas competências e

segmentos chave da organização, apostando na certificação dos conhecimentos;

- A adoção de políticas de remuneração e desenvolvimento de carreira (compensação e benefícios) e

fortalecimento da liderança por parte dos mais dotados;

- O acesso a programas de reforma antecipada.

2.1.1. People Analytics

Segundo (Laurence Collins, David R. Fineman, 2017), o conceito de People Analytics é definido como

uma disciplina que permite a análise do envolvimento e retenção aplicado a grupos de pessoas. As

organizações utilizam esta disciplina para planeamento organizacional e construção de novas soluções

empresariais digitais, as quais permitem conduzir uma análise aprofundada e em tempo real de acordo

com as necessidades identificadas pela organização. Este conceito envolve a utilização de ferramentas

digitais e dados para medir, estudar/reportar e ganhar conhecimento sobre o comportamento das

pessoas. No entanto, People Analytics, tem vindo a sofrer alterações na medida em que deixou de se

tratar da identificação de informação relevante para conhecimento dos gestores, e passou a ter uma

função orientada ao negócio que se foca na utilização de dados para apoiar o contexto operacional de

uma organização.

O conjunto de dados sobre as pessoas que uma organização possui permite atribuir significado ao

conceito de People analytics. Segundo (Bersin, 2016) os dados de pessoas são muitas vezes

inconsistentes, incorretos, desatualizados e geralmente encontram-se armazenados em bases de

dados diferentes, resultando num problema de integridade de dados. Para comprovar o recente

elevado impacto que o People analytics tem, (Bersin, 2017) afirma que no ano de 2017 cerca de 70%

das organizações focaram-se em consolidar dados de RH provenientes de diversas fontes para a

construção de repositórios integrados enquanto em anos anteriores apenas cerca de 10-15% das

organizações adotaram essa estratégia.

Estas alterações devem-se sobretudo ao crescimento exponencial da era digital. No entanto, a gestão

de dados continua a ser um desafio para as organizações. É imperativo que as organizações se adaptem

às necessidades atuais para acelerar, ajustar, facilitar a aprendizagem e obter um percurso

empreendedor.

O autor propõe um modelo analítico que explora os pressupostos essenciais a considerar para uma

análise bem-sucedida. Este modelo é composto por 4 níveis aos quais é atribuída uma percentagem

6

de utilização diferente e pode ser utilizado como uma abordagem analítica para o desenvolvimento de

uma organização (Figura 2.1).

Figura 2.1 - Modelo Analítico proposto por (Bersin, 2016).

A maioria das organizações, cerca de 66%, encontra-se nos níveis 1 e 2, os quais correspondem a

relatórios operacionais e relatórios avançados, respetivamente. Continua a ser um desafio o facto de

as organizações possuírem mais do que um repositório de dados, o que compromete os relatórios

obtidos e também a integração dos dados (Bersin, 2016).

O People Analytics alia a utilização de tecnologia para processamento de dados na área do Business

Intelligence e a existência em abundância de dados de pessoas a ferramentas analíticas para melhorar

o desempenho da sua função, ou seja, alavancar o seu papel na organização através do People

Analytics. Para tal, é necessário apostar numa abordagem sistematizada e integrada.

No entanto, com o avanço das tecnologias e também com o contributo da era digital é expectável que

as organizações melhorem a qualidade dos seus repositórios de dados e desta forma se recorra com

maior frequência aos dados para desenvolver análises avançadas e modelações preditivas.

Técnicas de Data Mining aplicadas aos Recursos Humanos

A utilização de técnicas de Data Mining permite caracterizar e prever os diferentes comportamentos

adotados num grupo, o que contribui para que a função de Recursos Humanos seja mais eficiente. A

seleção da técnica de Data Mining mais adequada pressupõe que sejam conhecidas as características

identificadas por (Berry & Linoff, 2004) e (D. J. Hand, 1998).

7

Técnicas de Data Mining Características

Clustering • Permite identificar padrões nos dados, contribuindo para o

aumento do conhecimento sobre os dados, com recurso a algoritmos de Data Mining.

Redes Neuronais (Berry & Linoff, 2004)

• Adequado para estudos de clustering, classificação e previsão;

• Aprende com padrões de exemplo produzindo uma aproximação.

Árvores de Decisão (D. J. Hand, 1998)

• Adequado para classificação e previsão;

• Aplica-se a variáveis contínuas e de classe;

• Produz um modelo que representa regras fáceis de interpretar a quem tem a responsabilidade de decidir;

• Não exige conhecimentos específicos nem a definição de parâmetros iniciais;

• Aplicável a grandes volumes de dados;

• Os modelos produzidos têm boa precisão.

Existem também organizações que são casos de sucesso, sendo a Google exemplo disso dado que é

uma das grandes organizações que têm sido bem-sucedidas no mercado com as suas estratégias

focadas na gestão de pessoas. (Sullivan, 2013) explica como a Google mudou a sua estratégia para que

esta se focasse na gestão de pessoas e como essa mudança afetou a produtividade da organização.

Segundo o autor, “All people decisions at Google are based on data and analytics”, sendo este um dos

fatores chave que tem contribuído para o sucesso do processo de gestão. People Analytics apoia a

tomada de decisão no contexto de gestão de pessoas e desta forma as decisões mais importantes

podem ser tomadas com base num conhecimento exato que é obtido sobre os dados. O autor

identifica ainda alguns pontos que considera importantes na análise de pessoas, de entre os quais se

destacam: características e funções dos gestores, modelação preditiva, melhoria no universo de

colaboradores e local de trabalho.

People Analytics é uma área de estudo essencial para assegurar o futuro dos colaboradores de forma

estratégica contribuindo para a melhoria do desempenho nas organizações (Angrave, Charlwood,

Kirkpatrick, Lawrence, & Stuart, 2016). O autor propõe quatro ideias chave para o conceito de HR

Analytics:

(1) os gestores devem ter um conhecimento claro sobre a contribuição das pessoas para o sucesso da

organização;

(2) deve existir um conhecimento profundo sobre os dados e contexto dos mesmos;

(3) as métricas e ferramentas utilizadas (na medida em que permitem segmentar os grupos de

colaboradores);

(4) tomada de decisão orientada aos dados.

Os dados de colaboradores (HR data) podem ser usados para criar, capturar, potencializar e proteger

o valor de uma organização. Além disso, podem depois ser utilizados para responder a questões

complexas com recurso a modelação multivariada, a qual permite quantificar métricas e medidas

importantes para a organização. As análises avançadas podem ser aplicadas na parte operacional, de

8

gestão e também no recrutamento e seleção permitindo identificar, atrair, desenvolver e manter o

talento nas organizações. People Analytics apoia os gestores na medida em que melhora o poder dos

dados, aumentando o rigor e coerência na tomada de decisão e no desempenho. No entanto, o desafio

relaciona-se com o benefício alcançado através desses dados.

O relatório anual publicado pela (Boston Consulting Group, 2014) também é favorável quanto à

importância da função de Recursos Humanos, defendendo que esta está diretamente correlacionada

com o desempenho económico de uma organização. A gestão de talentos, liderança, o envolvimento

e comportamento das pessoas e a cultura de gestão são identificados como fatores de sucesso para

que uma organização tenha bons resultados. No mesmo estudo, a consultora propõe um ranking de

27 subtópicos chave em Recursos Humanos, de entre os quais se destacam: a liderança, a gestão de

talentos, o comportamento e cultura, o RH e a estratégia de pessoas, o envolvimento dos

colaboradores, o planeamento estratégico da força de trabalho - Strategic Workforce Planning, os

modelos de carreira e competências, HR communication, a gestão de performance, a formação e a

aprendizagem. Segundo o relatório a conhecida marca PepsiCo é reconhecida por ser um exemplo de

investimento na formação para a liderança. A organização deu a oportunidade de os gestores

adquirirem conhecimentos importantes através da formação, os quais podem posteriormente ser

aplicados para otimizar o sucesso da organização

Mais recentemente, alguns autores, (Carla Arellano, Alexander DiLeonardo, 2017), afirmam que o

People Analytics permite o desenvolvimento de análises avançadas em grandes conjuntos de dados

de forma a medir a gestão de talentos. Nos dias de hoje, é frequente as organizações recorrerem a

esta disciplina em processos como o recrutamento, retenção, descoberta de talentos e perceções não

intuitivas sobre o desempenho dos colaboradores. Além destes processos os autores, (Momin &

Mishra, 2015) identificam também o acompanhamento de projetos, do absentismo, a monitorização

e gestão das tarefas.

A utilização de software para a gestão em RH, aplicações para telemóvel, vídeo e também o conceito

de analytics têm permitido a introdução de grandes alterações no contexto organizacional (Laurence

Collins, David R. Fineman, 2017). Desta forma, os sistemas de informação estão cada vez mais

inteligentes, o que também altera a forma como as organizações geram, lideram e se organizam. Os

autores afirmam também que estas transformações alteram as responsabilidades atribuídas aos

departamentos de RH e às tecnologias de informação nas organizações. Por esse motivo, as

organizações têm vindo a adotar as suas soluções tecnológicas de forma a assegurar que as mesmas

são soluções integradas que asseguram uma gestão eficaz. Assim, os sistemas de informação utilizados

têm vindo a promover alterações na gestão de pessoas. O conceito de People Analytics tem vindo

também a diminuir o seu foco apenas em RH. A Ford é uma das organizações que tem expandido a

disciplina People Analytics por outros segmentos do negócio tais como, o sector financeiro, recursos

humanos e operações (Laurence Collins, David R. Fineman, 2017).

De acordo com (Michael J. Kavanagh, Mohan Thite, 2011) p.8, muitas organizações não utilizam a

tecnologia apenas como forma de suporte para a tomada de decisão em RH, mas também como uma

ferramenta que permite que a tomada de decisão seja feita de forma coerente. Devido ao aumento

da disponibilidade dos dados, é possível aplicar métricas de RH para avaliar os objetivos traçados em

termos de eficiência e eficácia (Dulebohn & Johnson, 2013). Os autores defendem ainda que os

sistemas de apoio à tomada de decisão são cada vez mais utilizados por gestores e colaboradores como

9

parte integrante dos sistemas de informação, os quais integram métricas e ferramentas de análise que

contribuem para a resolução de problemas comuns. Os sistemas de apoio à decisão integram dados e

modelos que auxiliam os colaboradores e gestores na tomada de decisão.

Aliado ao contexto dos sistemas de apoio à tomada de decisão para RH (Michael J. Kavanagh, Mohan

Thite, 2011) defendem que um dos maiores desafios deste tipo de sistema é a captura dos dados que

servem de suporte a auditorias, produção de relatórios de gestão e comunicação da eficácia do

processo de gestão de RH.

2.1.2. Conceito de Ageing Workforce

Estima-se que em 2050 a população de trabalhadores com mais de 55 anos (55-64 anos) na Europa

aumente até aos 60% (Carone and Costello, 2006). Para dar resposta às alterações económicas daí

resultantes, as pessoas terão de trabalhar até mais tarde, resultando no aumento da idade de reforma.

Estas alterações originam ambientes de trabalho mais diversificados, o que justifica o crescente

interesse pelo estudo do conceito de Ageing Workforce dado que permite conhecer os critérios de

satisfação, desempenho ou motivação das pessoas em diferentes idades. O aumento desse

conhecimento permite adaptar os ambientes de trabalho para que as pessoas sejam bem-sucedidas

independentemente da sua idade.

Um estudo mais recente desenvolvido por (Zytkowiak, 2015) prevê que as alterações demográficas

que têm vindo a ser registadas tenham impacto nas organizações, alterando as práticas de gestão de

pessoas seguidas nos dias de hoje. O autor defende ainda que a percentagem de população no ativo

laboral será insuficiente para sustentar os padrões da sociedade atual, o que poderá ter efeitos

negativos na economia. Para que uma organização seja sustentável é importante olhar para o futuro

com base na informação do passado, o que permite refletir e adaptar os comportamentos futuros.

Segundo o Gabinete de Estatísticas da União Europeia (Eurostat, 2017), em 2030 a união europeia terá

mais de 123 milhões de pessoas acima dos 65 anos de idade, enquanto em anos mais recentes (2016-

2020) se tem verificado uma taxa de cerca de 87 milhões. É ainda importante referir que em 2080 a

união europeia prevê um total de cerca de 290 milhões de pessoas acima dos 65 anos (Anexo III –

Gráfico representativo da expectativa de evolução da população entre 2016 e 2080).

Para uma gestão de pessoas efetiva, os fatores relacionados com a idade devem ser tidos em

consideração na gestão diária incluindo planos de trabalho e tarefas individuais para que todas as

pessoas, independentemente da sua idade, se sintam habilitadas a atingir os seus objetivos individuais

e de equipa (Ilmarinen, 2012), p.2.

Para um melhor entendimento do contexto de negócio e dos objetivos do trabalho é importante

perceber o conceito de Ageing Workforce. No presente trabalho, este conceito não se foca apenas no

grupo etário em que a pessoa se insere, mas também no desgaste que a pessoa apresenta, que é

frequentemente associado ao tipo de cargo que tem.

Uma definição geral para o conceito de colaborador mais velho é a de uma pessoa que esteja no grupo

etário >= 45 anos (Brooke, 2003).

Desta forma, o conceito de envelhecimento ativo revela-se importante de forma a assegurar que as

pessoas nessa faixa etária tenham acesso a condições de trabalho flexíveis, locais de trabalho

10

saudáveis, formação contínua e planos de reforma (Union, 2012), p.37. De forma a garantir a

produtividade pretende-se que todas as pessoas, independentemente da faixa etária e do tipo de

atividade que têm, se sintam confortáveis com as suas atividades individuais e de equipa, sendo

essencial providenciar boas condições de trabalho. Para isso é importante que os gestores tenham

conhecimento sobre o universo de colaboradores que gerem e implementem práticas relacionadas

com a gestão de idades. (Beck, 2008), p.10, acredita que o nível de produtividade é reduzido pelo facto

de possuírem competências ultrapassadas e não pela idade.

De acordo com (Aitken et al., 2014) existem fatores de grande relevância quando se pretende analisar

os colaboradores, tendo por base o conceito de Ageing Workforce:

• São necessárias novas estratégias para manter as pessoas no ativo;

• É necessário assegurar métodos de transferência de conhecimento eficazes;

• Os colaboradores com maior idade têm mais responsabilidades económicas e sociais;

• Os colaboradores com maior idade podem ter a sua eficiência diminuída devido a problemas

de saúde, o que representa uma maior taxa de absentismo;

• Existe um conflito entre gerações.

Com base nas alterações e tendências que se têm registado, os autores afirmam ainda ser crucial que

os profissionais na área de gestão de pessoas ponham em prática técnicas que assegurem a

transferência de conhecimento entre gerações, identifiquem as necessidades específicas das pessoas

e explorem opções de reforma faseada, o que poderá ser uma forma de mitigar os problemas

eventualmente criados por uma força produtiva envelhecida.

Para uma gestão de pessoas eficaz é crucial que esta seja definida de acordo com as necessidades e

objetivos estratégicos do negócio (Čiutienė & Railaitė, 2014).

Os efeitos da idade na produtividade são difíceis de quantificar segundo (Boenzi, Digiesi, Mossa,

Mummolo, & Romano, 2015). Por esse motivo os autores propõem um modelo relacionado com a

idade dos colaboradores, o qual tem como objetivo construir um sistema para a rotação de funções

em ambientes de trabalho caracterizados por tarefas com elevada repetibilidade. O modelo tem a

particularidade de incorporar a idade das pessoas num esquema tradicional de rotatividade. Os efeitos

produzidos pela idade inevitavelmente afetam o desempenho individual, contudo alterações ao nível

de funções cognitivas e físicas podem ocorrer em qualquer altura independentemente da idade. Ainda

segundo os mesmos autores, num ambiente de trabalho caracterizado por esforços físicos, manter os

colaboradores saudáveis significa não só aumentar as suas capacidades, mas também reduzir o risco

de lesões. Além dos efeitos do envelhecimento, existem ainda outros fatores que afetam a

produtividade, os quais envolvem características individuais, e que por esse motivo são mais difíceis

de quantificar, tais como: fatores cognitivos, motivações socioeconómicas e learning-forgetting

phenomena.

11

Fonte Exemplos concretos da utilização do conceito People Analytics

(Donald M. Truxillo, David

M. Cadiz, 2012)

Os autores propõem uma abordagem de planeamento do trabalho orientada à

idade do colaborador e dependente das caraterísticas do trabalho para explicar a

relação entre a idade e os resultados obtidos.

Defendem ainda que o planeamento do trabalho é uma abordagem uniformizada

e dependente de vários fatores, como estratégias de compensação,

características das tarefas e consequente conhecimento para a sua execução ou

características interpessoais no trabalho.

(Thomas H. Davenport &

Shapiro, 2009)

Os autores identificam casos concretos onde foi utilizado o conceito do People

Analytics em RH, tais como:

(1) a previsão e acompanhamento do desempenho financeiro e do envolvimento

dos colaboradores na JetBlue;

(2) a identificação das áreas organizacionais que necessitam de melhoria através

de sistemas de apoio à tomada de decisão, caso de estudo aplicado à Lockheed

Martin;

(3) a identificação dos fatores que levam os colaboradores a sair ou manter-se

numa organização, o qual foi aplicado ao caso de estudo desenvolvido pela

Google tendo por base dados sobre os seus colaboradores;

INFORMAÇÃO E CONHECIMENTO

De acordo com (Santos & Ramos, 2009) p.7, a gestão de informação e conhecimento são duas

atividades de gestão importantes para que uma organização possa manter a informação como uma

vantagem competitiva e tirar partido das competências que integra. A informação que as tecnologias

de informação permitem guardar para disponibilizar aos membros de uma organização representa a

base para o conhecimento organizacional. As autoras afirmam que os sistemas de apoio à gestão de

conhecimento têm vindo a ser desenvolvidos para apoiar a criação de novo conhecimento, melhoria

de processos, partilha de experiências, bem como transformação da informação contida em grandes

volumes de informação e também identificação e desenvolvimento de competências associadas à

organização.

A experiência quotidiana dos membros de uma organização é um processo contínuo que contribui

para o desenvolvimento da inteligência organizacional. Através deste processo contínuo, os membros

da organização adquirem conhecimento sobre o negócio, construindo assim uma equipa capaz de

tomar decisões, analisar soluções e melhorar processos e políticas em diferentes contextos da

organização, contribuindo positivamente para otimizar as condições de negócio. A inteligência

organizacional pode ser definida segundo (Santos & Ramos, 2009), p. 73, como “capacidade coletiva,

distribuída pelos vários membros da organização, para aplicar o conhecimento e as competências

coletivas na produção de novas respostas para problemas que ameaçam a sobrevivência e bem-estar

económico, social e ambiental da organização”.

O Data Science e Data Mining são ambos conceitos aliados à gestão de conhecimento que envolvem

conhecimentos tecnológicos.

12

DATA SCIENCE E DATA MINING

Data Science é um conceito multidisciplinar utilizado para descrever a transformação de dados em

conhecimento. De acordo com (Jurney, 2013), o objetivo do Data Science é a análise de dados e

consequente extração de conhecimento através de conceitos estatísticos, técnicas de Data Mining e

algoritmos de Machine Learning.

A análise de dados (Data Analytics) caracteriza-se por permitir a descoberta de valor escondido em

grandes volumes de dados (Fitz-enz & John R. Mattox II, 2014).

Data Mining é uma técnica que permite a análise de dados com o objetivo de encontrar padrões e

modelos que permitam sumariar os dados de uma forma percetível e útil (D. Hand, Mannila, & Smyth,

2001). A Descoberta de Conhecimento em Base de Dados (DCBD) é um processo que aplica técnicas

de Data Mining com o objetivo de identificar relacionamentos, padrões, tendências ou modelos nos

dados armazenados (Santos & Ramos, 2009) p. 127. A DCBD é definida por (Fayyad, Piatetsky-Shapiro,

Smyth, & Uthurusamy, 1996) como sendo “o processo não trivial de identificação de padrões válidos

e potencialmente úteis, percetíveis a partir dos dados”. Este conjuga fundamentos provenientes de

diferentes áreas, tais como inteligência artificial, aprendizagem automática, estatística,

reconhecimento de padrões, bases de dados, ciências da informação, entre outras. A Figura 2.2

representa o processo de descoberta do conhecimento em base de dados.

Figura 2.2 - Processo de DCBD (Santos & Ramos, 2009) p. 105.

Existem diferentes métodos de aprendizagem para a obtenção de conhecimento a partir dos dados,

como é o caso da aprendizagem supervisionada (previsão) e não-supervisionada (descrição).

2.3.1. Aprendizagem não supervisionada – Modelação Descritiva

A aprendizagem não supervisionada, também designada como modelação descritiva, é feita com base

em factos observados que permitam obter um conhecimento sumariado. Neste tipo de aprendizagem,

não são definidas classes pelo que o algoritmo de Data Mining utilizado identifica os padrões existentes

permitindo aumentar o conhecimento à cerca dos dados. Este tipo de aprendizagem pode ser de

diferentes tipos, tais como:

• Análise de clusters: técnica que tem como objetivo agrupar de forma homogénea os objetos

e/ou variáveis.

• Regras de associação ou Market Basket Analysis: técnica que permite identificar itens que

ocorrem em conjunto num determinado evento ou registo;

• Visualização: técnica que permite a representação gráfica dos dados.

2.3.1.1. A importância da análise de clusters na classificação

A análise de clusters é uma técnica aplicada no campo da estatística descritiva (não inferencial) que

permite a construção de grupos de entidades semelhantes entre si. Contrariamente aos testes

Selecção dos dados

Tratamento dos dados

Pré-processamento

dadosData Mining

Interpretação dos resultados

13

estatísticos (t-teste, ANOVA, …) que têm como objetivo confirmar hipóteses, a análise de clusters é

usada para perceber os padrões existentes nos dados, através do agrupamento de entidades.

Na análise de clusters não existem exemplos pré-classificados. Os algoritmos agrupam as entidades de

acordo com um critério de semelhança.

A análise de clusters surge frequentemente associada ao processo de Data Mining dado que constitui

um dos primeiros passos do processo de extração do conhecimento de grandes quantidades de dados

(Han & Kamber, 2006). Os autores defendem ainda que, nos dias de hoje, as técnicas de análise de

clusters dividem-se em:

• Métodos de partição ou otimização, que englobam o método k-means, k-medoids;

• Métodos hierárquicos, os quais criam uma divisão hierárquica do conjunto de objetos, tendo

como principal desvantagem o facto de não se poder voltar atrás;

• Métodos de densidade;

• Métodos baseados em grelhas;

• Métodos baseados em modelos;

A análise de clusters implica a definição do conjunto de variáveis a utilizar, definição de um critério de

semelhança/dissemelhança entre entidades, aplicação do algoritmo de clustering e análise e validação

da solução final (Bação, n.d.).

Para o desenvolvimento deste trabalho serão utilizados métodos não hierárquicos devido às vantagens

que apresentam, como a fácil aplicação em grandes conjuntos de dados o que por sua vez não é

possível a partir dos métodos hierárquicos. Existem vários métodos não hierárquicos os quais

englobam o algoritmo de partição k-means, SOM, etc. Para a realização deste trabalho optou-se por

escolher o método k-means, apresentado na subsecção seguinte.

2.3.1.2. Algoritmo de Partição: k-means

O algoritmo de partição k-means é uma das técnicas mais utilizadas na análise de clusters. A partir de

um conjunto de dados, o algoritmo constrói uma partição, isto é, um conjunto de objetos cuja

totalidade constitui o conjunto inicial. O algoritmo inicia-se com um número de clusters (k grupos) pré-

definidos. Com recurso a centroides pré-estabelecidos (seeds), o algoritmo agrupa os elementos por k

clusters e recursivamente recalcula os centroides. A melhor partição deverá satisfazer os critérios de

homogeneidade, coesão interna, isolamento dos grupos e heterogeneidade entre grupos. De uma

forma geral é um processo iterativo, que se sintetiza da seguinte forma:

1- Seleciona uma partição de n objetos em k clusters, definidos à priori;

2- Calcula os centroides para cada k cluster e posteriormente calcula a distância do centroide a

cada ponto;

3- Agrupa os objetos cujos centroides se encontram mais próximos, formando k clusters, e depois

disso é calculada a nova média de cada cluster;

4- O processo continua para o ponto 2 até a função objetivo convergir, construindo k clusters o

mais compacto e separado possível (isto é, até que não ocorra uma variação significativa na

distância mínima de cada indivíduo da base de dados a cada um dos centroides).

14

A eficiência computacional e a fácil aplicação em grandes conjuntos de dados são as principais

vantagens do algoritmo, sendo ainda possível implementar o algoritmo com diferentes centroides

iniciais, o que produz soluções diferentes para o mesmo número de grupos.

Este método só pode ser aplicado quando é possível calcular a média de um cluster, ou seja, é aplicado

em variáveis contínuas. O cálculo da distância é baseado na distância euclidiana, o que faz com que o

algoritmo tenha tendência a encontrar clusters esféricos, de dimensão e densidade semelhante

(Bação, n.d.). É ainda de salientar que a variância à volta do centroide do cluster deverá ser minimizada.

A distância Euclidiana (1) entre dois elementos (i, j) é obtida através da raiz quadrada do somatório

dos quadrados das diferenças entre os valores de i e j para todas as variáveis (v=1, 2,...., p):

(1)

Devido ao facto de utilizar a distância euclidiana como medida de distância, o algoritmo funciona

melhor em variáveis com distribuição normal.

2.3.2. Aprendizagem Supervisionada – Modelação Preditiva

A aprendizagem supervisionada também conhecida como modelação preditiva, permite aprender um

critério de decisão para a classificação de exemplos novos e desconhecidos, isto é, são utilizados

modelos capazes de prever o valor de uma variável com base na informação de outra variável existente

nos registos. Pode ser considerada a classificação – árvore de decisão - quando pertence a determinada

classe, o que acontece no caso de variáveis categóricas, ou na regressão quando aplicada a variáveis

continuas.

As árvores de decisão são frequentemente utilizadas em métodos de frequência indutiva, e permitem

obter resultados com base em exemplos pré-classificados – conjunto de treino. Um conjunto de dados

é dividido em subconjuntos através da aplicação de regras que promovem a homogeneidade dos

conjuntos de acordo com a variável dependente, target, (Berry & Linoff, 2004).

As árvores são compostas pelos nós, ramos e nós terminais (também conhecidos por folhas). De

acordo com (D. J. Hand, 1998), os nós representam os testes ou atributos, o ramo corresponde à

resposta ao teste e os nós terminais correspondem a um conjunto de dados homogéneo. As árvores

de decisão seguem uma abordagem descendente, top-down, para seleção dos atributos que

constituem as regras de um modelo. O conjunto de dados de treino é dividido sucessivamente até

formar conjuntos homogéneos (D. J. Hand, 1998).

Figura 2.3 – Exemplo de classificação de uma árvore de decisão com base no algoritmo C4.5. (Bação, n.d.)

15

Atualmente existem alguns algoritmos utilizados na construção das árvores de decisão, de entre os

mais populares destacam-se o algoritmo CART (Classification and Regression Trees) e o algoritmo C4.5,

o qual surge como uma versão melhorada do algoritmo ID3.

A utilização de uma abordagem descendente implica a utilização de medidas adequadas para a seleção

dos atributos, isto é, deve ser assegurada a máxima capacidade discriminante. Ainda de acordo com o

mesmo autor, (D. J. Hand, 1998), o critério de divisão de cada nó da árvore em novos ramos reconhece

o melhor atributo a partir do qual deve ser feita a divisão em cada nó e também os ramos do nó que

devem crescer de acordo com o objetivo do modelo. A divisão sucessiva em vários subconjuntos

termina quando os nós terminais da árvore apresentam grupos de classes homogéneas. A existência

de uma única classe garante um grau de pureza ideal no conjunto de dados.

2.3.2.1. Árvore de decisão aplicada a Recursos Humanos

As árvores de decisão são um método de classificação popular devido à fácil interpretação dos

resultados obtidos que resultam em regras interpretáveis e lógicas. As regras extraídas a partir de uma

árvore de decisão podem ser usadas para previsões futuras.

No estudo apresentado por (Jantan, Razak Hamdan, & Ali Othman, 2010), os autores avaliam a

aplicabilidade das árvores de decisão em modelos de previsão, aplicados a Recursos Humanos, mais

especificamente na retenção de talentos numa organização. No caso de estudo mencionado acima, os

dados são provenientes de várias instituições e são relativos aos professores universitários em

categorias distintas.

Na construção de uma árvore de decisão o processo inicia-se através da identificação da variável

dependente (target), que foi definida pelos autores como “Recomenda a promoção?” e a qual assume

os valores “Sim” ou “Não”, que significa a recomendação ou não, respetivamente, de um professor.

Relativamente às variáveis independentes foram consideradas variáveis de caracterização do

colaborador como o género, a categoria, a qualificação e a avaliação. Os autores reconhecem a Gestão

de Talento como um processo essencial numa organização, dado que este permite identificar as áreas

e colaboradores essenciais ao sucesso da organização o que conduz ao desenvolvimento da

organização de forma a reter e aumentar o envolvimento.

O estudo foi realizado com base em vários subconjuntos de dados, divididos em dados de treino e

teste, os quais foram obtidos de forma aleatória. A escolha do algoritmo recaiu sobre o algoritmo C4.5,

desenvolvido por Ross Quinlan, o qual constrói árvores de decisão a partir de um conjunto de dados

de treino e o qual tem por base o conceito de entropia. Para a classificação e previsão de talentos

académicos, o processo geral de obtenção de conhecimento através de ferramentas de Data Mining

teve por base as ferramentas WEKA e ROSETTA. O estudo dividiu-se em três fases: (1) Recolha dos

dados, incluindo o tratamento e pré-processamento dos dados; (2) Obtenção das regras de

classificação para o conjunto de treino, com base no algoritmo C 4.5, o que incluiu todos os atributos

possíveis identificados pelos autores; (3) Avaliação e interpretação das regras de classificação com o

objetivo de determinar a precisão da classificação.

Segundo os autores, o modelo de classificação desenvolvido obteve bons resultados para o conjunto

de dados utilizado, no entanto, consideram que a redução de atributos deve ser feita de forma a

reduzir o tempo de processamento na melhoria da precisão do modelo. Além disso, o classificador

16

proposto deve ser testado com diferentes conjuntos de dados para comprovar se o seu potencial se

mantém com a elevada precisão que o modelo permite obter.

Para o desenvolvimento de árvores de decisão com boa precisão, considera-se importante a utilização

de conjuntos de dados com elevado número de observações, além disso o pré-processamento dos

dados, identificação de outliers e valores em falta, também contribui para a melhoria da precisão do

modelo.

17

3. METODOLOGIA

Existem diferentes metodologias aplicadas aos estudos de Data Mining. As autoras (Santos & Ramos,

2009) apresentam as principais diferenças existentes entre as metodologias de descoberta de

conhecimento em bases de dados (DCBD), a metodologia CRISP-DM e o processo SEMMA.

Além de iterativo o processo DCBD é também interativo, uma vez que necessita que a tomada de

decisão seja feita pelo utilizador. (Fayyad et al., 1996) p. 6, definem DCBD como “o processo não trivial

de identificação de padrões válidos potencialmente úteis, percetíveis a partir dos dados”.

A metodologia CRISP-DM é a mais completa de todas e apresenta-se como um modelo de referência

que define as fases a seguir, as tarefas a executar e os resultados esperados com base no ciclo de vida

dos projetos de Data Mining. É também um processo iterativo, à semelhança da DCBD, e apresenta as

seguintes fases: compreensão do negócio, compreensão dos dados, preparação dos dados,

modelação, avaliação e desenvolvimento.

O processo SEMMA corresponde à metodologia desenvolvida pelo SAS Institute e está orientado para

auxiliar a execução das tarefas de Data Mining através da ferramenta SAS Enterprise Miner. As etapas

do projeto são Amostragem (Sample), Exploração (Explore), Modificação (Modify), Modelação (Model)

e Avaliação (Assess).

Na Tabela 3.1 é apresentado um resumo de correspondências entre as metodologias apresentadas

anteriormente.

DCBD SEMMA CRISP-DM

Pré DCBD ----------- Conhecimento do negócio

Seleção Amostragem Conhecimento sobre os dados

Pré processamento Exploração

Transformação Modificação Preparação dos dados

Data Mining Modelação Modelação

Interpretação/Avaliação Análise/Verificação Avaliação

Pós DCBD ----------- Implementação

Tabela 3.1 – Resumo de correspondências entre metodologias (Azevedo & Santos, 2008).

O PROCESSO SEMMA

O processo SEMMA permite um fácil entendimento do processo e também uma adequada

organização, desenvolvimento e manutenção de projetos de Data Mining (Azevedo & Santos, 2008). A

metodologia adotada para o desenvolvimento deste trabalho corresponde ao processo SEMMA. Nas

subsecções seguintes é apresentada a metodologia utilizada no desenvolvimento da tese de acordo

com as fases de desenvolvimento definidas por este processo.

3.1.1. Dados utilizados - Amostragem

A fase de amostragem consiste na seleção dos dados a analisar a partir do conjunto de dados

disponíveis. Geralmente a amostra é dividida em: treino (conjunto de dados utilizados na identificação

18

do modelo), validação (conjunto de dados utilizados na avaliação do modelo) e teste (conjunto de

dados utilizados para analisar a capacidade de generalização do modelo.

3.1.2. Identificação da base de dados

Para o desenvolvimento deste estudo foi utilizada uma base de dados disponibilizada pela organização

com os identificadores de colaboradores codificados não permitindo a identificação do colaborador.

Estes dados contém um total de 1800 registos e 76 variáveis associadas ao colaborador, no período

janeiro a junho de 2017. O principal objetivo da análise de clusters é agrupar os colaboradores com

base nas características comuns, isto é, nos valores que possuem nas diferentes variáveis e desta forma

conhecer melhor os diferentes perfis de colaboradores.

3.1.3. Identificação das variáveis

Por forma a manter o anonimato sobre os dados dos colaboradores, a informação disponibilizada foi

previamente codificada pela organização sendo desta forma assegurada que não é transmitida

qualquer informação que possa identificar o seu titular.

As variáveis disponibilizadas contêm dados que caracterizam as três dimensões consideradas:

colaborador, gestor de loja e loja. Para a dimensão colaborador, são utilizadas variáveis para

caracterizar a informação demográfica (faixa etária, género, estado civil, número de filhos, formação

académica) e informação de contexto profissional (como o tipo de vínculo, número de anos na

organização, número de horas de formação, absentismo). Relativamente à dimensão gestor de loja e

loja, as variáveis contêm informação relativa à loja em que o colaborador se encontra e informação

relativa à sua chefia (igualmente dados demográficos e de contexto profissional).

Para uma melhor compreensão de cada variável individualmente existe um glossário de variáveis, no

entanto, como se considera ser informação confidencial não pode ser apresentado neste documento.

Antes de prosseguir com a análise exploratória dos dados através do software SAS, foi necessário

definir roles e levels das variáveis.

3.1.4. Análise Exploratória dos dados - Exploração

A fase de exploração dos dados surge logo após a fase de amostragem e contribui para o aumento do

conhecimento sobre os dados em estudo.

Para o conjunto de dados utilizado, os colaboradores são maioritariamente do sexo masculino e a

maioria possui o ensino básico. A maioria dos colaboradores encontram-se divididos pelas faixas

etárias acima dos 35 anos de idade.

19

Figura 3.1 – Contextualização do universo de colaboradores em estudo.

O SAS Enterprise Miner permite de uma forma rápida obter as estatísticas descritivas mais importantes

para cada variável, das quais se podem considerar:

• Estatísticas descritivas das variáveis intervalares (número de valores existentes no dataset

(non-missing values), número de valores em falta (missing values), total, valor mínimo, médio,

mediana, máximo e desvio padrão para cada variável;

• Tabela de frequência das variáveis categóricas, a qual permite obter o número de valores em

falta, a moda e a frequência da moda.

• Histograma de frequência para as variáveis intervalares e categóricas;

Desta forma, foi possível fazer uma análise para cada variável e obter as estatísticas descritivas, bem

como os histogramas de frequência. É ainda de referir que durante esta fase foi possível identificar e

retirar registos incorretos e perceber a distribuição associada a cada variável através da análise visual

dos histogramas, os quais permitem identificar outliers. Esta fase permite também conhecer com

algum detalhe os dados e por isso serve de auxílio no processo de definição das variáveis relevantes

para a construção dos clusters. Foi ainda possível obter o número total de registos na base de dados,

o número de variáveis em cada categoria (nominal, binária, intervalar e ordinal) e o número de valores

em falta (missing values).

As variáveis disponibilizadas, embora tivessem como referência o período de janeiro a junho,

continham informação dividida em variáveis trimestrais. Desta forma, para assegurar a qualidade dos

dados, optou-se por fazer uma análise para variáveis referentes ao semestre janeiro a junho.

Optou-se por não considerar os registos com valores em falta para as variáveis de avaliação sobre o

envolvimento (engagement) e os desafios de cada função (job challenge) por loja, dado que as lojas

47%

53%

Género

Mulheres

Homens

56%

5%

39%

EscolaridadeEnsino Básico

Ensino Superior

EnsinoSecundário

5,1%

21,4%

37,8%

28,3%

7,3%

18- 24

25- 34

35- 44

45- 54

>= 55

Nº colaboradores

Faix

a et

ária

Faixa etária

20

que apresentavam valores em falta não participaram nos questionários de avaliação. Considerar essas

variáveis poderia ser um risco na medida em que a amostra poderia ficar enviesada.

Foram também eliminadas 2 lojas do conjunto de dados, devido ao facto de serem consideradas

outliers, 12% e 0,8% da amostra, respetivamente.

Para as estatísticas descritivas a análise foi feita essencialmente com base na tendência central (média

e mediana), forma de dispersão (desvio padrão e coeficiente de variação) e forma de distribuição

(máximo, mínimo e skewness).

Foi possível aferir que a maioria das variáveis apresentam uma distribuição não normal. Após

experimentar algumas transformações optou-se por fazer a transformação Maximum Normal, que

aplica diferentes transformações de forma a maximizar a normalidade dos dados em cada variável. No

entanto, para a construção de clusters optou-se por utilizar variáveis não transformadas devido ao

risco de enviesar a solução obtida.

Além das estatísticas descritivas foi possível aferir, pela análise da matriz de correlações (Anexo II –

Matriz de correlações), que existem variáveis altamente correlacionadas e por isso optou-se por

eliminar uma das variáveis do par, sendo que o nível de corte foi definido como uma correlação >= 0,8.

Na fase seguinte é identificado o nó que permitiu eliminar as variáveis altamente correlacionadas.

Considerou-se também importante durante a análise exploratória a criação de algumas variáveis, tais

como:

• Divisão da faixa etária em 2 grupos – colaboradores/gestores de loja com menos de 45 anos e

colaboradores/gestores de loja com 45 anos ou mais (<45 e >=45 anos);

• Assimetria de idade entre os colaboradores por loja (faixa etária <45 anos e >=45 anos);

A decisão pela criação destas variáveis/segmentos resultou do aumento do conhecimento sobre o

conjunto de dados disponibilizados e pelas diferentes tentativas de implementação de um modelo

com resultados de acordo com o conhecimento adquirido.

Através do SAS é possível explorar as variáveis de uma forma visual com recurso a gráficos produzidos

através do nó Graph Explore. A título de exemplo, foi possível analisar os dias perdidos por acidentes

de trabalho em função da idade dos colaboradores. É possível aferir que os colaboradores com maior

idade apresentam mais dias perdidos por acidentes de trabalho, no entanto, são também os que

apresentam menos horas de formação.

21

Figura 3.2 – Gráfico representativo dos dias perdidos por acidente de trabalho em função da idade do colaborador.

Figura 3.3 - Gráfico representativo das horas de formação em função da idade do colaborador.

Além da utilização do SAS Enterprise Miner, durante a fase exploratória foi também feita uma análise

em Excel com recurso a tabelas pivot e gráficos de forma a ganhar conhecimento sobre os dados.

Através dessa análise, foi possível ganhar conhecimento sobre os dados contidos na base de dados,

nomeadamente acerca dos seguintes pontos chave:

(1) Verifica-se que existe uma variação entre os dias de ausência por acidente de trabalho nas

diferentes faixas etárias, bem como de ausência em geral.

22

Figura 3.4 – Gráfico representativo da taxa de absentismo por faixa etária.

Figura 3.5 – Gráfico representativo dos dias perdidos por acidentes de trabalho e da percentagem de colaboradores com dias perdidos por acidentes por faixa etária.

23

Figura 3.6 – Gráfico representativo dos dias perdidos por acidentes de trabalho e da percentagem de colaboradores com dias perdidos por acidentes por faixa etária (<45 e >= 45 anos).

(2) Verifica-se que os colaboradores com maior idade estão frequentemente associados a lojas geridas

por gestores de loja com uma senioridade mais elevada na organização, e consequentemente também

com maior idade.

Figura 3.7 – Gráfico representativo da distribuição do número de colaboradores por faixa etária e por senioridade do gestor de loja.

No gráfico apresentado na Figura 3.7, o número total de colaboradores apresentado não inclui um

conjunto de 14 colaboradores para os quais a senioridade do gestor de loja não foi disponibilizada.

(3) Verifica-se que o perfil dos gestores de loja corresponde frequentemente a pessoas na faixa etária

>= 45 anos e com mais de 20 anos na organização.

24

Figura 3.8 – Gráfico representativo da distribuição do número de colaboradores por faixa etária do gestor de loja e por senioridade do gestor de loja.

3.1.5. Modificação

A fase de modificação permite a criação de novos atributos, novas variáveis, e também a

transformação das variáveis existentes.

Através do nó Drop foi possível eliminar variáveis consideradas não relevantes para a análise. O

conhecimento sobre os dados e também o facto de possuírem valores em falta foram os critérios

seguidos. Através deste nó, foram também eliminadas as variáveis que se considerou serem altamente

correlacionadas, considerando um nível de correlação >=0,8 - Anexo II – Matriz de correlações entre

variáveis obtida através do SAS Enterprise Miner.

3.1.6. Construção dos clusters

A construção de clusters durante a fase de modelação tem como objetivo agrupar os colaboradores

que possuem perfis semelhantes. Desta forma é possível caracterizar os diferentes tipos de

colaboradores existentes na amostra o que contribui para uma análise descritiva consistente.

De entre os métodos de clustering existentes na bibliografia, optou-se por utilizar o método de

clustering não hierárquico, k-means, devido à facilidade com que o algoritmo pode ser implementado

computacionalmente em grandes conjuntos de dados. Esta implementação foi dividida em 2 fases:

1ª fase: Escolha das variáveis a incluir no cluster;

2ª fase: Escolha do modelo de cluster com significado de interpretação.

A primeira fase caracteriza-se por ser um processo iterativo para definição das variáveis de input. A

decisão sobre quais as variáveis a incluir é da responsabilidade do utilizador e é feita com base no

conhecimento sobre os dados e nos grupos obtidos. Durante esta fase foram testadas diferentes

combinações de variáveis. Logo após a decisão sobre quais as variáveis a incluir, a escolha do número

de clusters é feita aplicando a regra do cotovelo, a qual permite analisar a distância ao centroide de

cada cluster.

25

O SAS disponibiliza um método automático para definição do número de clusters e um método

alternativo em que o número de clusters é definido à priori pelo utilizador.

Inicialmente optou-se por seguir o método automático, para definição do número de clusters,

disponibilizado pelo SAS, o que deu origem a 4 clusters. Para a aplicação deste método, existem 3

formas distintas para o cálculo da distância entre clusters: Average (distância média entre 2 pares de

observações), Centroid (distância euclidiana entre dois centroides) e Ward (método utilizado por

defeito, no qual a distância entre 2 clusters é dada pela soma dos quadrados entre dois clusters mais

a soma global das variáveis).

Relativamente ao processo de inicialização das sementes (seeds), este pode ser de 3 formas distintas:

MacQueen, First e Princomp. O primeiro método é utilizado por defeito e tem por base o algoritmo k-

means para definir a semente inicial do cluster; o método First define os primeiros casos completos

como as sementes iniciais e o método Princomp tem por base a análise das componentes principais

para definir a inicialização das sementes. Os restantes métodos disponibilizados pelo SAS, Full

Replacement e Partial Replacement não se aplicam a esta análise devido ao facto de serem indicados

para identificação de outliers.

Os resultados obtidos tendo por base o método automático encontram-se registados na Tabela 3.2,

através da qual se verifica que uma possível solução poderá ser entre 4 a 20 clusters.

Método de clustering

Inicialização da seed

Nº Clusters CCC

Average MacQueen 16 0,636

Average Princomp 20 0,568

Average First 4 0,765

Centroid MacQueen 17 0,618

Centroid Princomp 4 0,744

Centroid First 7 0,701

Ward MacQueen 20 0,607

Ward Princomp 20 0,568

Ward First 20 0,57

Tabela 3.2 – Resultados obtidos a partir do método automático de construção de clusters.

De entre estes 3 métodos para inicialização das sementes apenas um pode ser escolhido. Essa escolha

deve ser feita tendo por base a premissa de que o melhor modelo é aquele que tem a menor distância

máxima à semente inicial, isto é, maximiza as diferenças entre clusters e as semelhanças dentro de

cada cluster.

Optou-se por utilizar a distância euclidiana - Centroid - para o cálculo da distância entre clusters.

Relativamente ao cálculo das seeds iniciais optou-se por seguir o método das componentes principais

– Princomp - que para o mesmo número de clusters apresenta o segundo valor maior no parâmetro

Cubic Clustering Criterion.

Embora a solução Average/First apresente um valor maior para o parâmetro CCC, a solução obtida não

apresenta uma frequência por cluster homogénea e por isso não foi considerada para a construção de

26

clusters. Relativamente ao método ward, a solução que se obtém não tem significado válido devido ao

elevado número de clusters, 20.

O método das componentes principais tem como vantagem o facto de permitir que as seeds iniciais

não fiquem muito juntas. Verificou-se também que o método MacQueen obtém clusters com

frequências muito diferentes. Enquanto que o método das componentes principais permite obter

clusters com frequências mais equilibradas sugerindo também clusters mais homogéneos.

Para a construção dos clusters, foi utilizado o nó Cluster, o qual permite a utilização de variáveis

binárias, nominais, ordinais e intervalares, dado que os três primeiros tipos de variáveis referidos são

codificados em variáveis dummy numéricas para a construção dos clusters.

Seguidamente foi testado o método em que o número de clusters é definido pelo utilizador. Foram

testadas várias soluções, com diferentes números de clusters definidos à priori (k=8,7,6,5,4), com base

na análise da variância explicada. A análise da variância é feita através do método elbow “cotovelo”

(Figura 3.9), que se caracteriza por ser um método visual. Este método baseia-se no facto de que o

aumento do número de clusters pode ajudar a reduzir a soma das variâncias dentro do cluster, devido

ao facto de que a existência de um número maior de grupos permite a captura dos grupos que

apresentam maior semelhança entre si. No entanto, a soma das variâncias (dentro do cluster) pode

baixar se muitos grupos forem formados, porque a divisão de um conjunto coeso em dois origina uma

redução. Desta forma, a escolha do número ideal de clusters pode ser feita tendo por base o ponto de

viragem na curva da soma de variâncias (dentro do cluster), em relação ao número de grupos.

Através do gráfico abaixo é possível verificar que, para um certo valor de k a curva representada no

gráfico diminui, ou seja, o ganho em termos de coesão dos clusters deixa de justificar a criação de um

cluster adicional (Bação, n.d.).

Nº clusters RMSDv |Decréscimo|

8 4,29 7 2,91 1,38

6 3,36 0,45

5 2,74 0,62

4 3,37 0,63

3 3,58 0,21

2 4,83 1,24

1 4,39 0,43

Tabela 3.3 – Valores utilizados para a construção do gráfico cotovelo.

27

Figura 3.9 – Gráfico cotovelo.

Em ambos os métodos (Automatic e User Specify) foram utilizadas as variáveis que se consideraram

mais importantes. Essa decisão foi tomada com base nos segmentos obtidos/perfil de colaboradores

obtidos, e também no conhecimento adquirido durante a fase de exploração dos dados.

Os resultados obtidos através do método automático coincidiram com a análise feita através do gráfico

cotovelo, pelo que as variáveis abaixo identificadas (Figura 3.10) representam a melhor solução

correspondente a k=4.

Figura 3.10 – Variáveis incluídas no cluster colaboradores.

No subcapítulo seguinte são apresentados os diferentes segmentos obtidos para uma solução com 4

clusters.

28

3.1.7. Avaliação dos clusters

A avaliação dos clusters obtidos assenta na minimização das diferenças dentro do cluster e

maximização das diferenças entre clusters. Para avaliar o perfil dos clusters obtidos através do

algoritmo k-means, foi utilizado o nó Segment Profile.

Este nó permite examinar os segmentos de dados gerados, os clusters, e identificar os pontos que

diferenciam os segmentos do conjunto de dados. A análise é feita com base nos diferentes critérios

que o nó disponibiliza para exploração dos resultados. Para esta análise os critérios considerados mais

relevantes foram:

- as tabelas de frequência, onde é possível verificar a distribuição de registos por cluster;

- os gráficos de perfil, os quais permitem visualizar a distribuição das variáveis por cluster

comparativamente com a amostra de dados;

- o perfil de importância das variáveis para a árvore de decisão, no qual as variáveis com mais

importância, isto é, maior valor atribuído no critério worth são identificadas como sendo as que têm

maior poder discriminatório para o cluster obtido;

- os histogramas com o valor calculado do critério worth para cada cluster e a importância das variáveis

por cluster, baseado no valor de worth que a variável tem;

Relativamente ao funcionamento do nó a importância das variáveis num determinado cluster é

decidida através da criação de uma pseudo variável target, a qual se baseia numa medida designada

adesão ao segmento. O nó disponibiliza dois métodos para determinar a diferenciação entre variáveis.

Para esta análise optou-se por utilizar o método default disponível, o qual atribui uma ordem de

importância às variáveis intervalares e às variáveis de classe dependentes, baseada no parâmetro

logworth value. Por sua vez, o valor de worth é baseado na pseudo target variable e as variáveis

intervalares são escolhidas de forma a obter o valor máximo para o critério logworth. Assim, as

variáveis com maior poder discriminatório (maior valor worth) para a árvore de decisão aparecem em

primeiro lugar nas estatísticas de perfil de importância das variáveis.

Assim, através da técnica de segmentação é possível dividir a amostra em segmentos e identificar as

variáveis com maior contributo para cada segmento/cluster. No contexto do estudo, um segmento

representa colaboradores com as mesmas características, isto é, faixa etária semelhante, número de

funções semelhante, etc. Uma segmentação bem-sucedida deverá permitir obter grupos de

colaboradores com o mesmo perfil em diferentes amostras.

Através das tabelas de frequência é possível verificar como se distribui a amostra pelos clusters, o que

pode também ser representada através da Figura 3.11, na qual é possível observar uma distribuição

uniforme, a qual varia de 21,2% a 27,9%.

Figura 3.11 – Distribuição da amostra por cluster.

29

Na análise através dos gráficos de perfil, as variáveis de classe são representadas num gráfico circular

representado por 2 anéis concêntricos. O anel interno representa a distribuição da amostra total,

enquanto o anel exterior representa a distribuição de um dado segmento. Relativamente às variáveis

intervalares, as mesmas são representadas por um gráfico de barras - histograma. As barras

representadas a azul correspondem à distribuição da amostra num dado segmento e o contorno a

vermelho representa a distribuição da amostra. O contributo das variáveis em cada segmento diminui

no sentido da direita para a esquerda, sendo a variável com maior contributo para o segmento

apresentada à esquerda.

Relativamente aos 4 segmentos obtidos, os mesmos foram divididos em:

Segmento 1: Gestores de loja mais novos que estão em lojas mais recentes;

Segmento 2: Gestores de loja mais novos (do que o segmento 1) e solteiros;

Segmento 3: Gestores de loja mais experientes, colaboradores mais novos e boa avaliação para o

engagement e job challenge;

Segmento 4: Gestores de loja mais experientes, colaboradores com maior idade e boa avaliação para

o engagement e job challenge;

Segmento 1:

- Representa 24% da amostra;

- Lojas com uma senioridade média dos colaboradores mais baixa;

- Lojas com uma assimetria entre as faixas etárias elevada;

- A avaliação para o engagement e job challenge por loja é baixa, assumindo valores acima da média

da amostra nas avaliações medianas;

- Gestores de loja mais novos e consequentemente com menos anos na mesma função;

- O numero de saídas nestas lojas é elevado;

- Representa lojas mais novas e com alguns dias perdidos por acidentes de trabalho (não tantos

como no segmento 2), por colaborador;

- Colaboradores com uma senioridade baixa;

Figura 3.12 – Gráficos de perfil obtidos através do SAS Enterprise Miner para o segmento 1.

30

Segmento 2:


- Gestores de loja mais novos (do que no segmento 1);

- Lojas com uma assimetria de idades entre as faixas etárias mais elevada para valores médios;

- Lojas com uma senioridade média dos colaboradores elevada para valores médios;

- Os gestores de loja têm um nível de escolaridade mais elevado – ensino superior;

- Representa as lojas com mais dias perdidos por acidentes de trabalho;

- Os gestores de loja são maioritariamente solteiros;

- A média de dias perdidos por acidentes de trabalho por colaborador é elevada (mais elevada do que

no segmento 1);

- O engagement tem uma avaliação média (melhor do que no segmento 1);

- Job challenge tem uma avaliação semelhante ao segmento 1;


Segmento 3:


- Os gestores de loja estão há cerca de 2-3 anos na mesma função;

- Representado por gestores de loja com idade >= 45 anos e com representatividade significativa na

faixa etária >= 55 anos (são com maior idade do que no segmento 4);

- Lojas com uma senioridade média dos colaboradores elevada (não é tão elevada como no

segmento 4);

- Representa as lojas com uma avaliação job challenge semelhante à da amostra total;

- Colaboradores são mais novos;

- Representa as lojas com uma avaliação elevada para o engagement;

- Representa lojas com poucas saídas;

- Representado por lojas mais antigas e com uma assimetria elevada de idades dos colaboradores;

- Lojas com uma assimetria entre as faixas etárias elevada para valores médios (não é tão elevada como

o segmento 1);

31


Segmento 4:


- Lojas com uma senioridade média dos colaboradores elevada;

- Representado por gestores de loja com idade entre 45-54 anos -51%- (mais novos do que no

segmento 3);

- Em geral os gestores de loja que estão há 4 anos ou mais na mesma função;

- A avaliação job challenge é elevada;

- A assimetria de idades dos colaboradores é mais baixa do que nos restantes segmentos;

- Colaboradores com maior idade, predomina a faixa etária 45-54 anos;

- Representa lojas com poucas saídas;


Relativamente ao perfil de importância das variáveis para a árvore de decisão, este critério permite

obter informação sobre as variáveis mais importantes para os clusters obtidos. Através da análise da

importância das variáveis por cluster, foi possível aferir sobre a importância das variáveis para o

conjunto de dados da amostra. Na Tabela 3.4 são apresentadas variáveis que permitem caracterizar

os clusters e também é identificada a dimensão a que pertencem, gestor de loja, loja e colaborador.

32

As variáveis são apresentadas por ordem de importância com base no valor do critério worth. O critério

worth apresentado é o resultado mais alto obtido para cada variável considerando os diferentes

clusters obtidos. Para cada uma das variáveis são também identificados os valores que que assumem

nos clusters.

Variável Worth Dimensão CLUSTER 1 CLUSTER 2 CLUSTER 3 CLUSTER 4

SM_Age 0,220 Gestor de loja [31-45] [31-45] [34-59] [42-59]

ST_empl_avg_legal_sen 0,216 Loja 4,947-14,8 5-15,08 9,882-21,878 2,075-6,745

SM_avg_years_function 0,192 Gestor de loja 0,605-3,518 0,605-3,518 1,634-6,745 9,882-21,878

ST_Assimetria_Age_range_NEW 0,161 Loja 0,159-0,947 0,159-0,843 0-0,647 0-45

E_Sen_Legal_yrs 0,159 Colaborador 0-28 - - 0-0,647

Engagement___fav_ 0,148 Loja 61-89 61-89 70-97 70-97

Job_Challenge___fav_ 0,136 Loja 47-64 47-66 54-81 54-81

SM_Educational_Level 0,132 Gestor de loja - - - -

ST_terminations 0,119 Loja 0-0,214 - 0-0,134 0-0,134

ST_years 0,115 Loja 7,0-24 - 9,0-33 -

ST_Avg_acc_lostdays 0,112 Loja - 0-83 - -

SM_Marital_status 0,112 Gestor de loja - - - -

E_Age 0,110 Colaborador - - 19-51

ST_Per_Empl_acc_lostdays 0,106 Loja 0-0,142 0-0,142 - -

E_Age_Range 0,099 Colaborador - - - -

SM_Age_range 0,052 Gestor de loja - - - -

Tabela 3.4 – Importância das variáveis e valores que assumem por cluster.

Variável Ordem de

importância Descrição

SM_Age 1 Idade do Gestor de Loja

ST_empl_avg_legal_sen 2 Senioridade média dos colaboradores por loja

SM_avg_years_function 3 Média de anos na função do gestor de loja

ST_Assimetria_Age_range_NEW 4 Assimetria entre as faixas etárias <45 e >=45 anos por loja

E_Sen_Legal_yrs 5 Senioridade do colaborador na organização

Engagement___fav_ 6 Engagement

Job_Challenge___fav_ 7 Job challenge

SM_Educational_Level 8 Nível de escolaridade do gestor de loja

ST_terminations 9 Rescisões por loja

ST_years 10 Anos por loja

ST_Avg_acc_lostdays 11 Média de dias perdidos por acidentes de trabalho por loja

SM_Marital_status 12 Estado civil do gestor de loja

E_Age 13 Idade do colaborador

ST_Per_Empl_acc_lostdays 14 % de colaboradores com dias perdidos por acidente por loja

E_Age_Range 15 Intervalo de idades do colaborador

SM_Age_range 16 Intervalo de idades do gestor de loja

Tabela 3.5 – Ordem de importância e descrição do conteúdo das variáveis.

33

Legenda para a dimensão de cada variável:

Gestor de loja

Loja

Colaborador

Com base na Tabela 3.4 é possível aferir que a idade do Gestor de loja é a variável com maior valor no

critério worth, e por esse motivo tem o maior contributo na definição da ordem de importância das

variáveis. Na Tabela 3.5, é apresentada a ordem de importância e também a descrição de cada uma

das variáveis identificadas.

3.1.7.1. Extração de Regras para interpretação dos resultados obtidos

A construção de uma árvore de decisão tem como vantagem o facto de representar regras que podem

facilmente ser entendidas por pessoas. Numa árvore de decisão as regras podem ser obtidas nas

folhas, as quais representam os nós finais.

Quando uma árvore de decisão é utilizada na previsão de uma classificação, é uma vantagem possuir

um elevado numero de folhas porque permite obter resultados com maior precisão, no entanto,

quando o objectivo passa simplesmente por gerar regras é recomendável que estas sejam em menor

número, dado que quanto menos regras existirem mais facil será compreender o problema (Berry &

Linoff, 2004).

Com base nos valores que cada variável assumiu por cluster e no critério de worth foi possível

identificar os critérios que as variáveis assumem de forma a melhor compreender as regras

subjacentes à construção dos clusters obtidos. Desta forma pretende-se que as regras identificadas

contribuam para a interpretação dos resultados obtidos para os 4 clusters (Anexo IV – Critérios para a

extração de regras).

34

4. RESULTADOS E DISCUSSÃO

ANÁLISE DAS CARACTERÍSTICAS DOS CLUSTERS

A área HR Analytics é hoje em dia muito importante na gestão de Recursos Humanos e por isso

contribui para o sucesso de uma organização na medida em que permite um retorno do investimento

da organização.

A Gestão na Liderança assume um papel fundamental dado que é através dos gestores, também

designados de líderes, que as práticas de Gestão de Recursos Humanos são passadas aos

colaboradores. Por esse motivo existe uma relação entre os comportamentos adotados pelos

gestores/estilos de liderança e o clima organizacional.

Através dos resultados obtidos neste estudo em particular foi possível perceber que o Gestor de loja

assume uma elevada importância na caracterização do perfil dos colaboradores em grupos, dado que

as variáveis que caracterizam o gestor de loja têm um poder discriminatório mais elevado. Por esse

motivo, a temática da gestão na liderança, muito em voga nos dias de hoje, deve ser também

considerada um fator importante a considerar pela organização. Por ser considerado um fator

importante para a organização em estudo, no subcapítulo 4.1.1 é abordada a temática do clima

organizacional e a gestão na liderança tendo por base a literatura considerada relevante.

4.1.1. O Clima Organizacional e a Gestão na Liderança

Segundo (Culture and engagement, 2015) o envolvimento dos colaboradores é considerado um fator

de elevada importância nas organizações. As organizações que têm por base uma cultura marcada pelo

trabalho, envolvimento dos colaboradores, trabalho apto à organização e fortes competências de

liderança conseguem superar as organizações concorrentes e têm maior capacidade para atrair

melhores talentos. O envolvimento dos colaboradores é, hoje em dia, considerado um fator de grande

relevância; (Crabtree, 2013) defende que o envolvimento dos colaboradores é baixo, e demonstra no

seu estudo que apenas cerca de 13% dos colaboradores estão altamente envolvidos.

Devido a estes resultados é cada vez mais importante perceber o que está a acontecer nas

organizações, como se caracterizam as equipas, analisar os resultados obtidos e também o

comportamento dos líderes com o objetivo de melhorar o clima organizacional e os resultados

atingidos por uma organização.

(Bersin, Geller, Wakefield, & Walsh, 2015) no artigo “Culture and engagement: The naked

organization” identifica quatro pontos chave para explicar o baixo envolvimento dos colaboradores

numa organização:

• O mercado de trabalho é hoje em dia muito dinâmico, em parte devido à contribuição das

redes sociais Linkedin, Facebook, entre outras, pelo que a probabilidade de rotatividade nas

organizações aumenta quando existem colaboradores insatisfeitos com o ambiente na

organização;

• A falta de conhecimento dos líderes para entenderem que a cultura da organização começa

neles próprios, isto é, de cima para baixo em termos de responsabilidade.

35

• As alterações que têm sido registadas ao longo dos últimos anos mudaram também a forma

de garantir o envolvimento dos colaboradores. A flexibilidade, responsabilização,

desenvolvimento e mobilidade total definem a cultura organizacional.

• As motivações dos colaboradores têm registado mudanças e os colaboradores têm hoje em

dia novos objetivos para a sua carreira profissional (Deloitte, 2015). Assiste-se atualmente ao

aumento da importância na paixão pelo trabalho e à diminuição da ambição, segundo (John

Hagel, 2014) 12% e 5% respetivamente, o que reforça a necessidade de os líderes assumirem

um papel de maior relevância de forma a garantirem um ambiente de trabalho envolvente

para a sua equipa

A cultura de uma organização e o envolvimento dos colaboradores tem vindo a aumentar a sua

importância ao longo dos últimos anos. O caso de sucesso a que se tem vindo a assistir na Google,

caracterizada como uma das melhores organizações para trabalhar, é um dos exemplos que

comprovam a importância da cultura numa organização. Acredita-se que os bons resultados são

consequência da favorável cultura organizacional que se vive.

O foco para uma gestão com resultados tem por base o envolvimento, capacidade para atingir

resultados e ambiente organizacional. O facto de hoje em dia os sistemas de informação permitirem

às organizações o acesso a informação em tempo real facilita o processo de gestão por parte dos

líderes, na medida em que quando existem problemas, salvo exceções, estes são identificados de

forma mais rápida do que seriam no passado. (Bersin, 2014) propõe um modelo que explica as

mudanças que se têm registado na gestão de pessoas e carreiras profissionais desde os anos 90 até

aos dias de hoje.

Figura 4.1 – Mudanças na gestão de pessoas e carreiras profissionais (Bersin, 2014).

Na organização em estudo, a caracterização dos gestores de loja, em conjunto com outras variáveis do

colaborador, permite compreender os diferentes perfis de colaboradores (tendo em conta as variáveis

consideradas para o propósito referido anteriormente).

As características pessoais centram um conjunto variado de competências individuais e relacionais

sobre o individuo, e definem a forma como a pessoa se relaciona com o meio envolvente. De acordo

36

com (Hamidah Jantan, Abdul Razak Hamdan, 2009) as características pessoais incluem a liderança,

habilidade para organizar, disciplina, proatividade e inovação. Além destas, também skills de gestão e

o conhecimento e expertise contribuem para a definição dos fatores de competências individuais.

Na organização em estudo, sugere-se a realização de análises mais aprofundadas para perceber as

razões subjacentes a estes comportamentos, seja através da observação em loja ou através de estudos

qualitativos/quantitativos. Verifica-se que o perfil do gestor de loja bem como o perfil do colaborador

são características de elevada importância no padrão de comportamento dos clusters. Os gestores de

loja dividem-se em gestores de loja jovens e gestores de loja mais experientes.

Segundo o estudo publicado pela (Portugal, 2018), os gestores reconhecem que a interligação entre

as competências humanas e a tecnologia digital avançada permitirá melhorar os resultados de uma

organização. A organização referida no estudo acima, identifica as principais tendências na gestão de

talento em Portugal para o ano 2018:

• Velocidade na mudança. Inclui formação, aposta em estruturas de gestão mais horizontais,

descentralização de processos de tomada de decisão, eliminação de funções de menor

impacto e criação de equipas de projeto. Cerca de 94% dos gestores em Portugal refere a

inovação como o ponto chave para 2018;

• Trabalhar com um propósito. De entre as razões apontadas para o sucesso de um colaborador

destacam-se: uma remuneração justa e competitiva, oportunidades de desenvolvimento de

carreira, líderes que definem uma direção clara para a sua equipa e organização, possibilidade

de trabalhar com pessoas de topo, oportunidades de formação e trabalho em projetos com

um propósito bem definido. Uma evidência do estudo é que colaboradores com incentivos de

carreira demostram quatro vezes mais compromisso para com a organização.

• Flexibilidade permanente. Foi destacada a necessidade de desenvolver líderes para o futuro.

Um dos fatores apontados como sendo um dos que tem mais impacto nas empresas em 2018

é a valorização e reforço da experiência do colaborador.

• Digital de fora para dentro. Tem-se verificado o aumento da importância dada às ferramentas

digitais na atividade profissional. Pretende-se que seja feito investimento na gestão de

conhecimento, na melhoria da eficácia de vendas e também na eficiência das equipas.

Relativamente ao desafio que a temática do Ageing Workforce impõe atualmente nas organizações, é

importante que estas adotem estratégias de gestão de recursos humanos com ênfase na questão da

idade. De acordo com (Čiutienė & Railaitė, 2014), a temática do Ageing Workforce apresenta-se como

um desafio para as organizações e por isso estas devem organizar-se para assegurar uma gestão de

recursos humanos alinhada com as necessidades e objetivos estratégicos definidos. No mesmo estudo,

os autores identificam os fatores que consideram importantes para uma gestão eficaz:

• Condições de trabalho e respetiva melhoria das mesmas. É identificado como um fator que

encoraja os colaboradores a sentirem-se bem no seu local de trabalho durante mais tempo;

• Competências dos colaboradores. As organizações devem dar importância às competências

dos colaboradores sem se focarem apenas no aspeto da idade.

37

• Transferência de conhecimento. Deve ser assegurada a transferência de conhecimento entre

gerações, dado que é frequente os colaboradores mais novos apresentarem lacunas

relativamente às competências práticas e experiência adquirida.

Num estudo mais recente, apresentado por (Hirsch, 2017) são identificados como fatores chave para

superar os problemas resultantes da temática do Ageing Workforce:

• Encorajar os colaboradores mais experientes a ficar na organização. A saída dos

colaboradores deve ser planeada de forma a evitar saídas repentinas e em grande volume;

• Desenvolver uma cultura de transferência de conhecimento. Os colaboradores mais

experientes devem passar o seu conhecimento às gerações mais novas antes de saírem da

organização, o que deve ser planeado através de programas de gestão desenhados para o

efeito;

• Investir no desenvolvimento da carreira dos colaboradores. As organizações que investem no

desenvolvimento dos seus colaboradores têm mais hipóteses de atrair e manter os

colaboradores considerados “top talent”. A rotatividade é vista pelos autores como resultado

de uma falha ao nível do desenvolvimento das oportunidades de carreira;

• Dar valor aos colaboradores mais novos (Geração Millenials). Com o aumento da

representatividade desta geração é importante que as organizações tenham conhecimento

das prioridades que estes valorizam como, equilíbrio entre a vida profissional e pessoal,

oportunidades de carreira, horários flexíveis, objetivos bem definidos e/ou programas de

formação.

De acordo com (Weber, 2010) é imperativo manter as organizações competitivas e alinhadas com os

seus objetivos estratégicos. Considera-se importante melhorar e/ou manter a satisfação dos

colaboradores, reter talentos e evitar uma elevada taxa de rotatividade, o que pode ser assegurado

através da adoção de práticas de compensação e benefícios adicionais. É também importante

assegurar o planeamento e desenvolvimento de carreiras para evitar que os colaboradores se sintam

pouco envolvidos e procurem outras soluções.

38

5. CONCLUSÕES

O trabalho desenvolvido descreve o enquadramento do Ageing Workforce nas organizações. De forma

a perceber a importância do conceito na função de Recursos Humanos foi necessário abordar alguns

temas inerentes ao Ageing Workforce, tais como o People Analytics e a análise de dados.

De uma forma geral o tema apresentado neste trabalho de projeto é importante na Gestão de

Recursos Humanos, no entanto, assume uma importância ainda maior quando se trata de organizações

com funções que exigem um desgaste físico dos colaboradores.

A identificação atempada dos motivos que levam ao desgaste, redução de produtividade ou acidentes

de trabalho, diminuição do envolvimento e satisfação dos colaboradores é um objetivo da organização

a longo prazo, pelo que se torna imperativo aumentar o conhecimento sobre os seus colaboradores.

Para isso, no trabalho apresentado recorreu-se à análise de clusters para fazer a exploração dos dados

e uma análise descritiva dos colaboradores.

A obtenção de um modelo preditivo e de uma análise descritiva dos colaboradores mais detalhada foi

condicionada pela disponibilidade dos dados, o que afetou a diversidade da caracterização dos grupos

de colaboradores.

Em termos práticos, os resultados obtidos foram contextualizados com bibliografia que reforça a

importância que a Gestão na Liderança assume atualmente. Considera-se que este é um fator chave a

considerar pelas organizações no futuro de forma a manter os seus colaboradores no ativo satisfeitos

com as suas funções e sem quebras de produtividade. Também a temática do Ageing Workforce foi

contextualizada com a bibliografia que se considerou relevante, tendo sido identificados os fatores

chave a considerar por uma organização, de uma forma geral, para ultrapassar os problemas daí

resultantes.

39

6. LIMITAÇÕES E POSSÍVEIS TRABALHOS FUTUROS

A utilização de uma base de dados com poucas observações e referente a um período amostral curto

revelou-se uma limitação na medida em que limitou as técnicas de Data Mining a utilizar.

Desta forma, a eficácia em alcançar os objetivos propostos foi condicionada pela qualidade dos dados

disponíveis para análise, tanto no número de variáveis como no número de amostras disponíveis. Seria

desejável ter disponível um conjunto de dados maior, com mais variáveis que caracterizassem os

colaboradores e referente a um período amostral maior do que seis meses. O período amostral de seis

meses demonstrou ser também uma forte limitação. O número de observações para os colaboradores

que registam acidentes de trabalho revelou-se pequeno para caracterizar o desgaste dos

colaboradores. Além disso também as variáveis que identificam as competências dos colaboradores

revelaram-se uma limitação na medida em que possuem poucas observações.

Uma variável relevante para quantificar a efetividade do negócio é o valor das vendas para cada uma

das lojas incluídas no estudo, no entanto, não foi possível obter atempadamente os valores de forma

a incluí-los na análise.

De forma geral, considera-se importante no futuro melhorar o conjunto de dados dos colaboradores

para realizar uma análise com maior profundidade.

A utilização do People Analytics como uma ferramenta auxiliar para a Gestão de Recursos Humanos

poderá permitir de uma forma eficaz definir estratégias que melhorem as práticas de gestão,

aumentem o envolvimento dos colaboradores e reforcem um planeamento estratégico para a

alocação do trabalho.

Por exemplo, poderá ser desenvolvida uma modelação preditiva para identificar grupos de

colaboradores mais suscetíveis a ter faltas devido a acidentes de trabalho, com o objetivo de definir

estratégias e praticas preventivas.

40

7. BIBLIOGRAFIA

Aitken, M., Hedge, J., Ball, K., Cabrera, A., Hinkle-Bowles, P., McFarland, B., … Sweet, S. (2014). Exutive Roundtable on the Aging Workforce. Retrieved from www.iwh.on.ca

Angrave, D., Charlwood, A., Kirkpatrick, I., Lawrence, M., & Stuart, M. (2016). HR and analytics: why HR is set to fail the big data challenge. Human Resource Management Journal, 26(1), 1–11. https://doi.org/10.1111/1748-8583.12090

Azevedo, A., & Santos, M. F. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. IADIS European Conference Data Mining, (January), 182–185. Retrieved from http://recipp.ipp.pt/handle/10400.22/136

Bação, F. L. (n.d.). Unidade de Aprendizagem - Modulo 4 e 6 - Análise de Clusters/Árvores de Decisão. In Ciência da Informação.

Beck, V. (2008). Older Workers – Older Learners: The Perspectives of Employers in the East Midlands. Retrieved from https://lra.le.ac.uk/handle/2381/36621

Berry, M. J. A., & Linoff, G. S. (2004). Data mining techniques for Marketing, Sales, and Customer Relationship Management. Wiley Publishing, Inc. (2nd Editio). Wiley Publishing, Inc.

Bersin, J. (2014). Why The Talent Management Software Market Will Radically Change. Forbes. Retrieved from https://www.forbes.com/sites/joshbersin/2014/12/29/how-and-why-the-talent-management-market-is-changing/#3b7b897e4d20

Bersin, J. (2016). People Analytics Market Growth: Ten Things You Need to Know. Retrieved from http://joshbersin.com/2016/07/people-analytics-market-growth-ten-things-you-need-to-know/

Bersin, J. (2017). People Analytics: Here With A Vengeance. Retrieved from https://joshbersin.com/2017/12/people-analytics-here-with-a-vengeance/

Bersin, J., Geller, J., Wakefield, N., & Walsh, B. (2015). Global human capital trends 2015. Deloitte University Press, 112. https://doi.org/http://www2.deloitte.com/us/en/pages/human-capital/articles/employee-engagement-culture-human-capital-trends-2015.html

Boenzi, F., Digiesi, S., Mossa, G., Mummolo, G., & Romano, V. A. (2015). Modelling workforce aging in job rotation problems. IFAC-PapersOnLine, 28(3), 604–609. https://doi.org/10.1016/j.ifacol.2015.06.148

Boston Consulting Group. (2014). Creating People Advantage 2014-2015. https://doi.org/Acedemico/material didatico/bibliografia 2105

Brooke, L. (2003). Human resource costs and benefits of maintaining a mature‐age workforce. International Journal of Manpower, 24(3), 260–283. https://doi.org/https://doi.org/10.1108/01437720310479732

Cabral, M. V., & Ferreira, P. M. (2014). O ENVELHECIMENTO ACTIVO EM PORTUGAL - Trabalho, Reforma, Lazer e Redes Sociais. Fundação Francisco Manuel dos Santos.

Carla Arellano, Alexander DiLeonardo, and I. F. (2017). Using people analytics to drive business performance: A case study. McKinsey Quarterly. Retrieved from https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/using-people-analytics-to-drive-business-performance-a-case-study

41

Čiutienė, R., & Railaitė, R. (2014). Challenges of Managing an Ageing Workforce. Procedia Social and Behaviour Sciences Journal, Presented on 19th International Scientific Conference «Economics and Management – 2014» (ICEM-2014), 156(April), 69–73. https://doi.org/10.1016/j.sbspro.2014.11.121

Crabtree, S. (2013). Worldwide, 13% of employees are engaged at work. Retrieved from https://news.gallup.com/poll/165269/worldwide-employees-engaged-work.aspx

Deloitte. (2015). Business needs to reset its purpose to attract Millennials. Retrieved from https://www2.deloitte.com/be/en/pages/about-deloitte/articles/fourth-annual-millennial-survey.html

Donald M. Truxillo, David M. Cadiz, J. R. R. (2012). Designing jobs for an Aging Workforce: An Opportunity for Occupational Health. In Contemporary Occupational Health Psychology (pp. 109–123). John Wiley & Sons, Inc. Retrieved from https://books.google.pt/books?hl=pt-PT&lr=&id=1soqAIeiQBIC&oi=fnd&pg=PA109&dq=people+analytics+applied+to+ageing+workforce&ots=6KpqTLrss7&sig=_ggHmRh-MWEyqK7oI5CgPedKBlU&redir_esc=y#v=onepage&q=people analytics applied to ageing workforce&f=false

Dulebohn, J. H., & Johnson, R. D. (2013). Human resource metrics and decision support: A classification framework. Human Resource Management Review. https://doi.org/10.1016/j.hrmr.2012.06.005

Eurostat. (2017). Population structure and ageing. Retrieved February 2, 2018, from http://ec.europa.eu/eurostat/statistics-explained/index.php/Population_structure_and_ageing

Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in Knowledge Discovery and Data Mining. The MIT Press.

Fitz-enz, J., & John R. Mattox II. (2014). Predictive Analytics for Human Resources. John Wiley & Sons, Inc.

Hamidah Jantan, Abdul Razak Hamdan, Z. A. O. (2009). Knowledge Discovery Techniques for Talent Forecasting in Human Resource Application. Retrieved from https://waset.org/publication/Knowledge-Discovery-Techniques-for-Talent-Forecasting-in-Human-Resource-Application/11782

Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques. Elsevier (2nd Editio, Vol. 12). Elsevier Inc. Retrieved from http://link.springer.com/10.1007/978-3-642-19721-5

Hand, D. J. (1998). Data Mining: Statistics and More? The American Statistician, 52(2), 112–118. https://doi.org/10.1080/00031305.1998.10480549

Hand, D., Mannila, H., & Smyth, P. (2001). Principles of data mining. Building. The MIT Press. Retrieved from https://doc.lagout.org/Others/Data Mining/Principles of Data Mining %5BHand%2C Mannila %26 Smyth 2001-08-01%5D.pdf

Hirsch, A. S. (2017). 4 Ways for HR to Overcome Aging Workforce Issues. Retrieved from https://www.shrm.org/resourcesandtools/hr-topics/behavioral-competencies/global-and-cultural-effectiveness/pages/4-ways-for-hr-to-overcome-aging-workforce-issues.aspx

Ilmarinen, J. (2012). Promoting active ageing in the workplace. Retrieved from http://www.ipbscordoba.es/uploads/Documentos/promoting-active-ageing-in-the-workplace.pdf

42

INE, P. (2017). População residente: total e por grupo etário. Retrieved from https://www.pordata.pt/Portugal/População+residente+total+e+por+grupo+etário-10

Jantan, H., Razak Hamdan, A., & Ali Othman, Z. (2010). Human Talent Prediction in HRM using C4.5 Classification Algorithm. International Journal on Computer Science and Engineering, 02(08), 2526–2534. https://doi.org/10.4018/jtd.2010100103

John Hagel. (2014). Passion versus ambition - Did Steve Jobs have worker passion? Deloitte University Press. Retrieved from https://www2.deloitte.com/insights/us/en/topics/employee-engagement/employee-passion-ambition.html

Jurney, R. (2013). Agile Data Science. O’Reilly Media. Retrieved from http://shop.oreilly.com/product/0636920025054.do

Laurence Collins, David R. Fineman, A. T. (2017). People analytics: Recalculating the route. Deloitte. Retrieved from https://www2.deloitte.com/insights/us/en/focus/human-capital-trends/2017/people-analytics-in-hr.html

Michael J. Kavanagh, Mohan Thite, R. D. J. (2011). Human Resource Information Systems: Basics, Applications, and Future Directions (2nd Editio). SAGE Publications, Inc.

Momin, W. Y. M., & Mishra, K. (2015). HR Analytics as a Strategic Workforce Planning. International Journal of Applied Research, 1(4), 258–260.

Mortenson, M. J. ., Doherty, N. F., & Robinson, S. (2015). Operational research from Taylorism to Terabytes: A research agenda for the analytic sage. European Journal of Operational Research, 241(3), 583–595. https://doi.org/doi:10.1016/j.ejor.2014.08.029

Portugal, M. (2018). Global Talent Trends 2018 study - Unlocking Growth in the Human Age. Retrieved from https://www.mercer.pt/our-thinking/career/global-talent-trends-portugal-2018.html

Santos, M. Y., & Ramos, I. (2009). Business Intelligence - Tecnologias da Informação na Gestão do Conhecimento (2a Edição). FCA.

Sothmann, A., & Mehta, S. (2017). Workforce Analytics: The Gap between Rhetoric and Experience. Mercer.

Sullivan, J. (2013). How Google Is Using People Analytics to Completely Reinvent HR. HR Management, HR News & Trends. Retrieved from http://docshare01.docshare.tips/files/28758/287584559.pdf

Thomas H. Davenport, J. H., & Shapiro, J. (2009). Competing on Talent Analytics. Retrieved from https://hbr.org/2010/10/competing-on-talent-analytics

Union, E. (2012). Active ageing and solidarity between generations (2012 Editi). https://doi.org/10.2785/17758

Watson, H. J. (2013). All about Analytics. International Journal of Business Intelligence Research, pp.13-28.

Watson, H. J. (2014). Tutorial : Big Data Analytics : Concepts , Technologies , and Applications. Communications of the Association for Information Systems, 34(June), 1246–1269. Retrieved from http://aisel.aisnet.org/cais/vol34/iss1/65

Weber, A. V. M. L. (2010). Práticas de Remuneração como Estratégia para Retenção de Talentos: Um Estudo de caso em uma Empresa de Serviços. 1o Simpósio Brasileiro de Ciência e Serviços.

43

8. ANEXOS

Anexo I - Tabela com as estatísticas descritivas das variáveis intervalares.

Anexo II - Matriz de correlações entre variáveis obtida através do SAS Enterprise Miner.

Anexo III - Gráfico representativo da expectativa de evolução da população entre 2016 e 2080.

Anexo IV - Critérios para a extração de regras.

Anexo V - Diagrama criado na aplicação SAS Enterprise Miner 14.2 para a modelação descritiva.

44

Anexo I – Tabela com as estatísticas descritivas das variáveis intervalares

Nome da variável Mediana Nº

observ. em falta

Nº observ.

Valor Min.

Valor Max.

Média StdDev Skewness Kurtosis CV

E_Absence_hrs_Jan_Jun 0 0 1800 0 1032 54,04 169,61 4,27 18,87 3,14

E_Absence_rate_Jan_Jun 0 2 1798 0 1 0,05 0,17 4,25 18,63 3,13

E_Accid_lost_days_Jan_Jun 0 0 1800 0 119 0,49 4,88 16,50 326,21 10,06

E_Age 41 0 1800 18 68 40,72 9,40 -0,05 -0,48 0,23

E_Avg_yrs_function 3,03 0 1800 0,01 17,12 3,18 2,07 1,11 2,84 0,65

E_Comp_1 2,63 319 1481 1,13 4,38 2,67 0,45 0,44 0,21 0,17

E_Comp_3 2,67 320 1480 1 4 2,60 0,50 0,25 -0,43 0,19

E_FTE 1 0 1800 0,2 1 1,00 0,04 -12,11 154,33 0,04

E_N_Children 1 0 1800 0 6 1,17 0,96 0,48 0,22 0,82

E_Numb_fuctions 4 0 1800 1 13 3,96 2,28 0,50 -0,32 0,57

E_Overtime_hrs_Jan_Jun 0 0 1800 0 78,24 0,93 3,92 11,13 180,48 4,21

E_Overtime_rate_Jan_Jun 0 2 1798 0 0,08 0,00 0,00 10,19 147,84 4,20

E_Plan_hrs_Jan_Jun 1009 0 1800 0 1050 964,45 169,26 -4,05 16,12 0,18

E_Sen_Legal_yrs 13 0 1800 0 52 12,95 9,82 0,35 -0,63 0,76

E_Train_hrs_Jan_Jun 0 0 1800 0 241,5 3,49 13,85 11,78 168,52 3,97

E_Vacation_hrs_Jan_Jun 80 0 1800 0 304 79,14 48,75 0,39 0,21 0,62

E_Worked_hr_week 40 0 1800 8 40 39,82 1,76 -11,83 149,33 0,04

SM_Age 44 14 1786 31 59 45,00 7,83 0,08 -1,28 0,17

SM_avg_years_function 2,82 14 1786 0,61 6,75 3,23 1,79 0,65 -0,87 0,55

SM_N_Filhos 2,00 14 1786 0 3 1,53 0,96 -0,25 -0,91 0,62

SM_numb_functions 6 14 1786 2 10 6,37 1,84 0,09 -0,18 0,29

SM_Sen_Legal_yrs 19 14 1786 0 39 20,27 9,47 -0,19 -1,00 0,47

ST_Avg_Absence_hrs 53,90 0 1800 1,69 183,32 54,04 36,41 1,66 3,48 0,67

ST_Avg_Absence_rate 0,04 0 1800 0,00 0,19 0,06 0,04 1,70 2,94 0,72

ST_Avg_acc_lostdays 7,5 0 1800 0 83 11,64 16,48 2,76 8,93 1,42

ST_Avg_Overtime_hrs 0,05 0 1800 0 8,825833 0,93 1,41 2,63 10,69 1,52

ST_Avg_Overtime_rate 0,00 0 1800 0 0,017471 0,00 0,00 2,57 10,13 1,52

ST_Avg_Train_hrs 2,90 0 1800 0,68 18,16 3,49 2,88 2,88 11,17 0,82

ST_Avg_Vacation_hrs 79,15 0 1800 30,17 116,51 79,14 15,36 0,04 1,52 0,19

ST_empl_avg_legal_sen 13,84 0 1800 2,36 21,88 12,99 4,68 -0,21 -0,83 0,36

ST_Per_Empl_Absence_hrs 0,33 0 1800 0,10 0,79 0,32 0,12 0,41 0,24 0,38

ST_Per_Empl_Absence_rate 0,22 0 1800 0,06 0,71 0,22 0,11 0,97 2,44 0,48

ST_Per_Empl_acc_lostdays 0,02 0 1800 0 0,142857 0,03 0,03 1,12 1,37 1,03

ST_Per_Empl_Overtime_hrs 0,03 0 1800 0 0,75 0,16 0,22 1,23 -0,09 1,44

ST_Per_Empl_Overtime_rate 0,03 0 1800 0 0,75 0,16 0,22 1,23 -0,09 1,44

ST_Per_Empl_Train_hrs 0,37 0 1800 0,16 1 0,42 0,19 1,01 1,17 0,45

ST_Per_Empl_Vacation_hrs 0,91 0 1800 0,49 1 0,89 0,09 -2,13 6,95 0,10

ST_terminations 0,03 0 1800 0 0,21 0,05 0,05 1,15 0,73 0,90

45

Anexo II – Matriz de correlações entre variáveis obtida através do SAS Enterprise Miner

46

Anexo III – Gráfico representativo da expectativa de evolução da população entre 2016 e

2080

(Eurostat, 2017)

47

Anexo IV – Critérios para a extração de regras

Nome do Cluster Idade do Gestor de Loja (anos)

Senioridade média dos colaboradores por loja (anos)

Média de anos na função do gestor de loja

Assimetria entre as faixas etárias < 45 e >=45 anos por loja

Senioridade do colaborador na organização (anos)

Engagement Job_Challenge Nível de escolaridade do gestor de loja

Gestores de loja mais novos que estão em lojas mais recentes

[31-45] [4,947-14,8] [0,605-3,518] [0,159-0,947] [0-28] [61-89] [47-64] -

Gestores de loja mais novos (do que o segmento 1) e solteiros

[31-45] [5-15,08] [0,605-3,518] [0,159-0,843] - [61-89] [47-66] [Degree] - 80%

Gestores de loja mais experientes, colaboradores mais novos e boa avaliação para o engagement e job challenge

[34-59] [9,882-21,878] [1,634-6,745] [0-0,647] - [70-97] [54-81] -

Gestores de loja mais experientes, colaboradores com maior idade e boa avaliação para o engagement e job challenge

[42-59] [2,075-6,745] [9,882-21,878] [0-45] [0-0,647] [70-97] [54-81] -

Nome do Cluster Rescisões por loja Anos por loja

Média de dias perdidos por acidentes de trabalho por loja

Estado civil do gestor de loja

Idade do colaborador

% de colaboradores com dias perdidos por acidente por loja

Intervalo de idades do colaborador

Intervalo de idades do gestor de loja

Gestores de loja mais novos que estão em lojas mais recentes

[0-0,214] [7,0-24] - - - [0-0,142] - -

Gestores de loja mais novos (do que o segmento 1) e solteiros

- - [0-83] [Single] - 57% - [0-0,142] - -

Gestores de loja mais experientes, colaboradores mais novos e boa avaliação para o engagement e job challenge

[0-0,134] [9,0-33] - - [19-51] - - [45-54 anos] -

42%

Gestores de loja mais experientes, colaboradores com maior idade e boa avaliação para o engagement e job challenge

[0-0,134] - - - - - [45-54 anos] -

51% -

Legenda para a dimensão de cada variável: Gestor de loja

Loja Colaborador

48

Anexo V – Diagrama criado na aplicação SAS Enterprise Miner 14.2 para a modelação descritiva

Ageing Workforce · O envelhecimento da população mundial tem vindo a revelar-se um desafio para...

Documents

Transcript of Ageing Workforce · O envelhecimento da população mundial tem vindo a revelar-se um desafio para...