Auto Machine Learning, rumo à automação dos modelos · Rumo à automação da modelagem 16...

P&D www.managementsolutions.com

Auto Machine Learning, rumo à automação dos modelosAuto Machine Learning, rumo à automação dos modelos

Design e diagramaçãoDepartamento de Marketing e ComunicaçãoManagement Solutions - Espanha

FotografIasArquivo fotográfico da Management SolutionsiStock

© Management Solutions 2020Todos os direitos reservados. Proibida a reprodução, distribuição, comunicação ao público, no todo ou em parte, gratuita ou paga, por qualquer meio ou processo, sem o prévio consentimento por escrito da Management Solutions.O material contido nesta publicação é apenas para fins informativos. A Management Solutions não é responsável por qualquer uso que terceiros possam fazer destainformação. Este material não pode ser utilizado, exceto se autorizado pela Management Solutions.

Introdução 4

Índice

Resumo executivo 12

Rumo à automação da modelagem 16

Estruturas de automação deframeworks demachine learning 22

Campeonatos de AutoML: umaferramenta de exploração deenfoques de AutoML 32

Reflexões finais 36

Bibliografia 38

Glossário 40

MANAGEM

ENT SO

LUTIONS

Auto Machine Learning, rumo à au

tomação dos mod

elos

4

Introdução

“A half-dozen monkeys provided with typewriters would,in a few eternities, produce all the books in the British Museum”

– Jorge Luis Borges1

5

Um modelo matemático é, de certa forma, uma simplificação darealidade que tira proveito das informações disponíveis parasistematizar a tomada de decisões. Essa simplificação permiteque hipóteses sobre o comportamento de variáveis e sistemassejam avaliadas através de sua representação sumária sob umconjunto de postulados, geralmente com base em dados eaplicando critérios de inferência. Seu principal objetivo éexplicar, analisar ou prever o comportamento de uma variável.

A revolução nas técnicas de modelagem, combinada com maiorpoder computacional, maior acessibilidade e maior capacidadede armazenamento de dados, mudou radicalmente a formacomo os modelos são construídos nos últimos anos. Essarevolução foi um fator-chave que estimulou não apenas o usodessas novas técnicas nos processos de tomada de decisão,onde as abordagens tradicionais eram usadas, mas também emáreas onde o uso de modelos não era tão comum. Por fim, emalguns setores, como o setor financeiro, o uso de modelostambém foi impulsionado pela regulamentação. Normas comoIFRS 9 e 13 ou Basileia II promoveram o uso de modelos internoscom o objetivo de aumentar a sensibilidade e melhorar asofisticação do cálculo de deterioração contábil oudeterminação de riscos financeiros.

Embora possa parecer o contrário, as técnicas de modelagemmais comuns aplicadas no campo de negócios não têm umaorigem recente. Especificamente, as regressões lineares elogísticas datam do século XIX. No entanto, há algum tempo, háum desenvolvimento significativo de novos algoritmos, cujoobjetivo é refinar a maneira como os padrões são encontradosnos dados, mas também apresenta novos desafios, comomelhorar as técnicas de interpretabilidade. A aplicação dessesnovos modelos matemáticos à computação é uma disciplinacientífica conhecida como aprendizado automático ou machinelearning, pois permite que os sistemas aprendam e encontrempadrões sem serem explicitamente programados para isso.

Existem várias definições de machine learning. Entre elas, asduas mais ilustrativos são os de Samuel e Mitchell. Para ArthurSamuel2, o machine learning é "o campo de estudo que dá aoscomputadores a capacidade de aprender sem seremexplicitamente programados", enquanto para Tom Mitchell3 édefinido como “um programa que aprende com a experiência Ecom relação a alguma classe de tarefas T e com base em uma

medida de desempenho P, se esse desempenho nas tarefas emT, de acordo com a medida de P, melhorar com a experiência E".Essas duas definições geralmente estão relacionadas aaprendizado não supervisionado e aprendizado supervisionado,respectivamente4.

Como conseqüência, o apetite para entender e tirar conclusõesdos dados aumentou dramaticamente. Mas, paralelamente, aimplementação desses métodos exigiu modificações emmúltiplos aspectos nas organizações5, e é, por sua vez, o foco depossíveis riscos decorrentes de erros em seu desenvolvimentoou implementação, ou seu uso inadequado.

A modelagem avançada melhora os processos comerciais eoperacionais, ou até facilita o surgimento de novos modelos denegócios. Um exemplo pode ser encontrado no setor financeiro,onde novas metodologias, no contexto da digitalização, estãomodificando a proposta de valor atual, mas tambémadicionando novos serviços. De acordo com uma pesquisarealizada pelo Banco da Inglaterra e pela Autoridade deConduta Financeira de quase 300 empresas do setor financeiroe de seguros, dois terços dos participantes usam o machinelearning em seus processos6. As técnicas de machine learningsão frequentemente usadas em tarefas de controle típicas,como prevenção à lavagem de dinheiro (AML), análise deameaças relacionadas à ciberssegurança ou detecção de fraude,bem como em processos de negócios, como a classificação declientes, sistemas de recomendação ou atendimento ao clienteatravés do uso de chatbots. Também são utilizados nogerenciamento de risco de crédito, precificação, na execução deoperações ou na subscrição de seguros.

1Jorge Luis Borges, “La biblioteca total” (1939). Escritor, poeta, ensaísta etradutor argentino, autor, entre outros, de “Ficciones” e “El Aleph”.

2Samuel, 1959.3Mitchell, 1997.4Management Solutions, 2018.5 Ibídem.6Bank of England, 2019.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

6

Mas não é apenas necessário estabelecer equipesespecializadas, mas também o uso de novos procedimentos dedesenvolvimento, a revisão dos métodos de validação, revisãoe avaliação dos modelos nas áreas de validação e auditoria,além de uma mudança cultural importante nas outras áreaspara alcançar uma implementação eficaz. A inclusão dessesnovos processos gera uma reação em cadeia que afeta todo ociclo de vida dos modelos, destacando entre eles a identificaçãoe o gerenciamento de riscos do modelo, bem como suagovernança11. Muitos desses modelos exigem adicionalmente a

Um grau semelhante de desenvolvimento pode ser observadoem outros setores. O uso de modelos de machine learning écomum em setores como manufatura, transporte, medicina,justiça ou nos setores de varejo e bens de consumo. Isso fezcom que o investimento em empresas dedicadas à inteligênciaartificial aumentasse de US $ 1,3 bilhão em 2010 para US $ 40,4bilhões em 2018 no mundo7 (ver figura 1). O retorno esperadojustifica esse investimento: 63% das empresas que adotaram ouso de modelos de machine learning em suas unidades denegócios relatam um aumento na receita, sendo mais de 6%para aproximadamente metade delas. Da mesma forma, 44%das empresas relatam economia de custos, sendo mais de 10%para aproximadamente metade delas8.

Das diferentes mudanças registradas nas organizações para seadaptar a esse novo paradigma, o recrutamento e a retenção detalentos ainda são dos elementos centrais. Em um primeiromomento, foi necessário um aumento nas equipes deespecialistas em machine learning. A demanda por profissionaisnesse campo aumentou 728% entre 2010 e 2019 nos EstadosUnidos10 (ver figura 2), também registrando uma mudançaqualitativa na demanda por habilidades e conhecimentos doscientistas de dados.

Mas essa demanda não é genérica: com a intenção de explorar aquantidade crescente de dados disponíveis por meio deferramentas cada vez mais sofisticadas, os requisitos setornaram mais específicos (incluindo o conhecimento dediferentes linguagens de programação, como Python , R, Scalaou Ruby, capacidade de tratamento de bancos de dados emarquiteturas de big data, conhecimento em computação emnuvem, conhecimento avançado em matemática e estatística,posse de cursos de pós-graduação especializados, etc.), comgrande diversidade de posições, com requisitos muitoespecíficos e, portanto, difíceis de atender. Além disso, o grandeaumento no volume de geração de dados pelas empresassignifica que, mesmo com um suprimento estável de cientistasde dados, a solução atual de recrutamento de recursos não éescalável.

Figura 1: investimento anual (bilhões de dólares) em empresas de IA9.

Fonte: Stanford University, 2019.

7 Inclui unicamente investimentos de valor superior a 400.000 dólares, StanfordUniversity, 2019.

8Statista, 2019.9Stanford University, 2019.

10 Ibídem.11Management Solutions, 2014.

7

aprovação dos órgãos de supervisão, como ocorre no setorfinanceiro (por exemplo, nos modelos de capital ou deprovisão) ou na indústria farmacêutica, o que acrescentadesafios adicionais aos já existentes, como é necessário garantira interpretabilidade dos modelos utilizados, bem comodesenvolver os demais elementos de confiança dos modelos.

Outro aspecto notável do investimento em métodos demachine learning é que ele tem um desenvolvimento desigual: aobrigação de passar nos processos de validação, auditoria eaprovação, de acordo com a regulamentação estabelecida ou aexigência de manter padrões específicos de documentação,está gerando diferenças na implantação de modelos internosdas empresas. De acordo com o relatório sobre big data eanalytics da EBA12, as instituições financeiras estão adotando

programas de transformação digital ou promovendo o uso detécnicas de machine learning em aspectos como mitigação deriscos (incluindo pontuação automática, gerenciamento deriscos operacionais ou fraude) e nos processos de Know YourClient. No entanto, “embora a aplicação do machine learningpossa representar uma oportunidade para otimizar capital, daperspectiva de uma estrutura prudencial, é prematuroconsiderar o uso de técnicas de machine learning apropriadaspara determinar os requisitos de capital”13.

Figura 2: maior demanda por perfis com conhecimento em machine learning e inteligência artificial.

12European Banking Authority, 2020.13Ibídem.

Fonte: Burning Glass, 2019.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

8

Também existem riscos operacionais difíceis de detectar, comoos de natureza humana durante o processo de implementaçãode um modelo ou os relacionados à segurança doarmazenamento de dados, que devem ser convenientementegerenciados para garantir o uso desses sistemas em umambiente adequado. Isso adquire relevância significativa paraempresas que operam em ambientes considerados de altorisco. Um exemplo disso é o framework estabelecido pelaComissão Europeia nestes casos e que engloba diferentesaspectos do processo de modelagem14. Por fim, e tambémdevido a critérios regulatórios e de gestão, os modelos devemfuncionar de forma confiável e devem ser usados de formaética, para que o usuário possa confiar neles para uso nosprocessos de tomada de decisão. Nesta linha, é de especialinteresse a proposta da EBA baseada em sete pilares deconfiança15: ética, interpretabilidade, eliminação dadiscriminação, rastreabilidade, proteção e qualidade dos dados,segurança e proteção do consumidor. Essas questões foramidentificadas como elementos-chave em universidades comotambém por empresas16.

Nesse contexto, as tarefas de desenvolvimento de modelosexigem tempos muito desiguais: as tarefas anteriores ecomplementares à análise também exigem uma grandequantidade de tempo e recursos destinados à preparação,limpeza e tratamento geral dos dados; 60% do tempo de umcientista de dados é gasto limpando dados e organizandoinformações, enquanto 9% e 4% se concentram em tarefas dedescoberta de conhecimento e refinamento de algoritmos,respectivamente17. Tudo isso leva à necessidade de mudar amaneira de abordar o desenvolvimento, a validação e aimplementação de modelos, para que sejam exploradas asvantagens de novas técnicas, mas resolvendo as dificuldadesassociadas ao seu uso, além de mitigar seus possíveis riscos.

Em decorrência das razões acima mencionadas, há uma claratendência em direção à automação de processos relacionados àaplicação de técnicas avançadas de análise, que tem sidogeralmente chamada de aprendizado automático de máquina(AutoML ou automated machine learning, de formaintercambiável), cujo objetivo não é apenas automatizar astarefas em que os processos heurísticos são limitados efacilmente automatizáveis, mas também permitir a geração deprocessos e algoritmos de pesquisa de padrões maisautomáticos, ordenados e rastreáveis. De acordo o Gartner18,mais de 50% das tarefas de ciência de dados serãoautomatizadas até 2025.

Essa tendência para a automação é explicada não apenas pelasquestões levantadas acima, mas também pelas oportunidadesoferecidas pela arquitetura dos sistemas utilizados, em termosde design de fluxo de trabalho, inventário de modelo ouvalidação de componentes. Os sistemas de AutoML integramvárias ferramentas para desenvolver modelos, reduzindotambém custos, tempo de desenvolvimento e erros naimplementação de tais sistemas.

14European Comission, 2020.15European Banking Authority, 2020.16Por exemplo, a cadeira iDanae, resultado da colaboração entre a UniversidadePolitécnica de Madri e a Management Solutions, publicou boletins informativossobre interpretabilidade (cadeira iDanae, 3T-2019) e ética em inteligênciaartificial (cadeira iDanae, 4T-2019).

17De acordo com uma pesquisa realizada pela plataforma em Inteligência ArtificialCrowdFlower (CrowdFlower, 2017).

18Gartner, 2019.

9

Os sistemas e métodos de AutoML buscam, entre outras coisas:

4 Reduzir o tempo gasto pelos cientistas de dados nodesenvolvimento de modelos por meio de técnicas demachine learning e até mesmo permitir o desenvolvimentode algoritmos demachine learning e por equipes nãoespecializadas em ciência de dados.

4 Melhorar o desempenho dos modelos desenvolvidos, bemcomo a rastreabilidade e comparabilidade dos modelosobtidos com as técnicas de busca manual porhiperparâmetros.

4 Permitir questionar os modelos desenvolvidos por outrasabordagens.

4 Reutilizar o investimento feito em tempo e recursos paradesenvolvimento de códigos, melhorar e refinar oscomponentes incluídos nos sistemas de forma eficiente ecom maior rastreabilidade.

4 Simplificar a validação dos modelos e facilitar seuplanejamento.

Neste contexto, este documento tem como objetivo descreveros principais elementos sobre os sistemas de AutoML. Para isso,foi estruturado em três seções, que por sua vez correspondem atrês objetivos:

4 No primeiro bloco, a evolução na automação dos processosde machine learning é analisada, assim como os motivossubjacentes no desenvolvimento de sistemas de AutoML.

4 O segundo bloco fornece uma visão descritiva das principaisestruturas do AutoML e explica quais abordagens estãosendo seguidas, tanto academicamente quanto emexperiências práticas destinadas a automatizar processos demodelagem por meio de técnicas de machine learning.

4 Por fim, o terceiro bloco tem como objetivo ilustrar osresultados do desenvolvimento de sistemas de AutoML,apresentando como estudo de caso um campeonatoorganizado pela Management Solutions no início de 2020,dirigido aos profissionais da firma e cujo objetivo foi odesenho de um modelo de Automated Machine Learning.

Principais marcos no desenvolvimentodo ML

Arthur Samuelsdesenvolve um programaem 1952 para jogar damas.Em 1995, esse programavence o campeão mundial.

O IBM Watson vence ojogo Jeopardy! na frente dedois dos jogadores maisdestacados.

O Google Deepminddesenvolve uma IA capazde jogar diferentes jogosda Atari no nível de umjogador humano.

Uma IA desenvolvida pelaUniversidade de Oxford écapaz de ler os lábios comuma taxa de acerto de 93%.

Uma IA capaz de detectarcâncer de pele é treinadacom uma precisãocomparável à dos médicosespecialistas.

O Google DeepmindAlphastar vence osmelhores profissionais domundo do videogameStarcraft II.

Estudo da natureza usarede neural que detectamelhor a retinopatiadiabética do queespecialistas médicos.

Um tradutor de inglês-chinês desenvolvido pelaMicrosoft obtém qualidadede tradução humana.

O Google DeepmindAlpha Go vence ocampeão mundial do GO,Lee Sedol.

A classificação de imagensde computador na rede deimagens supera o índice deerro humano (3% vs. 5%,respectivamente).

O Google Braindesenvolve um modelocapaz de detectar rostoshumanos em imagens evídeos.

IBM Deep Blue vence ocampeão mundial dexadrez Gary Kasparov.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

10

A Autoridade Bancária Europeia (EBA) publicou um relatório sobre big data e advanced analytics, com o objetivo de divulgar seu uso nosetor financeiro europeu, além de fornecer seu entendimento sobre (i) a identificação de quatro pilares fundamentais para seudesenvolvimento, implementação e adoção, (ii) os principais elementos de confiança nos quais uma estrutura de big data e de advancedanalytics deve se basear; e (iii) apontar as principais observações, oportunidades e riscos decorrentes da aplicação dessas soluções.

I. Pilares principais de uma estrutura de big data e de advanced analytics

II. Elementos de confiança

III. Principais observações, oportunidades e riscos no uso

Reporting sobre Big Data e Advanced Analytics da EBA

GESTÃO DE DADOS

4 Tipos de dados e fontes de dados: dados estruturados, nãoestruturados e semiestruturados.

4 Segurança e proteção dos dados: protege a confidencialidade,integridade e disponibilidade dos dados.

4Qualidade dos dados: assegura a qualidade dos dadosdurante todo o ciclo de vida da Big Data e de AdvancedAnalytics (BD&AA).

INFRAESTRUTURA TECNOLÓGICA

4 Infraestrutura: conecta recursos para transmissão Big Data4 Plataforma de dados: gerencia todos os dados usados por umsistema de análise avançado

4 Processamento: fornece o software necessário para suportar aimplementação de aplicativos analíticos avançados

METODOLOGIA DE ANÁLISE

4 Preparação dos dados: inclui a engenharia de dados e aanálise de relevância

4Analítica: treinamento de modelos, calibração, validação eseleção, assim como testes e implantação

4Operações: controle e atualização de modelos

ORGANIZAÇÃO E GOVERNANÇA

4 Estrutura e medidas internas de governança: estrutura degovernança, estratégia e gerenciamento de riscos,transparência, desenvolvimento externo e terceirização.

4Habilidades e conhecimentos: nível de entendimento doórgão de administração e da gerência sênior, segunda eterceira linhas, desenvolvedores de sistemas avançados paraanálise.

O desenvolvimento,implantação e uso dequalquer solução deInteligência Artificial (IA)deve aderir a algunsprincípios éticosfundamentais.

A justiça exige que o modelogaranta a proteção dos gruposcontra a discriminação e, paragarantir isso, o modelo deveestar livre de vieses.

Os dados devem seradequadamente protegidoscom um sistema confiável deBD&AA e sua qualidadeprecisa ser levada emconsideração durante todo oprocesso do BD&AA.

Uma parte fundamental para a construçãode modelos confiáveis é que sejamexplicáveis e interpretáveis,transparentes, compreendidoscorretamente e que apresentemjustificativas claras.

O uso de soluções rastreáveis auxilia norastreamento de todas as etapas, critérios edecisões ao longo do processo, o quepermite a réplica dos processos queresultam nas decisões tomadas pelomodelo e ajuda a garantir a auditabilidadedo sistema.

É importante manter uma vigilância técnicasobre os ataques de segurança mais recentese técnicas de defesa relacionadas e garantirque a governança, a supervisão e ainfraestrutura técnica estejam em vigor paraum gerenciamento eficaz dos riscos de ICT(Information and communications technology).

Um sistema confiável deBD&AA deve respeitar osdireitos dos consumidores eproteger seus interesses.

Pilares principais de uma estrutura de big data e advanced analytics

Elementos de confiança

Explicabilidade &interpretabilidade

Justiça &prevenção de

vieses

Rastreabilidade&

auditabilidade

Proteção equalidadedos dados

Segurança

Proteção doconsumidorÉtica

11

4 As instituições estão em diferentes estágios do desenvolvimento da BD&AA. Alguns dos usos mais comuns são a detecção defraudes, CRM e automação de processos.

4Existe uma maior dependência de dados internos, em vez de dados externos ou mídias sociais. Incorporação de soluções decódigo aberto. Existe um uso limitado de algoritmos complexos.

4Existem níveis diferentes de integração e governança de análises avançadas na instituição.

4Pode-se observar um aumento da dependência em empresas de tecnologia para a provisão de serviços de infraestrutura e decomputação na nuvem.

Observações chave

4Os clientes dos serviços financeiros dos setores de varejo e lazer esperam um serviço mais personalizado. Existe confiança nosetor financeiro em relação ao cumprimento das leis de proteção de dados.

4O aumento da satisfação do consumidor e o uso de informação para melhorar a oferta, reduzir a perda de clientes, otimizarprocessos e ajudar na mitigação do risco e da detecção de fraude.

4Existem muitos usos e oportunidades possíveis que surgem do uso de modelos interpretáveis.

Principais oportunidades

4O resultado dos modelos pode ser complexo, não determinístico e correto de acordo com uma medida de probabilidade, quepode prejudicar a instituição ou seus clientes. Deve-se garantir que os resultados desses sistemas não violem os padrões éticosdas instituições. Além disso, um ser humano deve estar envolvido no ciclo de tomada de decisão, por isso é necessário realizartreinamento do pessoal.

4 A implementação de um framework de governança e metodologia de BD&AA poderia promover o seu uso responsável, quedeveria incluir documentação adequada, uma justificação suficiente e outras técnicas explicativas e de monitoramento, incluindoo uso de soluções rastreáveis. A explicação deve ser baseada em uma abordagem baseada no risco.

4 Há a necessidade de modelos precisos e verificações regulares.

4 O uso de soluções de machine learning pode levar a riscos de ICT: segurança de dados, segurança de modelos, qualidade dedados, gestão de mudanças e continuidade e resiliência do negócio.

4 Como resultado da dependência em frameworks de código aberto, ou em ferramentas e sistemas desenvolvidos por terceiros,tanto seus riscos potenciais (falta de controle e conhecimento do terceiro, alta dependência de um fornecedor, risco deconcentração, manutenção de um modelo, etc.) como a responsabilidade que deve ser sempre mantida na instituição, deve seravaliado.

4 Por fim, é enfatizada a importância da qualidade, proteção e segurança dos dados, tanto para propósitos regulatórios (incluindoo cumprimento de leis de proteção de dados) e para assegurar a adequação do modelo.

Principais riscos e orientação proposta

Principais observações, oportunidades e riscos no uso

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

12

Resumo executivo

“Strictly speaking, one immortal monkey would suffice”Jorge Luis Borges

13

específicos, aprimoramento e aprimoramento de técnicas;e até a melhoria dos processos de validação, incluindo ageração de modelos challenger.

Rumo à automação de modelagem

6. No processo de automação do fluxo de trabalho (workflow)de modelagem, existem vários desafios. Entre eles, anecessidade de ter processos que garantam a adequaçãoda carga de dados e aqueles relacionados aodesenvolvimento, validação, implementação emonitoramento dos modelos. A rastreabilidade dosprocessos de construção também deve ser garantida,assim como sua interpretabilidade e governançaadequada, que permitam sua integração na gestão, alémde cumprir as regulamentações existentes.

7. Com relação ao processo de tratamento de dados, 60% dotempo de um cientista de dados é dedicado à limpeza eorganização das informações, com um longo caminho apercorrer em termos de automação desses processos.

8. No fluxo de trabalho de modelagem, é possívelautomatizar esse processo por meio de duas opções, quegeralmente são combinadas: a componentização dosdiferentes processos em elementos segregados e aexecução automática desses componentes,automatizando-os por meio de regras pré-estabelecidas etécnicas estatísticas.

9. A componentização é baseada na separação das tarefas demodelagem em diferentes partes, e sua programação e seudesenvolvimento de forma independente. Cada um dessescomponentes recebe uma determinada entrada e executauma tarefa específica.

10. As vantagens da componentização são a padronização deprocessos, aumentando a qualidade e a eficiência,especializando-se em desenvolvimento, melhorando ausabilidade e promovendo a escalabilidade.

O contexto da automação dos modelos demachine learning

1. A incorporação de técnicas de big data e de advancedanalytics na economia está mudando a maneira como asinformações são usadas. Com base na combinação dediferentes conhecimentos relacionados à exploração dedados e negócios, a capacidade de análise aumentouradicalmente, embora ao mesmo tempo seja o foco depossíveis riscos derivados de erros no seudesenvolvimento ou implementação, uso inadequado ouconfiança excessiva em seu aplicativo.

2. Para aproveitar o potencial dessas novas técnicas, asinstituições estão transformando sua maneira de trabalhar.Essas mudanças afetam diretamente o desenvolvimento ea validação dos modelos, mas também outros processos,como os relacionados a estruturas tecnológicas, a seleção,o treinamento e a retenção de perfis especializados ou, demaneira mais ampla, a cultura do trabalho.

3. Também existem riscos operacionais difíceis de detectar e,em alguns casos, regulamentos relacionados ao uso,qualidade e processos relacionados aos dados, bem comoa aplicação ou interpretabilidade de modelos que geram anecessidade de processos rastreáveis, validações e análisesrecorrentes dos modelos.

4. Nesse contexto, há uma clara tendência em direção àautomação de processos relacionados à aplicação detécnicas avançadas de análise, cujo objetivo não é apenasautomatizar as tarefas em que os processos heurísticos sãolimitados e facilmente automatizáveis, mas tambémpermitir uma geração mais automática, ordenada erastreável de modelos.

5. Com tudo isso, é favorecida a redução do tempo dedicadoa tarefas complementares e repetitivas; acesso a essastécnicas por equipes não especializadas; o desempenho,rastreabilidade e comparabilidade dos modelos;reutilização de desenvolvimentos de código em projetos

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

14

11. Por outro lado, a automação do processo de construção domodelo é baseada no uso de critérios automáticos paraselecionar seus atributos, para que o procedimento possaser replicado e auditado. Ele também garante que aseleção final tenha sido feita através de um processo quegarante o poder preditivo ideal, dadas as restrições.

12. As vantagens da automação de pesquisa são a otimizaçãodo processo de seleção de hiperparâmetros, ageneralização de problemas de modelagem, a adaptaçãodos espaços de pesquisa de parâmetros para cadaproblema e a possibilidade de experimentação fora doslimites habituais.

Estruturas de automação para processos demachine learning

13. Na prática, a maneira de automatizar esses processos foibaseada em (i) automatizar a maioria dos aspectosrelacionados à análise e tratamento prévio dos dados,incluindo a transformação de variáveis e sua pré-seleção, (ii)gerar um espaço de busca para possíveis modelos eparâmetros, bem como um processo de desenvolvimento eseleção de modelos que evite tanto o overfitting19 quanto ounderfitting20 e (iii) automatizar a aplicação de técnicas deinterpretabilidade.

14. Há uma grande variedade de opções para colocar essessistemas em produção, coletados em abordagens baseadasem modelo (model-based schemes) e em abordagensorientadas a dados (data-driven approaches).

15. Os processos para gerar e avaliar modelos sãofundamentalmente baseados em dois componentes: ootimizador e o avaliador.

16. O otimizador gera e atualiza combinações de parâmetrosdentro do limite de possibilidades definidas de acordo como modelo e os dados utilizados. Posteriormente, o avaliadoré responsável por medir o desempenho das opçõespropostas pelo otimizador e pode influenciar a estratégiade busca com base nos resultados.

17. O otimizador usa várias técnicas para encontrar a melhorconfiguração. Essas técnicas podem ser classificadas comosimples (como grid search, random search, algoritmosevolutivos ou otimização bayesiana) ou com base naexperiência (como meta-learning ou transfer learning).

18. O avaliador é responsável por verificar se a configuraçãofornecida pelo otimizador é ideal. Também existemdiferentes abordagens de otimização, como (i) early stop, naqual o avaliador para de avaliar se o desempenho é muitobaixo nas primeiras iterações, (ii) reutilização, com base nouso das configurações usadas no treinamento anterior ou(iii) o uso de modelos substitutos na avaliação.

19. Nesse tipo de sistema, os desafios existentes são a inclusãode conhecimento anterior, como conhecimento denegócios ou critérios de especialistas, bem como odesenvolvimento de construção de sistemas que cubramtodo o processo de construção de modelo.

20. Uma alternativa ao uso de um sistema baseado na interaçãode um otimizador e um avaliador é a busca de arquiteturasneurais (NAS). Essa técnica, utilizada na modelagem delinguagem ou classificação de imagens, executasimultaneamente as três tarefas necessárias para aautomação: a determinação do espaço de busca, aestratégia de busca nesse espaço e a estimativa dosmodelos obtidos em cada estimativa.

21. Nesta abordagem, embora o desempenho seja alto, é maisdifícil explicar por que determinadas configurações sãoatingidas e se elas servem para estender seu uso a outrostipos de problemas.

22. Atualmente, e apesar de ainda haver muito espaço paramelhorias, os sistemas de AutoML alcançaram um estágiode desenvolvimento que pode competir e derrotarespecialistas humanos em machine learning, configurando-se como uma ferramenta fundamental que pode modificaro tipo de trabalhos desenvolvidos.

19Característica de um modelo que ocorre quando ele é ajustado muito próximoda amostra de treinamento, para que ele não atinja resultados satisfatórios emamostras diferentes desta.

20Característica de um modelo que ocorre quando não foi ajustadosuficientemente para a amostra de treinamento, para que ele não atinjaresultados satisfatórios em amostras diferentes desta.

15

Reflexões Finais

27. Atualmente, a configuração dos modelos de machinelearning depende significativamente de ajustes a priori emanuais, o que pode levar a um nível abaixo do ideal,como consequência tanto do overfitting quanto dounderfitting, dependendo do tamanho do dataset e dastécnicas utilizadas. Em algumas técnicas, o overfitting demodelos ainda é comum, o que parece indicar que háespaço para melhorias na geração de sistemas de AutoMLem casos específicos.

28. Embora as abordagens de AutoML tenham atingido umalto nível de desenvolvimento, ainda existem limitaçõesrelacionadas ao fato de o pipeline não ser totalmenteautomatizado ou à ausência ou escassez de objetificaçãoem algumas das decisões e no espaço de busca.

29. Outro desafio é permitir que perfis de não especialistasacessem os ambientes de AutoML, para que eles possaminteragir diretamente com esses métodos e sistemas, paraque a intuição do negócio possa ser incorporada ou ainterpretabilidade dos modelos possa ser avaliadadiretamente. Finalmente, e no que diz respeito àinterpretabilidade, essa continua sendo uma das questõesem aberto nos sistemas de AutoML.

30. Em termos de avanços recentes, estes são mais comuns naotimização da feature engineering, bem como na seleçãode modelos, em detrimento do processamento oupreparação dos dados.

31. Por fim, espera-se que os sistemas de AutoML sejamconfigurados como uma ferramenta fundamental, quemodifique o trabalho realizado pelos data scientists, paraque eles se concentrem nas análises anteriores ousubsequentes do desenvolvimento de modelos, nageração de componentes e sistemas de AutoML, bemcomo na resolução de problemas específicos em que umsistema de AutoML não alcança bons resultados.

23. Os desafios pendentes, tanto para sistemas baseados naotimização de hiperparâmetros quanto para métodos NAS,referem-se a questões relacionadas à interpretabilidade,reprodutibilidade, bem como à reutilização nasconfigurações de exercícios anteriores e para facilitar umamelhor interação com o usuário.

Campeonatos de AutoML: Uma ferramenta deexploração de abordagem de AutoML

24. Para aprofundar o entendimento e a implementação dasabordagens de AutoML, foram criados e realizadoscampeonatos que confrontam metodologias. Um exemplodestes campeonatos é discutido no capítulo“Campeonatos de AutoML: uma ferramenta de exploraçãode enfoques de AutoML”.

25. No caso do campeonato de AutoML realizado pelaManagement Solutions, os participantes adotaramabordagens semelhantes às discutidas acima, usandoabordagens de grid, random search, algoritmos genéticosou pesquisas bayesianas para realizar a geração demodelos. Técnicas de cross validation foram usadas paraavaliar a configuração.

26. A partir deste exercício, algumas conclusões úteis foramtiradas: i) o processamento de dados foi bastantehomogêneo, mostrando que existem várias técnicaspadronizadas no setor, ii) a redução da dimensionalidadefoi realizada pela maioria dos Os participantes, devido àgrande redução no custo computacional que isso implica,iii) os sistemas de AutoML melhoram, otimizando todo opipeline, usando modelos de stacking ou tarefas paralelasem vários núcleos.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

16

Rumo à automação da modelagem

“And if you play it for a hundred years, or a thousand years or a hundred thousand, the law of chances tells us that a poem will probably come out. And if you play it

forever, every possible poem and every possible story will have to come out”

Michael Ende21

17

O desenvolvimento e implementação no gerenciamento demodelos de machine learning gera um conjunto de benefícios,que são consequência tanto da melhoria dos processos detomada de decisão quanto da automação de tarefas nodesenvolvimento de modelos. Esses benefícios se materializam,por exemplo, através de uma previsão mais precisa dademanda, em melhorias no gerenciamento de estoque, emestratégias de pricing, em aumento da fidelidade do cliente ouem melhorias na eficiência e na redução de custos de produção,entre outros. Isso, por sua vez, implica melhores resultados nodesenvolvimento de produtos ou na prestação de serviços, emuma distribuição mais eficiente de recursos ou em um melhorposicionamento no mercado, podendo gerar vantagenscompetitivas sobre os concorrentes que utilizam menos essastécnicas.

No entanto, no processo de construção de modelos, tambémexistem vários desafios relacionados ao desenvolvimento eimplementação desses novos métodos:

4 Por um lado, em muitas ocasiões, os modelos de machinelearning exigem grandes quantidades de dados para evitaro overfitting, o que implica a necessidade de investir naobtenção, ingestão, armazenamento e gerenciamento defontes de dados e arquiteturas tecnológicas, com soluçõesin-house ou cloud para garantir a disponibilidade e aqualidade dos dados utilizados.

4 Por outro lado, é necessário investir no desenvolvimentodos modelos, sua validação, implementação nos processosde gestão e monitoramento e manutenção dos algoritmos .

4 Da mesma forma, a rastreabilidade dos processos deconstrução deve ser considerada, além de garantir ainterpretabilidade dos algoritmos e os resultados obtidos,uma vez que decisões baseadas, ainda que parcialmente,em algoritmos devem ser apoiadas por esse conhecimento.

4 Todas as opções acima requerem governança adequada, oque garante a consideração de elementos gerenciais eéticos no uso de modelos e requisitos regulatórios. Esses

impactos são ainda maiores para entidades que atuam emsetores regulados, uma vez que existem limitações naimplementação e no uso desses modelos paradeterminados fins.

4 Por fim, para garantir o cumprimento do exposto, énecessário ter perfis especializados, seja através dacontratação direta de data scientists e desenvolvedores dedados, seja terceirizando o processo com empresasespecializadas, além de transformar a estruturaorganizacional e adaptá-la de acordo com necessidades dedesenvolvimento de modelos, incluindo novas formas detrabalhar (por exemplo, através de organizações Agile22).

Esses desafios motivaram o surgimento e o desenvolvimento desistemas de AutoML, pois seu uso pode responder àsdificuldades colocadas, tirar proveito dos benefícios daautomação e contribuir para a democratização dos processosde modelagem, facilitando o uso por usuários não especialistas.

Noções básicas de automação

O princípio do no free lunch23 sugere que não existe um modelocujo desempenho seja sempre melhor que todos os outros, demodo que, dependendo do conjunto de dados analisados, otipo de modelo que melhor os prevê ou explica pode serdiferente. Estendendo essa ideia ao campo do machine learning,esse princípio pode ser interpretado como a inexistência deestimadores ou combinações de configurações,hiperparâmetros ou arquiteturas de rede sempre melhores doque outras alternativas. Embora existam estudos acadêmicos aolidar com problemas específicos que mostram que a seleção de

21Michael Ende, “A história sem fim” (1979). Escritor alemão do século XX, maisconhecido por suas obras de ficção infantis.

22Os detalhes da transformação para organizações agile foram amplamentedescritos na publicação “De projetos Agile, a organizações Agile”, ManagementSolutions, 2019.

23Wolpert & Macready, 1997.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

1818

problema, é possível desenvolver técnicas para obter aautomação de várias tarefas. Entre os principais objetivos alvospor essa automação estão a redução de custos e possíveis errosoperacionais derivados do desenvolvimento end-to-end paracada problema de machine learning, além de melhorar aeficiência do processo de modelagem.

Três das causas que geram a necessidade de investir emautomação são as seguintes:

4 Redundância de desenvolvimento: algumas tarefas efunções programáveis para gerar o processo demodelagem podem ter sido desenvolvidas em outrosprocessos anteriores, internamente por equipesespecializadas da empresa ou pela comunidade datascience.

4 Existência de erros: o desenvolvimento de um novocódigo pode acarretar uma maior probabilidade de contererros; portanto, é necessário realizar testes e processos detestes, o que implica maior esforço de tempo e recursos.

4 Necessidade de procurar com eficiência estratégias queexcluam explicitamente combinações de configurações eintervalos de hiperparâmetros considerados inadequadosou que possam levar a erros de implementação25.

valores para hiperparâmetros em faixas reduzidas pode garantirmodelos ótimos24, essa ideia não pode ser extrapolada paratodos os problemas possíveis. Essa situação leva à necessidadede encontrar métodos para garantir que um algoritmo demachine learning execute uma pesquisa adequada por possíveisconfigurações para maximizar seu desempenho.

Dado um problema que você deseja resolver usando técnicasde machine learning, a maneira de resolvê-lo é baseada noestabelecimento das diferentes opções de parâmetros econfigurações que podem ser escolhidas ao longo do processo.Para isso, primeiro é necessário identificar as características dosdados a serem processados, bem como as técnicas utilizadas.

Posteriormente, deve ser estabelecida a abordagem demodelagem a ser usada, bem como as métricas com as quais osmodelos serão selecionados e, finalmente, as restrições quepossam existir com base no conhecimento do problema sãoincorporadas (por exemplo, o sinal de variáveis). Dessa forma, éconfigurado um workflow de modelagem que servirá para obterum grupo de modelos ordenados de acordo com seudesempenho. Nesse fluxo, é possível realizar a automação combase na componentização, ou seja, a separação dos diferentesprocessos de construção do modelo em componentes quepodem ser realizados de maneira modular.

Componentização e otimização do workflowde modelagem

No processo de modelagem, há um amplo conjunto de opçõesem cada uma das fases que compõem o workflow dedesenvolvimento, resultado da combinação das diferentestécnicas usadas em cada seção. Embora a seleção dos diferentesparâmetros e a configuração das técnicas (quais aplicar, em queordem, em que parte do dataset, etc.) variem dependendo do

24Ver, por ejemplo, Segal, 2004.25No entanto, embora a generalização do problema ajude a obter uma resoluçãoeficiente, em certos casos é necessário estabelecer mecanismos para que omodelador possa testar determinadas configurações ou definições dehiperparâmetros fora do espaço de busca.

Duas das maneiras de aumentar a automação do processo demodelagem são a componentização das tarefas e a automaçãoda busca de configurações e hiperparâmetros ideais.

Componentização do workflow

Em primeiro lugar, a segregação das tarefas de modelagem emdiferentes partes, e sua programação e desenvolvimentoindependentemente, permitem que o modelador useautomaticamente cada parte, na forma de chamadas para ocódigo desenvolvido, adaptando apenas os parâmetros econfigurações, dentro das opções possíveis, para resolver umatarefa específica. Esse tratamento, que é análogo ao aplicado nodesenvolvimento de bibliotecas em ambientes de programaçãoou à programação orientada a objetos, permite que a tarefa dedesenvolver o código, bem como a linguagem de programaçãoespecífica, seja isolada de sua aplicação subsequente. Issopermite um ambiente de modelagem ágil. Cada um dessescomponentes recebe um input específico (geralmente umdataset e um conjunto de parâmetros) e executa uma tarefaespecífica, retornando como saída outro dataset com oresultado da tarefa aplicada.

A componentização dos processos de modelagem gera umconjunto de vantagens sobre o desenvolvimento de umworkflow para cada problema, como as seguinte:

4 Padronização: o desenvolvimento de componentesutilizados na modelagem, o que reduz a frequência de errose melhora a comparabilidade.

4 Melhoria da qualidade: no desenvolvimento doscomponentes, bem como na sua aplicação.

Elementos de um sistemaautomatizado de machine learning

4 Parâmetro: propriedade interna do modelo aprendidodurante o processo de aprendizado, sendo necessário parafazer previsões.

4 Hiperparâmetro: parâmetro que não pode ser obtidodurante o processo e deve ser definido com antecedência.Os valores que os hiperparâmetros devem adotar pararesolver um problema específico são desconhecidos. Onúmero de árvores em uma Random Forest ou o número declusters em um K-Means são exemplos de hiperparâmetros.

4 Configuração: as possíveis combinações de valores que oshiperparâmetros podem assumir.

4 Espaço de configuração / pesquisa: conjunto de todas asconfigurações possíveis de hiperparâmetros nas quais aconfiguração ideal é pesquisada para obter a melhorprevisão possível.

4 Arquitetura de rede neural: refere-se em conjunto aonúmero de camadas e neurônios presentes em cada umadelas, bem como à maneira como elas estão conectadas.Em alguns casos, a maneira como eles são treinadostambém está incluída no conceito.

4 Função de custo: função cujos mínimos correspondem àsconfigurações ideais. Procurar a configuração ideal éequivalente a encontrar os mínimos da função de custo.Algumas funções de custo podem ser o erro quadráticomédio ou a entropia cruzada, entre outras opções.

19

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

20

4 Maior eficiência: na aplicação dos componentes, na revisãopelas áreas internas de validação e auditoria, bem como nosprocessos de aprovação.

4 Especialização: no desenvolvimento de cada componentepor especialistas em cada disciplina.

4 Usabilidade aprimorada: em seu aplicativo, pois essespacotes podem ser usados por diferentes tipos de usuários,incluindo aqueles que não possuem conhecimento deprogramação.

4 Escalabilidade: em desenvolvimento, que pode serbaseada em um host interno ou em cloud, tanto para cadasubsidiária da empresa quanto por áreas geográficas.

Automatizando a busca por configurações ideais

Depois que as diferentes etapas do processo foram separadasem componentes, uma seleção deve ser feita dos melhoresparâmetros que configuram o processo ideal para realizar amodelagem. Uma abordagem que permite abordar essa seleçãoé a automação de sua pesquisa, definindo diferentes estratégiasque abordam esse problema de um ponto de vista sistemático eordenado e deixando um rastro do processo que gera cadacombinação possível, mas que, por sua vez, permite avaliar oimpacto das decisões tomadas em cada etapa do processo nodesempenho do modelo final.

No entanto, durante o processo de automação, a avaliação detodo o conjunto de opções é frequentemente muito complexa egeralmente é condicionada por um tempo de computação

limitado, tanto pelo número possível de opções e combinações,quanto à complexidade do modelo e pela quantidade de dadosanalisados. Apesar do exposto, a automação na busca deconfigurações, embora limitada, gera um conjunto devantagens sobre a busca manual, como:

4 Otimização de busca: pois permite gerar um conjunto decombinações que serão avaliadas e selecionar as que geramo melhor desempenho.

4 Generalização dos problemas: pois permite gerar amplosespaços de pesquisa quando não há informações anterioresque permitam antecipar quais subespaços de pesquisadevem ter maior probabilidade de gerar modelos comdesempenho superior.

4 Adaptação do espaço de busca: para os problemas emque há alguma informação sobre qual deve ser o espaçoideal de pesquisa; é fácil adaptar isso para melhorar osresultados com base em restrições computacionais.

4 Experimentação: pois permite avaliar o impacto dasmicrodecisões em cada um dos componentes incluídos naautomação no desempenho final. Por exemplo, permiteavaliar a alteração em vários parâmetros do modelo, como aprofundidade máxima das árvores em um algoritmo derandom forest.

Nesse sentido, um sistema de AutoML pode ser definido comoum método que permite a construção de modelos de machinelearning sem a necessidade de intervenção humana e sujeito acertas limitações computacionais26. O papel da pessoa que

26Yao, e outros, 2018.

21

27Um detalhe dessas estruturas de gerenciamento pode ser encontradona publicação “Model Risk Management: Aspectos quantitativos equalitativos da gestão do risco de modelo”, Management Solutions,2014.

28Um detalhe dessas técnicas pode ser encontrado na publicaçãoCátedra iDanae “Interpretabilidad de los modelos de InteligenciaArtificial", UPM y Management Solutions, 2019.

Workflow de modelagem

A definição de um workflow depende do problema a serresolvido e do tipo e qualidade dos dados utilizados. Existemdiferentes metodologias para o desenvolvimento de projetos demachine learning, como KDD (Knowledge Discovery in Databases),CRISP-DM (Cross-Reference Industry Standard Process for DataMining) ou SEMMA (Sample, Explore, Modify, Model and Assess),entre outras. Embora existam diferenças entre eles, existemelementos comuns em todos eles, que são os eixosfundamentais para a construção de modelos de machinelearning. O processo de modelagem está resumido abaixo:

Identificação do problema e planejamento: primeiro, osobjetivos de negócios devem ser determinados e o problema aser resolvido deve ser entendido com um algoritmo de machinelearning, bem como os KPIs que servirão para medir o sucessodo projeto. Com isso, o planejamento do projeto é realizado.

Preparação de dados: esta fase do processo refere-se a umtratamento prévio dos dados e inclui as fases de coleta(obtenção, rotulagem e classificação dos dados coletados eaprimoramento dos dados existentes), limpeza e preparação(tratamento dos dados para torná-los utilizáveis), análise(detecção de padrões e desenvolvimento de hipóteses),visualização (representação gráfica para identificar tendências,outliers ou padrões), integração (combinação de datasetsdiferentes para ter uma visão unificada) e feature engineering(conversão de dados brutos em dados com a forma desejada,geração de novas variáveis e seleção de variáveis a seremincluídas no modelo).

Desenvolvimento do modelo: esta fase do processo refere-se àseleção do tipo de modelo utilizado, seu treinamento, avaliaçãode desempenho e critérios estatísticos, bem como o ajuste deparâmetros, e inclui a escolha (avaliação da modelos diferentesdisponíveis para encontrar o que melhor se encaixa),treinamento (avaliação das diferentes configurações paraconverter as informações fornecidas em padrões erelacionamentos), avaliação (análise do desempenho domodelo por métricas usando dados que não foram usadosdurante o treinamento) e ajuste de parâmetros (revisão dapossibilidade de melhorar a previsão do modelo reajustando oshiperparâmetros).

Avaliação, validação e aprovação: avaliar se os objetivos denegócios estabelecidos no início foram atingidos e se asexpectativas iniciais foram atendidas. Da mesma forma,dependendo da governança definida e da classificação dosmodelos (tiering) estabelecidos na estrutura de gerenciamentode risco do modelo da instituição27, pode haver fases adicionaisnas quais as equipes de validação e auditoria, independentesdos desenvolvedores, executam uma revisão dos diferentesaspectos do modelo (dados utilizados, metodologia, resultados,documentação, etc.). Essa validação pode incluir técnicas deinterpretabilidade28, a fim de entender os relacionamentossubjacentes que explicam o resultado do modelo. Da mesmaforma, os processos de aprovação estabelecidos nas estruturasde governança da instituição devem ser realizados. No caso demodelos regulatórios, um processo de aprovação final deve serrealizado pelo supervisor.

Implantação e integração no gerenciamento: finalmente,passadas as fases anteriores, o modelo é integrado aogerenciamento, através da implementação de arquiteturastecnológicas, do início da produção e dos processos demonitoramento e monitoramento periódicos dos resultados.

desenvolve um modelo em um sistema de AutoML se concentrana escolha dos dados, na seleção dos critérios de validação paraos dados e na escolha das métricas a serem usadas para estimare selecionar os modelos, em vez de gastar tempo noprocessamento de dados e na otimização do hiperparâmetroiterativamente com base nos resultados do modelo. Tudo issodetermina o espaço de busca, para que seja gerado umconjunto de opções que o algoritmo avalia, sujeito às condiçõesestabelecidas. Finalmente, como resultado desse processo, éobtido um conjunto de modelos ordenados de acordo com seudesempenho.

A seção a seguir abordará a abordagem de AutoML e seuimpacto na solução dos desafios descritos nesta seção e natransformação que ela está assumindo na maneira de modelare, em geral, de todo o workflow de um processo demachinelearning.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

22

Estruturas de automação de processos de machinelearning

“We've heard that a million monkeys at a million keyboards could produce the complete works of Shakespeare; now, thanks to the Internet,

we know that it is not true “

Robert Wilensky29

23

Uma vez discutidos os motivos que levam a componentização eautomação dos workflows e algoritmos de machine learning,surge a principal questão sobre a melhor abordagem pararealizá-lo. Especificamente, quando se trata de automatizar oprocesso de desenvolvimento de modelos de machine learning,é necessário responder às seguintes perguntas:

4 Quais são as etapas preliminares necessárias para prepararos dados antes do processo de modelagem?

4 Como os algoritmos mais adequados para o conjunto dedados a serem avaliados devem ser selecionados?

4 Como deve ser determinado o espaço de busca parahiperparâmetros e possíveis configurações?

4 Deve-se seguir uma abordagem para reduzir o tamanho doespaço de busca?

Nas abordagens tradicionais, a maneira de responder a essasperguntas tem sido através da seleção manual desses critériospor um analista, com base em configurações a priori e quefuncionaram no passado, bem como por tentativa e erro queinclui algum componente da aleatoriedade.

Na prática, tanto no desenvolvimento manual quanto noautomático, o problema de seleção de parâmetros obedece aosseguintes desafios:

4 Uma abordagem maximalista baseada na revisão exaustivade todas as combinações possíveis é imensurável no tempoe nos requisitos de recursos computacionais. Mesmo paradatasets relativamente pequenos ou incorporandorestrições de pesquisa como resultado da experiência, essatarefa ainda é inacessível, o que implica a obrigação derenunciar à otimização em algumas partes do processo.

4 As configurações usadas são altamente dependentes dosapriorismos dos analistas e dos ajustes manuais, tornandonecessário programar explicitamente uma grandequantidade de código. Portanto, a escolha e o desempenhode muitos dos métodos de machine learning usadosdependem de um grande número de decisões sobre seu

design, feitas manualmente ou com base em hipótesesanteriores.

4 Se se trata de gerar uma função de avaliação que permitaconhecer a relação entre as alterações nos hiperparâmetrose o desempenho do modelo, a geração disso pode ser muitocara e, às vezes, essa relação não é clara ou não permiteinferência sobre os resultados obtidos.

4 Essa restrição não é apenas interpretada globalmente, umavez que o impacto na função de perda nas alterações noshiperparâmetros não pode ser adequadamente inferido,mesmo localmente.

4 Não pode ser otimizado diretamente quando os datasetssão grandes, pois os tempos de execução são longos.

Portanto, embora haja incentivos para realizar procedimentosde busca sistemática e automática; a configuração dessessistemas envolve resolver como avaliar as possíveisconfigurações, dadas as restrições existentes.

Considerando o exposto acima, uma visão que geralmentesustenta o desenvolvimento dos componentes de um sistemade AutoML se baseia em:

1. Automatizar a maioria dos aspectos relacionados à análise epré-tratamento dos dados, gerando sistemas que permitemque os dados sejam processados e as variáveis sejamtransformadas usando as técnicas mais comuns notratamento manual.

29Robert Wilensky durante um discurso em 1996. Professor da Escola deInformação da Universidade da Califórnia em Berkeley, seu principal campo depesquisa era a inteligência artificial.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

24

4 A explicação dos padrões identificados nos dados para ousuário, para que um humano possa entendê-los.

O objetivo do sistema é realizar todos esses processos demaneira eficiente e robusta, levando em consideraçãorestrições computacionais e tempos de execução. Atualmente,existem muitas soluções propostas, incluindo estruturas quepermitem o uso centralizado, distribuído ou na nuvem. Emborao grau de desenvolvimento dessas abordagens possa competire derrotar especialistas humanos em machine learning, ainda hámuitas questões que precisam ser resolvidas para que sejamaplicadas corretamente.

Uma framework geral que engloba todas as possíveis partespara automatizar estão indicadas na Figura 330. Este frameworkbaseia-se na interação de dois componentes fundamentais: umotimizador, que funciona em um espaço de busca definido, eum avaliador.

Por um lado, o otimizador gera e atualiza as configuraçõesusando um espaço de busca determinado de acordo com omodelo escolhido e o tratamento dos dados que foramexecutados anteriormente. Posteriormente, o avaliador éresponsável por medir o desempenho das configuraçõespropostas pelo otimizador. Dependendo da abordagemselecionada, o avaliador pode afetar a estratégia de pesquisa dootimizador.

Em geral, os componentes que são automatizados no fluxo sãoalgumas fases do processamento de dados (pré-processamento, feature enginerring, tratamento de missings,dimensionamento etc.), modelagem (seleção de algoritmos,

2. Gerar um espaço de busca para possíveis modelos eparâmetros em que um conjunto de opções é configuradopara sua geração e, através de um critério que percorre esseespaço, os melhores modelos podem ser obtidos,comparados e selecionados.

3. Por fim, automatizar as técnicas de interpretabilidade,embora separadamente do modelo de otimização anterior,para gerar relatórios que sejam mais compreensíveis porusuários diferentes.

Por fim, o objetivo é obter um sistema que, automaticamente,permita encontrar padrões nos dados, selecionando umamaneira de responder a uma pergunta do usuário e capaz deexplicar adequadamente os resultados. Com isso, as tarefas commaior complexidade e menos relacionadas ao negócio sãosubstituídas, o acesso a perfis de especialistas no negócio épermitido com um treinamento menos aprofundado nas áreasde data science, realizando todos os processos com eficiência erobustez e tendo levado em consideração as restrições detempo de computação e execução. Portanto, idealmente, osistema de AutoML deve permitir automatizar:

4 O processo de processamento de dados quando eles têmmissing, outliers, são mal categorizados ou há erros neles.

4 A possibilidade de combinar, reduzir, transformar, criar oueliminar variáveis com base em critérios estatísticos.

4 O processo de seleção de variáveis.

4 Seleção de um modelo que tenta evitar o overfitting (ajusteexcessivo nos dados de treinamento, distorção da previsãode dados desconhecidos) e underfitting (o conceito opostoao ajuste excessivo: quando um modelo não encaixa dadossuficientes, como prever corretamente). 30Yao, e outros, 2018.

25

Componentes de um sistema de AutoML

De acordo com o acima, os diferentes componentes de umsistema de AutoML podem ser separados em diferentescomponentes, de modo que, como pode ser visto na Figura 4, aanatomia básica contém os seguintes módulos:

4 Resumo: fase exploratória do conjunto de dados quedefinirá a maior parte do conjunto de opções que oprocesso de AutoML terá que enfrentar.

4 Pré-processamento: estágio de limpeza e transformaçãode dados brutos antes do processamento e análise.

4 Feature engineering: processo no qual o conhecimentofornecido pelos dados é usado para gerar variáveis quepermitem um melhor desempenho dos algoritmos demachine learning.

4 Geração de modelo: processo de busca porhiperparâmetro e otimização de modelo

4 Avaliação de modelo: conjunto de métricas que permitemavaliar a precisão dos modelos obtidos.

4 Interpretabilidade: combinação de técnicas ou modelosque permitem a interpretação do resultado obtido.

otimização de hiperparâmetros etc.) e, finalmente, a avaliaçãodos resultados. Algumas partes do processamento de dadosgeralmente são deixadas de fora do processo de automação,pois dependem mais da percepção dos negócios. Da mesmaforma, a interpretabilidade do modelo não é avaliadaautomaticamente, embora geralmente sejam incluídasferramentas que ajudam a entender os resultados.

Embora exista uma grande variedade de opções, é necessáriogerar um sistema de AutoML no qual o método, descrito comouma estrutura teórica, se torne um conjunto de tarefas (naforma de programas) relacionadas entre si (separando o tarefasem componentes ou através de um design end-tot-end). Dessaforma, esse sistema consiste em um workflow que automatiza odesign do fluxo de trabalho de modelagem.

Em geral, existem abordagens mistas no mercado, nas quaisalgumas fases são separadas (como preparação de dados etratamento variável, além de explicações explicativas pós-modelo), enquanto os componentes feature engineering ,seleção de algoritmo e avaliação de modelo são incluídas emum modelo de otimização.

Por sua vez, as abordagens de modelagem no design de umfluxo desse tipo são classificadas em abordagens que enfatizamo processo de modelagem (model-based schemes) e aquelas queo fazem sobre dados (data-driven approaches). No primeiro, amodelagem requer conhecimento a priori do componente denegócios e da estatística-matemática que suporta o modelo. Nocaso da segunda abordagem, a alternativa é processar asinformações de dados diretamente, sem particionar porcomponente no processo de modelagem.

Em geral, existem abordagens mistas no mercado, nas quaisalgumas fases são separadas (como preparação de dados etratamento variável, além de explicações explicativas pós-modelo), enquanto os componentes de feature engineering,seleção de algoritmo e avaliação de modelo são incluídas emum modelo de otimização.

Figura 3: framework geral para un sistema de AutoML.

Fonte: Yao, e outros, 2018.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

26

Otimização de hiperparâmetros

O otimizador usa várias técnicas para encontrar a melhorconfiguração dos hiperparâmetros, para que o desempenho domodelo seja o melhor possível. Do ponto de vista técnico, afunção do otimizador é procurar configurações ideais no espaçode busca, para encontrar o mínimo global ou, pelo menos, ummínimo local, da função de custo. Uma distinção pode ser feitaentre técnicas simples (como grid search, random search,algoritmos evolutivos ou otimização bayesiana) ou com base naexperiência (como meta-learning ou transfer learning).

O avaliador, por sua vez, utiliza várias técnicas para estimar odesempenho das configurações propostas pelo otimizador,sendo a mais simples a formação do modelo. Quando isso émuito caro computacionalmente, pode ser necessário usarsubamostras ou incluir um early stop.

Técnicas para o otimizador: dos métodos greedy aometa-learning

Uma vez definido o espaço de busca, é necessário estabelecerum otimizador que permita buscas de configurações noespaço. Duas das abordagens mais comuns são o Grid Search eo Random Search, nas quais nenhuma suposição é feita sobre oespaço de busca.

Uma busca Grid, ou de força bruta, estabelece uma grade noespaço de busca e avalia a combinação dada por cada ponto darede. Esse tipo de busca, que foi aplicada pela primeira vez comuma abordagem de AutoML em 1990, não garante que umaboa configuração seja alcançada (ou seja, um mínimo local) e

31He, Zhao, & Chu, 2019.

Figura 4: diferentes componentes de um sistema de AutoML31.

Resumo Pré-processamento

Interpretabilidade

Featureengineering

Geração domodelo

Avaliação

4Definição de

objetivos e tarefas.

4Análise estatística.

4Limpeza e

tratamento de

dados.

4Exploratory Data

Analysis (EDA).

4Técnicas de

balanceamento.

4Seleção de variáveis.

4Transformação,

criação e eliminação

de variáveis.

4Construção de

modelos

4Busca e otimização

de hiperparâmetros.

4Seleção do

modelo

4Early stop

4Low fidelity.

Métodos gráficos Local InterpretableModel (LIME) & friends

Modelos subordinados

Fonte: He, Zhao, & Chu, 2019.

27

pode ser computacionalmente cara para um grande número dehiperparâmetros. A partir dessa abordagem, foramdesenvolvidos outros que melhoram o processo com base nouso de uma grade inicial para explorar todas as regiões doespaço e, posteriormente, uma grade mais fina nas regiões commelhor comportamento, podendo iterar o processo até que sejaencontrado um mínimo local. No entanto, embora os resultadossejam aprimorados, o custo computacional desse tipo detécnica permanece alto.

Uma das primeiras soluções que aprimora os resultados de umabusca Grid é a Random Search, que se baseia na seleção de umponto no espaço de busca aleatoriamente. Isso permite quesejam feitas buscas em áreas do espaço que não são igualmentedistribuídas e, portanto, podem avaliar áreas com maiordesempenho (consulte a figura 5). Essa técnica ainda écomputacionalmente cara, embora, como solução, atenda àcondição de convergência: quanto maior o tempo de busca,maior a probabilidade de encontrar o conjunto ideal dehiperparâmetros.

Algumas abordagens mais elaboradas de algoritmos incluem,por exemplo, algoritmos evolutivos (incluindo algoritmosgenéticos). Esses algoritmos criam, em uma primeira fase, umapopulação inicial de configurações aleatoriamente. Eles entãoavaliam o desempenho de todos os indivíduos da população eselecionam os melhores desempenhos para criar uma novageração com base na primeira. Além disso, é possível adicionarmutações às novas gerações, para que elas sejam diferentes dageração anterior. Esse tipo de algoritmo permite otimizar umaampla variedade de problemas, mas ainda não é muito eficienteem termos de custo computacional, pois ainda é necessárioavaliar todos os indivíduos de todas as gerações.

Tanto os métodos de busca por grade ou busca aleatória comoos algoritmos evolutivos têm o risco de que possam investigarrepetidamente regiões com desempenho muito baixo doespaço de configuração sem poder incluir adequadamente umacondição na programação do algoritmo. A otimizaçãobayesiana (utilizada ao menos desde 200533) resolve esse

problema criando um modelo probabilístico da função de custo,através do qual ele seleciona as melhores configuraçõespossíveis do hiperparâmetros para avaliá-los e estimar averdadeira função do custo. A otimização bayesiana podeatualizar o modelo iterativamente, rastreando os resultados deavaliações anteriores. Isso permite atualizar o modeloprobabilístico em cada cálculo.

Há casos em que os processos acima não podem ser aplicados,por exemplo, devido à falta de dados. Em outros casos, onde osconjuntos de dados podem ser semelhantes aos outros

32Michie, Spiegelhalter, Taylor, & Campbell, 1994.33Fröhlich & Zell, 2005.34Bergstra and Bengio, 2012.

Figura 5: comparação de buscas grid e random 34.

Fonte: Bergstra and Bengio, 2012.

Busca em grade

Busca aleatória

Parâmetro

irrelevante

Parâmetro

irrelevante

Parâmetro relevante

Parâmetro relevante

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

28

estudados anteriormente, esse conhecimento não seráaplicado. Com esses objetivos, foi desenvolvida a abordagem demeta-aprendizagem, também conhecida como “aprender aaprender”, que consiste em projetar modelos de machinelearning capazes de imitar o comportamento humano,aprendendo novos conceitos e habilidades rapidamente,usando um número reduzido de amostras. Ou seja, o objetivo éprojetar modelos que possam adquirir novas habilidades e quepossam se adaptar rapidamente a novos ambientes em poucoscasos.

Técnicas para o avaliador

A maneira mais simples de avaliar as configurações fornecidaspelo otimizador é a avaliação direta dos dados de treinamento eteste. Devido ao grande número de configurações que o

otimizador deve fornecer ao avaliador em um processo deAutoML, esse método pode consumir muito tempo ou sercomputacionalmente caro. É por isso que existem certasabordagens para acelerar o processo de avaliação, embora issogeralmente signifique uma perda de capacidade preditiva nosmodelos obtidos. Essas técnicas incluem a avaliação desubconjuntos de dados de treinamento; processos de paradaantecipada, nos quais o avaliador para de avaliar se odesempenho é muito baixo nas primeiras iterações; reutilizaçãode parâmetros treinados em modelos anteriores para inicializaro novo modelo; ou, finalmente, o uso de modelos substitutospara prever o desempenho, geralmente usando a experiênciade avaliações anteriores.

Neural Architecture Search (NAS)

Devido ao aumento da aplicação de técnicas de aprendizadoprofundo em aspectos como reconhecimento de imagem,reconhecimento de voz e tradução automática, uma das áreasem que mais interesse foi dedicado à configuração dearquiteturas de redes neurais. De maneira análoga àmencionada anteriormente, essas configurações sãogeralmente estabelecidas manualmente por especialistashumanos, o que acarreta os erros mencionados anteriormente.

Como alternativa, a busca por arquiteturas neurais (NAS)baseia-se no uso de diferentes técnicas para automatizar odesign de redes neurais. Os aspectos sobre os quais existemparâmetros são análogos aos comentados anteriormente:espaço de busca, estratégia de busca e estimativa dedesempenho. Usando essas técnicas, todo o processo édeterminado simultaneamente, conforme indicado na Figura 6.

35Elsken, Metzen, & Hutter, 2019.

Figura 6: esquema conceitual do NAS35.

Fonte: Elsken, Metzen, & Hutter, 2019.

29

Ao implementar um sistema AutoML na prática, é necessário levarem consideração algumas considerações, como o perfil do usuárioque vai usar o sistema ou a profundidade e personalização daanálise necessária. No entanto, é possível incluir essasimplementações em duas abordagens principais:

4 Uma abordagem é projetar um fluxo parcialmente outotalmente editável (figura 7), onde o usuário pode definir ofluxo que o processo de processamento de dados seguirá, bemcomo as técnicas que serão aplicadas em cada fase desseprocesso. Nesse caso, o nível de automação é mais baixo, poissó se aplica à execução dos módulos após a definição de suaordem. Devido a essas características, essa abordagem é maisadequada quando o usuário possui conhecimento técnicoavançado.

4 Uma abordagem alternativa é aplicar a automação de ponta aponta, com um fluxo predefinido (Figura 8). Os dados seguemum processo em que a ordem de cada componente do AutoMLé definida de acordo com o pipeline geral de construção domodelo de aprendizado de máquina. Dessa forma, o usuário

não precisa modificar a ordem de execução dos componentesem desenvolvimento. Isso pode escolher os tipos de técnicasque se aplicam em cada componente, mas sempre seguindo aordem predefinida. Devido a essas características, essaabordagem é mais adequada quando o usuário não possuiconhecimento técnico avançado, o que é comum em perfisfocados nos negócios.

Atualmente, nenhuma das abordagens automatiza a geração denovas variáveis a partir das originais. Os motivos sãocomputacionais (a criação de transformações aleatórias de variáveisgera um custo computacional muito alto) e comerciais (oconhecimento especializado do tipo de problema que está sendotratado nos permite saber qual transformação é a mais apropriada enos permite dar um significado mais adequado ao tempo parainterpretar o resultado).

Abordagem de implementação do AutoML

36A ferramenta de modelagem incorpora um módulo, Model Creator, baseadona automação de ponta-a-ponta, e um módulo alternativo, ModelComponent, que permite a geração de fluxo pelo usuário.

Figura 8: fluxo pré-estabelecido.Figura 7: fluxo parcial ou totalmente editável.

Figura 9: Workflow projetado na ferramenta de modelagem por componentes criada pela Management Solutions36.

Fonte: Management Solutions. Fonte: Management Solutions.

Fonte: Management Solutions.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

30

Embora ao aplicar abordagens de NAS, os elementos doprocesso sejam determinados simultaneamente, geralmentesão necessários pré-processos, como os relacionados àpreparação de dados ou engenharia de recursos, e sua aplicaçãocorreta resulta em melhorias no poder preditivo.

Vários elementos estão incluídos no espaço de busca, como onúmero de camadas do algoritmo, o tipo de operação que cadacamada executa, bem como os hiperparâmetros associados aessas operações (como o número de filtros ou o tamanho dokernel associado), bem como o relacionamento e a hierarquiaexistente entre as diferentes camadas, dependendo doalgoritmo usado. Se você tiver informações a priori sobrepossíveis arquiteturas que normalmente funcionamcorretamente para uma determinada tarefa, poderá reduzir otamanho do espaço, simplificando a busca. Nessa mesma linha,também são usadas abordagens para reduzir o espaço de buscapara estabelecer isso através de blocos de camadas, em vez detoda a arquitetura.

Em relação às estratégias de busca, e como mencionadoanteriormente, existem várias estratégias, incluindo otimizaçãobayesiana, busca aleatória, métodos evolutivos ou com base emexperiências anteriores, como aprendizado por reforço. Naprática, essas técnicas não apresentam melhores resultados doque a busca baseada em buscas aleatórias. No campoacadêmico, um estudo recente37 destaca motivos como o usode espaços de busca restritos por esses algoritmos, bem como adistribuição do peso das diferentes camadas na decisão finalcomo os elementos que limitam os resultados.

Finalmente, em relação às estratégias para otimizar odesempenho do NAS, existem abordagens de "baixa fidelidade",nas quais são utilizados tempos de treinamento mais curtos,

treinamento em subconjuntos de dados ou com menos filtrospor camada, com o problema de uma subestimação dedesempenho. Outras estratégias consistem em extrapolar acurva de aprendizado, usar modelos substitutos para prever odesempenho de novas arquiteturas, inicializar a rede com pesosobtidos em redes previamente treinadas ou usar a teoria dosgrafos.

Embora a busca por arquiteturas neurais tenha atingido umnível de desempenho que possa competir com a configuraçãomanual, as razões pelas quais as arquiteturas selecionadasfuncionam bem não são claras no momento. Da mesma forma,é necessária uma verificação empírica para determinar se osmotivos que fazem uma configuração funcionar podem sergeneralizados para diferentes problemas.

Desafios atuais dos sistemas de AutoML

Atualmente, e apesar de ainda haver espaço para melhorias, ossistemas de AutoML atingiram um estágio de desenvolvimentoque lhes permite competir e até vencer especialistas humanosem aprendizado de máquina, configurando-se como umaferramenta fundamental que modifica o tipo de trabalhorealizado pelos profissionais envolvidos. Desta forma, os datascientists são distribuídos para tarefas mais relacionadas àanálise antes e depois do desenvolvimento dos modelos em si,bem como para a manutenção desses métodos e sistemas.

37Sciuto, 2019.

31

Alguns dos desafios atuais consistem em melhorar o processo,além de incorporar a interpretabilidade e facilitar a interaçãodos especialistas:

4 Atualmente, a maioria das inovações visa à seleção eotimização de modelos, prestando menos atenção aotratamento e preparação de dados. Isso se deve àdificuldade de automatizar alguns processos sem incorrerem um alto custo computacional.

4 Outra questão em aberto é como lidar com elementos comuma interpretabilidade muito baixa, conhecidos comocaixas-pretas, pois podem acarretar problemas legais, éticose técnicos na incorporação das decisões. Nesse sentido,algumas das principais linhas de pesquisa têm comoobjetivo a Explainable AI, a interpretabilidade e oaprimoramento da rastreabilidade e transparência dosmodelos. Esse problema também é compartilhado pelamaneira tradicional de desenvolver modelos de machinelearning, no entanto, a maior automação oferecida por umsistema de AutoML torna seu uso nesse processo maisenfatizado.

4 Por outro lado, para que os sistemas de AutoML sejameficazes, eles devem permitir que o usuário interaja com osistema, modificando e substituindo as decisões quetomam, incorporando o conhecimento dos especialistas emnegócios em relação a vários aspectos do processo, como asprevisões feitas ou em relação à complexidade einterpretabilidade dos modelos obtidos.

Por fim, destaca a necessidade de estabelecer benchmarksque sirvam como padrões para poder comparar odesempenho entre as diferentes soluções propostas, alémde ter uma definição clara das métricas usadas para mediresse desempenho.

Augmented machine learning

Uma das abordagens que estão atraindo mais atenção derivadada generalização da aplicação dos métodos e sistemas deAutoML é o chamado Augmented machine learning. Nessaabordagem, a automação de certos processos visa permitir queos sistemas de AutoML lidem com a complexidade derivadado aumento de possíveis arquiteturas, opções dehiperparâmetro e opções de treinamento, mas continuem a terum especialista que use os resultados da ferramenta e avaliaras alternativas e combinações lançadas de maneira holística.Isso é explicado por vários motivos:

4 A primeira delas é que esses sistemas não podemincorporar o contexto que o usuário possui nos dados,portanto, parece que o processo que o usuário guia osistema na busca de padrões nos dados ainda melhora.Esse conceito, conhecido como engenharia derepresentação, é, por exemplo, comum em áreas como ainterpretação de pesquisas na Internet38.

4 Por outro lado, a análise de informações em silos por meiodessas ferramentas reduz o valor esperado que pode serextraído usando técnicas avançadas de análise; portanto, opapel de um especialista em ciência de dados que tomadecisões sobre questões é essencial. como quando asdiferentes fontes de dados devem ser combinadas ou emquais casos aplicar técnicas de transferência deaprendizado, entre outras, já que não é possível, nomomento, que os sistemas de AutoML tratem da análisede todas as opções possíveis antes de tomar a decisão .

4 Por fim, e conforme mencionado no ponto anterior,questões éticas relacionadas ao objetivo, aos dadosutilizados e aos possíveis vieses gerados no processo dedecisão exigem que um analista avalie a relevância do usodo modelo em um processo de tomada de decisão, bemcomo avaliar as limitações do modelo. Em geral, o uso dapercepção funciona adequadamente, enquanto naaplicação do julgamento automático é imperfeito, mas estámelhorando. No caso da previsão do comportamentohumano, seus resultados são fundamentalmenteduvidosos39.

38Abbasi, Kitchens, & Ahmad, 2019.39Narayanan, 2019.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

32

Campeonatos de AutoML: uma ferramenta deexploração do enfoque de AutoML

“Ford! he said, there's an infinite number of monkeys outside who want to talk to us about this script for Hamlet they've worked out”

Douglas Adams40

4 Em alguns casos, o método acima é aprimorado através douso de métodos de regularização.

4 O overtraining é controlado incluindo condições de paradanos métodos de otimização iterativa.

4 A separação entre a amostra de treinamento e validaçãogeralmente não é otimizada.

Como resultado, percebe-se que em nenhum caso é possívelautomatizar todo o processo e deve haver intervenção humananas tarefas mais relacionadas à definição de exercício. Ainda édifícil selecionar um sistema de acordo com o tipo de problemae adaptá-lo ao conjunto de dados existente.

Em relação às variáveis, a dificuldade está diretamenterelacionada à existência de certos atributos nos conjuntos dedados analisados, como a existência de dados não formatados, aescassez de dados, a existência de missings ou a existência devariáveis categóricas. Nesses casos, a intervenção paraidentificar, tratar e avaliar o impacto do tratamento no processoé maior.

Em relação ao processo de configuração e seleção dehiperparâmetros, os principais problemas decorrem do uso detécnicas ad hoc que pioram o desempenho do modelo, como aseparação por técnicas não sofisticadas da amostra emtreinamento e teste, seleção inadequada da complexidade damodelo, seleção de hiperparâmetro selecionando a amostra deteste, não usando todos os recursos computacionais oudefinindo métricas de desempenho inadequadas.

Como foi visto nas seções anteriores, e apesar dos avançosobservados ultimamente nesta disciplina, ainda não existe umaabordagem preferível sobre as demais alternativas em questõescomo pré-processamento de dados antes da modelagem, sobrecomo selecionar algoritmos ou como configurá-loscorretamente. No entanto, algumas tendências e taxas estãocomeçando a ser traçadas que qualquer processo que integreas técnicas do Advanced Analytics e, em particular, um sistemade AutoML deve incorporar.

Uma abordagem comum para avaliar diferentes abordagens deAutoML tem sido o desenvolvimento de campeonatos decientistas de dados com o objetivo de criar sistemas de AutoML.Essa é uma boa referência, pois permite que as diferentesabordagens sejam enfrentadas em condições iguais e, portanto,extraia de seus resultados se houver algumas configuraçõespreferíveis e em quais circunstâncias elas funcionam melhor.Inicialmente, essas competições foram baseadas na avaliaçãoda seleção de modelos e hiperparâmetros41. Posteriormente,esse tipo de exercício foi aprimorado, de modo que osparticipantes devem desenvolver um sistema automático ecomputacionalmente eficiente, capaz de treinar e avaliarmodelos sem nenhuma intervenção humana42.

Em geral, o objetivo principal dessas competições é responder auma série de perguntas como: i) conhecer o efeito dasrestrições de tempo no design de algoritmos; ii) identificar quaistarefas são mais difíceis e para qual tipo de participantes. iii)saber se existem certas configurações que geralmentefuncionam melhor para certos tipos de conjuntos de dados ouproblemas; iv) avaliar o impacto da otimização dehiperparâmetros e configurações no desempenho dos modelosfinais.

Uma revisão dos campeonatos de AutoML

Nos diferentes campeonatos analisados, alguns padrões podemser observados43:

4 Em geral, é comum o uso de abordagens heurísticas ou degrade ou buscas uniformes no espaço de busca definido pormeio de uma definição linear ou logarítmica.

33

40Douglas Adams, “The Hitchhiker's Guide to the Galaxy” (1979). Escritor eroteirista inglês, especialmente conhecido pela saga do nome homônimo.

41Veja por exemplo, NIPS 2005.42NIPS 2016, ICML 2016 y PAKDD 2018.43Hutter, Kotthoff, & Vanschoren, 2019.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

34

Do ponto de vista das técnicas de busca, existe um amplo usode técnicas baseadas em grid ou distribuições uniformes nosparâmetros do espaço de busca, embora existam algumassofisticações baseadas em métodos de regularização ouabordagens bayesianas que evitam o overfitting incorporandocondições de parada.

Campeonato de AutoML ManagementSolutions

Objetivo e definição

Em um espírito semelhante, a Management Solutions projetou erealizou um campeonato, dirigido aos profissionais da Firma,com o objetivo de gerar um algoritmo de AutoML capaz de fazerprevisões em diferentes conjuntos de dados sem fazermodificações no código, com uma limitação de tempo paraincentivar a eficiência computacional. O exercício proposto foibaseado na resolução, através da aplicação de abordagenssupervisionadas, de problemas de resposta binária nasseguintes condições:

4 3 datasets com tamanhos distintos (<100 kb, <1 Mb e <5Mb), todos eles com uma amostra balanceada

4 Sem valores missings, com variáveis categóricas e contínuas,e incluindo variáveis irrelevantes

4 Com uma limitação de recursos computacionais:computador com Windows 10, processador Intel Core i5-6300 CPU @ 2.40GHz 2.50GHz e 8 Gb de memória RAM, ecom um tempo de execução máximo de 20 minutos paracada dataset

Avaliação

A função enviada foi avaliada com três datadets diferentes,semelhantes aos enviados como amostras de treinamento. Paraisso, os seguintes aspectos foram levados em consideração:

4 Métrica área sob a curva (AUC) (50%)

4 Qualidade e limpeza do código e utilização de padrão PEP8(20%)

4 Utilização de Programação Orientada a Objetos (10%)

4 Originalidade (20%)

Resultados

O número de participantes foi superior a cem, integrados emmais de setenta equipes, com perfis muito diversos, havendoentre os participantes tanto físicos e matemáticos, comoengenheiros e economistas. Muitos dos participantes, possuemou estão cursando alguma pós-graduação em data science. Aorigem geográfica dos participantes também foi muito diversa,com participantes do Peru, Chile, Colombia, Brasil, Alemanha,Estados Unidos e Espanha.

Durante toda a competição, os participantes enfrentaram váriasopções em relação ao processamento de dados, escolha demodelos e otimização de hiperparâmetros. A maioria dasequipes realizou um tratamento de dados com base naeliminação de possíveis outliers e variáveis correlacionadas, nanormalização de variáveis, na redução da dimensionalidade eda entrada de missings. Algumas equipes usaram técnicas WOEou one-hot-encoding para variáveis categóricas e tratamento

Cabe destacar que, em geral, foi realizada uma otimização detodo o pipeline, o uso de modelos stacking ou a paralelizaçãode tarefas em vários núcleos, bem como a inclusão de módulosde interpretabilidade por algumas das equipes participantes,seja para interpretar os datasets ou para interpretar o processode AutoML, como pode ser a seleção de um modelo frente aoutros.

A limitação no tempo de execução de cada dataset não teve umgrande impacto em geral, uma vez que os arquivos de avaliaçãoeram pequenos e o AutoML dos participantes executaram semproblemas dentro do tempo. Apenas em alguns casos, algunsparticipantes limitaram o número de modelos a serem avaliadospara evitar levar mais tempo do que o estipulado.

específico no caso de haver conjuntos de dadosdesequilibrados, bem como a consideração de interações entrevariáveis para aumentar a capacidade preditiva; ou a eliminaçãode variáveis irrelevantes, como variáveis constantes, com muitopouca variação ou variáveis categóricas com um número muitogrande de categorias em relação ao número total de entradas.

O objetivo por trás desses tratamentos é claro: por um lado,prepara os dados para serem lidos corretamente pelos modelosutilizados e, por outro, reduz a dimensionalidade do espaço debusca, para que seja necessário menos tempo para encontrarconfiguração ideal. Outros participantes adotaram umaabordagem diferente para lidar com esse problema, limitando onúmero de execuções de algoritmos a um número específico econstante ou limitando o número de modelos que sãoavaliados pelo sistema.

A otimização do hiperparâmetro foi focada, na maioria doscasos, pelo uso de pesquisas grid. Algumas equipes usarampesquisa aleatória, algoritmos genéticos ou pesquisa bayesiana.Deve-se observar que um participante implementou o uso derandom search para subsequentemente realizar uma pesquisaem um ambiente com a configuração ideal encontrada, paratentar melhorar a métrica com essas configurações, caso oresultado fornecido pelo random search não superasse umpontuação determinada.

Para avaliar o desempenho da configuração proposta, asequipes usaram cross validation, e os modelos implementadosforam, em grande parte, obtidos na biblioteca scikit-learn, comalgumas exceções, como o uso de keras, lightgbm ou xgboost.Para otimizar o tempo computacional, alguns participantesrealizam um estudo preliminar das variáveis mais preditivaspara trabalhar apenas com elas, enquanto outros avaliaramuma lista de modelos e pararam de avaliar quando o tempomáximo definido foi atingido, podendo haver modelosestimados, mas não avaliados na amostra.

35

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

36

Reflexões Finais

Well? What do you think of my new poem?I once read that given infinite time, a thousand monkeys with typewriters would

eventually write the entire works of ShakespeareBut what about my poem?Three monkeys, ten minutes

– Scott Adams44

37

Situação atual e desafios do AutoML

As configurações usadas para obter modelos de machinelearning dependem significativamente dos conhecimentosprévios do analista e ajustes manuais, o que significa que odesenvolvimento de modelos usando técnicas de machinelearning requer programação explícita de uma grandequantidade de código. Dessa forma, a escolha e, portanto, odesempenho de muitos dos métodos de machine learningusados depende de um grande número de decisões sobre seudesenho, que são tomadas manualmente ou com base emhipóteses anteriores e, portanto, pode ocorrer overfitting nosmodelos desenvolvidos com datasets pequenos e underfittingpara datasetsmaiores45, indicando que ainda são necessáriasmelhorias para garantir o uso adequado desses sistemas parasua aplicação industrial.

Embora as abordagens de AutoML tenham atingido um estágiode desenvolvimento que possa competir e derrotar osespecialistas humanos em machine learning, ainda há muitosproblemas que precisam ser resolvidos para que sejamaplicados corretamente. O principal desafio que os sistemas deAutoML atuais enfrentam é que as decisões de design sãotomadas com uma abordagem data-driven, de maneira objetivae automática.

De qualquer forma, o precedente não é incompatível com ousuário com a possibilidade de interagir com o sistema e com apossibilidade de modificar e substituir as decisões que toma.Nesse sentido, o desenvolvimento de modelos de machinelearning é realizado por meio de uma indústria artesanal, naqual especialistas enfrentam problemas através do design desoluções manuais, que em muitos casos são tomadas ad hocpara esse projeto, bem como preferências e conhecimentosprévios dos especialistas, mas muitas vezes não incorpora asensibilidade dos especialistas em negócios. Uma interfacecompreensível para analistas de negócios que permite aexecução de um sistema de AutoML evita a decisão manual nasconfigurações, mas, por sua vez, permite a incorporação dedecisões de negócios quanto ao sinal ou importância dasvariáveis ou à seleção de modelos com base em umainterpretação das projeções, a sensibilidade aos cenários ou acomplexidade e interpretabilidade dos modelos obtidos.

Outra questão em aberto é como lidar com os elementos quesão black boxes, uma vez que limitam sua interpretabilidade epodem acarretar problemas legais, éticos e técnicos naincorporação das decisões. Nesse sentido, algumas dasprincipais linhas de pesquisa visam o Explainable AI, explicável,interpretabilidade e melhoria da rastreabilidade e transparênciados modelos.

Finalmente, alguns aspectos, como a eficiência dos processosde busca, estão sendo constantemente aprimorados, comopode ser observado nas diferentes competições46.

Grau de desenvolvimento

Os avanços no AutoML são desiguais: a maioria das inovaçõesvisa a algumas técnicas de feature engineering e seleção demodelos versus preparação e tratamento de dados47, ondeainda há um longo caminho a percorrer. Isso tem efeitos tantono tipo de tarefas que devem ser realizadas nas organizaçõesquanto no volume de emprego.

Por um lado, substitui as tarefas por maior complexidade emenos relacionadas aos negócios relacionados ao design depipelines para cada problema específico, permitindo acesso aodesign de um pipeline completo para perfis com menosconhecimento de machine learning e, portanto, dedicar estastarefas a experts no negócio com uma formação menosprofunda em âmbitos de data science.

Por outro lado, requer uma infraestrutura que permita aexecução desses processos, além de mantê-los atualizados, sejaatravés da terceirização ou contratação de serviços de AutoML,seja através da geração de um AutoML próprio que exijaequipamento especializado que o fluxo de trabalho funcionecorretamente.

Além disso, existem problemas que dificilmente foramabordados pelos sistemas de AutoML, como tarefas comointegração ou limpeza de dados, geração de variáveis outratamento delas, além de algumas abordagens de machinelearning, como, por exemplo, o aprendizado não supervisionadoou o reinforcement learning não são rotineiramente integradosa esses sistemas.

Dessa forma, espera-se que os sistemas de AutoML sejamconfigurados como uma ferramenta fundamental, capaz demodificar o tipo de trabalho realizado, para que os recursos dedata science sejam distribuídos em tarefas mais relacionadas àanálise, antes e depois do desenvolvimento dos própriosmodelos, como a geração dos sistemas de AutoML, bem como aresolução de problemas em que as ferramentas genéricas doAutoML não permitem uma configuração adequada.

44Scott Adams em uma tira de Dilbert de 1989. Desenhista, autor da tira diáriahomônima.

45Por exemplo, no caso de métodos HPO. Ver Hutter, Kotthoff, & Vanschoren, 2019.46Hutter, Kotthoff, & Vanschoren, 2019.47Ibídem.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

38

Bibliografia

39

Abbasi, A., Kitchens, B., & Ahmad, F. (2019). The Risks ofAutoML and How to Avoid Them. Harvard Business Review.

Bank of England. (2019). Machine learning in UK financialservices. Bank of England.

Bergstra, J., & Bengio, Y. (2012). Random Search for Hyper-Parameter Optimization. Journal of machine learning research.

Cátedra iDanae. (3T-2019). Interpretabilidad de los modelosde Machine Learning. Cátedra iDanae.

Cátedra iDanae. (4T-2019). Ética e Inteligencia Artificial.Cátedra iDanae.

CrowdFlower. (2017). Data Scientist Report. CrowdFlower.

Elsken, T., Metzen, J. H., & Hutter, F. (2019). NeuralArchitecture Search: A Survey. Journal of Machine LearningResearch.

European Banking Authority. (2020). EBA report on Big Dataand Advanced Analytics. European Banking Authority.

European Comission. (2020). White paper on ArtificialIntelligence - A European approach to excellence and trust.European Comission.

Fröhlich, H., & Zell, A. (2005). Efficient Parameter Selection forSupport Vector Machines in Classification and Regression viaModel-Based Global Optimization. IEEE Xplore.

Gartner. (2019). How Augmented Machine Learning IsDemocratizing Data Science. Gartner.

He, X., Zhao, K., & Chu, X. (2019). AutoML: A Survey of theState-of-the-Art. arXiv preprint arXiv:1908.00709.

Hutter, F., Kotthoff, L., & Vanschoren, J. (2019). AutomatedMachine Learning: Methods, Systems, Challenges. Springer.

Management Solutions. (2014). Model Risk Management:Aspectos quantitativos e qualitativos da gestão do risco demodelo. Management Solutions.

Management Solutions. (2018). Machine Learning, uma peça-chave na transformação dos modelos de negócio. ManagementSolutions.

Management Solutions. (2019). De projetos Agile, aorganizações Agile. Management Solutions.

Michie, D., Spiegelhalter, D., Taylor, C., & Campbell, J.(1994). Machine Learning, Neural and Statistical Classification.Ellis Horwood.

Mitchell, T. M. (1997).Machine learning. McGraw-Hill.

Narayanan, A. (2019). How to recognize AI snake oil.

Samuel, A. L. (1959). Some studies in machine learning usingthe game of checkers. IBM Journal of research anddevelopment. IBM J. Res.

Sciuto, C. &. (2019). Evaluating the Search Phase of NeuralArchitecture Search. Sciuto, Christian & Yu, Kaicheng & Jaggi,Martin & Musat, Claudiu & Salzmann, Mathieu.

Segal, M. R. (2004). Machine Learning Benchmarks andRandom Forest Regression.

Stanford University. (2019). AI Index Report. StanfordUniversity.

Wolpert, D. H., & Macready, W. G. (1997). No Free LunchTheorems for Optimization. IEEE transactions on evolutionarycomputation.

Yao, Q., Wang, M., Chen, Y., Dai, W., Li, Y.-F., Tu, W.-W., . . .Yu, Y. (2018). Taking Human out of Learning Applications: ASurvey on Automated Machine Learning. arXiv preprintarXiv:1810.13306.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

40

Glossário

41

Cloud Computing: disponibilidade de recursos, comoarmazenamento de dados e poder computacional, semgerenciamento ativo pelo usuário.

Configuração: as possíveis combinações de valores que oshiperparâmetros podem ter .

Cross Validation: processo de validação de amostra cruzadaque consiste em dividir a amostra em grupos k e usariterativamente cada grupo para validação e o restante paraconstrução, alterando o grupo de validação em cada iteração.

Early Stop: técnica que consiste em interromper o processo depesquisa antes do planejado, se determinados requisitos forematendidos.

Espaço de configurações: conjunto de todas as configuraçõespossíveis nas quais a configuração ideal é procurada para fazer amelhor previsão possível.

Feature Engineering: processo de extração de característicasdos dados mediante o uso de técnicas de data mining econhecimento de um âmbito concreto.

Função de custo: função cujos mínimos correspondem àsconfigurações ideais. Procurar a configuração ideal é equivalentea encontrar os mínimos da função de custo. Algumas funções decusto podem ser o erro quadrático médio raiz ou a entropiacruzada, entre outras opções.

Grid / random / evoluções / bayes / meta / transfer: diferentesmétodos usados para procurar otimizações de hiperparâmetros.

Hiperparâmetro: parâmetro que não pode ser obtido durante oprocesso e deve ser definido anteriormente. Os valores que oshiperparâmetros devem adotar para resolver um problemaespecífico são desconhecidos.

Machine learning: campo da ciência da computação que seconcentra no desenvolvimento de técnicas que permitem queum programa aprenda a encontrar padrões em um conjunto dedados.

Métrica: medida para avaliar o desempenho de um modelo.

Missings: valores que faltam dentro de um dataset.

Modelo substituto:modelo geralmente mais simples, quetenta emular um modelo mais complexo em determinadosambientes ou situações.

Normalização: tratamento de dados que consiste em fazer amédia dos valores de uma variável centrada em zero e mover-seentre -1 e 1.

Outliers: valores que, por terem sido mal medidos ou por seremum comportamento atípico, estão numericamente distantes dorestante dos dados.

Overfitting / underfitting: característica de um modelo queocorre quando foi ajustado muito / pouco à amostra detreinamento, não atingindo resultados satisfatórios emamostras que não sejam essa (por exemplo, na amostra devalidação)

Parâmetro: propriedade interna ao modelo aprendido duranteo processo de aprendizado, sendo necessário para fazerprevisões.

Redução de dimensionalidade: processo pelo qual o espaçode busca é reduzido, por combinação de variáveis, eliminaçãoou outros métodos.

Regularização: técnica matemática que consiste em adicionarum componente à função de custo para detectar as variáveisque não estão fornecendo ao modelo informaçõessignificativamente diferentes. É usado para evitar problemas deoverfitting (como o caso de redes elásticas)

Variável contínua / categórica: uma variável contínua é umavariável numérica que pode assumir qualquer valor entre doisvalores-limite. Uma categórica pode ser uma variável numéricadiscreta ou pode ser palavras ou outro tipo de variável.

Variáveis correlacionadas: variáveis que possuem umcomportamento similar.

WOE (Weight of Evidence): tratamento de dados paravariáveis categóricas.

MANAGEM

ENT SO

LUTIONS


tomação dos mod

elos

42

Nosso objetivo é superar asexpectativas dos nossos clientes

sendo parceiros de confiança

A Management Solutions é uma firma internacional de serviçosde consultoria com foco em assessoria de negócios, riscos,organização e processos, tanto sobre seus componentesfuncionais como na implementação de tecnologias relacionadas.

Com uma equipe multidisciplinar (funcionais, matemáticos,técnicos, etc.) de 2.500 profissionais, a Management Solutionsdesenvolve suas atividades em 31 escritórios (15 na Europa, 15nas Américas e um na Ásia).

Para atender às necessidades de seus clientes, a ManagementSolutions estruturou suas práticas por setores (InstituiçõesFinanceiras, Energia e Telecomunicações) e por linha de negócio(FCRC, RBC, NT), reunindo uma ampla gama de competências deEstratégia, Gestão Comercial e Marketing, Gestão e Controle deRiscos, Informação Gerencial e Financeira, Transformação:Organização e Processos, e Novas Tecnologias.

A área de P&D presta serviço aos profissionais da ManagementSolutions e a seus clientes em aspectos quantitativos necessáriospara realizar os projetos com rigor e excelência, através daaplicação das melhores práticas e da prospecção contínua dasúltimas tendências em data science, machine learning,modelagem e big data.

Javier Calvo MartínSócio [email protected]

Manuel Ángel GuzmánDiretor P&D [email protected]

Daniel Ramos GarcíaSupervisor P&D [email protected]

Segismundo JiménezSupervisor P&D [email protected]

Carlos Alonso Viñ[email protected]

Management Solutions, serviços profissionais de consultoria

A Management Solutions é uma firma internacional de serviços de consultoria focada naassessoria de negócio, riscos, finanças, organização e processos

Para mais informações acesse: www.managementsolutions.com

Nos siga em:

© Management Solutions. 2020Todos os direitos reservados.

Madrid Barcelona Bilbao Coruña London Frankfurt Paris Amsterdam Copenhaguen vOslo Warszawa Zürich Milano Roma Lisboa Beijing New YorkBoston Atlanta Birmingham Houston San Juan de Puerto Rico San José Ciudad de México Medellín Bogotá Quito São Paulo Lima Santiago de Chile Buenos Aires

Auto Machine Learning, rumo à automação dos modelos · Rumo à automação da modelagem 16...

Documents

Transcript of Auto Machine Learning, rumo à automação dos modelos · Rumo à automação da modelagem 16...