Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

CLASSIFICAÇÃO AUTOMATIZADA DE

PRODUTOS E SERVIÇOS LICITADOSThiago Marzagão

CONTEXTO: LABORATÓRIO DE

ANÁLISE DE DADOS DO CADE(mais sobre isso amanhã)

PROBLEMA:

CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:

NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:

etc

LICITAÇÃO FEDERAL:

LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:

DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:

(POSSÍVEL) SOLUÇÃO:

PROCESSAMENTO DE LINGUAGEM NATURAL

1. REMOVE STOPWORDS (“DE”, “A”, ETC)

2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)

3. PASSA TUDO P/ SINGULAR (RSLP-S)

4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO

5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS PALAVRAS MAIS

DISCRIMINANTES)

6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE TAMANHOS MUITO

DIFERENTES)

PRÉ-PROCESSAMENTO:

FERRAMENTAS

K-MEANS

(c/ licitações do GDF)

TENTATIVA #1

1. DEFINE CENTRÓIDES ALEATÓRIOS

2. ALOCA CADA DESCRIÇÃO VETORIZADA AO CENTRÓIDE MAIS

PRÓXIMO

3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA OS

CENTRÓIDES

4. REPETE 2 E 3 ATÉ CONVERGÊNCIA

K-MEANS

K-MEANS

RESULTADO: PÉSSIMO

CLUSTERS SEM O MENOR SENTIDO

EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS” DENTRO DE UM MESMO

CLUSTER

SIMILARIDADE DO CO-SENO

(c/ licitações do GDF e NCM)

TENTATIVA #2

SIMILARIDADE DO CO-SENO

RESULTADO: RUIM

# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS

EXEMPLO: “CARREGADOR DE BATERIA” CLASSIFICADO COMO

“BATERIA”RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS

SVM

(c/ licitações federais e CATMAT/CATSER)

TENTATIVA #3

PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA É

MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES

AS CLASSES NÃO SÃO DIVIDIDAS POR UMA LINHA MAS POR UM

POLÍGONO

DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT-MARGIN (PENALIZA

CLASSIFICAÇÕES NO POLÍGONO) OU KERNEL TRICK (AUMENTA # DE DIMENSÕES P/ QUE NADA

CAIA NO POLÍGONO)

SVM

AJUSTES QUE TENTEI:1. FUNÇÃO DE CUSTO (HINGE,

SQUARED HINGE, HUBER)2. TERMO DE REGULARIZAÇÃO

(L1, L2, ELASTICNET) 3. DIFERENTES NÍVEIS DO

CATMAT/CATSER: GRUPOS (79) E CLASSES (670)

4. # DE PASSES SOBRE OS DADOS5. TAXA DE APRENDIZADO

6. PESO MAIOR P/ PRIMEIRAS PALAVRAS

7. CONSISTÊNCIA GRUPO-CLASSE

SVM

TOTAL DE ~5 MILHÕES DE DESCRIÇÕES

70% TREINAMENTO15% TESTE

15% VALIDAÇÃO

SVM

RANDOM FOREST?

REDES NEURAIS?

TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE A MAIOR PROBABILIDADE < x, IGNORA

DESCRIÇÃO)

SUGESTÕES??

PRÓXIMOS PASSOS

[email protected]

mailto:[email protected]

Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas

Technology

Transcript of Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas