Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas
-
Upload
tribunal-de-contas-da-uniao-tcu-oficial -
Category
Technology
-
view
111 -
download
0
Transcript of Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em compras públicas
CLASSIFICAÇÃO AUTOMATIZADA DE
PRODUTOS E SERVIÇOS LICITADOSThiago Marzagão
CONTEXTO: LABORATÓRIO DE
ANÁLISE DE DADOS DO CADE(mais sobre isso amanhã)
PROBLEMA:
CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
NÃO CLASSIFICA PRODUTOS E SERVIÇOS LICITADOS:
etc
LICITAÇÃO FEDERAL:
LICITAÇÃO ESTADUAL/MUNICIPAL/DISTRITAL:
DADOS ESTADUAIS/MUNICIPAIS/DISTRITAIS:
(POSSÍVEL) SOLUÇÃO:
PROCESSAMENTO DE LINGUAGEM NATURAL
1. REMOVE STOPWORDS (“DE”, “A”, ETC)
2. REMOVE UNIDADES (KG, MM, FRASCOS, ETC)
3. PASSA TUDO P/ SINGULAR (RSLP-S)
4. VETORIZA CADA DESCRIÇÃO DE PRODUTO/SERVIÇO
5. TRANSFORMA EM TF-IDF (P/ DAR MAIS PESO ÀS PALAVRAS MAIS
DISCRIMINANTES)
6. NORMALIZA (P/ CONTROLAR POR DESCRIÇÕES DE TAMANHOS MUITO
DIFERENTES)
PRÉ-PROCESSAMENTO:
FERRAMENTAS
K-MEANS
(c/ licitações do GDF)
TENTATIVA #1
1. DEFINE CENTRÓIDES ALEATÓRIOS
2. ALOCA CADA DESCRIÇÃO VETORIZADA AO CENTRÓIDE MAIS
PRÓXIMO
3. COM BASE NESSAS ALOCAÇÕES, RE-COMPUTA OS
CENTRÓIDES
4. REPETE 2 E 3 ATÉ CONVERGÊNCIA
K-MEANS
K-MEANS
RESULTADO: PÉSSIMO
CLUSTERS SEM O MENOR SENTIDO
EXEMPLO: “LUVAS CIRÚRGICAS” E “ÔNIBUS” DENTRO DE UM MESMO
CLUSTER
SIMILARIDADE DO CO-SENO
(c/ licitações do GDF e NCM)
TENTATIVA #2
SIMILARIDADE DO CO-SENO
RESULTADO: RUIM
# EXCESSIVO DE CLASSIFICAÇÕES ERRADAS
EXEMPLO: “CARREGADOR DE BATERIA” CLASSIFICADO COMO
“BATERIA”RESULTADO RUIM C/ NCM A 4, 6 OU 8 DÍGITOS
SVM
(c/ licitações federais e CATMAT/CATSER)
TENTATIVA #3
PARECIDO C/ REGRESSÃO LOGÍSTICA, MAS IDÉIA É
MAXIMIZAR A SEPARAÇÃO ENTRE AS CLASSES
AS CLASSES NÃO SÃO DIVIDIDAS POR UMA LINHA MAS POR UM
POLÍGONO
DUAS MANEIRAS DE CONSEGUIR ISSO: SOFT-MARGIN (PENALIZA
CLASSIFICAÇÕES NO POLÍGONO) OU KERNEL TRICK (AUMENTA # DE DIMENSÕES P/ QUE NADA
CAIA NO POLÍGONO)
SVM
AJUSTES QUE TENTEI:1. FUNÇÃO DE CUSTO (HINGE,
SQUARED HINGE, HUBER)2. TERMO DE REGULARIZAÇÃO
(L1, L2, ELASTICNET) 3. DIFERENTES NÍVEIS DO
CATMAT/CATSER: GRUPOS (79) E CLASSES (670)
4. # DE PASSES SOBRE OS DADOS5. TAXA DE APRENDIZADO
6. PESO MAIOR P/ PRIMEIRAS PALAVRAS
7. CONSISTÊNCIA GRUPO-CLASSE
SVM
TOTAL DE ~5 MILHÕES DE DESCRIÇÕES
70% TREINAMENTO15% TESTE
15% VALIDAÇÃO
SVM
SVM
RANDOM FOREST?
REDES NEURAIS?
TALVEZ UMA ABORDAGEM PROBABILÍSTICA? (SE A MAIOR PROBABILIDADE < x, IGNORA
DESCRIÇÃO)
SUGESTÕES??
PRÓXIMOS PASSOS