Introdução aos sistemas de recomendação usando Machine Learning
-
Upload
rafael-leonhardt -
Category
Technology
-
view
262 -
download
0
Transcript of Introdução aos sistemas de recomendação usando Machine Learning
Machine Learning
Como a e a sabem o que você quer comprar e assistir?
@MumHaBR
#recommendersystems#datascience#predictionIO
https://br.linkedin.com/in/rafaelleonhardt
• inteligência artificial
• algoritmos e técnicas que aprendem
• extrai regras e padrões
• mineração de dados e estatísticas
Fonte: https://pt.wikipedia.org/wiki/Aprendizado_de_máquina
Áreas de aplicação
LOGÍSTICA
manutençãorota de entrega
self-drivercarregamentogestão de risco
ACESSO & SEGURANÇA
identificaçãoreconhecimentomonitoramento
robôs autônomos
ERP
manutençãoanti-fraudeotimização
ações automáticasvendas
e-commerce
RH
turn-overcontratações
promoçãotreinamentos
Areas de aplicação
COMMERCE
produtosserviços
MARKETING
campanhasnichos
HELP-DESK
respostasauto-preenchimento
Métodos comunsSUPERVISIONADO NÃO SUPERVISIONADO
Na cesta tem: • Maça (vermelha, médio),
• Uva (verde, pequeno)
• Banana (amarela, médio), etc.
Classificações: Maça, Uva, Banana, etc
Não sei o que tem na cesta.
Atributos: cor, tamanho, etc
Grupos: A, B, C, D, E, F, etc
Tipos – NÃO PERSONALIZADOS
Tipos - PERSONALIZADOS
Passo 1 – coletar dados
Coleta de dados – EXPLÍCITA[ ? ] Eu possuo[ ? ] Não tenho interesse[ ? ] Avalie este item
[ ? ] Classificação[ ? ] Minha lista[ ? ] Gosto de: ação, suspense, etc
Vocês são sinceros ao avaliar um produto?Gera recomendações de alta qualidade
SEMPRE avaliam um produto?Geralmente avaliamos poucos itens.
O que os motiva avaliarem?Geralmente nos extremos: muito bom ou muito ruim.
Quantos filmes e séries faltam assistir para “ZERAR” o Netflix? Um usuário consome um % pequeno de itens e avalie menos ainda.
Coleta de dados – EXPLÍCITA
Coleta de dados – IMPLÍCITA[ ! ] Porque você comprou “It´s so easy”[ ! ] Porque você visualizou “X”[ ! ] Porque você compartilhou “Y”
[ ! ] Porque você assistiu “Marco Polo”
Outras formas:• Tipo do dispositivo utilizado• Browser utilizado• Região de onde está acessando• Histórico de navegação
Em um site, quais informações eles sabem de vocês?Eles sabem, gostem ou não. (Celular, Browser, Cidade, Horário, Navegação, etc)
Vocês já compraram algo que não era para vocês?Eu comprei o livro Slash e o Peppa Pig. Logo, quem gosta de Guns gosta de Peppa?
Mais alguém da casa usa sua conta?Eu escuto Guns N Roses e minha filha Xuxa.
Coleta de dados – IMPLÍCITA
Como resolver? - detectar ações fora do padrão e ignorar - permitir aos usuários corrigirem
Passo 2 – escolher a técnica de recomendação
Técnica – Filtragem Colaborativa por Usuário
Avaliações
Técnica – Filtragem Colaborativa por Usuário
?
? ?
? ?
Predição
Técnica – Filtragem Colaborativa por Usuário
100% 20% 80%
20% 100% 50%
80% 50% 100%
SimilaridadeOpções de cálculo:• Coseno• Distância Euclidiana• Coeficiente de Pearson• Coeficiente de Jaccard• etc
Técnica – Filtragem Colaborativa por Usuário
80%
Técnica – Filtragem Colaborativa por Usuário
Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente
Técnica – Filtragem Colaborativa por Usuário
Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente
Problemas• Novos produtos e usuários
Técnica – Filtragem Colaborativa por Usuário
Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente
Problemas• Novos produtos e usuários• Itens populares
Técnica – Filtragem Colaborativa por Usuário
Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente
Problemas• Novos produtos e usuários• Itens populares• Esparcidade(avaliações do usuário X qtde produtos)
Técnica – Filtragem Colaborativa por Usuário
Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente
Problemas• Novos produtos e usuários• Itens populares• Esparcidade• Maior processamento - 18 milhões de usuários
Técnica – Filtragem Colaborativa por Usuário
Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente
Problemas• Novos produtos e usuários• Itens populares• Esparcidade• Maior processamento• Precisa de um volume grande de avaliações do usuário para ser assertivo
Técnica – Filtragem Colaborativa por Produto
Avaliações
Técnica – Filtragem Colaborativa por Produto
?
? ?
? ?
Predição
Técnica – Filtragem Colaborativa por Produto
100% 90% 40% 10%
90% 100% 60% 40%
40% 60% 100% 50%
10% 40% 50% 100%
Similaridade
Técnica – Filtragem Colaborativa por Produto
Técnica – Filtragem Colaborativa por Produto
Vantagens• Não precisa de detalhes sobre os produtos• Menos processamento• Menor esparcidade• Não precisa recalcular as similaridade toda hora
Problemas• Novos produtos e usuários• Itens populares• Mais complexo
Técnica – Baseada em Conteúdo
SuspenseAção
ViolênciaSuspenseViolência
SitcomHumor
DesenhoHumor
Infantil
série dramática e pós-
apocalíptica com zumbis;
sobre os primeiros anos de Marco Polo
no Império Mongol
Sitcom sobre grupo de
amigos que vivia em Nova
York
Série britânica de desenhos
animados para crianças em idade pré-
escolar
Termo Frequência Relevância
Suspense 2 8
Violência 2 8
Humor 2 8
Desenho 1 10
Amigos 1 10
de 3 6
Etc ...
TF-IDF
Técnica – Baseada em Conteúdo
Termo Frequência Relevância
Suspense 2 (walking, polo) 8
Violência 2 (walking, polo) 8
Humor 2 (freinds, peppa) 8
Desenho 1 (peppa) 10
Amigos 1 (friends) 10
de 3 (polo, friends, peppa) 6
Etc ...
TF-IDFPesquisar por:
• “desenho” • Peppa
• “de amigos”• Friends (10)• Polo (6)• Peppa (6)
Técnica – Baseada em Conteúdo
Vantagens• Não depende de dados de outros usuários• Novos produtos e não populares podem ser recomendados
Problemas• Difícil identificar quais atributos são importantes descrever• Novos usuários• Mesmos itens (itens de maior relevância)
Técnicas – Híbrida
PONDERADA ALTERNADA COMBINADA
Como avaliar a precisão?• Mean Absolute Error
• Mean Squared error
• Root Mean Squared Error
Acuráciaquanto a recomendação foi assertiva
Cobertura % de produtos e usuários com
recomendação
Diversidadevariedade de produtos
recomendados
Passo 3 – escolher a tecnologia
Algumas...
open source machine learning stack for building, evaluating and deploying engines
with machine learning algorithms.
Templates
O MVC de Big Data.....
DEMO
Passo 1 – importar os dados e treinar
Passo 2 – Recomendar e coletar
Onde aprender? De graça...
https://www.youtube.com/watch?v=O8-EaDoBSCQ
Obrigado!
@MumHaBRhttps://br.linkedin.com/in/rafaelleonhardt