Introdução aos sistemas de recomendação usando Machine Learning

Post on 12-Apr-2017

262 views 0 download

Transcript of Introdução aos sistemas de recomendação usando Machine Learning

Machine Learning

Como a e a sabem o que você quer comprar e assistir?

@MumHaBR

#recommendersystems#datascience#predictionIO

https://br.linkedin.com/in/rafaelleonhardt

• inteligência artificial

• algoritmos e técnicas que aprendem

• extrai regras e padrões

• mineração de dados e estatísticas

Fonte: https://pt.wikipedia.org/wiki/Aprendizado_de_máquina

Áreas de aplicação

LOGÍSTICA

manutençãorota de entrega

self-drivercarregamentogestão de risco

ACESSO & SEGURANÇA

identificaçãoreconhecimentomonitoramento

robôs autônomos

ERP

manutençãoanti-fraudeotimização

ações automáticasvendas

e-commerce

RH

turn-overcontratações

promoçãotreinamentos

Areas de aplicação

COMMERCE

produtosserviços

MARKETING

campanhasnichos

HELP-DESK

respostasauto-preenchimento

Métodos comunsSUPERVISIONADO NÃO SUPERVISIONADO

Na cesta tem: • Maça (vermelha, médio),

• Uva (verde, pequeno)

• Banana (amarela, médio), etc.

Classificações: Maça, Uva, Banana, etc

Não sei o que tem na cesta.

Atributos: cor, tamanho, etc

Grupos: A, B, C, D, E, F, etc

Tipos – NÃO PERSONALIZADOS

Tipos - PERSONALIZADOS

Passo 1 – coletar dados

Coleta de dados – EXPLÍCITA[ ? ] Eu possuo[ ? ] Não tenho interesse[ ? ] Avalie este item

[ ? ] Classificação[ ? ] Minha lista[ ? ] Gosto de: ação, suspense, etc

Vocês são sinceros ao avaliar um produto?Gera recomendações de alta qualidade

SEMPRE avaliam um produto?Geralmente avaliamos poucos itens.

O que os motiva avaliarem?Geralmente nos extremos: muito bom ou muito ruim.

Quantos filmes e séries faltam assistir para “ZERAR” o Netflix? Um usuário consome um % pequeno de itens e avalie menos ainda.

Coleta de dados – EXPLÍCITA

Coleta de dados – IMPLÍCITA[ ! ] Porque você comprou “It´s so easy”[ ! ] Porque você visualizou “X”[ ! ] Porque você compartilhou “Y”

[ ! ] Porque você assistiu “Marco Polo”

Outras formas:• Tipo do dispositivo utilizado• Browser utilizado• Região de onde está acessando• Histórico de navegação

Em um site, quais informações eles sabem de vocês?Eles sabem, gostem ou não. (Celular, Browser, Cidade, Horário, Navegação, etc)

Vocês já compraram algo que não era para vocês?Eu comprei o livro Slash e o Peppa Pig. Logo, quem gosta de Guns gosta de Peppa?

Mais alguém da casa usa sua conta?Eu escuto Guns N Roses e minha filha Xuxa.

Coleta de dados – IMPLÍCITA

Como resolver? - detectar ações fora do padrão e ignorar - permitir aos usuários corrigirem

Passo 2 – escolher a técnica de recomendação

Técnica – Filtragem Colaborativa por Usuário

Avaliações

Técnica – Filtragem Colaborativa por Usuário

?

? ?

? ?

Predição

Técnica – Filtragem Colaborativa por Usuário

100% 20% 80%

20% 100% 50%

80% 50% 100%

SimilaridadeOpções de cálculo:• Coseno• Distância Euclidiana• Coeficiente de Pearson• Coeficiente de Jaccard• etc

Técnica – Filtragem Colaborativa por Usuário

80%

Técnica – Filtragem Colaborativa por Usuário

Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente

Técnica – Filtragem Colaborativa por Usuário

Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente

Problemas• Novos produtos e usuários

Técnica – Filtragem Colaborativa por Usuário

Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente

Problemas• Novos produtos e usuários• Itens populares

Técnica – Filtragem Colaborativa por Usuário

Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente

Problemas• Novos produtos e usuários• Itens populares• Esparcidade(avaliações do usuário X qtde produtos)

Técnica – Filtragem Colaborativa por Usuário

Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente

Problemas• Novos produtos e usuários• Itens populares• Esparcidade• Maior processamento - 18 milhões de usuários

Técnica – Filtragem Colaborativa por Usuário

Vantagens• Não precisa de detalhes sobre os itens (produtos)• Usuários geram mais informações voluntariamente

Problemas• Novos produtos e usuários• Itens populares• Esparcidade• Maior processamento• Precisa de um volume grande de avaliações do usuário para ser assertivo

Técnica – Filtragem Colaborativa por Produto

Avaliações

Técnica – Filtragem Colaborativa por Produto

?

? ?

? ?

Predição

Técnica – Filtragem Colaborativa por Produto

100% 90% 40% 10%

90% 100% 60% 40%

40% 60% 100% 50%

10% 40% 50% 100%

Similaridade

Técnica – Filtragem Colaborativa por Produto

Técnica – Filtragem Colaborativa por Produto

Vantagens• Não precisa de detalhes sobre os produtos• Menos processamento• Menor esparcidade• Não precisa recalcular as similaridade toda hora

Problemas• Novos produtos e usuários• Itens populares• Mais complexo

Técnica – Baseada em Conteúdo

SuspenseAção

ViolênciaSuspenseViolência

SitcomHumor

DesenhoHumor

Infantil

série dramática e pós-

apocalíptica com zumbis;

sobre os primeiros anos de Marco Polo

no Império Mongol

Sitcom sobre grupo de

amigos que vivia em Nova

York

Série britânica de desenhos

animados para crianças em idade pré-

escolar

Termo Frequência Relevância

Suspense 2 8

Violência 2 8

Humor 2 8

Desenho 1 10

Amigos 1 10

de 3 6

Etc ...

TF-IDF

Técnica – Baseada em Conteúdo

Termo Frequência Relevância

Suspense 2 (walking, polo) 8

Violência 2 (walking, polo) 8

Humor 2 (freinds, peppa) 8

Desenho 1 (peppa) 10

Amigos 1 (friends) 10

de 3 (polo, friends, peppa) 6

Etc ...

TF-IDFPesquisar por:

• “desenho” • Peppa

• “de amigos”• Friends (10)• Polo (6)• Peppa (6)

Técnica – Baseada em Conteúdo

Vantagens• Não depende de dados de outros usuários• Novos produtos e não populares podem ser recomendados

Problemas• Difícil identificar quais atributos são importantes descrever• Novos usuários• Mesmos itens (itens de maior relevância)

Técnicas – Híbrida

PONDERADA ALTERNADA COMBINADA

Como avaliar a precisão?• Mean Absolute Error

• Mean Squared error

• Root Mean Squared Error

Acuráciaquanto a recomendação foi assertiva

Cobertura % de produtos e usuários com

recomendação

Diversidadevariedade de produtos

recomendados

Passo 3 – escolher a tecnologia

Algumas...

open source machine learning stack for building, evaluating and deploying engines

with machine learning algorithms.

Templates

O MVC de Big Data.....

DEMO

Passo 1 – importar os dados e treinar

Passo 2 – Recomendar e coletar

Onde aprender? De graça...

https://www.youtube.com/watch?v=O8-EaDoBSCQ

Obrigado!

@MumHaBRhttps://br.linkedin.com/in/rafaelleonhardt