MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel...

81

Transcript of MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel...

Page 1: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-
Page 2: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MACHINE LEARNING RESOLVE MUITA COISA

MAS NÃO É SEMPRE A MELHOR SOLUÇÃO.

Page 3: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

DETECTAR PLÁGIO EM BILHÕES DE TEXTOS

Page 4: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

DETECTAR SIMILARIDADE EM BANCOS DE DADOS DE

IMAGENS

Page 5: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

ESTIMAR INTERSEÇÃO DE CONJUNTOS, SEM PRECISAR TÊ-LOS

PRÓXIMOS GEOGRAFICAMENTE.

Page 6: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

ALEATORIEDADE NO CORAÇÃO DOS ALGORITMOS DO FUTURO

Page 7: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

● PAI DO MIGUEL

● BACHAREL E QUASE MESTRE

● PROGRAMADOR

● VICIADO EM COMPETIÇÕES

QUEM É JUAN LOPES?

Page 8: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SLIDES, LINKS E DEMOS

TWITTER E GITHUB

Page 9: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

ALGORITMOS RANDOMIZADOS

Page 10: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

● HASHTABLES

● GERAÇÃO DE PARES DE CHAVES CRIPTOGRÁFICAS

● RANDOMIZED QUICKSORT

ALGORITMOS RANDOMIZADOS

Page 11: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-
Page 12: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

RANDOMIZED ALGORITHMS

Page 13: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-
Page 16: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

ALGORITMOS RANDOMIZADOS

PROBABILÍSTICOS

Page 17: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

VAMOS FALAR DE POLÍTICA?

Page 18: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

QUAL É A BASE TEÓRICA DE UMA PESQUISA ELEITORAL?

Page 19: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

QUAL É A BASE TEÓRICA DE UMA ESTIMATIVA DE PARTICIPANTES?

Page 20: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

PROBABILIDADE E ESTATÍSTICA

Page 21: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

VARIÁVEL ALEATÓRIA X

Page 22: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

VARIÁVEL ALEATÓRIA X

ROLAGEM DE DADO DE 6 LADOS

Page 23: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

ESTIMADORES NÃO-ENVIESADOS

Page 24: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

COMO CRIAR UMA VARIÁVEL ALEATÓRIA QUE ESTIME

ALGUM VALOR IMPORTANTE?

Page 25: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

A OPINIÃO DE UM INDIVÍDUO ALEATÓRIO EM UMA

POPULAÇÃO É UM ESTIMADOR DA OPINIÃO DA POPULAÇÃO

Page 26: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

A QUANTIDADE DE PESSOAS EM UM TRECHO DE UMA

MANIFESTAÇÃO É UM ESTIMADOR DO NÚMERO

TOTAL DE PESSOAS

Page 27: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

COMPOSIÇÃO DE ESTIMADORES DIMINUI A VARIÂNCIA

Page 28: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

● FILTRO DE BLOOM [Blo70]

● CM-SKETCH [CM05]

● MINHASH [Bro97]

● HYPERLOGLOG [FFGM08]

ESTRUTURAS PROBABILÍSTICAS

Page 29: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

1970 19901980 2000 2010

LINHA DO TEMPO

FILTRO DE BLOOM [Blo70]

FM-SKETCH [FM85]

MINHASH [Bro97]

KMV-SKETCH [BYJK+02]

LSH THEORY [IM98]

SIMHASH [Cha02]

LOGLOG [DF03]

AMS PAPER [AMS96]

CM-SKETCH [CM05]

HYPERLOGLOG [FFGM08]

SPECTRAL BLOOM [CM03]

Page 30: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

– DONALD KNUTH

HASH FUNCTIONS

Page 31: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HASH FUNCTIONS

xh(x)

0: 50%

1: 50%

0: 50%

1: 50%

0: 50%

1: 50%

Page 32: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

[Bro97] Andrei Z Broder. On the resemblance and containment of documents. In Compression and Complexity of Sequences 1997. Proceedings, pages 21–29. IEEE, 1997.

Page 33: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● VARIÁVEL DE BERNOULLI

● ÍNDICE DE JACCARD

● DUAS VARIANTES

Page 34: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH, COM CALMA

A B

Page 35: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

A B

MINHASH, COM CALMA

Page 36: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

A BA B

MINHASH, COM CALMA

Page 37: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

CALMA!

Page 38: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● CADA FUNÇÃO DEFINE UM ESTIMADOR NÃO-ENVIESADO

● MÚLTIPLAS FUNÇÕES DE HASH

● COMPARAÇÃO DOS VALORES DE CADA ASSINATURA

Page 39: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● ASSINATURA DEFINIDA POR K MENORES VALORES

● TAMBÉM É VARIÁVEL DE BERNOULLI

● COMPARAÇÃO DOS VALORES DE CADA ASSINATURA

Page 40: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● PODE SER 1 COM PROBABILIDADE p E 0 COM PROBABILIDADE 1-p

Page 41: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

Page 42: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● 42 OBRAS DE SHAKESPEARE

● 84 DOCUMENTOS NO TOTAL

● 0 ≤ K ≤ 1000

Page 43: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

h1

h2

h3

h4

h5

h6

h7

h8

Page 44: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

h1

h2

h3

h4

h5

h6

h7

h8

r=2}

Page 45: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

r1

h1

h2

r2

h3

h4

r3

h5

h6

r4

h7

h8

} r=2{b=4

Page 46: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

r1

h1

h2

r2

h3

h4

r3

h5

h6

r4

h7

h8

S1 S4

Page 47: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

r1

h1

h2

r2

h3

h4

r3

h5

h6

r4

h7

h8

S2 S5

S1 S4

Page 48: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

r1

h1

h2

r2

h3

h4

r3

h5

h6

r4

h7

h8

S2 S5

S2 S5

S1 S4

Page 49: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

r1

h1

h2

r2

h3

h4

r3

h5

h6

r4

h7

h8

S1 S4

S2 S5

S2 S5

S2 S5

S2 S5

S2 S5

S1 S4

Page 50: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

S1 S2 S3 S4 S5

r1

h1

h2

r2

h3

h4

r3

h5

h6

r4

h7

h8

S1 S4

S2 S5

S2 S5

S2 S5 S1 S4

S2 S5

S2 S5

S1 S4

Page 51: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● PROBABILIDADE DE UM PAR SER ESCOLHIDO DEPENDE DA SIMILARIDADE ENTRE OS CONJUNTOS

Page 52: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● PROBABILIDADE DE UM PAR SER ESCOLHIDO DEPENDE DA SIMILARIDADE ENTRE OS CONJUNTOS

Page 53: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

MINHASH

● 42 OBRAS DE SHAKESPEARE

● 84 DOCUMENTOS NO TOTAL

● K = 512

Page 54: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SIMHASH

Page 55: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SIMHASH

Page 56: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SIMHASH

r ⃗

u ⃗v ⃗

Page 57: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SIMHASH

● FUNÇÃO DE HASH DEFINIDA POR VETOR ALEATÓRIO

● ESTIMATIVA DO MENOR ÂNGULO ENTRE DOIS VETORES

Page 58: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SIMHASH

● REPRESENTAÇÃO COMPACTA

● COMPUTAÇÃO EFICIENTE

● REPRESENTA MULTICONJUNTOS FACILMENTE

Page 59: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-
Page 60: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

[FFGM08] Philippe Flajolet, Éric Fusy, Olivier Gandouet, and Frédéric Meunier. Hyperloglog: the analysis of a near-optimal cardinality estimation algorithm. DMTCS Proceedings, (1), 2008.

Page 61: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

É COMO ESTIMAR O NÚMERO DE PESSOAS EM UMA

MULTIDÃO PELA ALTURA DA MAIOR PESSOA

Page 62: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

● BASEIA-SE NA OBSERVAÇÃO DO PADRÃO DE BITS

Page 63: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

0

0

0

0

0

0

0

0

Page 64: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

A

0

0

0

3

0

0

0

0

01000101

Page 65: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

B

0

0

0

3

0

0

1

0

11010011

Page 66: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

C

0

0

0

5

0

0

1

0

01000001

Page 67: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

C

0

0

0

5

0

0

1

0

01000001

CADA POSIÇÃO NESTE ARRAY DE EXEMPLO USA APENAS 3 BITS

Page 68: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

C

0

0

0

5

0

0

1

0

01000001

Page 69: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

● SE O VALOR ESTIMADO FOR MUITO BAIXO (<2.5M), USA-SE LINEAR COUNTING NO MESMO VETOR

● A ESTIMATIVA TEM UM VIÉS MULTIPLICATIVO CONSTANTE QUE PRECISA SER CORRIGIDO

Page 70: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

“LOGLOG” VEM DA QUANTIDADE DE MEMÓRIA NECESSARIA PARA CADA

SUBFLUXO.LOGLOG(2^32) = 5 BITS

Page 71: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG++

Page 72: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG++

Page 73: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

COMO ENGENHEIROS RESOLVEM PROBLEMAS:

goo.gl/iU8Ig

18 PÁGINAS DE CONSTANTES

Page 74: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

Page 75: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

HYPERLOGLOG

● 42 OBRAS DE SHAKESPEARE

Page 76: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

OPERAÇÕES SOBRE HYPERLOGLOGS

Page 77: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

INTERSEÇÃO DE HYPERLOGLOGS

● IDEIA SIMPLES

● O PROBLEMA

Page 78: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

INTERSEÇÃO DE HYPERLOGLOGS

● MINHASH × HYPERLOGLOG

● ERRO CONTROLADO

Page 79: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

● SÃO MUITO IMPORTANTES QUANDO HÁ RESTRIÇÃO DE RECURSOS

● ÁREA DE PESQUISA RECENTE

● ATRAI MUITO INTERESSE DOS BIG PLAYERS

● IMPLEMENTAR É MAIS SIMPLES QUE EXPLICAR

ESTRUTURAS PROBABILÍSTICAS

Page 80: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

SLIDES, LINKS E DEMOS

TWITTER E GITHUB

PERGUNTAS?

Page 81: MACHINE LEARNING MELHOR SOLUÇÃO. - QCon São Paulo … · probabilidade e estatÍstica. variÁvel aleatÓria x. variÁvel aleatÓria x rolagem de dado de 6 lados. estimadores nÃo-

OBRIGADO!