Machine learning com Apache Spark

Machine Learning com Apache Spark

Sandys Nunes

Quem sou eu?

- Campo-grandense

- Estudante de Ciência da Computação

- Desenvolvedor na Tecsinapse

Twitter: @SandysNunes

Agenda

- Visão Geral sobre o Apache Spark

- Algumas ferramentas

- Geração de regras de associação

- Clustering com K-Means

- Classificação com Árvore de Decisão

O que é o Apache Spark?

Engine para processamento de dados em larga escala.

Fácil de usar

● Suporte a várias linguagens

● Shell interativo

● API ricaPython

Lendo os dados

Exemplo - Frequência de palavras

RDD - Resilient Distributed Datasets

Uma abstração para que os programadores possam executar cálculos/operações em memória em um cluster tolerante à falhas.

Coleções imutáveis

Particionadas e Distribuídas

Armazenadas em memória

Partições são “recomputadas” em caso de falha

RDD - Operações

Spark Cluster

Spark standalone cluster

Vamos aos dados

1 - Apache Zeppelin

Exemplo - Vamos Explorar!

Spark+

Jupyter+

Python +

Pandas/Matplotlib

Spark+

Jupyter+

Python +

Seaborn

Regras de Associação

Analisando transações

Ex. suporte: {leite, pão, manteiga} = 20%

Ex. confiança: {leite, pão} => {manteiga} = 50%

K-Means

Clustering: K-Means

Calculando o erro até 10 centróides (Iris Data Set )

Gráfico “Cotovelo”

Árvore de Decisão

KDD Cup 1999 Data

Leitura dos dados

Treinamento e Validação

Para saber mais

Referências

RDD: https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf

Spark: http://spark.apache.org/docs/latest/

Matplotlib: http://matplotlib.org/examples/index.html

Jupyter: http://jupyter.readthedocs.org/en/latest/index.html

KDD Cup 1999: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

Seaborn: http://stanford.edu/~mwaskom/software/seaborn/

Pandas: http://stanford.edu/~mwaskom/software/seaborn/

Obrigado!

Machine learning com Apache Spark

Technology

Transcript of Machine learning com Apache Spark

Acelerando la innovación con Apache Sparkfiles.meetup.com/7770862/20151126 IBM & Apache Spark 02.pdf• 2010 – Spark paper (UC Berkeley) • 2014 – Apache Spark top-level •

Hadoop MapReduce and Apache Spark on EMR: comparing performance for distributed workloads (1)

Documentação Spark

Apache flex

Teste Apache

Linux - Apache

Black Spark

Manual Spark

INF550 - Computaçao em Nuvem I˜ Apache Sparkislene/2017-inf550/aula-spark.pdf · INF550 - Computaçao em Nuvem I˜ Apache Spark Islene Calciolari Garcia Instituto de Computaçao

Conhecendo Apache Cassandra Meetup - Conhecendo … · Eiti Kimura Coordenador de TI na Movile - Apache Cassandra MVP 2015 - Apache Cassandra MVP 2014 - Contribuidor Apache Cassandra

Extraia valiosos BIG DATA · do Apache™ Hadoop® e do Apache™ Spark® com Cloudera®, Hortonworks®, IMB® e MapR®. L Conﬁguração testada Acesso instantâneo aos dados Plataforma

Identiﬁcaçãodediﬁculdadesequestõesde ... · Apache Spark / Denis José Sousa de Albuquerque. - 2019. 117f.: il. Dissertação (mestrado) - Universidade Federal do Rio Grande

FundaçãO Apache

Apache Ant

SPARK TRIXX - sea-doo.com

NGK€¦ · NGK NGK SPARK pÚüGs NGK PLATINUM ALLOY SPARK PLUGS SPARK PLUGS BOUGIES NGK NGK . Title: Author: CConwall Created Date: 4/4/2019 3:04:13 PM ...

GERENCIAMENTO DE TEXTURAS PARA APLICAÇÕES DE …monografias.poli.ufrj.br/monografias/monopoli10020199.pdf · distribuída, Apache Spark, Cassandra, banco de dados. viii ABSTRACT

Pré processamento de grandes dados com Apache Spark

Apache CDTC

Apache Hadoop