Prof. Daniela Barreiro...

19
Prof. Daniela Barreiro Claro

Transcript of Prof. Daniela Barreiro...

Prof. Daniela Barreiro Claro

Dados estão crescendo…

90% dos dados foram gerados há 2 anos

Prof. Daniela Barreiro Claro

90%

10%

Dados gerados

Há 2 anos atrás

Desde o início

Estes dados vem dos diversos dispositivos

Grande quantidade de dados

Não se trata de um simples gargalo de um SGBD

Efetivamente, são capacidades de armazenamento e processamento sendo esgotadas.

Prof. Daniela Barreiro Claro

SGBD

Qual a forma de se escolher um filme no cinema?

Sinopse: Detroit - in the future - is crime-ridden, and run by a massive company. The company have developed a huge crime-fighting robot, which unfortunately develops a rather dangerous glitch. The company sees a way to get back in favour with the public when a cop called Alex Murphy is killed by a street gang. Murphy's body is reconstructed within a steel shell and named Robocop. The Robocop is very successful against criminals, and becomes a target of supervillian Boddicker.

Trailer

http://youtu.be/clqK5OC3BWE

Prof. Daniela Barreiro Claro

Quais os tipos de dados que temos hoje? ◦Dados Estruturados

◦Dados Semi-Estruturados

◦Dados não-estruturados

Prof. Daniela Barreiro Claro

Relacionados a um SGBD

Prof. Daniela Barreiro Claro

SGBD

Dados organizados em blocos semânticos (relações)

Dados de um mesmo grupo possuem as mesmas descrições (atributos)

Descrições para todas as classes de um grupo possuem o mesmo formato (esquema)

Dados mantidos em um SGBD sao chamados de Dados Estruturados por manterem a mesma estrutura de representação (rígida), previamente projetada (esquema)

Prof. Daniela Barreiro Claro

Atualmente, muitos dados não são mantidos no SGBD

Dados Web, por exemplo, apresentam uma organização bastante heterogênea.

A alta heterogeneidade dificulta as consultas a estes dados

Assim, estes dados sao classificados como semi-estruturados ◦ Não são estritamente tipados

◦ Não são complementamente não-estruturados

Prof. Daniela Barreiro Claro

Os dados semi-estruturados são dados onde o esquema de representação está presente (de forma explícita ou implícita)

Auto-descritivo

Uma análise do dado deve ser feita para que a sua estrutura possa ser identificada e extraída

Prof. Daniela Barreiro Claro

Características principais ◦ Definição à posteriori Esquemas são definidos após a existência dos dados

Investigação de suas estruturas particulares

◦ Estrutura irregular Não existe um esquema padrão para os dados

Coleções de dados são definidos de maneiras diferentes, contendo informações incompletas

◦ Estrutura implícita Muitas vezes existe uma estrutura implícita

◦ Estrutura parcial Apenas parte dos dados disponíveis podem ter uma

estrutura

Prof. Daniela Barreiro Claro

Dados Estruturados Dados SemiEstruturados

Esquema pré-definido Nem sempre há um esquema

Estrutura regular Estrutura irregular

Estrutura independente dos dados Estrutura embutida nos dados

Estrutura reduzida Estrutura extensa (particularidades de cada dado, visto que cada um pode ter uma organização própria)

Fracamente evolutiva Fortemente evolutiva (estrutura modifica-se com frequencia)

Prescritiva (esquemas fechados e restrições de integridade)

Estrutura descritiva

Distinção entre estrutura e dados é clara

Distinção entre estrutura e dados não é clara

Prof. Daniela Barreiro Claro

Exemplos ◦ XML – eXtensible Markup Language

◦ RDF – Resource Description Framework

◦ OWL – Web Ontology Language

Prof. Daniela Barreiro Claro

Sao os dados que não possuem uma estrutura definida.

Normalmente caracterizados por documentos textos, imagens, videos, etc

Nem as estruturas sao descritas implicitamente

Grande maioria dos dados atuais na Web e nas empresas seguem este formato.

Prof. Daniela Barreiro Claro

Crescimento diferenciado dos tipos de dados

Prof. Daniela Barreiro Claro

0

20

40

60

80

1996 2012

Filmes,

figuras,

documentos

Word

Textos

simples, HTML

Preferem RICH DATA

Atualmente, devido a variedade de dispositivos, os dados também são variados

Diversos dispositivos ◦ Explosão de sensores, dispositivos inteligentes,

tecnologias de colaboração, redes sociais

Dados não são mais relacionais, mas diversificados de paginas web, emails, documentos, dados de sensores, etc

Sistemas tradicionais estão em colapso para processar estes dados

Prof. Daniela Barreiro Claro

Dados disponíveis x Processamento dos Dados

Dados disponíveis

Processamento dos

dados

Prof. Daniela Barreiro Claro

Volume de Dados

No ano 2000, eram armazenados no mundo ◦ 800.000 Petabytes (PB)

IDC: Expectativa para 2020 ◦ 35 zetabytes (ZB)

Twitter sozinho gera mais de 7 terabytes de dados TODOS OS DIAS

Facebook 10TB

Prof. Daniela Barreiro Claro

Isso deu origem ao BIG DATA

Prof. Daniela Barreiro Claro

É ideal: ◦ Analisar dados semi-estruturados e não-

estruturados de uma variedade de fontes

◦ Quando todos os dados ou quase todos devem ser analisados

◦ Para analises interativas e exploratórias

Big Data releva as formalidades e restrições do Data Warehouse

Preserva a fidelidade dos dados

Prof. Daniela Barreiro Claro