Dados estão crescendo…
90% dos dados foram gerados há 2 anos
Prof. Daniela Barreiro Claro
90%
10%
Dados gerados
Há 2 anos atrás
Desde o início
Estes dados vem dos diversos dispositivos
Grande quantidade de dados
Não se trata de um simples gargalo de um SGBD
Efetivamente, são capacidades de armazenamento e processamento sendo esgotadas.
Prof. Daniela Barreiro Claro
SGBD
Qual a forma de se escolher um filme no cinema?
Sinopse: Detroit - in the future - is crime-ridden, and run by a massive company. The company have developed a huge crime-fighting robot, which unfortunately develops a rather dangerous glitch. The company sees a way to get back in favour with the public when a cop called Alex Murphy is killed by a street gang. Murphy's body is reconstructed within a steel shell and named Robocop. The Robocop is very successful against criminals, and becomes a target of supervillian Boddicker.
Trailer
http://youtu.be/clqK5OC3BWE
Prof. Daniela Barreiro Claro
Quais os tipos de dados que temos hoje? ◦Dados Estruturados
◦Dados Semi-Estruturados
◦Dados não-estruturados
Prof. Daniela Barreiro Claro
Dados organizados em blocos semânticos (relações)
Dados de um mesmo grupo possuem as mesmas descrições (atributos)
Descrições para todas as classes de um grupo possuem o mesmo formato (esquema)
Dados mantidos em um SGBD sao chamados de Dados Estruturados por manterem a mesma estrutura de representação (rígida), previamente projetada (esquema)
Prof. Daniela Barreiro Claro
Atualmente, muitos dados não são mantidos no SGBD
Dados Web, por exemplo, apresentam uma organização bastante heterogênea.
A alta heterogeneidade dificulta as consultas a estes dados
Assim, estes dados sao classificados como semi-estruturados ◦ Não são estritamente tipados
◦ Não são complementamente não-estruturados
Prof. Daniela Barreiro Claro
Os dados semi-estruturados são dados onde o esquema de representação está presente (de forma explícita ou implícita)
Auto-descritivo
Uma análise do dado deve ser feita para que a sua estrutura possa ser identificada e extraída
Prof. Daniela Barreiro Claro
Características principais ◦ Definição à posteriori Esquemas são definidos após a existência dos dados
Investigação de suas estruturas particulares
◦ Estrutura irregular Não existe um esquema padrão para os dados
Coleções de dados são definidos de maneiras diferentes, contendo informações incompletas
◦ Estrutura implícita Muitas vezes existe uma estrutura implícita
◦ Estrutura parcial Apenas parte dos dados disponíveis podem ter uma
estrutura
Prof. Daniela Barreiro Claro
Dados Estruturados Dados SemiEstruturados
Esquema pré-definido Nem sempre há um esquema
Estrutura regular Estrutura irregular
Estrutura independente dos dados Estrutura embutida nos dados
Estrutura reduzida Estrutura extensa (particularidades de cada dado, visto que cada um pode ter uma organização própria)
Fracamente evolutiva Fortemente evolutiva (estrutura modifica-se com frequencia)
Prescritiva (esquemas fechados e restrições de integridade)
Estrutura descritiva
Distinção entre estrutura e dados é clara
Distinção entre estrutura e dados não é clara
Prof. Daniela Barreiro Claro
Exemplos ◦ XML – eXtensible Markup Language
◦ RDF – Resource Description Framework
◦ OWL – Web Ontology Language
Prof. Daniela Barreiro Claro
Sao os dados que não possuem uma estrutura definida.
Normalmente caracterizados por documentos textos, imagens, videos, etc
Nem as estruturas sao descritas implicitamente
Grande maioria dos dados atuais na Web e nas empresas seguem este formato.
Prof. Daniela Barreiro Claro
Crescimento diferenciado dos tipos de dados
Prof. Daniela Barreiro Claro
0
20
40
60
80
1996 2012
Filmes,
figuras,
documentos
Word
Textos
simples, HTML
Preferem RICH DATA
Atualmente, devido a variedade de dispositivos, os dados também são variados
Diversos dispositivos ◦ Explosão de sensores, dispositivos inteligentes,
tecnologias de colaboração, redes sociais
Dados não são mais relacionais, mas diversificados de paginas web, emails, documentos, dados de sensores, etc
Sistemas tradicionais estão em colapso para processar estes dados
Prof. Daniela Barreiro Claro
Dados disponíveis x Processamento dos Dados
Dados disponíveis
Processamento dos
dados
Prof. Daniela Barreiro Claro
Volume de Dados
No ano 2000, eram armazenados no mundo ◦ 800.000 Petabytes (PB)
IDC: Expectativa para 2020 ◦ 35 zetabytes (ZB)
Twitter sozinho gera mais de 7 terabytes de dados TODOS OS DIAS
Facebook 10TB
Prof. Daniela Barreiro Claro
É ideal: ◦ Analisar dados semi-estruturados e não-
estruturados de uma variedade de fontes
◦ Quando todos os dados ou quase todos devem ser analisados
◦ Para analises interativas e exploratórias
Big Data releva as formalidades e restrições do Data Warehouse
Preserva a fidelidade dos dados
Prof. Daniela Barreiro Claro
Top Related