Latinoware2012

Post on 18-Dec-2014

329 views 0 download

description

Organografos: Reorganizando seu conteúdo digital. A era digital está nos inundando de informação. Hierarquias são os padrões cognitivos que nos permitem reduzir o espaço de informação para uma dimensão compatível com nossos limites cognitivos. Nossas ferramentas de gerenciamento de conteúdo digital usam e abusam de hierarquias, mas há muito o que melhorar. Não temos mecanismos para avaliar a qualidade de uma organização, construímos intuitivamente hierarquias estáticas, e somos incapazes de compartilhar facilmente nossos critérios organizacionais. Nesta palestra, discutiremos estes temas e uma nova abordagem de organização de informação digital que permita a construção de hierarquias dinâmicas, contextuais, reconfiguráveis e compartilháveis.

Transcript of Latinoware2012

ORGANOGRAFOSReorganizando seu

Conteúdo Digital

Rodrigo Dias Arruda SenraIC-Unicamp / Globo.com

Latinoware 2012 - IX Conferência Latino-Americana de Software Livre

Apenas um rapaz latino americano...

• Desenvolvedor e Projetista de Software(no mercado desde 1996, hoje na Globo.com )

• Engenheiro de Computação Graduação-MSc-(PhD em dez 2012) IC-Unicamp

• Entusiasta de FLOSS(atuante na comunidade desde 1999)

2

Roteiro

• Provocação Filosófica• Motivação• Problemas• Organografos • Organicer (preview)

3

ProvocaçãoFilosófica

Os Primeiros Nerds

5

Os Primeiros Nerds

5

Os Primeiros Nerds

5

Os Primeiros Nerds

5

Os Primeiros Nerds

5

Os Primeiros Nerds

5

Os Primeiros Nerds

http://www.ciencialivre.pro.br Informação ampla e irrestrita

5

Motivação

7

7

Organization

Hierarchies

Automation

Clustering

Classification

Data Sharing

EvaluationDatabases

Classification

Information Extraction

Information Retrieval

CognitionDigital Libraries

Content Management

RDF

XML

RSS

Semantic Web

Personal Desktop

User Interfaces

Visualization

k-Means

Nearest Neighbors

Support Vector Machines

Neural Nets

Naïve Bayes

Jaccard

DiceCosine

Matching Wrappers

Taxonomy

Tagging

Folksonomy

Social Networks

Syndication

Feeds

Organographs

Python

Javascript

Go

NoSQL

Mongo

CouchDB

Fapesp

CNPq

CAPES

INCT

Crescenzi

Chen

Hull Sebastiani

Sokal

8

8

Quantos conceitos ?

8

Quantos conceitos ?

Em que ordem eles apareceram ?

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Quais são relevantes para mim agora ?

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Quais são relevantes para mim agora ?

...

8

Quantos conceitos ?

Em que ordem eles apareceram ?

Como categorizá-los ?

De onde vieram ?

Quais as relações entre os conceitos ?

Quais são relevantes para mim agora ?

...[Miller 1956] regra 7±2: capacidade cognitiva é limitada

9

OrganizationHierarchies

Automation

ClusteringClassification

Data Sharing

Evaluation

Databases

Classification

Information Extraction

Information Retrieval

Cognition

Digital LibrariesContent Management

RDFXML

RSS

Semantic Web

Personal Desktop

User Interfaces

Visualization

k-Means

Nearest Neighbors

Support Vector Machines Neural Nets

Naïve Bayes

Jaccard

Dice

Cosine

Matching

Wrappers

Taxonomy

TaggingFolksonomy

Social Networks

Syndication

Feeds

Organographs

PythonJavascript

GoNoSQLMongoCouchDB

Fapesp

CNPq

CAPES

INCT

CrescenziChen

Hull

Sebastiani

Sokal

10

Problemas

12

Qual das categorias abaixo é a que melhor acomoda o objeto acima ?

13

Vermelhos ? Triangulos ? Relacionados ?

Motivação

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14

Uma breve história no tempo

14Muito mais difícil que

O que há de errado ?

15

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência

O que há de errado ?

15

1. Única categoria para conteúdo Multi-facetado

2. Categorias definidas manualmente

3. Critério não é explícito

4. Relação estática de pertinência

5. Organização não é reutilizável

Objetivos

Objetivos

1. Avaliar hierarquias criadas manualmente

2. Reorganizar conteúdo dinamicamente

3. Reutilizar organização

Avaliar Hierarquias

17

Avaliar Hierarquias

17

muito conteúdo junto

Avaliar Hierarquias

17

muito conteúdo junto

duplicado, deslocado

Avaliar Hierarquias

17

muito conteúdo junto

muitos agregadores

duplicado, deslocado

Avaliar Hierarquias

17

muito conteúdo junto

muitos agregadores

duplicado, deslocado

profundo demais

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011

Autor

Data de Publicação

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011

Autor

Data de Publicação Autor

Data de Publicação

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011 Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2008

2011

Alice

Autor

Data de Publicação Autor

Data de Publicação

Reorganizar conteúdo dinamicamente

18

Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2011

2008

2011 Artigo 1

Artigo 2

Artigo 3

Alice

Beto

2008

2011

Alice

Autor

Data de Publicação Autor

Data de Publicação

a TAREFA é importante!

Reutilizar organização

19

Reutilizar organização

19

Reutilizar organização

19

Organografos

Metodologia

21

coleção

Metodologia

21

coleção

organizar

Metodologia

21

coleção

organizar

avaliar

Metodologia

21

coleção

organizar

avaliar

reorganizar

Metodologia

21

coleção

organizar

avaliar

reorganizar

compartilhar

22

22

Organografos

... são artefatos que tornam explícito como organizar informação digital no contexto de uma tarefa específica.

Organographs

23

O = <Hin(V,E), forg, Hout(V,E)>

Hin(V,E), Hout(V,E): Input and Output Hierarchies

forg: FHil(vagg,vagg) + FCat(vagg,vcnt)

vagg

vcnteagg

ecnt

notation

NLP

Autor doOrganofrafo

MLDomínio

Papéis

OntologiasClassificadoresExtração de

Informação

Algoritmos

SimilaridadeOrganografo

Algoritmos de Visualização

24

Iteradores

Data Container UX

Autoria de Organografo

Tarefa !

25

Estrutura de um Organografo

Hierarquia de Entrada:• localização ( URL )• Navegação (crawler/iterador)

Hieraquia de Saída:• localização (URL) • política de visualização

Transformação:• política de extração de informação• Remapeamento da estrutura hierarquica (FHil)

• Política de categorização (FCat)

Hierarquia de Origem

HierarquiaResultante

Usuário do Organografo

Índice deFacetas

Pre-processamento

Extração

Navegação daHierarquia

Workflow de Transformação

Execução de Organografo

FCat() FHil()

Visualização

Iterador

27

ImplementaçãoCrawler:

filesystem, relational DB, OO DB, Web Extração de Informação:

patterns,dictionaries, rules, probabilities, templates/wrappers Medidas de Similaridade:

matching, dice, jaccard, overlap, cosineOntologias:

ACM subject headings, Qualis Index, SKOSClassificadores:

decision trees, naïve bayes, max. entropyVisualização:

user-mode filesystem(fuse, dokan), InfoVis toolkit (Web)

Example

28

Example

29

Coleção de Entrada

Task: extração info

Task: transformação

Task: visualização

acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’)

organograph: input: collection(‘file:///some/local/dir/docs’) output: collection(‘rodsenra@dropbox:/output’) id: ‘docs by year’ level: label: format(‘YYYY’, input.Vcnt.publication_date) level: classifier: naive_bayes(classes=acmccs98.Vagg[1], train=acmccs98.Vagg[2:] + acmccs98.Vcnt) label: classifier.class

Organicer

Organicer

32

Organicer

32

Organicer

32

Organicer

32

Organicer

32

Conclusão

Trabalhos Relacionados•Topic Modeling

LSA, LDA, Hierarchical Bayesian Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999; 2001

• Personal Information Management CALO, UMEA, X-COSIM, Haystack, UpLib, Iris

Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003; Karger et al 2003

• Semantic DesktopNepomuk, SEMSOCGiannakidou et al 2008; Groza et al 2007

• Fundamental ResearchClassification; Clusterization; NLP; Information Extraction

Resumo

• Organografos: metodologia, arquitetura,utilização

• Capturar a tarefa por trás de uma organização

• Avaliar, reorganizar e compartilhar.

35

Agradecimentos

• Laboratório de Sistemas de Informação (IC-Unicamp)

http://www.lis.ic.unicamp.br• Brazilian Institute for Web Science Research

http://webscience.org.br• Globo.com

36

Obrigado a todos pela atenção.

Rodrigo Dias Arruda Senrahttp://rodrigo.senra.nom.br

rsenra@acm.org

As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.

Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Em caso de alterações, favor consultar o autor.

Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright.