Post on 18-Dec-2014
description
ORGANOGRAFOSReorganizando seu
Conteúdo Digital
Rodrigo Dias Arruda SenraIC-Unicamp / Globo.com
Latinoware 2012 - IX Conferência Latino-Americana de Software Livre
Apenas um rapaz latino americano...
• Desenvolvedor e Projetista de Software(no mercado desde 1996, hoje na Globo.com )
• Engenheiro de Computação Graduação-MSc-(PhD em dez 2012) IC-Unicamp
• Entusiasta de FLOSS(atuante na comunidade desde 1999)
2
Roteiro
• Provocação Filosófica• Motivação• Problemas• Organografos • Organicer (preview)
3
ProvocaçãoFilosófica
Os Primeiros Nerds
5
Os Primeiros Nerds
5
Os Primeiros Nerds
5
Os Primeiros Nerds
5
Os Primeiros Nerds
5
Os Primeiros Nerds
5
Os Primeiros Nerds
http://www.ciencialivre.pro.br Informação ampla e irrestrita
5
Motivação
7
7
Organization
Hierarchies
Automation
Clustering
Classification
Data Sharing
EvaluationDatabases
Classification
Information Extraction
Information Retrieval
CognitionDigital Libraries
Content Management
RDF
XML
RSS
Semantic Web
Personal Desktop
User Interfaces
Visualization
k-Means
Nearest Neighbors
Support Vector Machines
Neural Nets
Naïve Bayes
Jaccard
DiceCosine
Matching Wrappers
Taxonomy
Tagging
Folksonomy
Social Networks
Syndication
Feeds
Organographs
Python
Javascript
Go
NoSQL
Mongo
CouchDB
Fapesp
CNPq
CAPES
INCT
Crescenzi
Chen
Hull Sebastiani
Sokal
8
8
Quantos conceitos ?
8
Quantos conceitos ?
Em que ordem eles apareceram ?
8
Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
8
Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
8
Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
8
Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
8
Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
...
8
Quantos conceitos ?
Em que ordem eles apareceram ?
Como categorizá-los ?
De onde vieram ?
Quais as relações entre os conceitos ?
Quais são relevantes para mim agora ?
...[Miller 1956] regra 7±2: capacidade cognitiva é limitada
9
OrganizationHierarchies
Automation
ClusteringClassification
Data Sharing
Evaluation
Databases
Classification
Information Extraction
Information Retrieval
Cognition
Digital LibrariesContent Management
RDFXML
RSS
Semantic Web
Personal Desktop
User Interfaces
Visualization
k-Means
Nearest Neighbors
Support Vector Machines Neural Nets
Naïve Bayes
Jaccard
Dice
Cosine
Matching
Wrappers
Taxonomy
TaggingFolksonomy
Social Networks
Syndication
Feeds
Organographs
PythonJavascript
GoNoSQLMongoCouchDB
Fapesp
CNPq
CAPES
INCT
CrescenziChen
Hull
Sebastiani
Sokal
10
Problemas
12
Qual das categorias abaixo é a que melhor acomoda o objeto acima ?
13
Vermelhos ? Triangulos ? Relacionados ?
Motivação
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14
Uma breve história no tempo
14Muito mais difícil que
O que há de errado ?
15
O que há de errado ?
15
1. Única categoria para conteúdo Multi-facetado
O que há de errado ?
15
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
O que há de errado ?
15
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
3. Critério não é explícito
O que há de errado ?
15
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
3. Critério não é explícito
4. Relação estática de pertinência
O que há de errado ?
15
1. Única categoria para conteúdo Multi-facetado
2. Categorias definidas manualmente
3. Critério não é explícito
4. Relação estática de pertinência
5. Organização não é reutilizável
Objetivos
Objetivos
1. Avaliar hierarquias criadas manualmente
2. Reorganizar conteúdo dinamicamente
3. Reutilizar organização
Avaliar Hierarquias
17
Avaliar Hierarquias
17
muito conteúdo junto
Avaliar Hierarquias
17
muito conteúdo junto
duplicado, deslocado
Avaliar Hierarquias
17
muito conteúdo junto
muitos agregadores
duplicado, deslocado
Avaliar Hierarquias
17
muito conteúdo junto
muitos agregadores
duplicado, deslocado
profundo demais
Reorganizar conteúdo dinamicamente
18
Artigo 1
Artigo 2
Artigo 3
Alice
Beto
2011
2008
2011
Autor
Data de Publicação
Reorganizar conteúdo dinamicamente
18
Artigo 1
Artigo 2
Artigo 3
Alice
Beto
2011
2008
2011
Autor
Data de Publicação Autor
Data de Publicação
Reorganizar conteúdo dinamicamente
18
Artigo 1
Artigo 2
Artigo 3
Alice
Beto
2011
2008
2011 Artigo 1
Artigo 2
Artigo 3
Alice
Beto
2008
2011
Alice
Autor
Data de Publicação Autor
Data de Publicação
Reorganizar conteúdo dinamicamente
18
Artigo 1
Artigo 2
Artigo 3
Alice
Beto
2011
2008
2011 Artigo 1
Artigo 2
Artigo 3
Alice
Beto
2008
2011
Alice
Autor
Data de Publicação Autor
Data de Publicação
a TAREFA é importante!
Reutilizar organização
19
Reutilizar organização
19
Reutilizar organização
19
Organografos
Metodologia
21
coleção
Metodologia
21
coleção
organizar
Metodologia
21
coleção
organizar
avaliar
Metodologia
21
coleção
organizar
avaliar
reorganizar
Metodologia
21
coleção
organizar
avaliar
reorganizar
compartilhar
22
22
Organografos
... são artefatos que tornam explícito como organizar informação digital no contexto de uma tarefa específica.
Organographs
23
O = <Hin(V,E), forg, Hout(V,E)>
Hin(V,E), Hout(V,E): Input and Output Hierarchies
forg: FHil(vagg,vagg) + FCat(vagg,vcnt)
vagg
vcnteagg
ecnt
notation
NLP
Autor doOrganofrafo
MLDomínio
Papéis
OntologiasClassificadoresExtração de
Informação
Algoritmos
SimilaridadeOrganografo
Algoritmos de Visualização
24
Iteradores
Data Container UX
Autoria de Organografo
Tarefa !
25
Estrutura de um Organografo
Hierarquia de Entrada:• localização ( URL )• Navegação (crawler/iterador)
Hieraquia de Saída:• localização (URL) • política de visualização
Transformação:• política de extração de informação• Remapeamento da estrutura hierarquica (FHil)
• Política de categorização (FCat)
Hierarquia de Origem
HierarquiaResultante
Usuário do Organografo
Índice deFacetas
Pre-processamento
Extração
Navegação daHierarquia
Workflow de Transformação
Execução de Organografo
FCat() FHil()
Visualização
Iterador
27
ImplementaçãoCrawler:
filesystem, relational DB, OO DB, Web Extração de Informação:
patterns,dictionaries, rules, probabilities, templates/wrappers Medidas de Similaridade:
matching, dice, jaccard, overlap, cosineOntologias:
ACM subject headings, Qualis Index, SKOSClassificadores:
decision trees, naïve bayes, max. entropyVisualização:
user-mode filesystem(fuse, dokan), InfoVis toolkit (Web)
Example
28
Example
29
Coleção de Entrada
Task: extração info
Task: transformação
Task: visualização
acmccs98 = acm_extractor(‘http://www.acm.org/about/class/1998/ccs98.xml’)
organograph: input: collection(‘file:///some/local/dir/docs’) output: collection(‘rodsenra@dropbox:/output’) id: ‘docs by year’ level: label: format(‘YYYY’, input.Vcnt.publication_date) level: classifier: naive_bayes(classes=acmccs98.Vagg[1], train=acmccs98.Vagg[2:] + acmccs98.Vcnt) label: classifier.class
Organicer
Organicer
32
Organicer
32
Organicer
32
Organicer
32
Organicer
32
Conclusão
Trabalhos Relacionados•Topic Modeling
LSA, LDA, Hierarchical Bayesian Blei 201; Blei, Ng, & Jordan, 2003; Griffiths & Steyvers, 2002; 2003; 2004; Hofmann, 1999; 2001
• Personal Information Management CALO, UMEA, X-COSIM, Haystack, UpLib, Iris
Zimmermann 2005; Arndt 2007; Lansdale 1988; Kaptelinin 2003; Janssen & Popat 2003; Karger et al 2003
• Semantic DesktopNepomuk, SEMSOCGiannakidou et al 2008; Groza et al 2007
• Fundamental ResearchClassification; Clusterization; NLP; Information Extraction
Resumo
• Organografos: metodologia, arquitetura,utilização
• Capturar a tarefa por trás de uma organização
• Avaliar, reorganizar e compartilhar.
35
Agradecimentos
• Laboratório de Sistemas de Informação (IC-Unicamp)
http://www.lis.ic.unicamp.br• Brazilian Institute for Web Science Research
http://webscience.org.br• Globo.com
36
Obrigado a todos pela atenção.
Rodrigo Dias Arruda Senrahttp://rodrigo.senra.nom.br
rsenra@acm.org
As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.
Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante. Em caso de alterações, favor consultar o autor.
Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright.