Estrutura Organização e Tratamento de Dados - 12º anoLuís Ceia Recolha e Tratamento da Informação.
Gestão e Tratamento de Informação
-
Upload
kathleen-weaver -
Category
Documents
-
view
32 -
download
2
description
Transcript of Gestão e Tratamento de Informação
![Page 1: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/1.jpg)
Gestão e Tratamento de Informação
Helena Galhardas
DEI IST
![Page 2: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/2.jpg)
Corpo docente
Helena Galhardas (responsável e aulas teóricas)
Pável Calado (aulas teóricas) Bruno Martins (laboratórios)
![Page 3: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/3.jpg)
Organização das aulas
Aulas teóricas Aulas de laboratório
Grupos de três elementos inscrições na página da cadeira no Fénix iniciam-se
hoje Apoio no software a ser utilizado
SW open-source Apoio na resolução dos mini-projectos
![Page 4: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/4.jpg)
Avaliação
Exame (52%) 22/1/2009 5/2/2009
4 Mini-Projectos (48%), cada um vale12% Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos feita na aula teórica Solução e correcções mostradas na aula teórica Conteúdo: uma parte teórica/prática e outra de
SW
![Page 5: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/5.jpg)
Calendário Mini-Projectos
MP1 Entrega enunciado: 26/9 Entrega alunos: 17/10
MP2 Entrega enunciado: 17/10 Entrega alunos: 7/11
MP3 Entrega enunciado: 7/11 Entrega alunos: 28/11
MP4 Entrega enunciado: 28/11 Entrega alunos: 11/12
![Page 6: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/6.jpg)
Programa Gestão de dados XML
Linguagens de interrogação e modificação: XPath, XSLT, XQuery, XQuery Update
Armazenamento de dados XML Extracção de Informação
Extracção de dados da Web Técnicas de extracção de informação a partir de texto Hidden Markov Models Ferramentas: Mallet, GATE, MinorThird, UIMA
Integração de dados e esquema Global-as-view vs local-as-view Mediadores e wrappers Systems: LSD, TSIMMIS, Information Manifold
Transformação e limpeza de dados Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação
![Page 7: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/7.jpg)
Extracção de informação
1. Extracção de dados estruturados a partir da Web (docs HTML, XML)
2. Extracção de dados estruturados a partir de texto Tb. conhecido por prospecçãod e texto (text mining)
Desafios da Web: Número grande de fontes de dados Páginas Web devem ser transformadas em dados
estruturados Falta de controlo sobre os dados Fontes têm restrições de entrada e saída Natureza distribuída da Web pode tornar a integração de
dados mto lenta
![Page 8: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/8.jpg)
Extracção de dados estruturados a partir de texto Como descobrir estrutura em dados não
estruturados Exemplo (http://www.imdb.com)
Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman. ...
Algumas técnicas de aprendizagem automática (Machine Learning) podem ser usadas
![Page 9: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/9.jpg)
Gestão de dados XML
XML é vastamente utilizada como linguagem de troca de dados na Internet
DTD, XMLSchema, XPath, XSLT são assuntos já conhecidos
A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui
![Page 10: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/10.jpg)
Integração de dados e esquema Integrar dados oriundos de múltiplas fontes
de dados heterógeneas Desafios:
Acesso aos dados Resolver as diferenças existentes ao nível de
esquema e dados Executar a integração de forma eficiente
![Page 11: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/11.jpg)
Transformação e limpeza de dados Durante e após a integração, alguns problemas
com os dados precisam de ser resolvidos Exemplo:
Filmes (id, título, realizador, ano, ano_ult_remake)(1|Casablanca|Weir|1942|1940)(2|Dead Poets Society|Curtiz|1989|-)(3|Rman Holiday|Wylder|1953|-)(4|Casblanca|Weir|1940|1950)
Detecção e eliminação de duplicados é um dos aspectos que vamos estudar
![Page 12: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/12.jpg)
Software utilizado Pacotes de SW open source:
Interrogação de dados XML, integração e limpeza de dados Saxon - Java API for XML processing, supporting SAX, DOM, XPath
2.0, XSLT 2.0 and XQuery 1.0 http://saxon.sourceforge.net/ SimPack - Java Library of similarity functions
http://www.ifi.uzh.ch/ddis/simpack.html
Extracção de dados da Web RoadRunner - Java Library for Automated Web Data Extraction
http://www.dia.uniroma3.it/db/roadRunner/software.html
Extracção de dados a partir de texto Minorthird - Java Library for ML-based Text Annotation and
Classification http://minorthird.sourceforge.net/
LingPipe - Java Framework for General Text Mining http://alias-i.com/lingpipe/
![Page 13: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/13.jpg)
Bibliografia Não há um livro único Algumas partes da matéria cobertas por artigos Livros:
Data on the Web: From Relations to Semistructured Data and XML Serge Abiteboul, Peter Buneman, Dan SuciuMorgan Kaufmann Publishers2000 (4 ex. Bib IST Tagus)
XQuery from the Experts: A Guide to the W3C XML Query LanguageHoward Katz, Don Chamberlin, Denise Draper, Mary Fernandez, Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim Tivy, Philip WadlerAddison-Wesley2004
Data Quality: Concepts, Methodologies and Techniques Carlo Batini, Monica ScannapiecoSpringer2006 (4 ex. Bib. IST Tagus)
![Page 14: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/14.jpg)
Outras informações interessantes
![Page 15: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/15.jpg)
![Page 16: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/16.jpg)
![Page 17: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/17.jpg)
![Page 18: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/18.jpg)
![Page 19: Gestão e Tratamento de Informação](https://reader036.fdocumentos.com/reader036/viewer/2022062422/568132c1550346895d998315/html5/thumbnails/19.jpg)
Investigação na área de Gestão de Dados e Tratamento de Informação no Tagus Park/Alameda
Se estiverem interessados:
Grupo DMIR@INESC-ID
http://dmir.inesc-id.pt