01 Aula7 Datamining

Post on 25-Jul-2015

414 views 0 download

Transcript of 01 Aula7 Datamining

Jornalismo on line

Explorando recursos na internet

Biblioteca de Alexandria

O uso do ciberespaço como fonte Saudada por uns como a nova biblioteca

de Alexandria, criticada por outros como um megadepósito de informações inúteis ou não-confiáveis, a internet é um pouco dessas duas coisas. O objetivo desse curso é apresentar à classe procedimentos para utilizar o que de melhor a rede mundial de computadores pode oferecer.

O desafio da credibilidade Muitas vezes critica-se a web por ser pouco crível.

Ela, porém, reproduz nosso mundo off-line. Mentiras, lendas, golpes, propagandas enganosas ou abusivas e boatos não são novidades inventadas no ciberespaço. Bem antes dos spams, dos hoaxes, das correntes, do phishing e dos programas maliciosos, já existiam outras formas de fraudes, de golpes e de mentiras. O que o ambiente on-line propiciou foi uma nova oportunidade para se criar novas modalidades de ardis.

Datamining A rede, portanto, contém

informações falsas e deturpadas, mas também é um repositório de dados preciosos para uma investigação jornalística ou científica.

Instituições sérias, públicas e privadas, de grande respeitabilidade, e pesquisadores de excelência usam a web para divulgar dados. Esse, aliás, é o sentido da locução “datamining”.

Demônios de Maxwell Seremos, portanto,

novos “demônios de Maxwell”.

Demônios de Maxwell Demônio de Maxwell é o

nome dado a um modelo experimental concebido pelo físico norte-americano James Clerk Maxwell (1831-1879): em uma caixa fechada dividida ao meio há um gás e, na divisória, uma porta. Um controlador (apelidado de “demônio”) só deixa passar uma molécula de cada vez, de modo que só as lentas (as moléculas mais frias) conseguem mudar de lado. Ao final do experimento, um lado da caixa está absolutamente quente e o outro, absolutamente frio.

Demônios de Maxwell A idéia era um

“experimento mental”. A proposta de Maxwell era de renegar a Segunda Lei da Termodinâmica, que afirma que a entropia sempre aumenta. Nas humanidades, o termo entropia foi adotado para definir a medida da desordem ou da imprevisibilidade da informação.

Demônios de Maxwell Se a entropia é desordem

ou a imprevisibilidade da informação, quem seria o “demônio” responsável pela ordem no universo informacional? É o especialista, ou seja: os professores, os bibliotecários, os jornalistas... todos aqueles que classificam e hierarquizam um determinado universo informacional.

             

Porteiros confiáveis Ao “demônio de Maxwell” cabe a tarefa de

ordenar o seu “rebanho de dados” e guardá-los nas devidas “caixas”... O “demônio de Maxwell” é um gatekeeper, um porteiro.

Quem então, no ambiente on-line, seria o demônio de Maxwell? São os programas de busca e os sites confiáveis.

Um mundo sem porteiros? Sem nossos “demônios de Maxwell” da

informação, estaríamos à mercê de orientações infelizes e da boataria pura e simples. Vivenciaríamos amargamente a segunda lei da termodinâmica na web: todo sistema abandonado à sua própria sorte se degenera. Podemos, de fato, lidar com gatekeepers inadequados, maliciosos ou insatisfatórios, mas há um sistema de controles em nossa sociedade que coíbe os desvios de conduta deles. Por mais falhos que possam ser esses sistemas, são certamente superiores à hipótese de nenhum controle.

Web, um complemento Saber manejar a planilha de Excel ou a internet de modo

eficiente, contudo, não exime o profissional de comunicação de empregar outros recursos para produzir notícias ou releases de qualidade.

Uma bela estatística sobre emprego disponibilizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE) na web, por exemplo, pode tornar-se uma extraordinária matéria.

Entretanto, se o profissional de imprensa conseguir agregar aos números da notícia histórias de pessoas de carne e osso, indo à rua e ilustrando com narrativas realistas os achados dos pesquisadores sociais, a notícia ficará muito mais atraente, sensibilizando o público e dando vida àquele perspicaz, mas inerte amontoado de números.

Prefira o “cara-a-cara” Realizar uma entrevista

por e-mail pode ser um caminho inevitável em algumas circunstâncias mas, mesmo que não haja dúvidas sobre a identidade do interlocutor, o contato nunca terá a vitalidade de uma conversa face a face ou, mesmo, via telefone.

A importância da leitura e dos estudos

• Os recursos disponíveis nos computadores também não dispensam o investimento contínuo na formação intelectual. Quanto mais preparado culturalmente o jornalista – seja mediante o estudo de idiomas, seja mediante o investimento em outros cursos e leituras–, mais habilitado ele estará para compreender, avaliar e aprimorar sua relação com os dados disponíveis.

CAR: Categorias da pesquisa Segundo Nora Paul, o jornalismo auxiliado

por computador (Computer-Assisted Journalism) pode ser resumido em quatro itens: reportagem, pesquisa, referência e contato.

Reportagem auxiliada por computador A reportagem auxiliada por computador

potencializa as já tradicionais táticas de trabalho da imprensa e, ao contrário da avaliação da teórica norte-americana, ouso dizer que abrange todas as demais categorias, que existem como subprodutos da primeira.

Reunir informações por meio de entrevistas, coletar dados contextualizadores, fazer contato e aproveitar dicas são ações nas quais o computador pode ser extremamente útil, maximizando o aproveitamento de dados.

Pesquisa auxiliada por computador A pesquisa auxiliada por computador em muitos

aspectos assemelha-se à reportagem. Exige o conhecimento de técnicas de investigação. Geralmente, no jornalismo, a notícia se fundamenta em depoimentos. Já a pesquisa auxiliada por computador fundamenta-se principalmente em documentos, como dados oficiais ou artigos científicos ou ainda notícias de diversos ciberjornais, que podem ser encontradas, seja na internet, seja em documentos digitais off-line, como o cd-rom, por exemplo.

Referência auxiliada por computador A referência auxiliada por computador

significa basicamente dispor de alguns sites que auxiliam na redação, seja quanto à sintaxe, seja quanto à ortografia; e na reflexão sobre determinados temas referentes à pauta jornalística, mediante o uso de bancos de dados enciclopédicos digitais, que podem ser tanto on-line quanto off-line.

Contatos auxiliados por computador Os contatos auxiliados por computador

resumem-se basicamente aos pontos de encontro na web, seja por meio das comunidades virtuais, que podem ser listas de discussão, os cada vez mais raros newsgrups, os fóruns e, apesar das restrições, os chats e programas de comunicação instantânea (MSN, ICQ etc).

Interações

Contato auxiliado por computador Manter sempre uma agenda telefônica atualizada e recheada Há basicamente dois recursos úteis para identificar telefones na web:

102 (risco: desatualização, números não-autorizados e uso de redes alternativas de telefonia)

Registro.br (risco baixo de desatualização; válido mais para instituições que pessoas físicas)

E-mail Currículo Lattes (e-mail) - (risco: desatualização, viagem, desativação de conta

e morte) Listas de discussão - (risco: falsa identidade, desinteresse, desatualização,

viagem, desativação de conta e morte) Newsgroups - (risco: falsa identidade, desinteresse, desatualização, viagem,

desativação de conta e morte) Sites (risco: falsa identidade, desinteresse, desatualização, viagem,

desativação de conta e morte) Orkut: (risco: falsa identidade, desinteresse, desatualização, viagem,

desativação de conta e morte) Chat e programas de comunicação instantânea

Chat (risco: altíssimo de falsa identidade, além de impessoalidade) Comunicadores instantâneos (risco: mediano de falsa identidade, além de

impessoalidade)

Referência auxiliada por computador Os computadores podem ser usados para

esclarecer dúvidas de ortografia, sintaxe e de conhecimentos gerais, seja no ambiente on-line, seja no off-line. Para isso, cd roms e determinados sites se mostram verdadeiras enciclopédias ao alcance de um clique.

Referência auxiliada por computador

Referência auxiliada por computador

Na imagem do Google Maps, círculo vermelho destaca depósito da TAM Express na Avenida Washington Luís, em São Paulo, onde o avião do vôo JJ 3054, da TAM, bateu e pegou fogo, ao tentar pousar no Aeroporto de Congonhas

Referência auxiliada por computador

Referência auxiliada por computador

Referência auxiliada por computador

Referência auxiliada por computador (mas há controvérsias quanto à wikipedia)

Pesquisa auxiliada por computador A internet se assemelha a um

iceberg, e os buscadores só identificam nela sua ponta. Em uma pesquisa da empresa japonesa NEC de 1997, o melhor buscador da web naquele ano fora o HotBot: ele conseguiu captar 34% de todas as páginas existentes na web. Dois anos depois, a mesma pesquisa concluiu que o Northern Light fora o melhor buscador: ele conseguira captar apenas 16% da web dos estimados 800 milhões de endereços da rede. O Google obteve então 7,8%.

Pesquisa auxiliada por computador A proporção de páginas indexadas de 97

para 99 caiu, mas o que houve foi que o conjunto de melhorias dos buscadores não estava à altura do ritmo de produção de documentos da web. Atualmente, o Google tem indexados 8 bilhões de documentos. Há estimativas, contudo, de que a web contenha agora 600 bilhões de endereços. Isso significa que o Google, atualmente o melhor buscador da web, conhece apenas 1,33% do oceano digital.

Sites do Google

Sites do Google (maps.google.com.br)

Sites do Google (books.google.com.br )

Sites do Google (scholar.google.com.br)

Sites do Google (blogsearch.google.com)

Sites do Google (video.google.com)

Sites do Google: zeitgeist (www.google.com/press/zeitgeist.html)

Sites do Google (news.google.com.br)

Sites do Google (www.google.com/movies)

Comandos do Google: site

Comandos do Google: define

Comandos do Google: aspas

Comandos do Google: “OR”

Comandos do Google: “-” (não)

Comandos do Google: “filetype”