ip v4 e ipv6

104

description

diferença entre ip v4 e ipv6

Transcript of ip v4 e ipv6

  • ASPECTOS TCNICOS E LEGAIS DA COLETA E

    ANONIMIZAO DE TRFEGO DE REDES IP

  • MARCO AURLIO VILAA DE MELO

    ASPECTOS TCNICOS E LEGAIS DA COLETA E

    ANONIMIZAO DE TRFEGO DE REDES IP

    Dissertao apresentada ao Programa de

    Ps-Graduao em Cincia da Computao

    do Instituto de Cincias Exatas da Univer-

    sidade Federal de Minas Gerais como re-

    quisito parcial para a obteno do grau de

    Mestre em Cincia da Computao.

    Orientador: Dorgival Olavo Guedes Neto

    Belo Horizonte

    Setembro de 2009

  • c 2009, Marco Aurlio Vilaa de Melo.Todos os direitos reservados.

    Melo, Marco Aurlio Vilaa de

    M528a Aspectos Tcnicos e Legais da Coleta e

    Anonimizao de Trfego de Redes IP / Marco Aurlio

    Vilaa de Melo. Belo Horizonte, 2009

    xx, 84 f. : il. ; 29cm

    Dissertao (mestrado) Universidade Federal de

    Minas Gerais

    Orientador: Dorgival Olavo Guedes Neto

    1. Redes de Computao - Protocolos - Tese.

    2. Redes de Computao - Direito Privacidade - Tese.

    3. Redes de Computao - Medidas de Segurana -

    Tese. 4. Anonimizao - Tese. 5. Logs - Tese. I. Ttulo.

    CDU 519.6*22(043)

  • Deus, responsvel por mais essa vitria.

    Aos meus lhos, Matheus e Mariana pelo amor incondicional.

    Greisiele, pela dedicao e amor.

    minha me, pelo apoio irrestrito.

    Ao Prof. Dorgival pela ajuda e pacincia.

    Ao meu pai, irmos, familiares e amigos pelas palavras de apoio e amizade.

    vii

  • Resumo

    Pesquisadores e administradores de rede encontram-se frente a um dilema ao trabalhar

    com arquivos de dados de trfego coletado: como extrair informaes teis para seu

    trabalho, mas ainda garantir a privacidade dos usurios, cujas informaes trafegam

    pela rede, e evitar o vazamento de informaes sensveis sobre a segurana da mesma?

    Este trabalho faz um estudo sobre aspectos de privacidade e segurana no uso

    e compartilhamento de arquivos de registro de trfego de rede (logs e prope uma

    metodologia para anlise do processo de anonimizao de arquivos.

    Inicialmente explicada a necessidade crescente de se utilizar arquivos de log para

    as pesquisas sobre melhorias na Internet ou auditorias, mostrando em seguida os riscos

    que o uso e o compartilhamento desses arquivos pode acarretar para a privacidade dos

    usurios e a segurana da rede. Em seguida, analisamos as leis existentes em alguns

    pases sobre a privacidade de dados e das comunicaes eletrnicas, dando uma idia

    da sua evoluo histrica. No Brasil, so analisadas as leis existentes e alguns projetos

    e tramitao no congresso nacional, sendo apontadas as implicaes legais que o uso

    desses arquivos pode ocasionar para usurios e administradores de redes.

    Finalmente feita uma anlise dos principais protolocos da arquitetura TCP/IP

    com vistas anonimizao, indenticando quais campos daqueles protocolos podem

    revelar informaes que afetem segurana da rede ou a privacidade dos usurios. Com

    base nessa informao, apresentado um estudo das principais tcnicas e ferramentas

    de anonizao de dados e, por m, feita a especicao de uma metodologia para

    anlise dos arquivos anonimizados que complementada com a descrio do prottipo

    da ferramenta baseada nesta metodologia.

    ix

  • Abstract

    Researchers and network administrators face a dicult dilemma when they work with

    trac data les collected from the network: how to extract useful information for

    their work and yet to guarantee the privacy of users, whose information travel through

    the network, and prevent the leakage of sensitive information that may compromize

    network security?

    This work presents a study of aspects of privacy and safety in the use and sharing

    of network trac log les, and proposes a methodology for the analysis of the le

    anonimization process.

    First we explain the reasons for the increasing need for the use of log les in

    network research and audits, showing the risks that the use and sharing of such les

    may carry for the privacy of users and the safety of the network. Next we discuss the

    existing laws in some major countries that deal with the privacy of data and electronic

    communications, showing their evolution over time. In Brazil, we discuss the current

    laws and some proposed projects being considered in Congress and their implication

    to users and network providers.

    Finally, we analyze the major protocols of the TCP/IP architecture in relation

    to anonimization, identifying which protocol elds may reveal information sensitive to

    network safety or user privacy. Based on that analysis we present a discussion of the

    major tools and techniques for data anonimization and propose a methodology for the

    analysis of the quality of anonimization, which we complete with the description of a

    prototype based on that methodology.

    xi

  • Lista de Figuras

    2.1 Pilha de Protocolos TCP/IP . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2 Encapsulamento de dados na arquitetura TCP/IP . . . . . . . . . . . . . . 12

    2.3 Formas de coleta de trfego: a) interceptao; b) espelhamento . . . . . . . 17

    2.4 Exemplo de informao mostrada pelo ntop . . . . . . . . . . . . . . . . . 20

    2.5 Exemplo de informao mostrada pelo wireshark . . . . . . . . . . . . . . 20

    4.1 Camadas TCP/IP e alguns de seus protocolos . . . . . . . . . . . . . . . . 42

    4.2 Cabealho do pacote TCP . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.3 Cabealho do pacote IPv4P . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    5.1 Funcionamento da Ferramenta Proposta . . . . . . . . . . . . . . . . . . . 65

    5.2 Relatrios do Prottipo: a) Quantidade de pacotes por protocolo; b) Ende-

    reos de hardware e endereos IP no anonimizados . . . . . . . . . . . . . 71

    xiii

  • Lista de Tabelas

    xv

  • Sumrio

    Resumo ix

    Abstract xi

    Lista de Figuras xiii

    Lista de Tabelas xv

    1 Introduo 1

    1.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.3 Contribuio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.4 Organizao do restante do texto . . . . . . . . . . . . . . . . . . . . . 6

    2 Conceitos e Trabalhos Relacionados 7

    2.1 Privacidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2 Anonimizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.3 Ataques Utilizando Logs . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.4 Arquitetura TCP/IP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.5 Processo de Coleta e Anlise de Dados . . . . . . . . . . . . . . . . . . 14

    2.5.1 Tipos de coleta . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.5.2 O processo de coleta . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.5.3 Discusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.6 Ferramentas de anonimizao . . . . . . . . . . . . . . . . . . . . . . . 21

    2.7 Outros Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . 23

    3 Aspectos Legais 25

    3.1 Unio Europia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.2 Amrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    xvii

  • 3.3 Brasil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.3.1 Legislao em Vigor . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.3.2 Projetos de Lei em Tramitao . . . . . . . . . . . . . . . . . . 36

    4 Aspectos Tcnicos 41

    4.1 Aspectos relacionados anonimizao na arquitetura TCP/IP . . . . . 41

    4.1.1 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    4.1.2 Transporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4.1.3 Camada de Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4.1.4 Camada de Tecnologia de Rede Local . . . . . . . . . . . . . . . 52

    4.2 Tcnicas de Anonimizao de Dados . . . . . . . . . . . . . . . . . . . 53

    4.2.1 Substituio por Black Marker . . . . . . . . . . . . . . . . . . 54

    4.2.2 Substituio Aleatria . . . . . . . . . . . . . . . . . . . . . . . 54

    4.2.3 Criptograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    4.2.4 Deslocamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    4.2.5 Preservao de prexos . . . . . . . . . . . . . . . . . . . . . . . 55

    4.3 Anonimizao de Endereos IP . . . . . . . . . . . . . . . . . . . . . . 56

    4.4 Ferramentas de Anonimizao . . . . . . . . . . . . . . . . . . . . . . . 57

    4.4.1 Tcpdpriv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    4.4.2 Crypto-Pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    4.4.3 Tcpmkpub . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    4.4.4 Framework for Log Anonymization and Information Manage-

    ment (FLAIM) . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    4.5 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5 Metodologia Proposta 63

    5.1 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    5.2 Fases da Metologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    5.2.1 Identicao dos Pares dos Pacotes . . . . . . . . . . . . . . . . 64

    5.2.2 Camada de Tecnologia de Rede Local . . . . . . . . . . . . . . . 66

    5.2.3 Camada de Rede . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.2.4 Transporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5.2.5 Aplicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5.2.6 Anlise da anonimizao de endereos . . . . . . . . . . . . . . . 68

    5.3 Prottipo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    5.4 Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    6 Concluso e Trabalhos Futuros 75

    xviii

  • Referncias Bibliogrcas 79

    xix

  • Captulo 1

    Introduo

    Nos ltimos anos o mundo presenciou um grande crescimento no uso da Internet,

    no Brasil, a cada dia aumenta o nmero de usurios conectados rede mundial de

    computadores

    1

    . Alm disso, houve tambm uma grande diversicao nas aplicaes

    disponveis atravs dessa rede. Todo esse crescimento se traduz em trfego de rede,

    mensagens que circulam pelos canais da rede. Esse trfego, alm de seu interesse

    indireto para os usurios, que desejam obter informaes da rede, de grande interesse

    para duas comunidades ligadas rea de redes de computadores: pesquisadores e

    administradores de sistema.

    Pesquisadores buscam entender o comportamento dos usurios e o impacto das

    diferentes aplicaes sobre a infra-estrutura de rede, a m de propr novas solues

    que garantam a contnua evoluo dos servios e a escalabilidade dos recursos da

    rede. Atravs da anlise do padro de acesso a pginas web, por exemplo, pesqui-

    sadores foram capazes de identicar a ocorrncia frequente de acessos a pginas po-

    pulares e propuseram solues para reduzir a carga na rede usando mecanismos de

    caches [Rabinovich & Spatscheck, 2002]. Pela anlise de trfego, pesquisadores so

    tambm capazes de melhor entender o comportamento de novas aplicaes como aque-

    las de compartilhamento de arquivos em redes peer-to-peer [Arthur & Panigrahy, 2006]

    e de identicar o comportamento de disseminadores de mensagens de spam por cor-

    reio eletrnico [Steding-Jessen et al., 2008], podendo assim sugerir tcnicas para seu

    controle.

    Assim sendo, as informaes obtidas atravs da monitorao de funes da rede

    so importantes para a evoluo da pesquisa na rea de rede [Bianchi et al., 2008b;

    Burkhart et al., 2008b; Pang & Paxson, 2003]. Nos ltimos anos esses dados esto

    ganhando ainda maior importncia; algumas conferncias, por exemplo, para aceitao

    1

    http://g1.globo.com/Noticias/Tecnologia/0 MUL1274233-6174,00.html

    1

  • 2 Captulo 1. Introduo

    de artigos, esto exigindo que os dados utilizados na pesquisa sejam disponibilizados

    para a comunidade cientca. Outro elemento que desperta grande interesse nessas

    informaes a necessidade de se ter grandes massas de dados para testes de novas

    tecnologias, dando maior credibilidade pesquisa. Para esses ns pesquisadores esto,

    cada vez mais, compartilhando os dados coletados por eles entre si.

    Administradores de sistemas em rede precisam coletar e armazenar certas in-

    formaes contidas no trfego para ns de registro histrico das atividades da rede,

    para a identicao de comportamentos maliciosos na rede que possam indicar abu-

    sos ou ataques infra-estrutura e servios sob sua responsabilidade e para ns de

    auditoria[Bishop et al., 2006]. Certas organizaes exigem que se mantenha registros

    dos momentos de conexo e desconexo de cada usurio do sistema, incluindo-se da-

    dos sobre suas atividades enquanto conectados. Para ns de planejamento estratgico,

    muitas vezes administradores se valem da coleta de trfego para entender a evoluo

    do uso da sua rede e desenvolver seus planos de expanso. Em outros momentos, a

    coleta e inspeo de trfego uma ferramenta essencial no combate a invasores que

    tentam acessar mquinas dentro da rede de uma organizao, seja para obter informa-

    es condenciais, seja para utiliz-las como intermedirias no lanamento de outros

    ataques rede.

    Exigncias de coleta por parte dos administradores de redes vm sendo, inclusive,

    objeto de algumas propostas de legislao em vrios pases e inclusive no Congresso

    Nacional Brasileiro [Senado Federal, 2008]. Cada vez mais, elementos de auditoria

    interna de empresas e at mesmo percia criminal dependem de dados coletados em

    mquinas ou no trfego de redes, de forma semelhante ao que ocorre com relao ao

    registro de ligaes telefnicas.

    Pelos motivos apresentados, a anlise das informaes obtidas atravs da mo-

    nitorao do trfego se torna cada vez mais importante. Esses dados de trfego so

    obtidos atravs da monitorao direta dos canais e interfaces fsicas da rede, de onde

    se pode obter uma cpia de cada pacote de dados que passam por eles em qualquer

    direo, bem como do registro detalhado da operao de alguns servidores da rede (por

    exemplo, as requisies feitas a um servidor web ou as mensagens recebidas por um

    servidor de correio eletrnico).

    Apesar de sua importncia, a coleta de trfego tem implicaes complexas, por

    poder incluir inclusive os dados dos usurios que trafegam durante sua interao com

    servidores e outros usurios da rede. Ao coletar o trfego de uma rede, pode-se ter

    acesso ao contedo de mensagens de correio enviadas por cada usurio, identicar as

    pginas da Web visitadas por eles, acompanhar suas atividades em um site de comrcio

    eletrnico ou suas interaes com outros usurios em um site social como o Orkut.

  • 1.1. Motivao 3

    Com exigncias como as mencionadas anteriormente para a publicao e troca

    dos dados de medio de redes se tornando prticas constantes, algumas questes se

    tornam cada vez mais frequentes: Como disponibilizar essas informaes sem prejudicar

    a segurana da rede? O que fazer para garantir a privacidade dos usurios da rede,

    quando dados precisam ser distribudos para ns de pesquisa ou de uma auditoria,

    por exemplo? legal/tico o uso desses dados sem nenhuma forma de tratamento

    para se garantir a privacidade dos usurios? Como devemos proceder para viabilizar

    a utilizao desses dados na pesquisa ou para ns administrativos (ou mesmo legais)

    sem afetar a segurana e/ou a privacidade dos inocentes envolvidos?

    Discusses como essas se tornam cada vez mais frequentes e necessrias, pois

    as pessoas tm se tornado mais conscientes desses problemas e, por consequncia, se

    tornam mais preocupadas com as suas informaes que transitam na rede. Alm disso,

    a rea jurdica comea a se preocupar com os impactos que o mundo virtual causa

    nas relaes jurdicas. Um dos focos dessa preocupao o quanto a privacidade

    garantida quando se usa esses dados em pesquisas.

    Diante desse quadro, vrias tcnicas e ferramentas para tornar annimos os da-

    dos de rede tm sido propostas tentando garantir um determinado nvel de privacidade

    aos dados distribudos e, ao mesmo tempo, preservando as principais informaes ne-

    cessrias para a pesquisa e a segurana de rede. Essas ferramentas fazem a chamada

    anonimizao, que a tcnica de excluir as informaes considerados sensveis priva-

    cidade de determinado tipo de dado, proporcionando assim, uma maior tranquilidade

    e liberdade aos pesquisadores, auditores e investigadores, na utilizao e compartilha-

    mento dos dados utilizados por eles.

    Tendo isso em mente, torna-se necessrio um estudo para entender as implicaes

    legais e analisar as vrias tcnicas e ferramentas de anonimizao de dados existentes,

    para conrmar se elas satisfazem as exigncias de privacidade enquanto mantm as

    informaes teis para cada m. Pang et al. [Pang et al., 2006] enfatizam a necessidade

    de uma ferramenta que analise os dados anonimizados para vericar se os mesmos esto

    realmente de acordo com determinada poltica de anonimizao, dando uma maior

    conabilidade e segurana ao se disponibilizar dados de redes. nesse contexto que se

    insere o trabalho aqui apresentado.

    1.1 Motivao

    Garantir que o dado anonimizado realmente possui o nvel esperado de anonimizao

    um problema de difcil soluo, pois existem diversas questes sobre a anonimizao

  • 4 Captulo 1. Introduo

    que despertam opinies conitantes, tanto na rea jurdica, quanto na rea tcnica. Por

    exemplo, a divulgao do tipo e verso do sistema operacional de uma determinada

    mquina considerada um risco por alguns administradores, enquanto no o por

    outros. Do ponto de vista jurdico, em certos casos a divulgao das pginas acessadas

    a partir de determinada mquina no causa nenhum constrangimento, enquanto em

    outros fere gravemente a privacidade.

    Considere-se por exemplo, um administrador que abordado por um pesquisador

    que deseja uma amostra de trfego da rede a m de avaliar uma hiptese de pesquisa.

    Ou ainda, imaginem um diretor de uma universidade que procura o administrador da

    rede para discutir sobre a possibilidade da universidade rmar um convnio com um

    grupo de universidades, para passar a disponibilizar os dados de conexo de rede da

    universidade para toda a essa comunidade cientca e, em troca, receber todos os dados

    dessa comunidade. Nesse caso, para garantir a condencialidade e segurana da rede,

    o administrador dever no s usar uma determinada ferramenta de anonimizao de

    dados, mas dever tambm usar uma poltica de anonimizao pr-denida para que os

    dados tivessem o mesmo padro e nvel de qualidade dos dados disponibilizados pelas

    outras instituies.

    O administrador pode at ter interesse no tipo de resultado da pesquisa, ou na

    possibilidade de ter acesso aos dados de outras universidades conveniadas para as pes-

    quisas que elas desenvolvem, mas no deveria fornecer os dados se no tivesse garantias

    de que a privacidade dos seus usurios no seria violada em relao ao que exige a lei.

    Para esse m, importante que o administrador saiba quais so as informaes sen-

    sveis do ponto de vista da privacidade/segurana e as exigncias e restries legais

    envolvidas, bem como entenda o que oferecem as diversas ferramentas e tcnicas de

    anonimizao existentes.

    Diante de situaes similares a essa, torna-se necessria uma metodologia que

    valide determinada anonimizao segundo um certo critrio, por exemplo, garantir que

    no haja alguma forma de inferir que os endereos anonimizados das mquinas sejam

    mapeados para determinados endereos IP reais. Ou ainda, conrmar que determi-

    nado dado anonimizado manteve as mesmas caractersticas (por exemplo, distribuio

    estatstica) que constam nos dados originais. Ou tambm, se possvel determinar o

    sistema operacional de um servidor especco a partir dos dados anonimizados.

  • 1.2. Objetivos 5

    1.2 Objetivos

    Com base no exposto at aqui, o objetivo principal desta dissertao oferecer elemen-

    tos que auxiliem os administradores de sistemas em rede a decidir sobre a liberao de

    informaes sobre trfego de rede considerando aspectos de privacidade e anonimato

    de seus usurios. De forma mais detalhada, este trabalho tem os seguintes objetivos

    especcos:

    analisar a legislao existente sobre privacidade de dados em alguns pases. NoBrasil, sero analisadas as leis existentes bem como os principais projetos de lei

    que tramitam no nosso legislativo.

    identicar os principais elementos de informao contidos no trfego de rede daInternet e discutir o impacto desses sobre a privacidade dos usurios e segurana

    de uma rede;

    identicar as principais ferramentas e tcnicas de anonimizao de dados de co-nexo de rede, confrontando-as com os vrios tipos de ataques a estas tcnicas.

    propor uma metodologia que avalie o grau de anonimato de uma tcnica deanonimizao que precise ser avaliada por um administrador de rede.

    1.3 Contribuio

    As principais contribuies deste trabalho endeream diretamente os objetivos espec-

    cos mencionados.

    O captulo 3 apresenta uma discusso dos aspectos legais segundo a legislaobrasileira especca, ainda incipiente na rea de comunicao de dados, e com

    base no material legal j desenvolvido para outros meios de comunicao que

    pode ser co-relacinado com a rea de dados de rede. Esse captulo tambm

    discute elementos da legislao dos EUA e da Unio Europia, mais desenvolvida

    nessa rea.

    O captulo 4 apresenta uma anlise detalhada dos principais protocolos da arqui-tetura da Internet (a arquitetura TCP/IP), discutindo a informao normalmente

    disponvel em cada campo desses protocolos e sua implicao para a obteno de

    dados que possam afetar o anonimato/privacidade dos usurios e a segurana da

    rede, bem como uma descrio das principais tcnicas e ferramentas de anonimi-

    zao disponveis, suas qualidades e limitaes.

  • 6 Captulo 1. Introduo

    O captulo 5 apresenta a metodologia e um prottipo da ferramenta de vericaoproposta, que permitir aos administradores de sistemas em rede analisar o efeito

    da aplicao de uma certa tcnica ou ferramenta de anonimizao externa sobre

    um arquivo de trfego coletado. Com base nessa anlise seria possvel avaliar se

    as restries de anonimato que devem ser observadas pelo administrador esto

    sendo atendidas no processo de gerao do arquivo de dados a ser disponibilizado.

    1.4 Organizao do restante do texto

    Nos captulos seguintes, apresentamos primeiramente, no captulo 2, os principais con-

    ceitos relacionados ao anonimato, formas de reverter a anonimizao de dados, aspectos

    legais relacionados a coleta e anlise de dados de rede e conceitos tcnicos sobre a ar-

    quitetura TCP/IP, coleta e anonimizao de trfego. Em seguida, os captulos 3, 4

    e 5 apresentam as contribuies j mencionadas. Finalmente, o captulo 6 apresenta

    as concluses da dissertao e sugestes para trabalhos futuros.

  • Captulo 2

    Conceitos e Trabalhos Relacionados

    A m de compreendermos melhor os diversos aspectos relacionados anonimizao

    de arquivos de trfego de rede e desenvolvermos as contribuies deste trabalho

    importante discutirmos os conceitos gerais de privacidade, anonimizao, aspectos de

    segurana de rede, as caractersticas da arquitetura TCP/IP, utilizada na Internet atual

    e que determina qual informao acompanha cada pacote de dados na rede, algumas

    das principais ferramentas de anonimizao de trfego existentes e outros trabalhos

    relacionados que meream destaque. Para esse m, as sees seguintes discutem cada

    um desses tpicos em mais detalhes.

    2.1 Privacidade

    A privacidade um termo subjetivo e por isso de difcil denio, pois o seu conceito e

    amplitude variam de pessoa para pessoa; por exemplo, ter seu nome impresso em uma

    lista telefnica pode representar uma invaso de privacidade para um cantor famoso,

    que no gostaria de ter seu nome e telefone divulgados a todos. Por outro lado, um

    prestador de servios autnomo provavelmente ir considerar essa divulgao benca

    para os seus negcios. Por causa desses diferentes sentimentos quanto privacidade,

    os autores divergem entre conceitos amplos e restritos.

    Warren & Brandeis [1890] diz que a privacidade um direito de estar s, concei-

    tuando o tpico de forma simples e restrita. J a dimenso desse conceito ampliado

    por Jos Afonso da Silva [Silva, 1997], ao dizer que a nossa Constituio assegura di-

    reito indenizao por dano material ou moral decorrente da violao da intimidade,

    da vida privada, da honra e da imagem das pessoas, em suma, do direito privacidade.

    Nos pases democrticos o direito privacidade considerado um direito fundamental

    e protegido por lei.

    7

  • 8 Captulo 2. Conceitos e Trabalhos Relacionados

    Com a evoluo das tecnologia esse direito passa a car mais fragilizado, pois

    a cada dia cresce o nmero de cmeras de segurana, de empresas com cadastros

    informatizados de clientes, etc. A partir disso, o conceito de privacidade comea a

    englobar tambm os dados, surgindo em seguida as legislaes para proteo desses

    dados.

    Para melhor entender a legislao sobre privacidade dos dados interessante fazer

    uma classicao desses dados em dados cadastrais, dados necessrios para estabelecer

    uma conexo e dados de contedo de trfego. Apesar de cada um desses tipos ter

    utilidade dspares todos, a priori, contm informaes privadas. Dados casdastrais so

    os dados encontrados nos vrios bancos de dados existem nas empresas. Os dados

    necessrios para estabelecer uma conexo so as informaes usadas para controlar a

    conexo de um cliente a uma pgina web de um banco, por exemplo. Por ltimo, os

    dados de contudo de trfego contm a informao de interesse do usurio durante cada

    interao do mesmo com os sistemas em rede.

    2.2 Anonimizao

    No dicionrio Aurlio [Ferreira, 2008] a denio de anonimato sem o nome ou

    assinatura do autor; sem nome ou nomeada; obscuro. Portanto, podemos dizer que

    no contexto da informatizao dos dados a informao annima aquela que no seja

    possvel identicar a quem ela se refere.

    A nossa Constituio, no inciso IV do artigo 5

    o, diz que livre a manifestao

    do pensamento, sendo vedado o anonimato [Congresso Nacional, 1988], entendendo

    ento que vedada a no identicao do autor. Apesar de a privacidade ser protegida

    em nosso texto constitucional, o anonimato no o [Pinheiro, 2008], permitindo que

    os dados de cadastros e de conexes possam ser levantados atravs dos meios legais.

    Diante disso, a anonimizao de dados de trfego de rede o processo de retirar

    as informaes que possam levar identicao dos usurios da conexo. Mais abran-

    gentemente, essa anonimizao engloba tambm o contedo da informao trocada e

    tambm as informaes que interferem na segurana da rede de origem e destino dos

    dados.

    2.3 Ataques Utilizando Logs

    O problema de coleta de dados se resume nos limites da lei. Ou seja, a lei dene se

    um determinado tipo de dado pode ser coletado ou no. Alm disso, mesmo com a

  • 2.3. Ataques Utilizando Logs 9

    permisso legal para coleta, a legislao dever especicar se o dado coletado pode ser

    compartilhado e a forma para isso ocorrer.

    No caso das pesquisas, caso haja um consentimento legal para utilizao desses

    dados, isso deve ocorrer somente com o uso de anonimizao, ou seja, a tendncia legal

    admitir o uso apenas com informaes que no levem identicao do usurio e

    seus dados privados.

    Levando em considerao que os dados compartilhados para a pesquisa sejam

    anonimizados, surge a necessidade de garantir que esses dados de rede divulgados no

    sero passveis de quebra do anonimato. Alm disso, preciso considerar os possveis

    ataques que afetam no s o anonimato, mas tambm a segurana da rede/sistema,

    pois a falta de segurana de uma rede pode implicar na violao da privacidade dos

    seus usurios.

    Um ataque comum com relao segurana de uma rede o que tenta identicar

    o sistema operacional que gerou um certo tipo de dado; para isso foram desenvolvidas

    as ferramentas baseadas na tcnica de passive OS Fingerprint [Nmap, 2009; Spangler,

    2003]. A principal atuao dessas ferramentas vericar em determinados campos dos

    cabealhos da pilha TCP/IP, o tipo de informao que eles contm. Isso se justica

    porque nem sempre os desenvolvedores dos sistemas operacionais seguem as denies

    e padronizao completamente. Ou seja, o padro indica que determinado campo deve

    conter um valor padro, mas muitos sistemas colocam valores diferentes. Dessa forma,

    as ferramentas de identicao do sistema operacional comparam o valor do campo com

    o valor padro de cada sistema operacional. Caso os valores sejam iguais, deduz-se qual

    o sistema operacional que originou aquele pacote. Existem diversos campos em vrios

    nveis da arquitetura TCP/IP que podem ser utilizados por esse tipo de ferramenta,

    como veremos com maiores detalhes esses campos na seo 4.1.

    Outro tipo de ataque, analisado por Kohno et al. [2005], a tcnica de identi-

    car determinada mquina atravs de um padro de tempo de envio de pacotes, onde

    segundo os autores cada equipamento possui um padro de intervalo entre o envio dos

    pacotes, esse padro se torna uma assinatura ou impresso digital das mquinas.

    Os ataques anteriores levam em considerao arquivos de logs anonimizados dis-

    ponibilizados pelas empresas. Um outro tipo de ataque o chamado ataque de injeo

    de logs [Gattani & Daniels, 2008; King et al., 2009; Ribeiro et al., 2008], onde o adver-

    srio sabe que determinada empresa disponibiliza periodicamente, para a comunidade,

    seus arquivos de logs anonimizados. Ento, o adversrio tenta inserir, nos arquivos que

    futuramente sero disponibilizados, informaes que o ajude a identicar que determi-

    dados dados, mesmo aps a sua anonimizao, foram gerados por ele.

    Essa insero de dados pode ser feita atravs de uma sequncia de requisies

  • 10 Captulo 2. Conceitos e Trabalhos Relacionados

    ICMP ou atravs da incluso de uma informao em campos no utilizados pela ar-

    quitetura TCP/IP, por exemplo, o campo reservado do protocolo TCP. No futuro,

    quando os arquivos forem disponibilizados para a comunidade, o adversrio localiza

    nesses dados o trfego gerado por ele. Dessa forma, ele saber o contedo do dado

    original e o padro de sua anonimizao, facilitando o trabalho de identicar os valores

    originais do restante dos dados anonimizados.

    Existe ainda um outro tipo de ataque a arquivos de logs descrito por Coull et al.

    [2007], que possvel inferir a topologia da rede e at identicar determinados compu-

    tadores/usurios atravs da anlise de comportamento do trfego, por exemplo, tipo

    de trfego especco ou horrio de conexo determinado, segundo os autores a anoni-

    mizao no ecaz contra este tipo de ataque.

    2.4 Arquitetura TCP/IP

    Atualmente a Internet formada por milhares de pequenas e grandes redes de computa-

    dores interligadas uma s outras. Essas redes so formadas pelos mais variados tipos de

    hardware, sistemas operacionais, aplicativos e tecnologias de roteamento, congurando

    umas das principais caractersticas da Internet, que a sua heterogeneidade.

    Para que mquinas conectadas em diferentes pontos dessa variedade de tecnolo-

    gias conseguisse se comunicar, foi necessrio criar padres de comunicao que permi-

    tissem a troca de informao entre as diferentes redes.

    A arquitetura TCP/IP, desenvolvida a partir do projeto da ARPANET no incio

    da dcada de 1970, se tornou o padro de facto que permitiu essa troca de informa-

    es. Tambm chamada de pilha TCP/IP, essa arquitetura baseada na comutao

    de pacotes e formada por um conjunto de quatro camadas de protocolos (aplicao,

    transporte, rede (ou inter-rede) e tecnologia de rede local), onde cada uma das camadas

    possui vrios protocolos que tm a funo de resolver determinados problemas envolvi-

    dos na comunicao, por exemplo, a identicao do servio que est sendo utilizado,

    a identicao do destinatrio, etc.

    Ao se comunicarem usando a arquitetura TCP/IP, as mquinas dividem a infor-

    mao em vrios pacotes de dados que devem ser transferidos pela rede at seu destino.

    Nesse processo de diviso da informao para o envio, cada pacote de dados da camada

    de aplicao repassado para cada uma das camadas inferiores da pilha. Essas cama-

    das adicionam ao pacote informaes de controle para que as camadas equivalentes da

    arquitetura no destinatrio entendam como a informao deve ser traduzida. Essas

    informaes constituem os cabealhos de cada camada da arquitetura e determinam

  • 2.4. Arquitetura TCP/IP 11

    Figura 2.1. Pilha de Protocolos TCP/IP

    como cada pacote deve ser processado ao longo do caminho.

    No destinatrio, cada pacote recebido processado a partir da camada de tecno-

    logia de rede local. Cada camada retira o respectivo cabealho do incio do pacote e

    utiliza a informao ali contida para decidir como processar os dados do pacote. Nor-

    malmente isso implica na entrega do pacote a um protocolo da camada superior, que

    por sua vez retira seu cabealho e repete o processo, at que os dados sejam entre-

    gues aplicao. Essa tcnica de incluso/retirada de cabealhos na mensagem pelos

    protocolos de cada camada chamada de encapsulamento, onde o pacote que sai de

    uma camada, incluindo seu cabealho, entendido pela camada abaixo como sendo a

    mensagem de dados. A gura 2.2 mostra como funciona o encapsulamento de dados

    pelas camadas da arquitetura TCP/IP.

    A seguir detalhamos a funo de cada uma das camadas da arquitetura TCP/IP.

    AplicaoA camada aplicao a camada onde se localizam os programas dos usurios,

    os quais implementam diferentes servios. Essa camada recebe as solicitaes

    daqueles usurios e as transformam em mensagens para outras aplicaes em ou-

  • 12 Captulo 2. Conceitos e Trabalhos Relacionados

    Figura 2.2. Encapsulamento de dados na arquitetura TCP/IP

    tros pontos da rede. Essas mensagens precisam ser repassadas para a camada

    de transporte, para que sejam entregues aos programas de destino. Exemplos

    de protocolos dessa camada so HTTP, SMTP, SSH e DNS, que tratam, res-

    pectivamente, de requisies das aplicaes de web, do envio de mensagens de

    correio eletrnico, do acesso a computadores remotos e da resoluo de nomes na

    Internet.

    TransporteA camada seguinte denominada transporte. Ela responsvel por receber os

    dados da camada de aplicao e garantir que eles sejam entregues mquina des-

    tino. Nessa camada os protocolos existentes so o User Datagram Protocol (UDP)

    e o Transmission Control Protocol (TCP), que oferecem servios de entrega dife-

    rentes: o primeiro oferece um servio baseado em mensagens independentes, sem

    garantias de entrega, enquanto o segundo oferece um canal de comunicao de

    bytes, que so entregues garantidamente em ordem e sem perdas (desde que no

    haja uma interrupo da rede subjacente).

    Rede

  • 2.4. Arquitetura TCP/IP 13

    A camada de rede tem como principal protocolo o Internet Protocol (IP), que

    acrescenta aos pacotes da camada de transporte informaes como endereos de

    origem e destino e garante que esses pacotes sejam roteados atravs de uma rede

    local a outra, at que eles atinjam seu destino. Esse processo, entretanto, feito

    no modelo denominado melhor esforo (best eort), onde nenhuma garantia

    feita sobre a entrega nal dos dados (da a importncia do TCP, que deve corrigir

    quaisquer falhas ocorridas na comunicao por IP).

    Nesse sentido, as principais atribuies dessa camada so prover um padro de

    identicao de mquinas na rede que seja vlido para toda a Internet e fornecer

    uma forma de garantir o encaminhamento correto dos pacotes entre a mquina de

    origem e a mquina destino (roteamento). Esse padro de identicao o que

    se denomina endereo IP, ele possui quatro bytes e tem como funo identicar

    unicamente uma mquina na Internet; ele tambm tem como funo identicar

    a rede em que se encontra determinada mquina.

    Para garantir essas funcionalidades encontramos tambm nessa camada, alm do

    IP, o protocolo Internet Control Message Protocol (ICMP) e os protocolos

    de roteamento, o primeiro tem como funo principal permitir que os elemen-

    tos da rede se comuniquem para troca de mensagens de erro ou de controle que

    porventura sejam necessrias durante a comunicao. J os protocolos de rote-

    amento, so responsveis por permitir que os caminhos entre as diversas origens

    e destinos possveis sejam conhecidos ao longo da rede. Exemplos de protocolos

    de roteamento so RIP, OSPF e BGP.

    Normalmente se inclui nesta camada o protocolo ARP (Address Resolution Pro-

    tocol), usado pelas mquinas para transformar os endereos IP em endereos

    reconhecidos pela tecnologia de rede local existente em cada caso.

    Tecnologia de Rede LocalA camada inferior, na concepo original da arquitetura TCP/IP, denominada

    de tecnologia de rede local e tem como responsabilidade receber os pacotes da

    camada de rede e os converter em quadros que em seguida so transformados em

    sinais eltricos e transmitidos pela rede fsica at uma outra mquina da rede

    local, esta mquina poder ser o destinatrio nal da conexo, ou pode ser um

    roteador (gateway) que atravs do protocolo IP identicar o prximo canal/rede

    por onde aquele pacote dever ser roteado em seguida. Cada tecnologia de rede

    local pode ter sua forma interna de identicar cada mquina a ela conectada,

    da a imporncia do protocolo ARP, mencionado anteriormente, j que cada rede

  • 14 Captulo 2. Conceitos e Trabalhos Relacionados

    local no necessariamente tem cincia dos endereos denidos pela camada de

    rede (IP).

    Exemplos de tecnologias de rede local so as diveras variedades de redes Ethernet,

    as redes sem o conhecidas como WiFi e WiMax, e tecnologias para canais ponto-

    a-ponto (usualmente linhas discadas) como o protocolo PPP.

    2.5 Processo de Coleta e Anlise de Dados

    A m de se obter informaes sobre o comportamento dos usurios e as demandas

    sobre a infra-estrutura de rede, diversos tipos de dados podem ser de interesse durante

    o trabalho de monitorao e anlise de logs.

    2.5.1 Tipos de coleta

    Para cada tipo de dado, um tipo de coleta especco pode ser necessrio, ao se focar

    em um tipo de aplicao ou servio especco, como que administradores e pesquisa-

    dores se valham de registros de atividade (logs) gerados pelos programas servidores que

    implementam determinados servios. Esse o caso, por exemplo, quando se estuda a

    carga de um servidor Web atravs do log das requisies atendidas por ele. No extremo

    oposto do espectro de coleta de dados encontra-se a coleta de trfego bruto que cir-

    cula pela rede, onde todo o contedo de qualquer comunicao que atravessa um canal

    pode ser monitorado e coletado. A coleta de anlise de logs de aplicaes preferida

    quando o objetivo analisar um servio especco. Nesse caso, os registros j so por

    natureza mais processados, pois pode-se resumir a informao a ser coletada com base

    no entendimento da semntica da aplicao. Entretanto, para faz-lo, normalmente

    necessrio realizar a coleta nas extremidades da rede, seja na mquina do usurio ou

    no servidor da aplicao, j que so os nicos pontos que possuem conhecimento su-

    ciente para interpretar as requisies do usurio e as respostas do servidor. Esse tipo

    de anlise permite se obter um conhecimento aprofundado sobre um certo servio, mas

    no permite uma viso abrangente sobre a rede como um todo ou sobre a interao

    entre diferentes servios.

    Do ponto de vista de privacidade e anonimato o fato da informao ser derivada

    com base na semntica de cada servio torna o problema de se vericar o anonimato

    em qualquer log desse tipo um problema diferente para cada tipo se servio ou formato

    de log. As questes de anonimato que surgem em um servio de correio so de natureza

    diferente daquelas de um servidor Web, por exemplo. Dessa forma, trabalhos nesse nvel

    devem focar em servios especcos.

  • 2.5. Processo de Coleta e Anlise de Dados 15

    J a coleta de trfego bruto de rede permite que se obtenha uma viso global

    de toda comunicao que utiliza um certo elemento da rede (um canal, roteador ou

    chave/switch). Esse tipo de coleta exige que o interessado tenha acesso direto ao

    elemento da rede onde se pretende observar o trfego, o que normalmente implica na

    participao do administrador da rede em questo. O problema desse tipo de coleta

    o grande volume de dados que pode ser gerado, pois em ltima instncia pode-se optar

    por coletar cada byte trafegado. Esse volume tambm implica em um maior trabalho

    na anlise dos dados coletados. Por ser uma coleta bruta, em princpio possvel

    derivar quase toda informao sobre cada aplicao, pelo menos at o ponto em que

    essa informao tenha relao com os bytes trafegados. Isso se deve ao fato de que

    todos os dados de cada aplicao podem, em princpio, ser includos na coleta. Alm

    disso, os cabealhos dos diversos protocolos trazem diversas informaes que podem

    servir para se identicar a mquina de origem/destino da comunicao e at mesmo o

    usurio envolvido.

    Uma soluo intermediria em relao ao tipo de dado coletado, que utilizada

    para anlises onde o objetivo no vai alm do entendimento dos padres de trfego

    (volumes, origens e destinos), sem preocupao com a semntica dos servios, a

    coleta de dados sobre uxos (ows). Esse tipo de informao comumente disponvel

    em roteadores atravs do protocolo NetFlow [Netow, 2009] e informa apenas o volume

    de dados trafegados entre cada par origem/destino observado atravs de um canal

    ou roteador por unidade de tempo. Esse tipo de dado possui basicamente apenas o

    endereo IP de origem e destino como informao que pode afetar a privacidade do

    usurio e/ou a segurana da rede. Dessa forma, questes de anonimato nesse caso se

    limitam a esses endereos; dessa forma, anonimizao do trfego netflow apenas um

    sub-conjunto das questes associadas ao trfego bruto.

    Este trabalho tem como foco o estudo do problema de anonimizao de registros

    de trfego bruto, por ser um problema abrangente e independente de aplicaes espe-

    ccas. Alm disso, muito do que se discute aqui sobre anonimizao de endereos de

    rede que se aplica diretamente ao problema de anonimizao de coletas de uxos, como

    explicado anteriormente.

    Trfego bruto de rede compreende todo o contedo de cada pacote que trafega

    pela rede. Esse tipo de dado pode ser obtido nos elementos de conexo e roteamento,

    como roteadores ou switches. Dele podem ser obtidas informaes sobre origem e

    destino dos dados, tipo de servio que est sendo usado, horrio da conexo e at

    mesmo o contedo da comunicao, como por exemplo, identicao de usurio, senha

    e nmero de carto de crdito em uma interao com um servidor de comrcio eletrnico

    e tambm todo o contedo de uma mensagem de correio eletrnico.

  • 16 Captulo 2. Conceitos e Trabalhos Relacionados

    Os dados referentes conexo geralmente so coletados pelos administradores

    para observar o uso da rede, identicar possveis ataques, identicar a origem de cada

    tipo de trfego, ou qualquer tipo de informao que ajude na manuteno e bom

    funcionamento da rede. J os pesquisadores podem usar esses dados para caracterizar

    trfego e analisar o comportamento da rede aps a disponibilizao de um novo servio,

    por exemplo.

    2.5.2 O processo de coleta

    O processo de coleta pode ser dividido em trs partes principais: a obteno de um

    acesso direto ao trfego a ser coletado, a coleta propriamente dita e sua anlise poste-

    rior.

    2.5.2.1 Acesso aos dados do trfego

    O primeiro passo para se realizar a coleta de dados brutos encontrar uma forma de

    se ter acesso ao contedo de todos os pacotes que passam por um canal de interesse.

    Se esse canal de interesse apenas um canal que leva a uma mquina especca, como

    um servidor, basta se ter acesso quela mquina para se realizar a coleta. Por outro

    lado, quando se deseja coletar/analisar todo o trfego de entrada e sada de uma rede,

    necessrio ter acesso ao canal que conecta essa rede ao restante da Internet. Nesse caso,

    comum que haja apenas roteadores ou chaves Ethernet (switches) nas extremidades

    do canal, onde normalmente no possvel se realizar diretamente uma coleta (j que

    normalmente precisa-se de um equipamento especialmente congurado para esse m).

    Nesse caso, h normalmente duas formas de se resolver esse problema, dependendo

    dos recursos de hardware disponveis: interceptao ou espelhamento do trfego. A

    gura 2.3 ilustra as duas opes.

    No caso da interceptao, um computador com duas interfaces de rede deve ser

    colocado no meio do uxo de dados, usando-se cada uma das suas interfaces para se

    conectar a um dos dois extremos do canal original que se deseja monitorar. O sistema

    operacional daquele computador deve ser congurado para copiar todos os pacotes que

    cheguem em uma interface para a outra, garantindo que o uxo de pacotes no canal seja

    mantido inalterado. Paralelamente, o sistema deve copiar cada pacote recebido para

    um arquivo de armazenamento local, que constituir o arquivo de registro de trfego.

    J no caso do espelhamento, essencial que se tenha um elemento de rede (rote-

    ador ou chave Ethernet) com essa funcionalidade. Nesse caso, o elemento de rede pode

    ser programado para realizar uma cpia de cada pacote recebido ou enviado atravs

    de uma certa interface de rede (a interface de terminao do canal de interesse). Essa

  • 2.5. Processo de Coleta e Anlise de Dados 17

    a)

    b)

    Figura 2.3. Formas de coleta de trfego: a) interceptao; b) espelhamento

    cpia ento transmitida por uma outra interface do mesmo elemento de rede, qual

    pode-se ento conectar o computador de coleta. Esse computador precisa apenas arma-

    zenar cada pacote que recebe atravs daquela interface, sem nenhum outro tratamento

    extra.

    A interceptao exige normalmente um computador com mais recursos (o equipa-

    meno precisa ter duas interfaces de rede, ser congurado para copiar o trfego recebido

    em cada interface para outra, agindo como uma bridge, e com desempenho suciente

    para fazer a cpia e o armazenamento do trfego sem perdas). Entretanto pode ser

    mais facilmente colocada em prtica, pois no impe maiores exigncias sobre a rede

    a ser monitorada. Desde que o canal monitorado seja da mesma tecnologia das duas

    interfaces de rede do computador de monitorao ela pode ser implantada. J o es-

    pelhamento reduz a demanda sobre o computador de coleta, que precisa ser capaz

    apenas de copiar os dados recebido para um arquivo, mas depende da existncia de um

    elemento de rede no ponto da coleta que possua recursos de espelhamento de trfego.

  • 18 Captulo 2. Conceitos e Trabalhos Relacionados

    2.5.2.2 Coleta de trfego

    Independente da tcnica adotada para se ter acesso ao trfego, o prximo elemento ne-

    cessrio o programa de coleta propriamente dito. Nesse caso, a ferramenta mais

    comum para obter esses dados, dentre outros aplicativos existentes, o programa

    tcpdump [Tcpdump & libpcap, 2009] atravs da libpcap que uma biblioteca para

    processamento dos logs, estes emprestam seus nomes para os arquivos gerados por eles.

    A coleta de trfego no um procedimento automtico dos elementos de rede: ela

    deve ser congurada pelo administrador do sistema e a partir da, como mencionado

    anteriormente, pode-se obter e armazenar todo o contedo dos dados que trafegam pela

    rede nesse tipo de monitorao. Entretanto, geralmente o que coletado e analisado

    so apenas os primeiros bytes de cada pacote trafegado, j que neles encontram-se

    os cabealhos dos protocolos, de onde se pode obter a maior parte da informao de

    interesse para anlise.

    O tcpdump uma ferramenta que executada atravs da linha de comando e

    consegue ler tanto os dados diretamente da interface de rede, quanto de um arquivo

    de coleta gerado anteriormente. Ele pode gerar um arquivo de sada no formato texto

    ou no formato do prprio programa. Ele usa a biblioteca pcap (packet capture), que

    proporciona um ambiente de alto nvel para captura e processamento de pacotes de

    rede.

    O tcpdump tem como padro, na maioria dos sistemas operacionais, ler apenas

    os primeiros 68 bytes dos pacotes que trafegam na rede. Esses 68 bytes normalmente

    so sucientes para se obter toda a estrutura de cabealhos ICMP, IP, TCP e UDP.

    Entretanto, como o tamanho dos pacotes desses protocolos pode variar, possvel

    que dentro dos 68 bytes salvo exista uma quantidade de bytes do chamado payload

    (que so os dados da aplicao propriamente dita). Alm disso, o programa pode ser

    congurado para reter todo o pacote, aumentando consideravelmente a quantidade de

    dados armazenados e consequentemente afetando o desempenho do sistema de leitura

    e gravao dos pacotes. O armazenamento de bytes de payload sempre uma questo

    delicada, devido variedade de aplicaes praticamente impossvel se criar uma forma

    de anonimizar esses dados.

    Uma caracterstica muito importante do tcpdump que ele permite especicar

    ltros para ele coletar apenas determinado tipo de informao. Por exemplo, ele pode

    ser congurado para coletar apenas o trfego de determinado endereo IP de origem,

    ou todos os pacotes que forem do protocolo TCP, ou at mesmo excluir os pacotes que

    sejam endereados para a porta 80 (geralmente trfego web).

  • 2.5. Processo de Coleta e Anlise de Dados 19

    2.5.2.3 Mecanismos de anlise

    Uma vez de posse de uma cpia do trfego em um canal, diversas ferramentas podem ser

    utilizadas para se analisar esse trfego. Muitas delas, como por exemplo, o tcpstat

    1

    e o tcpflow

    2

    apenas geram informaes estatsticas agregadas, no se constituindo,

    a princpio, em ameaa privacidade dos usurios. Entretanto, outros programas

    permitem que se obtenha um grande volume de informaes sobre os usurios e suas

    comunicaes.

    A primeira ferramenta nessa linha sem dvida o prprio tcpdump, que pode ser

    usado para gerar relatrios textuais com informaes extradas de cada pacote. Alm

    dele, entretanto, diversos outros programas podem ser usados. Duas ferramentas que

    merecem destaque nesse caso so o ntop e o wireshark.

    O ntop [Ntop, 2009] um analisador desenvolvido para atuar em tempo real

    (normalmente no mesmo ponto onde se usaria o tcpdump para coleta) que gera diversos

    relatrios sobre o trfego observado. Ele pode, entretanto, ser utilizado tambm para

    obter relatrios sobre trfego previamente coletado. Os relatrios do ntop so de

    forma geral estatsticos; entretanto, os dados podem ser divididas por endereos de

    origem/destino, tipo de mquina e outros elementos que podem afetar a privacidade

    dos usurios. A gura 2.4 apresenta exemplos do tipo de informao disponvel atravs

    da sua interface.

    J o wireshark [Wireshark, 2009] (previamente chamado ethereal) um pro-

    grama de inspeo de pacotes com interface grca. Com ele possvel se inspecionar

    cada bit em um pacote, sendo que a interpretao dos campos dos cabealhos da mai-

    oria dos protocolos existentes j feita automaticamente pela aplicao. Com essa

    ferramenta possvel tambm, por exemplo, reconstruir toda uma comunicao entre

    duas partes na rede a partir dos pacotes individuais, o que pode ter srios impactos

    em questes de privacidade. A gura 2.5 mostra trs janelas de anlise. Na primeira

    so mostrados todos os pacotes do arquivo tcpdump, na qual o pacote nmero 34 foi

    selecionado. Na segunda janela possvel visualizar detalhadamente os campos das

    camadas do TCP/IP, no caso, so mostrados os valores dos campos do protocolo IP.

    Finalmente, na terceira janela mostrado o contedo do pacote em hexadecimal.

    Alm desses programas, diversos outros existem com funcionalidades semelhantes

    ou complementares. Alm disso, diversas bibliotecas existem para linguagens como C,

    Java, Python, Perl e outras, que simplicam o desenvolvimento de programas que

    interpretam o trfego de rede em busca de informaes especcas. Esse recurso ser

    1

    http://www.frenchfries.net/paul/tcpstat/

    2

    http://www.circlemud.org/ jelson/software/tcpow/

  • 20 Captulo 2. Conceitos e Trabalhos Relacionados

    Figura 2.4. Exemplo de informao mostrada pelo ntop

    Figura 2.5. Exemplo de informao mostrada pelo wireshark

    inclusive explorado no captulo ??, no desenvolvimento da ferramenta de anlise de

    anonimizao

  • 2.6. Ferramentas de anonimizao 21

    2.5.3 Discusso

    Uma vez que se consiga um computador com acesso ao trfego utilizando uma das tc-

    nicas anteriores, o administrador/pesquisador precisa explicitamente executar o pro-

    grama tcpdump para coletar os dados, ou seja, at que isso ocorra no h qualquer

    problema de privacidade envolvido. As dvidas surgem a partir do momento em que

    uma cpia desses dados comea a ser armazenada. Por exemplo, apenas coletar estes

    dados sem o aviso prvio do usurio da rede j caracteriza uma invaso de privacidade?

    Anal, os pacotes armazenados por padro do tcpdump, como visto, podem conter in-

    formaes pessoais. Por outro lado, o administrador no manipulou ou compartilhou

    esses dados. E se os dados coletados contiverem apenas com os cabealhos do pacote,

    isso conguraria tambm uma quebra de privacidade? O endereo IP uma informao

    pessoal?

    Avisar previamente o usurio sobre coleta suciente para o uso de seus dados

    no congurar invaso de privacidade? O pesquisador poder compartilhar esses dados

    ou guard-los por tempo indeterminado? Poder fazer qualquer tipo de anlise nesses

    dados? Essas so questes que precisam ser consideradas.

    Como vimos, o tcpdump permite ainda ltrar as informaes a serem coletadas,

    ou seja, possvel fazer uma monitorao direcionada para identicar quais computa-

    dores acessam determinados sites ou qual o perl de acesso de determinados usurios.

    Este tipo de monitorao legal? Existe algum tipo de procedimento especial que

    torne esta coleta legal ou ilegal? Ao ltrar apenas um tipo de trfego aumenta-se a

    garantia de privacidade do que coletado? Podendo ltrar um tipo de trfego, a coleta

    pode ser direcionada e tornar a privacidade mais ameaada?

    A anonimizao de dados torna a coleta legal? Pois a princpio nem o payload e

    nem as informaes de indicao da mquina foram mantidas. Ou apenas legal a

    coleta executada com permisso judicial?

    Achar respostas concretas para essas questes um tarefa complexa, esperamos

    ao nal desse trabalho discutir as principais diculdades que envolvem esse assunto.

    2.6 Ferramentas de anonimizao

    Diante da necessidade de se manter a privacidade dos dados e a segurana das redes,

    surgiram as chamadas ferramentas de anonimizao de dados, que denem um con-

    junto de polticas e tcnicas para tentar garantir a privacidade dos usurios de redes e

    outros servios, sem, no entanto, afetar a qualidade das informaes necessrias para

    o desenvolvimento de pesquisa, auditorias e anlises gerenciais.

  • 22 Captulo 2. Conceitos e Trabalhos Relacionados

    Existem diversos tipos de ferramentas e mtodos de anonimizao, cada uma delas

    usando abordagens diferentes. Algumas fazem anonimizao em um nvel especco

    da pilha de protocolos, outras em informaes restritas como por exemplo, as URLs e

    nomes dos arquivos [Kuenning & Miller, 2003], mas a maioria tenta anonimizar campos

    em todos os nveis da arquitetura TCP/IP.

    A seguir discutimos brevemente algumas ferramentas de anonimizao existentes

    e suas caractersticas principais. Posteriormente, na seo 4.4 detalharemos as princi-

    pais ferramentas existentes.

    O tcpdpriv [Minshall, 1996] uma das mais conhecidas ferramentas de anonimi-

    zao, desenvolvida para anonimizar dados coletados diretamente da interface de rede

    utilizando o tcpdump. Ela se preocupa apenas com os cabealhos dos pacotes IP, UDP

    e TCP, sendo capaz de gerar diversos nveis de anonimizao, pois permite a escolha

    de vrios campos do cabealho para serem anonimizados.

    O ipsumdump [Ipsumdump, 2009] uma ferramenta de anonimizao que suma-

    riza os dados obtidos do tcpdump utilizando o tcpdpriv e transforma esses dados para

    formato ASCII.

    Outra ferramenta disponvel a tcpurify [Blanton, 2009], utilizada para ob-

    teno de dados na interface de rede. Similar ao tcpdump, mas com o enfoque em

    privacidade, ela anonimiza diretamente o dados antes de serem armazenados e des-

    preza o restante do pacote IP ou Ethernet, logo aps reconhecer o ltimo cabealho

    que se deseja coletar.

    A ferramenta APPI [Koukis et al., 2006], uma API baseada em linguagem C,

    tem como principal objetivo de projeto ser extensvel, aplicando essa caracterstica em

    trs aspectos diferentes: permite a adio de novas funes de anonimizao, possui

    suporte a novos protocolos e aceita entrada para vrios tipos de coletores de trfego.

    O tcpmkpub [Pang et al., 2006] uma ferramenta de anlise de dados do tcpdump

    que no prev anonimizao de dados online. Ela procura ser o mais genrica possvel,

    para permitir uma implementao fcil de uma poltica de anonimizao atravs dos

    nveis de protocolo, ou seja, ela fornece um framework geral para anonimizar dados de

    rede que pode alojar uma gama de polticas de protocolos e de decises.

    Na mesma linha do tcpmkpub existe tambm o FLAIM [Slagell et al., 2006], que

    tem uma linguagem de especicao dos campos a serem anonimizados, tornando a

    congurao muito exvel. Alm disso, disponibiliza vrias tcnicas de anonimizao

    para cada um dos campos dos protocolos da arquitetura TCP/IP.

  • 2.7. Outros Trabalhos Relacionados 23

    2.7 Outros Trabalhos Relacionados

    A discusso de disponibilizar logs sem prejudicar a privacidade e segurana, preservando

    ainda a qualidade dos dados para a pesquisa, tem ganhado mais destaque a cada dia.

    Atualmente, temos trabalhos discutindo as mais variadas tcnicas de anonimizao com

    por exemplo, anonimizao usando criptograa [Xu et al., 2002; Ramaswamy & Wolf,

    2007], outros trabalhos seguem a linha de criar ambientes seguros para a coleta e anlise

    de logs [Shanmugasundaram, 2003; Bianchi et al., 2008a; Hussain et al., 2006].

    De forma geral as pesquisas se concentram em novas tcnicas e ferramentas

    de anonimizao [Luo et al., 2006], e tcnicas para recuperar informaes anonimi-

    zadas, ou seja, ataques contra as anonimizaes [King et al., 2009; Kohno et al., 2005;

    Ribeiro et al., 2008]. H tambm artigos que se concentram apenas em anonimizao

    de um determinado campo, por exemplo, o endereo IP [Keardsri et al., 2009].

    Tambm so encontrados alguns artigos que analisam a tica e os problemas

    jurdicos que o compartilhamento de dados pode gerar [Allman & Paxson, 2007;

    Ohm et al., 2007] e artigos que apresenta tcnicas de avaliao da qualidade da forma

    de anonimizao [Coull et al., 2008; Kelly et al., 2008].

  • Captulo 3

    Aspectos Legais

    Como vimos anteriormente, o crescimento no uso da Internet para atividades do dia-

    a-dia ocorrem em um ritmo cada vez maior, aumentando a necessidade de melhorias

    da infraestrutura da Internet e de seus protocolos.

    Consequentemente, houve um grande aumento na quantidade de informao pri-

    vada trafegada na Internet alm, claro, de um maior nmero de pessoas cadastradas

    nas bases de dados das empresas. Isso gerou em muitos pases uma preocupao em

    regular a proteo, manuteno e circulao dessas informaes na Internet, pois as

    empresas trocam, entre si, informaes de suas bases, assim como os pesquisadores

    utilizam arquivos de logs de rede para sua pesquisa.

    Outra consequncia desse crescimento da Internet foi o aumento signicativo do

    nmero de crimes e fraudes pela rede. Esses fatos levaram a uma preocupao cres-

    cente da rea jurdica em tornar a Internet um ambiente mais controlado. Para isso,

    vrios pases comearam a regulamentar polticas de combate aos chamados cybercri-

    mes, dentre elas a tipicao de novos crimes relacionados ao ambiente computacional

    e regras para maior controle do acesso a Internet, principalmente com relao ao arma-

    zenamento de arquivos de logs de conexo para facilitar a identicao de criminosos.

    Diante dessa regulamentao crescente entre os pases e, consequentemente, uma

    maior preocupao com o controle dos dados que circulam na Internet, aumenta a

    necessidade de um rigoroso processo de coleta, armazenamento e utilizao desses dados

    por parte de empresas, impactando diretamente a utilizao e compartilhamento de

    dados de conexo de rede pelos pesquisadores da rea.

    Atualmente, a maioria dos pesquisadores coletam, manipulam e, muitas vezes,

    compartilham os arquivos de logs de conexo sem se preocupar com as normas de

    condencialidade/privacidade que protegem esse tipo de dado [Ohm et al., 2007]. En-

    tretanto, mesmo quando se preocupam com o contedo desses arquivos eles no sabem

    25

  • 26 Captulo 3. Aspectos Legais

    como devem proceder para coletar e manipular esses arquivos de forma a garantir a se-

    gurana da rede, a privacidade dos usurios, alm de se preservarem contra um processo

    de indenizao ou at mesmo criminal.

    Por outro lado, no meio dessa corrida para regulamentar o uso da Internet, or-

    ganismos de proteo das liberdades individuais tentam combater excessos que tais

    regulamentaes possam causar, por exemplo, na privacidade dos indivduos, que

    um direito bsico previsto no artigo 12 da Declarao Universal dos Direitos Huma-

    nos [ONU, 1950].

    Para tentar elucidar as questes jurdicas que envolvem a coleta e anlise de dados

    de conexo de rede, neste captulo discutiremos o que alguns pases esto fazendo

    para tentar controlar a circulao de dados e reduzir a criminalidade na Internet.

    Inicialmente, a legislao da Unio Europia ser discutida, por ser um grupo dos

    principais pases do mundo e por j estar muito avanada nesse assunto. Em seguida,

    discutiremos as leis sobre o controle dos dados pessoais nos Estados Unidos e alguns

    pases da Amrica do Sul.

    Por m, veremos o que existe no Brasil em termos de legislao em vigor e ainda

    apresentaremos as caractersticas relevantes dos principais projetos de lei que tramitam

    no Senado Federal. Finalmente, tentaremos delinear qual a melhor forma de lidar com

    a coleta de dados, para garantir o alto grau de conformidade com as leis.

    3.1 Unio Europia

    Com o aumento do armazenamento de informaes por meios eletrnico a Unio Euro-

    pia j se preocupava em regulamentar o uso dessas informaes por parte de empresas

    privadas e rgos governamentais desde a dcada de 80. Em 1981 foi aprovada a

    conveno 108, que tem seus objetivos descritos em seu artigo 1

    o: A presente Con-

    veno destina-se a garantir, no territrio de cada Parte, a todas as pessoas singulares,

    seja qual for a sua nacionalidade ou residncia, o respeito pelos seus direitos e liber-

    dades fundamentais, e especialmente seu direito vida privada, face ao tratamento

    automatizado dos dados de carter pessoal que lhes digam respeito (proteco dos

    dados) [Parlamento Europeu, 1981].

    Essa conveno dene dados de carter pessoal como sendo qualquer informao

    sobre uma pessoa identicada ou que possa vir a ser identicada (titularond dos da-

    dos). Ela tambm dene padres mnimos de segurana nos quais os dados pessoais

    de arquivos automatizados devem estar resguardados, sob uma poltica apropriada,

    contra a destruio, acidental ou no, a perda acidental e a manipulao e divulgao

  • 3.1. Unio Europia 27

    no autorizadas.

    Ela tambm especica a forma como esses dados podem ser obtidos e como de-

    vem ser mantidos, dando prerrogativa ao titular dos dados para acess-los, retic-los

    ou elimin-los. Ela ainda permite que as empresas utilizem esses dados para ns de

    estatstica ou de pesquisa cientca, desde que no causem risco privacidade dos

    titulares.

    Observamos que no decorrer dos anos regular a proteo privacidade sem preju-

    dicar a livre circulao dos dados entre os pases membros foi sempre uma preocupao

    no Parlamento Europeu, tanto que foram lanadas diversas diretivas e regulamentos

    (que so uma espcie de tratado entre os pases membros que se comprometem a ade-

    quar sua legislao interna s diretrizes desses documentos) denindo regras sobre o

    assunto.

    Em 1995 foi adotada a diretiva 46 [Parlamento Europeu, 1995] que busca regu-

    lamentar, novamente, a livre circulao dos dados pessoais entre os pases membros,

    resguardando sobretudo os direitos fundamentais, dentre eles o direito vida privada.

    Nessa diretiva so criadas outras duas excees a essa regra de privacidade: a primeira

    o consentimento expresso do titular para o uso dos dados; a segunda quando os

    dados so anonimizados, antes de serem manipulados, garantindo que as pessoas no

    sejam identicadas.

    Na diretiva 46/95 foi mantida a denio de dado pessoal, especicando algumas

    das formas de identicao indireta do titular dos dados, por exemplo, atravs de

    um nmero identicador, ou caractersticas fsicas culturais, etc. Ela ainda dene

    o que o tratamento automatizado de dados pessoais, exemplicando os tipos de

    manipulao que esses dados podem sofrer, determinando sigilo e segurana adequados.

    Determina que os estados-membros devem garantir recursos judicais para quem se sentir

    prejudicado e sanes para os responsveis.

    Alm disso, ela regulariza a transferncia desses dados para pases no-

    comunitrios e, preocupada com o dinamismo na evoluo da informtica, cria no

    seu artigo 29 o grupo de proteo das pessoas no que diz respeito ao tratamento de

    dados pessoais, que formado por representantes de cada pas membro, especicando

    entre suas atribuies, a de dar parecer sobre nvel de proteo dos pases membros e

    no-membros e dar recomendaes sobre proteo das pessoas relativas ao tratamento

    dos dados pessoais na Comunidade Europeia.

    Em 1997 foi adotada a diretiva 66 [Parlamento Europeu, 1997] que regulamentava

    o setor de telecomunicaes e foi revogada em 2002 pela diretiva 58 de 2002, que au-

    mentou a sua abrangncia para o setor de comunicaes eletrnicas. Mesmo revogada,

    veremos alguns detalhes de alguns artigos da diretiva 66 de 1997, para contextualizar-

  • 28 Captulo 3. Aspectos Legais

    mos a evoluo histrica da legislao europeia sobre o tratamento de dados pessoais

    e proteo a privacidade. Ela regulamentava o uso dos dados pessoais dos assinantes

    do setor de telecomunicaes. At ento, as diretivas anteriores eram direcionadas aos

    bancos de dados existentes nas empresas, mas nessa diretiva foi dado um destaque aos

    dados relativos conexo.

    Como destaque da diretiva 66/97 pode-se citar o artigo 5

    o, que determinava que os

    estados-membros deveriam garantir a condencialidade das comunicaes na rede p-

    blica de telecomunicaes e seus servios. Isso inclua coibir a escuta, o armazenamento

    ou outros meios de interceptao de comunicaes por terceiros sem o consentimento

    dos usurios, excetuando-se quando legalmente autorizados, nos casos de segurana do

    estado, investigao criminal, etc.

    Tambm o artigo 6

    oda diretiva 66/97 merece destaque neste trabalho, pois ele

    reconhecia a importncia dos dados relativos conexo, principalmente para as tele-

    comunicaes, devido utilidade para o faturamento dos assinantes e apoio para rea

    comercial e estatstica. Alm disso, determinava que o acesso aos dados de trfego

    deveria ser restrito s pessoas que utilizam para aquele m. Entretanto, o mais impor-

    tante que essa diretiva ainda estabelecia que esses dados deveriam ser apagados ou

    tornados annimos aps a concluso da conexo ou do seu uso para as tarefas acima

    (faturamento, assistncia ao cliente, deteco de fraudes, etc).

    Em 2001 foi adotado o regulamento 45 [Parlamento Europeu, 2001] sobre a pro-

    teo no tratamento de dados pessoais e sua livre circulao pelas instituies e pelos

    rgos comunitrios. Na mesma linha de regulao do tratamento de dados da diretiva

    46 de 1995 que regulava empresas privadas, este regulamento especco para os rgos

    pblicos acima citados.

    Para adaptar as regras evoluo de novas tecnologias a diretiva 58 de

    2002 [Parlamento Europeu, 2002], como dito anteriormente, revogou a diretiva 66 de

    1997. Essa nova diretiva visa uma maior abrangncia em relao a anterior, pois ela

    no s regula o setor de telecomunicaes como regula todo o setor de comunicaes

    eletrnicas. Ela traz uma inovao em seu artigo 2

    o, diferenciando dados de trfego

    e a comunicao propriamente dita, onde os primeiros so as informaes trocadas

    para estabelecer a conexo, j a comunicao propriamente dita qualquer informao

    trocada entre as partes atravs de um servio de comunicao eletrnica.

    O artigo 5

    odetermina que os Estados-membros garantiro a condencialidade das

    comunicaes e dos dados de trfego impedindo escutas, armazenamento, etc, exceto

    quando legalmente autorizados. Ainda no artigo 6

    o, foi mantida a regra de descartar

    os dados de trfego ou anonimiz-los assim que passam a ser desnecessrios para a

    comunicao, excetuando tambm os dados necessrios para a tarifao.

  • 3.1. Unio Europia 29

    Com o nmero crescente de crimes realizados atravs da Internet, em 2006 foi

    adotada a diretiva 24 [Parlamento Europeu, 2006] que tem como objetivo regular a

    conservao de dados gerados no contexto dos servios de comunicao eletrnica p-

    blica para efeitos de investigao e de represso a crimes graves, alterando a diretiva

    58/2002.

    A diretiva 24/2006 mantm a distino entre dados de trfego e a informao

    privada que trocada durante comunicao e deixa claro no artigo 1

    o, nmero 1, que ela

    determina a manuteno apenas dos dados de trfego, ou seja, os dados que so usados

    para estabelecer a conexo, cando excludos, portanto, os dados relativos ao contedo

    das comunicaes eletrnicas. No item 23 das consideraes iniciais, ela esclarece que

    s so obrigados a conservar os dados os fornecedores que geram ou tratam os mesmos,

    dando a entender que ela desobriga os provedores dessa determinao.

    No seu artigo 1

    oso derrogados os artigos 5

    o, 6

    oe 9

    oda diretiva 58/2002. O

    artigo 5

    ocria seis categorias de dados que devem ser conservados. A primeira, so dados

    necessrios para encontrar e identicar a fonte de uma comunicao, depois so os dados

    necessrios para encontrar e identicar o destino de uma comunicao, em seguida so

    os dados necessrios para identicar a data, hora e durao de uma comunicao. Outra

    categoria so os dados necessrios para identicar o tipo de comunicao; e tambm os

    dados para identicar o equipamento de telecomunicaes dos utilizadores e por m,

    os dados para identicar a localizao do equipamento de comunicao mvel.

    O artigo 6

    odetermina, aos estados-membros, que o tempo mnimo de conservao

    dos dados que as legislaes internas devem estipular de seis meses e no devem

    ultrapassar dois anos.

    Aspectos Relevantes para a Coleta e Anonimizao

    Como vimos, inicialmente foram adotados diversos atos no sentido de regular a

    troca de informaes entre os pases-membros, priorizando as garantias individuais dos

    usurios, nesses casos, o direito vida privada. Entretanto, como dito anteriormente,

    com a proliferao do uso da Internet tambm houve um aumento no nmero de crimes

    relacinados a esse meio.

    Em contrapartida, os pases comearam a regular de forma autonma a reteno

    dos dados de comunicao eletrnica. Ento, a Unio Europia se viu na obrigao

    de estabelecer regras que unicassem as legislaes dos pases-membros, determinando

    a reteno de dados de conexo pela operadora e estabelecendo critrios para essa

  • 30 Captulo 3. Aspectos Legais

    reteno, dentro dos princpios da privacidade e do Estado de Direito.

    Para o nosso estudo ca claro, como vimos na diretiva 24 de 2006 que a coleta

    do contedo da comunicao s pode ser feita atravs de ordem judicial. Com relao

    aos dados da conexo, se esses forem anonimizados ou se tiverem o consetimento do

    usurio, eles podero ser usados tanto pelos pesquisadores quanto pelos administradores

    de redes. Mas os dados de conexo no anonimizados s podem ser coletados para

    garantir o bom funcionamento da rede. Sendo assim, os administradores no podero

    repassar esses dados para a pesquisa.

    3.2 Amrica

    O Canad possui dois decretos sobre a privacidade dos dados: o primeiro de 1982 e

    regulamenta a coleta, o uso e a divulgao de dados pelos rgo governamentais e o

    segundo de 2001, que estabelece princpios que as organizaes em geral devem seguir

    na coleta, armazenamento e uso dos dados pessoais.

    Nos Estados Unidos vigora a common law, que o sistema de formao de leis

    atravs dos costumes e de decises judiciais. Devido a esse sistema, os EUA possuem

    uma diversidade grande de decises judiciais sobre a privacidade de dados, leis estaduais

    e leis federais. Devido a essa descentralizao, o congresso americano comeou a criar

    diversos acts, que so as leis federais, regulamentando a privacidade de determinados

    tipos de dados, por exemplo, o Health Information and Portability Accountability Act

    (HIPAA), que trata sobre a manuteno e tratamento dos dados relativos sade, o

    Children's Online Privacy Protection Act (COPPA), que probe aos sites a coleta de

    dados de crianas sem a autorizao dos pais e o Driver's Privacy Protection Act, que

    probe o estado a revelar dados pessoais dos cidados, como o endereo, nmero do

    seguro social, etc.

    Em 1986 entrou em vigor o Electronic Communications Privacy Act (ECPA), que

    regula a interceptao da comunicao de dados, proibindo que se intercepte, acesse e

    divulge informaes de uma comunicao eletrnica, prevendo algumas excees a essa

    regra; por exemplo, a invaso no autorizada de sistemas por hackers considerada

    ilegal, mesmo que esta invaso no cause dano. Aps os ataques terroristas, em 2001,

    entrou em vigor USA Patriot Act que entre outras coisas, permite a interceptao de

    comunicao de voz em computadores suspeitos.

    Na Amrica do Sul alguns pases j possuem lei especca de proteo de dados.

    O Chile, por exemplo, aprovou um lei de proteo de dados em 1999, dando direito s

    pessoas de acesso e correo de suas informaes. A Argentina, em 2000, sancionou a

  • 3.3. Brasil 31

    Lei 25.326 sobre a proteo dos dados pessoais, seguindo a tendncia das leis interna-

    cionais, que prev a proteo dos dados pessoais, estabelecendo regras de informao

    sobre o tratamento dos dados.

    Alm disso, ela criou um rgo de regulamentao e aplicao da lei proteo aos

    dados pessoias. Dessa forma, a Argentina em 2003 obteve um parecer de adequao

    de proteo da Unio Europia, se tornando o primeiro pas da Amrica do Sul com

    autorizao de transferncia de dados de/para a Europa.

    3.3 Brasil

    No Brasil, apesar de no estarmos to avanado com relao s normas de troca,

    preservao e privacidade dos dados dos meios de comunicao eletrnicos, no se pode

    armar que no exista nenhuma regra sobre o assunto. Nessa seo, discutiremos as leis

    que falam de privacidade e interceptao de dados e que atualmente vigoram no pas.

    Alm disso, veremos o principal projeto de lei que est em tramitao no Congresso

    Nacional, que de alguma forma ajudar no compreenso de como esse assunto deve

    evoluir.

    3.3.1 Legislao em Vigor

    3.3.1.1 Cdigo Penal Brasileiro

    O Decreto-lei n

    o2.848 de dezembro de 1940, o nosso Cdigo Penal [Congresso Nacional,

    1940], j descrevia em seu artigo 151, o crime de violao de correspondncia, que prev

    uma pena de um a seis meses ou multa; e diz no inciso II do pargrafo 1

    oque incorre na

    mesma pena quem praticar o tipo penal violao de comunicao telegrfica,

    radioeltrica ou telefnica que descrito da seguinte forma:

    II- quem indevidamente divulga, transmite a outrem ou utiliza abusiva-

    mente comunicao telegrca ou radioeltrica dirigida a terceiro, ou con-

    versao telefnica entre pessoas.

    Sendo assim, vemos que o nosso Cdigo Penal tornava crime apenas quem divulga

    ou transmite a outrem conversao telefnica entre outras pessoas. Isso signica que

    simples ato de interceptar e/ou gravar uma comunicao telefnica no era considerado

    crime, pois o crime era consumado somente no momento da divulgao ou transmisso

    da informao a outrem [Jesus, 1997] . Esse inciso se resume tambm a apenas comu-

    nicaes telefnica e radioeltrica, no incluindo nosso assunto que trfego de redes,

  • 32 Captulo 3. Aspectos Legais

    mas como no temos leis especcas sobre a comunicao eletrnica e o procedimento

    na comunicao so similares, faremos sempre um paralelo entre esses dois tipos de

    comunicao, ajudando a ilustrar a evoluo do tratamento dado pela lei em nosso

    pas para a interceptao de dados.

    3.3.1.2 Constituio da Repblica de 1988

    Nossa Constituio de 1988 [Congresso Nacional, 1988], prev em seu artigo 5

    o, inciso

    X, a inviolabilidade da intimidade e da vida privada das pessoas e, no inciso XII do

    mesmo artigo, prev a inviolabidade da correspondncia e das comunicaes, como

    mostrado a seguir:

    Art. 5

    o

    : Todos so iguais perante a lei, sem distino de qualquer

    natureza, garantindo-se aos brasileiros e aos estrangeiros residentes no Pas

    a inviolabilidade do direito vida, liberdade, igualdade, segurana e

    propriedade, nos termos seguintes:

    X - so inviolveis a intimidade, a vida privada, a honra e a imagem das

    pessoas, assegurado o direito a indenizao pelo dano material ou moral

    decorrente de sua violao;

    XII - inviolvel o sigilo da correspondncia e das comunicaes tele-

    grcas, de dados e das comunicaes telefnicas, salvo, no ltimo caso,

    por ordem judicial, nas hipteses e na forma que a lei estabelecer para ns

    de investigao criminal ou instruo processual penal.

    A princpio, lendo rapidamente o inciso XII, parece que os legisladores deixaram

    claro o seu interesse em tornar inviolvel o sigilo da correspondncia, das comunicaes

    telegrcas e de dados, abrindo exceo s comunicaes telefnicas quando houver

    ordem judicial.

    O que aparentemente j est denido , na verdade, uma grande polmica entre

    os juristas do pas, pois a expresso, salvo, no ltimo caso, no deixa claro a que

    se refere [Delmanto et al., 1998], criando pelo menos duas correntes de interpretao

    desse inciso. A primeira corrente defende que o inciso possui quatro itens (correspon-

    dncia, comunicaes telegrcas, comunicaes de dados e comunicaes telefnicas)

    sendo, assim, que a exceo prevista diante de autorizao judicial relativa apenas

    s comunicaes telefnicas, tornando o sigilo da correspondncia, da comunicaes

    telegrcas e de dados absoluto [Greco Filho, 1996]. Ao defender a exceo somente s

    comunicaes telefnicas, Delmanto et al. [1998], citando Themistocles Cavalcanti

    1

    ,

    1

    Themistocles Cavalcanti, Do Controle da Constitucionalidade, 1986, p. 164, apud Alberto silva

    Franco, Crimes Hediodos, 1994, p.90

  • 3.3. Brasil 33

    diz que as garantias individuais devem ser interpretadas de forma extensiva, ou seja,

    diante de uma regra com texto duvidoso deve-se ampliar a garantia de liberdade e no

    restringi-la.

    Por outro lado, existem autores que defendem a idia de que esse inciso dividido

    em apenas duas partes, sendo a primeira o direito ao sigilo da correspondncia e das

    comunicaes telegrcas e a segunda, o direito ao sigilo comunicaes de dados e das

    comunicaes telefnicas. Dessa forma, a exceo prevista de quebra do sigilo se destina

    tanto s comunicaes de dados, quanto s comunicaes telefnicas [Gomes & Cervini,

    1997]. Em seu voto no julgamento do pedido 577 [Mello, 1992] de quebra de sigilo

    bancrio, o Ministro do Supremo Tribunal Federal (STF) Marco Aurlio Mello, declara

    esse entendimento sobre esse preceito.

    Alm de falar da exceo vista acima, o inciso XII determina que a legislao

    infra-constitucional a regulamente na sua forma e hipteses, para ns de investigao

    criminal ou instruo penal. Nesse ponto no h discusso, ou seja, as duas correntes

    concordam que para haver a quebra do sigilo preciso uma ordem judicial e isso somente

    para ns de investigao criminal ou instruo processual penal.

    3.3.1.3 Lei 9296

    Conforme previsto em nossa Constituio, a lei 9296 [Congresso Nacional, 1996] foi

    promulgada em 1996 para regulamentar o seu inciso XII do artigo 5

    o. No pargrafo

    nico do artigo 1

    o, os legisladores deixam claro sua interpretao do referido inciso da

    Constituio, O disposto nesta Lei aplica-se interceptao do uxo de comunicaes

    em sistemas de informtica e telemtica. Infelizmente este artigo no acabou com

    a polmica, pois os defensores de que a Constituio autoriza apenas a interceptao

    telefnica armam que a lei 9296 inconstitucional, pois ela estende o alcance da norma

    constitucional, restringindo o direito privacidade e uma norma infra-constitucional

    no pode contrariar o texto da Constituio.

    Atualmente est no STF uma Ao Direta de Inconstitucionalidade (ADI) da

    lei 9296 pedindo a inconstitucionalidade de cinco dispositivos dessa lei; entre eles, o

    pargrafo nico do artigo 1

    o. A deciso a ser tomada pelo STF dever resolver a

    questo em denitivo.

    A lei 9296 no artigo 2

    odene trs hipteses onde a interceptao telefnica no

    ser admitida: quando no houver indcios de autoria ou participao, quando a prova

    puder ser feita por outros meios e quando o fato investigado for uma infrao penal pu-

    nida, no mximo, com deteno. Nesse artigo, a lei 9296 tambm criticada por alguns

    autores, pois ela contraria a boa prtica da legislao, onde deveriam ser descritas as

  • 34 Captulo 3. Aspectos Legais

    hipteses em que a interceptao admitida [Greco Filho, 1996]. Apesar da polmica,

    esse artigo mostra a importncia dada pelo legislador ao direito privacidade pois, de

    acordo com essas excees, esse bem s poder ser maculado diante de srias razes.

    Outros dois pontos que se destacam nessa lei que a interceptao telefnica se

    dar em autos apartados, apensados aos autos do inqurito policial ou do processo penal

    e que no artigo 9

    oela dene as formas de destruio das gravaes que no interessar em

    uma investigao ou processo. Dessa forma, o legislador, mesmo permitindo excees

    ao direito de sigilo nas comunicaes, demonstra uma preocupao em presevar ao

    mximo a privacidade do investigado.

    Finalmente, a lei 9296 revoga parcialmente o artigo 151 inciso II do Cdigo Penal

    Brasileiro [Congresso Nacional, 1940], visto anteriormente. tornando crime no s a

    transmisso ou divulgao indevida de contedo da comunicao telefncia, mas tam-

    bm o ato de interceptao de comunicaes telefnicas, de informtica ou telemtica

    sem autorizao judicial, conforme o artigo 10 a seguir:

    Constitui crime realizar interceptao de comunicaes telefnicas, de in-

    formtica ou telemtica, ou quebrar segredo da Justia, sem autorizao

    judicial ou com objetivos no autorizados em lei

    . Com esta nova redao, a simples interceptao constitui crime, o que fundamental

    para a anlise deste trabalho. Alm disso, esse artigo prev uma pena de recluso de

    dois a quatro anos e multa, tornando a punio para quem incorre nesse crime muito

    mais severa do que a lei anterior.

    Aspectos Relevantes para a Coleta e Anonimizao

    Diante do exposto, confrontaremos nessa seo o nosso entendimento da legislao

    em vigor com a coleta de dados de trfego de rede. Apesar dos bons argumentos contra

    a permisso constitucional da intercepo com autorizao judicial de comunicaes de

    dados, tornando esse direito absoluto; ao analisar os argumentos da corrente contr-

    ria, junto com algumas decises de nossos tribunais, me parece que o entendimento

    de que a Constituio permite a interceptao judicial tanto das comunicaes telef-

    nicas quanto nas comunicaes de dados, deve ser a interpretao vlida, entendendo

    portanto, que o pargrafo nico da artigo 1

    oda lei 9296/96 constitucional.

    Devemos primeiramente separar os dois tipos de dados que a comunicao de

    dados possui: o primeiro o contedo da comunicao, o outro so os dados de registros,

  • 3.3. Brasil 35

    os quais so necessrios para a realizao e controle da comunicao.

    Fazendo um paralelo com as conexes telefnicas, as operadoras tm necessidade

    de manter os dados de registros para fazer a tarifao de servios. Esses dados possuem

    informaes tcnicas como, por exemplo, hora da chamada, durao, etc, e informa-

    es pessoais como nmero do telefone, registro de chamada, etc. Consequentemente,

    podemos concluir que o armazenamento dos dados de conexo no proibido, mas a

    sua divulgao fere o direito de privacidade institudo na Constituio de 1988 em seu

    artigo 5

    oinciso X e s pode ser autorizado atravs de uma ordem judicial.

    Portanto, se os dados de conexo de rede forem equiparados aos da telefonia, os

    administradores de rede podem coletar e armazenar esses dados e at mesmo manipul-

    los, desde que sejam utilizados para o bom funcionamento da atividade. Entretanto,

    quanto ao repasse desses dados a outrem, entendo que estaria contrariando a deter-

    minao legal. Entendo tambm que h a possibilidade de compartilhamento desses

    dados caso os mesmos passem por um processo de anonimizao que torne invivel

    a identicao do dono da informao e consequentemente garanta a privacidade dos

    dados.

    Com relao ao contedo da comunicao, ou seja, o payload do pacote TCP ou

    UDP, entendo que a lei 9296 clara: s pode ser col