Aula4-AED-2

download Aula4-AED-2

of 71

Transcript of Aula4-AED-2

  • 7/24/2019 Aula4-AED-2

    1/71

    INE 5644 Minerao de Dados Anlise Exploratria de Dados

    Luis Otavio Alvares

    Apresentao aseada e! slides dos pro"s#$os% Leo!ar &odes'o e Maur('io )eis

  • 7/24/2019 Aula4-AED-2

    2/71

    O o*etivo da anlise exploratria de dados %exa!inar a estrutura su*a'ente dos dados eaprender sore os rela'iona!entos siste!ti'osentre !uitas variveis#

    A anlise exploratria de dados in'lui u! 'on*untode "erra!entas +r"i'as e des'ritivas, para explorar

    os dados, 'o!o pr%-re.uisito para u!a anlise dedados !ais "or!al /0redio, 0reviso, Esti!ao,1lassi"i'ao e &estes de 2ipteses3, e 'o!o parteinte+ral "or!al da 'onstruo de !odelos#

    1one'endo os dados

  • 7/24/2019 Aula4-AED-2

    3/71

    A AED "a'ilita a des'oerta de 'one'i!ento noesperado, 'o!o ta!%! a*uda a 'on"ir!ar oesperado#

    1o!o u!a i!portante etapa e! Data Minin+, a

    AED e!pre+a t%'ni'as estat(sti'as des'ritivas e+r"i'as para estudar o 'on*unto de dados,dete'tando outliers e ano!alias, e testando assuposies do !odelo#

    A AED % u! i!portante pr%-re.uisito para seal'anar o su'esso e! .ual.uer pro*eto de data!inin+#

    Anlise Exploratria de Dados

  • 7/24/2019 Aula4-AED-2

    4/71

    Distriuies de re.78n'ias

    or+ani9ao dos dados de a'ordo 'o! aso'orr8n'ias dos di"erentes resultadososervados#

    0ode ser apresentada: e! taela ou e! +r"i'o; 'o! "re.78n'ias asolutas, relativas ou

    por'enta+ens#

  • 7/24/2019 Aula4-AED-2

    5/71

    Exe!plo /'o! varivel .ualitativa3

  • 7/24/2019 Aula4-AED-2

    6/71

    Exe!plo /'o! varivel .ualitativa3

  • 7/24/2019 Aula4-AED-2

    7/71

    = 4 B @C @6 C= C4

  • 7/24/2019 Aula4-AED-2

    8/71

  • 7/24/2019 Aula4-AED-2

    9/71

  • 7/24/2019 Aula4-AED-2

    10/71

    Exe!plo /'o! varivel dis'reta3

    Nu!a rede de 'o!putadores, a .uantidade de!.uinas li+adas, por dia

    C= C6 C@ C@ C= C@ C CC C4 CC

    CC CC C C C CC C CC C4 C@

  • 7/24/2019 Aula4-AED-2

    11/71

    Distriuio de re.78n'ias

    M.uinase! uso

    C=

    C@CCCC4

    C5C6&otal

    re.78n'ia/asoluta3

    C

    465C

    =@C=

    0roporo /3

    =,@= /@=3

    =,C= /C=3=,= /=3=,C5 /C53=,@= /@=3

    =,== /= 3=,=5 / 53

    @,== /@==3

  • 7/24/2019 Aula4-AED-2

    12/71

  • 7/24/2019 Aula4-AED-2

    13/71

    5,C 6,4 5,F B, F,= 5,4 4,B ,@5,5 6,C 4, 5,F 6, 5,@ B,4 6,CB, F, 5,4 4,B 5,6 6,B 5,= 6,FB,C F,@ 4, 5,= B,C , 5,4 5,65,F 6,C 4, 5,@ 6,= 4,F @B,@ 5,

    4, 5,= 5,F 6, 6,= 6,B F, 6,6,5 5,

    &e!po /e! se+undos3 para 'ar+a de u!apli'ativo nu! siste!a 'o!partilado /5=oservaes3:

    Exe!plo /'o! varivel 'ont(nua3

  • 7/24/2019 Aula4-AED-2

    14/71

    5,C 6,4 5,F B, F,= 5,4 4,B ,@5,5 6,C 4, 5,F 6, 5,@ B,4 6,CB, F, 5,4 4,B 5,6 6,B 5,= 6,FB,C F,@ 4, 5,= B,C , 5,4 5,6

    5,F 6,C 4, 5,@ 6,= 4,F @B,@ 5,4, 5,= 5,F 6, 6,= 6,B F, 6,6,5 5,

    DADO?

    4,F @B,@

    4 @5 6 F ...

  • 7/24/2019 Aula4-AED-2

    15/71

    te!po

    nH!erodeoserva5es

    =

    C

    4

    6

    B

    @=

    @C

    @4

    @6

    @B

    C=

    4 6 B @= @C @4 @6 @B

    Histograma do tempo (em segundos) para carga

    de um aplicativo num sistema compartilhado

    (50 observaes) - discretizao

    2isto+ra!a

  • 7/24/2019 Aula4-AED-2

    16/71

    17

  • 7/24/2019 Aula4-AED-2

    17/71

    18

  • 7/24/2019 Aula4-AED-2

    18/71

    Medidas Des'ritivas

    Existe! !edidas .uantitativas .ue

    serve! para des'rever, resu!ida!ente,

    'ara'ter(sti'as das distriuies#As !ais utili9adas so a mdia e o

    desvio padro#

  • 7/24/2019 Aula4-AED-2

    19/71

    M%dia /3

    A !%dia arit!%ti'a si!ples / 3 % a so!a dosvalores dividida pelo nH!ero de oservaes#

    J

    n

  • 7/24/2019 Aula4-AED-2

    20/71

    Exe!plo

    Dese*a-se estudar o nH!ero de "alas noenvio de !ensa+ens, 'onsiderando tr8sal+orit!os di"erentes para o envio dos

    pa'otes: Al+orit!o A /B oservaes3

    Al+orit!o G /B oservaes3Al+orit!o 1 /F oservaes3

  • 7/24/2019 Aula4-AED-2

    21/71

    Exe!plo

    NH!ero de "alas a 'ada @=#=== !ensa+ensenviadas#

    A: C= C@ C@ CC CC C C C4

    G: @6 @B C= CC CC C4 C6 CB

    1: @5 CC C C C C4 C4

    1 d t 8 l it l

  • 7/24/2019 Aula4-AED-2

    22/71

    1o!parao dos tr8s al+orit!os pela!%dia

    al+orit!o "alas !%dia

    A C= C@ C@ CC CC C C C4 CC

    G @6 @B C= CC CC C4 C6 CB CC

    1@5 CC C C C C4 C4

    CC

  • 7/24/2019 Aula4-AED-2

    23/71

    @5 @6 @F @B @ C= C@ CC C C4 C5 C6 CF CB C

    AG

    1

    NH!ero de "alas

    Dia+ra!as de 0ontos

    Al+orit!o

  • 7/24/2019 Aula4-AED-2

    24/71

    1o!o !edir a dispersoK

    Exe!plo: A / C= C@ C@ CC CC C C C4 3

    C= C@ 22 C C4

    distn'ia /desvio3 e! relao !%dia

  • 7/24/2019 Aula4-AED-2

    25/71

    Desvios

    >alores C= C@ C@ CC CC C C C4

    M%dia CC

    Desvios / - 3 -C -@ -@ = = @ @ C

  • 7/24/2019 Aula4-AED-2

    26/71

    Desvios

    C= C@ 22 C C4

    -C -@ = @ CDesvios: ?o!a J =

  • 7/24/2019 Aula4-AED-2

    27/71

    Desvios uadrti'os

    ?o!a

    >alores C= C@ C@ CC CC C C C4 @F6

    M%dia CC -

    Desvios - -C -@ -@ = = @ @ C =

    Desvios.uadrti'os

    /-3C

    4 @ @ = = @ @ 4 @C

  • 7/24/2019 Aula4-AED-2

    28/71

    >arin'ia /?C3

    A varin'ia /?C3 % u!a !%dia dos desvios

    .uadrti'os# sa-se no deno!inador n-@ aoinv%s de n .uando traala!os 'o! a!ostrase no a populao 'o!pleta#

    No exe!plo apresentado /al+orit!o A3, a varin'ia %:

    ( )1

    2

    2

    =

    n

    XXS

    ?CJ

    F

    @CJ @,F@

  • 7/24/2019 Aula4-AED-2

    29/71

    Desvio 0adro /?3

    O desvio padro /?3 % a rai9 .uadrada davarin'ia#

    No exe!plo apresentado /al+orit!o A3, o desvio padro %:

    ? J ?C

    ? J @,F@ J @,@

    1o!parao dos tr8s al+orit!os pela

  • 7/24/2019 Aula4-AED-2

    30/71

    1o!parao dos tr8s al+orit!os pela!%dia e desvio padro

    Al+orit!o alas ?

    A C= C@ C@ CC CC C C C4 CC @,@G @6 @B C= CC CC C4 C6 CB CC 4,==

    1 @5 CC C C C C4 C4 CC ,@6

  • 7/24/2019 Aula4-AED-2

    31/71

    @5 @6 @F @B @ C= C@ CC C C4 C5 C6 CF CB C

    NH!ero de "alas

    Algoritmo A

    (S !"#!$

    Algoritmo %

    (S &"''$

    Algoritmo

    (S #"!)$

    Dia+ra!as de pontos e valores de ?

  • 7/24/2019 Aula4-AED-2

    32/71

    TA!"AMedidas des'ritivas das notas "inaisdos alunos de tr8s tur!as

    &ur!a NH!ero dealunos M%dia Desviopadro

    A

    G1

    C=

    4==

    6,=

    B,=,=

    ,

    @,5C,6

    Exe!plo

  • 7/24/2019 Aula4-AED-2

    33/71

    Medida relativa de disperso - Exe!plo

    *!+ ! 2 #

    *2+ !'' !'! !'2

    *#+ !'' 2'' #''

    !%dia J Cdesvio padro J @'oe"i'iente de variao J =,5

    !%dia J @=@desvio padro J @

    'oe"i'iente de variao J =,=@!%dia J C==desvio padro J @=='oe"i'iente de variao J =,5

    oe,iciente de variao desvio padro - mdia

    1on*unto de dados: so C oservaes relativas

  • 7/24/2019 Aula4-AED-2

    34/71

    1on*unto de dados: so C oservaes relativas preos de auto!veis#

    O&LIE)?

  • 7/24/2019 Aula4-AED-2

    35/71

    I 1art; variale: PC

    2isto+ra! o" Oservations

    =

    5

    @=

    @5

    C=

    C5

    D=

    D5

    4=

    45

    5=

    55

    -C=

    -@=

    =

    @=

    C=

    D=

    4=

    5=

    6=

    F=

    I: @A,6DC /@A,6DC3; ?i+!a: =,==== /A,65A=3; n: @,

    @= C= D= 4= 5= 6= F= B= A=

    -A,D455

    @A,6DC

    4B,6=A

    Q>eri"i'ar avariailidade

    Qoutliers

    O&LIE)?:

    SX 2O

    SX 3

    O&LIE)?

    1on*unto de dados: preos de "e'a!ento de aes

  • 7/24/2019 Aula4-AED-2

    36/71

    1on*unto de dados: preos de "e'a!ento de aesda telers

  • 7/24/2019 Aula4-AED-2

    37/71

    I 1art; variale: &eleras

    2isto+ra! o" Oservations

    = C 4 6 B @= @C @4

    @C

    @4

    @6

    @B

    C=

    CC

    C4

    C6

    CB

    D=

    DC

    D4

    D6

    DB

    I: C5,FC5 /C5,FC53; ?i+!a: =,==== /4,5=B=3; n: @,

    @= C= D= 4= 5=

    @6,F=A@6,F=A

    C5,FC5

    D4,F4@D4,F4@

    ?%riete!poral

    ( )S2X

    ( )S2X+

    M did d d d d d

  • 7/24/2019 Aula4-AED-2

    38/71

    2/2/

    2/

    2/

    Medidas aseadas na ordenao dos dados

    #$

    uartilIn"erior

    /@0

    .uartil3

    %d

    !ediana

    #&

    uartil?uperior/0 .uartil3

    o nH!ero deele!entos % o!es!o e! 'ada

    .uartil /C53

    1l l d di

  • 7/24/2019 Aula4-AED-2

    39/71

    Dados:

    {2, 0, 5, 7, 9, 1, 3, 4, 6, 8}

    1d &"

    = @ C 4 5 6 F B

    1l'ulo da !ediana

    n J @=; /n R @3 S C J 5,5

    1l'ulo dos uartis

  • 7/24/2019 Aula4-AED-2

    40/71

    i 2 s 3

    = @ C 4 5 6 F B

    1d &"

    1l'ulo dos uartis

    4i ' 4s 5

  • 7/24/2019 Aula4-AED-2

    41/71

    1l'ulo da !ediana

    Dados:

    {2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}

    1d

    = @ C 4 5 6 F B @==

    Exer'('io:

    n J @@; /n R @3 S C J 6

    E ( i

  • 7/24/2019 Aula4-AED-2

    42/71

    i 2"

    s 3"

    1l'ulo dos .uartis

    4i ' 1d

    = @ C 4 5 6 F B @==

    4s !''

    Exer'('io:

    1edida de disperso+

  • 7/24/2019 Aula4-AED-2

    43/71

    1edida de disperso+

    6ist7ncia interquart8lica

    O desvio inter-.uart(li'o % u!a !edida rousta de

    disperso# Ele % 'al'ulado por:

    13 QQ

    Onde Q3% o per'entil F5, ta!%! 'a!ado de .uartil superior, e o Q1% o per'entil

    C5, ta!%! 'a!ado de .uartil in"erior# Ele % u!a oa !edida de disperso paradistriuies assi!%tri'as# 0ara dados nor!al!ente distriu(dos, o desvio inter-.uart(li'o % aproxi!ada!ente i+ual a @,5 ve9es o desvio padro#

    Medidas da varivel IDADE de "un'ionrios de u!a e!presa,

    do setor de te'idos:

    Distriuio da varivel IDADE de "un'ionrios

  • 7/24/2019 Aula4-AED-2

    44/71

    Distriuio da varivel IDADE de "un'ionriosde u! e!presa,setor te'idos:

    M%dia e Mediana

  • 7/24/2019 Aula4-AED-2

    45/71

    = @= C= = 4= 5= 6= F=

    1dJ CC,5 'J C4,F

    5= dos valores 5= dos valores

    M%dia e Mediana

    M%dia e Mediana

  • 7/24/2019 Aula4-AED-2

    46/71

    5=E5=E

    !%dia J !ediana

    /a3 distriuiosi!%tri'a5=E

    5=E

    !ediana !%dia

    /3 distriuio

    assi!%tri'a

    M%dia e Mediana

    Dia+ra!a e! 'aixas /Gox 0lot3

  • 7/24/2019 Aula4-AED-2

    47/71

    Dia+ra!a e! 'aixas /Gox 0lot3

    2/

    2/2/

    2/

    2/ 2/2/

    2/

    Dia+ra!a e! 1aixas

  • 7/24/2019 Aula4-AED-2

    48/71

    Dia+ra!a e! 1aixas

    B

    @

    @B

    C

    CB

    Monte

    >erde

    En'osta

    do Morro

    )enda

    "a!iliar

    /sal# !(n#3

    outlier

    9lc lo dos : tliers

  • 7/24/2019 Aula4-AED-2

    49/71

    9lculo dos :utliers

    ( )( )ISS

    ISI

    QQQQQQ

    +

    5,1

    5,1

    Onde QI% o .uartil in"erior ou pri!eiro .uartil da

    distriuio; QS% o .uartil superior ou ter'eiro .uartil da

    distriuio# O valor @,5 pode ser alterado#

    &)AN?O)MATUO DE DADO?

  • 7/24/2019 Aula4-AED-2

    50/71

    51

    &)AN?O)MATUO DE DADO?

    O*etivo: oter os dados e! u!a "or!a !aisapropriada para os al+orit!os de !inerao

    QAlisa!entoQ

  • 7/24/2019 Aula4-AED-2

    51/71

    52

    Alisa!ento

    Eli!inao de ru(dos, ex'ees, ouliers, .ue sopre*udi'iais a !uitos al+orit!os de !inerao

  • 7/24/2019 Aula4-AED-2

    52/71

    53

  • 7/24/2019 Aula4-AED-2

    53/71

    O propsito da nor!ali9ao % !ini!i9ar os prole!asoriundos do uso de unidades e disperses distintas entre asvariveis#

    Al+uns al+orit!os de !inerao so ene"i'iados 'o! anor!ali9ao /redes neurais, VNN, V-!edias, ###3

    Nor!ali9ao

    Nor!ali9ao

  • 7/24/2019 Aula4-AED-2

    54/71

    55

    :;

  • 7/24/2019 Aula4-AED-2

    55/71

    56

    =ormali>ao linear no intervalo ?'"!@

    Nor!ali9ao

    Nor!ali9ao

  • 7/24/2019 Aula4-AED-2

    56/71

    57

    =ormali>ao por desvio padro

    O*etivo: 'onsidera a posio !%dia dos valores e os +raus dedisperso e! relao posio !%dia

    Ytil .uando !(ni!o e !xi!o so des'one'idos

    "/3 J / - !%dia3 S Z

    onde Z J desvio padro

    !%dia J @B5=

    Z J @@@,6C

    Nor!ali9ao

    Nor!ali9ao

  • 7/24/2019 Aula4-AED-2

    57/71

    58

    =ormali>ao pelo valor m9imo dos elementos

    Dividir 'ada valor pelo !aior valor )esultado si!ilar nor!ali9ao linear

    QI+ual se !(ni!o J = /9ero3

    "/3 J S !xi!o

    Nor!ali9ao

    Nor!ali9ao

  • 7/24/2019 Aula4-AED-2

    58/71

    59

    =ormali>ao por escala decimal

    Deslo'ar o ponto de'i!al dos valores

    sendoj = menor inteiro tal que Max( |f(X)|) 1

    Nor!ali9ao

    &rans"or!ao nu!%ri'o 'ate+ri'o

  • 7/24/2019 Aula4-AED-2

    59/71

    60

    &rans"or!ao nu!%ri'o 'ate+ri'o

    QMapea!ento diretoQMapea!ento e! intervalos /dis'reti9ao3

    O*etivo: trans"or!ao de valores nu!%ri'ospara 'ate+ri'os ou dis'retos

    &rans"or!ao nu!%ri'o 'ate+ri'o

  • 7/24/2019 Aula4-AED-2

    60/71

    61

    &rans"or!ao nu!%ri'o 'ate+ri'o

    1apeamento diretoQO*etivo: sustituio de valores nu!%ri'ospor valores 'ate+ri'os

    Exe!plo: sexo@ M=

    &rans"or!ao nu!%ri'o 'ate+ri'o

  • 7/24/2019 Aula4-AED-2

    61/71

    62

    1apeamento em intervalos (discreti>ao$ O*etivo: sustituio de valores dentro de u!

    intervalo por u! identi"i'ador

    Identi"i'ador de intervalo: 1ate+ri'o: no!e /su+esto: !neu![ni'o3 Nu!%ri'o

    Exe!plo: nH!ero de dependentes

    &rans"or!ao nu!%ri'o 'ate+ri'o

    &rans"or!ao nu!%ri'o 'ate+ri'o

  • 7/24/2019 Aula4-AED-2

    62/71

    63

    1apeamento em intervalos (discreti>ao$+ ,ormas

    Bntervalos com tamanCo prDde,inidos /do!(nio daapli'#3= a @ ' " C a 5 ! " 6 a 2

    Bntervalos de igual tamanCo /'one'i!ento dos li!itesdo intervalo3C intervalos S @= valores: = a 4 ' " 5 a !

    Bntervalos com o mesmo nEmero de elementos Bntervalos por meio de clusteri>ao

    tili9a al+u! al+orit!o de a+rupa!ento de dados para des'orirauto!ati'a!ente a distriuio dos dados

    &rans"or!ao nu!%ri'o 'ate+ri'o

    &rans"or!ao 'ate+ri'o nu!%ri'o

  • 7/24/2019 Aula4-AED-2

    63/71

    64

    O*etivo: trans"or!ao de valores 'ate+ri'ose! nu!%ri'os

    QMapea!ento direto

    Q)epresentao inria @-de-N

    &rans"or!ao 'ate+ri'o nu!%ri'o

    &rans"or!ao 'ate+ri'o nu!%ri'o

  • 7/24/2019 Aula4-AED-2

    64/71

    65

    &rans"or!ao 'ate+ri'o nu!%ri'o

    1apeamento direto

    Mapea!ento e! valores de @ a N

    &rans"or!ao 'ate+ri'o nu!%ri'o

  • 7/24/2019 Aula4-AED-2

    65/71

    66

    &rans"or!ao 'ate+ri'o nu!%ri'o

    1apeamento direto

    uando o atriuto 'ate+ri'o "or ordinal, %

    i!portante .ue os valores nu!%ri'os si+a! a!es!a orde!

    conceito mapeamento

    )ui! @

    )e+ular C

    Go!

    \ti!o 4

    &rans"or!ao 'ate+ri'o nu!%ri'o

  • 7/24/2019 Aula4-AED-2

    66/71

    67

    &rans"or!ao 'ate+ri'o nu!%ri'o

    epresentao ;in9ria !DdeD=

    QMapea!ento e! nH!ero 'u*a representaoinria tena N d(+itos

    ?o!ente u! d(+ito % ]@^

    Outros tipos de dados: outras trans"or!aes

  • 7/24/2019 Aula4-AED-2

    67/71

    Outros tipos de dados: outras trans"or!aes

    &exto /ex: 'ate+ori9ao de textos; ]exa!e^ de e-!ails, ###3 internet 'onteHdo estrutura uso

    i!a+ens se.78n'ias de +enes s%ries te!porais

    dados de tra*etrias dados de redes so'iais #####

  • 7/24/2019 Aula4-AED-2

    68/71

    Exer'('ios

  • 7/24/2019 Aula4-AED-2

    69/71

    1onverter os dados aaixo para valoresnu!%ri'os e nor!ali9-los e! W=, @X

    70

    Exer'('ios

    Exer'('ios

  • 7/24/2019 Aula4-AED-2

    70/71

    Dis'reti9ar o atriuto .ue possui os valores aaixoe! intervalos

    =, @, @, @, C, C, C, , 4, 6, 6, , @=, @, C=, C=, C@, C@, CC, C, C

    sar: &a!anos i+uais re.78n'ias i+uais

    71

    Exer'('ios

    0rxi!a Aula

  • 7/24/2019 Aula4-AED-2

    71/71

    0rxi!a Aula

    1lassi"i'ao

    Bntroduo+De"inio, o*etivos e 'ara'ter(sti'as da 'lassi"i'ao;

    A;ordagem Sim;lica+rvore de de'iso, teoria da in"or!ao,al+orit!os ID e 14#5;