Prova_MD

2
UNIVERSIDADE FEDERAL DE OURO PRETO DEPARTAMENTO DE COMPUTAÇÃO MINERAÇÃO DE DADOS – BCC444 Aluno: Prova de BCC444 Professor: Luiz Merschmann Data: 01/07/2014 Curso: Ciência da Computação Turno: Diurno Período: Valor: 10 Nota: Instruções: 1) A prova deverá ser realizada sem qualquer tipo de consulta. 2) Não será permitido o uso de calculadora. 3) É proibido o empréstimo de material (lápis, borracha, caneta etc.) durante a realização da prova. 4) Todo o raciocínio realizado deve ser demonstrado na prova. 5) A interpretação das questões faz parte da prova. 6) Todas as questões da prova têm o mesmo valor (0,625). QUESTÕES Marque V se a afirmação for verdadeira ou F se ela for falsa. Caso a afirmação seja marcada como falsa, reescreva-a fazendo todas as correções necessárias para que ela se torne verdadeira. 1) ( ) Uma regra de associação representa um padrão de relacionamento entre itens de dados do domínio da aplicação que ocorre com uma determinada frequência numa base de dados. 2) ( ) A regressão é considerada uma tarefa preditiva. Seu objetivo é prever o valor do atributo classe a partir de um conjunto de valores de atributos conhecidos (atributos preditores). O conjunto de possíveis classes é discreto e pré-definido. 3) ( ) Algoritmos de clusterização podem ser utilizados na etapa de pré-processamento de dados para redução do volume de dados. 4) ( ) A discretização é uma tarefa de pré-processamento que tem como objetivo colocar os valores de um atributo numa faixa de valores pré-especificada. 5) ( ) A seleção de atributos tornou-se um importante tópico de pesquisa com o surgimento de bases de dados contendo muitos atributos. Nesse cenário, Best-First é uma heurística gulosa utilizada na avaliação individual de atributos com objetivo de se definir um bom subconjunto de atributos. 6) ( ) Na abordagem de seleção de atributos denominada wrapper cada atributo preditivo da base de dados é avaliado individualmente de acordo com sua correlação com o atributo classe. A partir dessa avaliação seleciona-se os k atributos com as melhores avaliações. 7) ( ) Em seleção de atributos, um atributo completamente irrelevante (quando avaliado individualmente) pode contribuir para melhoria do desempenho do classificador quando utilizado em conjunto com outros atributos. 8) ( ) O fator de confiança de uma regra X -> Y pode ser alto simplesmente porque o consequente da regra é muito frequente na base de dados. 9) ( ) O algoritmo Apriori considera a seguinte propriedade com o objetivo de diminuir o espaço de busca: todo conjunto que contém um subconjunto frequente também é frequente. 10) ( ) Na estratégia do algoritmo Partition, a base de dados é lida apenas duas vezes. Já na estratégia do Apriori, a base de dados é lida em cada uma das k iterações. 11) ( ) O ID3 é um algoritmo (guloso) utilizado para construir árvores de decisão. Ele é um algoritmo recursivo que utiliza uma abordagem de divisão e conquista. Para que ele possa ser utilizado, todos os atributos devem conter valores normalizados.

description

Prova de mineração de dados

Transcript of Prova_MD

  • UNIVERSIDADE FEDERAL DE OURO PRETO

    DEPARTAMENTO DE COMPUTAO

    MINERAO DE DADOS BCC444

    Aluno: Prova de BCC444

    Professor: Luiz Merschmann Data: 01/07/2014

    Curso: Cincia da Computao Turno: Diurno Perodo: Valor: 10 Nota:Instrues: 1) A prova dever ser realizada sem qualquer tipo de consulta.2) No ser permitido o uso de calculadora.3) proibido o emprstimo de material (lpis, borracha, caneta etc.) durante a realizao da prova.4) Todo o raciocnio realizado deve ser demonstrado na prova.5) A interpretao das questes faz parte da prova.6) Todas as questes da prova tm o mesmo valor (0,625).

    QUESTES

    Marque V se a afirmao for verdadeira ou F se ela for falsa. Caso a afirmao seja marcada como falsa, reescreva-a fazendo todas as correes necessrias para que ela se torne verdadeira.

    1) ( ) Uma regra de associao representa um padro de relacionamento entre itens de dados do domnio da aplicao que ocorre com uma determinada frequncia numa base de dados.2) ( ) A regresso considerada uma tarefa preditiva. Seu objetivo prever o valor do atributo classe a partir de um conjunto de valores de atributos conhecidos (atributos preditores). O conjunto de possveis classes discreto e pr-definido.3) ( ) Algoritmos de clusterizao podem ser utilizados na etapa de pr-processamento de dados para reduo do volume de dados.4) ( ) A discretizao uma tarefa de pr-processamento que tem como objetivo colocar os valores de um atributo numa faixa de valores pr-especificada.5) ( ) A seleo de atributos tornou-se um importante tpico de pesquisa com o surgimento de bases de dados contendo muitos atributos. Nesse cenrio, Best-First uma heurstica gulosa utilizada na avaliao individual de atributos com objetivo de se definir um bom subconjunto de atributos.6) ( ) Na abordagem de seleo de atributos denominada wrapper cada atributo preditivo da base de dados avaliado individualmente de acordo com sua correlao com o atributo classe. A partir dessa avaliao seleciona-se os k atributos com as melhores avaliaes.7) ( ) Em seleo de atributos, um atributo completamente irrelevante (quando avaliado individualmente) pode contribuir para melhoria do desempenho do classificador quando utilizado em conjunto com outros atributos.8) ( ) O fator de confiana de uma regra X -> Y pode ser alto simplesmente porque o consequente da regra muito frequente na base de dados.9) ( ) O algoritmo Apriori considera a seguinte propriedade com o objetivo de diminuir o espao de busca: todo conjunto que contm um subconjunto frequente tambm frequente.10) ( ) Na estratgia do algoritmo Partition, a base de dados lida apenas duas vezes. J na estratgia do Apriori, a base de dados lida em cada uma das k iteraes.11) ( ) O ID3 um algoritmo (guloso) utilizado para construir rvores de deciso. Ele um algoritmo recursivo que utiliza uma abordagem de diviso e conquista. Para que ele possa ser utilizado, todos os atributos devem conter valores normalizados.

  • 12) ( ) A tcnica redes Bayesianas assume que o efeito do valor de um atributo sobre uma determinada classe independente dos valores dos demais atributos.13) ( ) O leave-one-out simplesmente uma n-validao cruzada, onde n o nmero de instncias da base de dados.14) ( ) A curva ROC mostra o trade-off entre a taxa de verdadeiros positivos e a taxa de falsos negativos de um classificador.15) ( ) O k-means um algoritmo de clusterizao que pertence categoria dos mtodos de particionamento. Ele cria uma decomposio hierrquica a partir de uma base de dados D com n objetos. 16) ( ) Em clusterizao, para os mtodos baseados em densidade, o tempo de processamento independe do nmero de objetos de dados da base. Ele depende somente do nmero de clulas em que o espao de objetos foi dividido.