Quimiometria Conceitos

download Quimiometria Conceitos

If you can't read please download the document

description

Métodos Quimiométricos: Uma Visão Geral - Conceitos básicos de quimiometria

Transcript of Quimiometria Conceitos

  • i

    REINALDO FRANCISCO TEFILO

    Mtodos Quimiomtricos: Uma Viso Geral

    Conceitos bsicos de quimiometria

    Viosa - MG

    Maio de 20 13

  • ii

    Caro Leitor,

    Se voc usar este material, por favor, cite-o em suas referncias.

    Citar a tese de doutorado que deu origem a este texto:

    R.F. Tefilo, Chemometric methods in the electrochemical studies of phenols on boron-doped

    diamond films, Universidade Estadual de Campinas, Campinas, 2007.

    Ou simplesmente este texto:

    R.F. Tefilo, Mtodos Quimiomtricos: Uma Viso Geral - Conceitos bsicos de quimiometria,

    Universidade Federal de Viosa, Viosa, Vol. 1, 2013.

  • iii

  • Introduo

    Tefilo, R. F. 1

    Introduo

    A anlise de dados multivariados tem se tornado, de modo crescente, uma

    importante rea da qumica e de outras cincias [1,2]. Isto sugere que a tendncia

    atual do pensamento cientfico envolve um raciocnio multivariado [1,3],

    principalmente devido ao desenvolvimento tecnolgico atingido neste ltimo

    sculo [1].

    Historicamente, a anlise de dados multivariados em qumica tem utilizado

    ferramentas desenvolvidas na rea de cincias sociais como economia

    (econometria) e psicologia (psicometria). Apesar de serem interpretadas para

    objetivos especficos em cada rea, a maioria destas ferramentas se baseia em

    sofisticados mtodos matemticos, estatsticos, computacionais e de lgica formal

    [2,4]. Em qumica, as anlises multivariadas so teis para (1) planejar ou

    selecionar procedimentos experimentais timos; (2) extrair o mximo da

    informao qumica relevante pela anlise dos dados; e (3) obter conhecimentos

    sobre os sistemas qumicos estudados [5].

    Com a aplicao destas ferramentas sobre dados fundamentalmente obtidos

    nas reas da qumica, nasceu uma nova disciplina designada por Svante Wold em

    1972, de quimiometria [6]. De uma maneira filosfica, se partirmos do ponto de

    vista de que a quimiometria , teoricamente, a aplicao de quaisquer mtodos

    matemticos e estatsticos para o tratamento de dados qumicos, a quimiometria se

    inicia em 1772 com Lavoisier, que deve ser considerado o primeiro quimiometrista,

    por ter sido o primeiro a usar mtodos quantitativos em qumica [6]. Porm, h um

    consenso geral de que a quimiometria se iniciou por volta de 1970 com diversos

    trabalhos cientficos, livros e um simpsio, ocorrido em So Francisco, em 2 de

    setembro de 1976 [7], todos direcionados para a anlise multivariada de dados

    qumicos. O grande divulgador e entusiasta internacional desta nova disciplina foi,

    sem dvida, Bruce Kowalski [6,8]. Foram dele os primeiros trabalhos, a primeira

  • Introduo

    Tefilo, R. F. 2

    comunicao por escrito dirigida aos qumicos anunciando esta nova rea e o

    primeiro livro editado na rea [9].

    A criao desta nova disciplina ocorreu, principalmente, devido automao

    dos laboratrios com o aumento significativo no nmero de instrumentos analticos

    que fornecem dados multivariados, ou seja, mtodos que geram mais de uma

    medida para uma dada amostra [10]. Alm disso, outras importantes contribuies

    foram: a acessibilidade a microcomputadores e a disponibilidade de metodologias e

    softwares dedicados realizao de clculos com dados multivariados [4].

    Atualmente a quimiometria est suficientemente estabelecida e seu uso

    disseminado [11]. Cada vez mais, metodologias quimiomtricas esto sendo

    aperfeioadas e/ou desenvolvidas de maneira direcionada para os problemas de

    origem qumica [12,13].

    Dentre as reas tradicionais da qumica, a qumica analtica , atualmente, a

    mais influenciada pela quimiometria [4]. Dentre as diferentes tcnicas analticas, as

    ferramentas quimiomtricas se tornaram mais populares na rea de espectroscopia

    [14].

    Este texto tem como objetivo mostrar os conceitos bsicos dos mtodos

    quimiomtricos mais utilizados. O leitor interessado poder, aps dominar estes

    conceitos, explorar novos, aplic-lo e desenvolver novos mtodos. Bem vindo ao

    mundo da quimiometria.

    Referncias

    1. Rencher, A. C. Methods of multivariate analysis. 2nd ed.; John Wiley & Sons Inc: New

    York, 2002.

    2. Phatak, A. Evaluation of some multivariate methods and their applications in chemical

    engineering. University of Waterloo, Ontario, 1993.

    3. Workman, J. J.; Mobley, P. R.; Kowalski, B. R.; Bro, R. Review of chemometrics

    applied to spectroscopy: 1985-95 .1. Appl. Spectrosc. Rev. 1996, 31, (1-2), 73-124.

    4. Brereton, R. G. Chemometrics: Data Analysis for the laboratory and chemical plant.

    John Wiley & Sons Inc: Chinchester, 2003; p 407.

    5. Massart, D. L.; Vandeginste, B. G. M.; Buydens, L. M. C.; de Jong, S.; Lewi, P. J.;

    Verbeke-Smeyers, J. Handbook of Chemometrics and Qualimetrics. Elsevier:

    Amsterdam, 1998; Vol. Part A, .

  • Introduo

    Tefilo, R. F. 3

    6. Esbensen, K.; Geladi, P. The start and early history of chemometrics - selected

    interviews .2. J. Chemometr. 1990, 4, (6), 389-412.

    7. Sheperd, P. Retrospective. J. Chemometr. 1987, 1, 3-6.

    8. Geladi, P.; Esbensen, K. The start and early history of chemometrics .1. selected

    interviews. J. Chemometr. 1990, 4, (5), 337-354.

    9. Kowalski, B. R. Chemometrics: Theory and Application. ACS Symp. Ser.: New York,

    1977; .

    10. Richards, E.; Bessant, C.; Saini, S. Multivariate data analysis in electroanalytical

    chemistry. Electroanalysis 2002, 14, (22), 1533-1542.

    11. Lavine, B. K.; Workman, J. Chemometrics: Past, present, and future. 2005, 894, 1-13.

    12. Hopke, P. K. The evolution of chemometrics. Anal. Chim. Acta 2003, 500, (1-2), 365-

    377.

    13. Hasegawa, T.; Ozaki, Y. New development in chemometrics. Bunseki Kagaku 2005,

    54, (1), 1-26.

  • Introduo

    Tefilo, R. F. ii

    Aristteles

  • Tefilo, R. F. 3

    Embora muitos mtodos quimiomtricos tenham originalmente sido

    desenvolvidos na rea de cincias sociais, elas agora esto sendo aplicadas quase

    que como um procedimento de rotina na anlise de dados oriundos de sistemas

    qumicos. Assim, fica bem definido que a Quimiometria no uma disciplina nem

    da matemtica, nem da estatstica ou da computao, mas sim da qumica. Os

    problemas que ela se prope a resolver so de interesse e originados na qumica,

    ainda que as ferramentas de trabalho provenham principalmente da matemtica,

    estatstica e computao [1].

    Informaes qumicas tais como, voltamogramas, espectros, cromatogramas,

    curvas de titulao e outras fontes podem ser digitalizadas formando uma srie de

    nmeros que podem ser representadas como vetores e matrizes [2]. Em

    quimiometria, os processamentos destes dados exigem, na maioria das vezes,

    operaes algbricas bem definidas. Portanto, torna-se necessrio padronizar as

    notaes e convenes destas operaes para em seguida apresentar as

    metodologias quimiomtricas. Neste material sero discutidas as notaes,

    convenes e alguns pr-processamentos, alm dos seguintes mtodos

    quimiomtricos: (1) planejamento e anlise de experimentos; (2) anlise de

    componentes principais (PCA); (3) regresso multivariada empregando quadrados

    mnimos parciais (PLS); (4) metodologias de seleo de variveis em calibrao

    multivariada; (5) clculo do sinal analtico lquido (NAS) para calibrao

    multivariada inversa e estimativas de parmetros analticos (figuras de mrito); (6)

    anlise dos fatores paralelos (PARAFAC) e (7) regresso em multimodos i.e., PLS

    multilinear (N-PLS).

  • Tefilo, R. F. 4

    -

    Em toda a tese, as notaes e convenes listadas abaixo sero seguidas.

    Outras notaes especiais sero introduzidas quando necessrias. Ainda neste

    subttulo, alguns pr-tratamentos que sero empregados em quase toda tese, sero

    descritos.

    Variveis e amostras

    Vetores podem ser definidos como uma seqncia de escalares (nmeros),

    matrizes como uma seqncia de vetores e tensores como uma seqncia de

    matrizes. Estas estruturas so apresentadas na Figura 1.1..

    representa as posies do elemento no vetor (1), na matriz (1,1) e no tensor (1,1,1). As

    setas indicam que h escalares em todas as outras posies.

    A Tabela 1.1 representa uma matriz de dados com I linhas e J colunas. Por

    definio, nas colunas de uma matriz X(IJ) esto dispostas as J variveis e nas

    linhas esto as I diferentes amostras.

    Usando voltamogramas como exemplo, a Tabela 1.1 pode ser construda da

    seguinte maneira: as variveis (1,2,, J) seriam os potenciais investigados; em

    cada posio das amostras (1,2,, I) estariam as indicaes dos diferentes

    voltamogramas e cada posio dentro do quadrado pontilhado (xij) estariam as

    correntes obtidas em cada potencial.

  • Tefilo, R. F. 5

    Somente os nmeros presentes dentro do quadrado pontilhado na Tabela 1.1

    fazem parte do nico ou de um dos blocos considerados para a realizao de

    clculos quimiomtricos.

    Tabela 1.1. Representao esquemtica de uma matriz de dados.

    Variveis

    Amostras 1 2 J

    1 x11 x12 x13 x1J

    2 x21 x22 x23 x2J

    I xI 1 xI 2 xI 3 xI J

    Escalares

    Um escalar um nmero que em qumica pode representar uma medida

    representativa (Figura 1.1). Em voltametria, por exemplo, ao obter uma corrente de

    pico, temos um nmero que a corrente.

    Os escalares sero indicados por letras minsculas em itlico, podendo estar

    em letras gregas ou romanas.

    a, b, c,... , , , , ...

    Vetores

    Um vetor uma seqncia de escalares que pode trazer alguma informao

    interpretvel (Figura 1.1). Em voltametria, por exemplo, ao obter a corrente de pico

    de medidas diferentes (amostras), pode-se dispor cada escalar (corrente de pico

    individual) em uma seqncia de correntes. Ao observar esta seqncia de

    escalares no vetor pode-se inferir sobre as medidas e realizar interpretaes.

    Os vetores sero definidos como uma coluna de nmeros e eles sero

    representados por letras minsculas em negrito.

    a, b, c, ... , , , , ...

  • Tefilo, R. F. 6

    Um vetor com I elementos ter uma dimenso (I1) com seu i-simo elemento

    dado pela correspondente letra minscula itlico com um subscrito apropriado. Por

    exemplo, o i-simo elemento do vetor x xi. O vetor 1 define uma seqncia de

    nmeros, todos eles iguais a 1.

    Matrizes

    Uma matriz uma seqncia de vetores, todos eles com a mesma dimenso e

    organizados em uma tabela (Figura 1.1). Um voltamograma, por exemplo,

    formado por uma seqncia de correntes obtidas com a varredura de potenciais.

    Esta seqncia de correntes constitue um vetor que traz toda a informao do

    voltamograma. Se mais de um voltamograma obtido nas mesmas condies e

    estes voltamogramas forem dispostos seqencialmente (amostras), forma-se uma

    tabela com tais voltamogramas (Tabela 1.1), onde cada ponto nesta tabela uma

    corrente obtida no definido potencial. Esta tabela pode ser definida como uma

    matriz de dados contendo, neste caso, informaes eletroqumicas.

    Matrizes sero definidas por letras maisculas gregas ou romanas, em negrito.

    ,..., ...

    Seus elementos sero representados pelas correspondentes letras minsculas,

    em itlico com os subscritos definindo a linha e coluna, respectivamente, e.g., os

    elementos da matriz X so dados por xij.

    Em quimiometria, os conjuntos de dados obtidos instrumentalmente so

    geralmente definidos pelo smbolo X. No caso de dados de segunda ordem (i.e.

    uma matriz de dados) a letra X mauscula e em negrito ser usada.

    Algumas vezes, matrizes sero escritas como X(IJ) para enfatizar que a

    matriz X tem I linhas e J colunas. As matrizes identidades (Apndice) de ordem J

    so escritas como Ij, mas onde a ordem bvia a partir do contexto, o subscrito

    ser omitido. Frequentemente ser feito referncia s colunas da matriz, e ,

    portanto conveniente definir as matrizes como uma srie de vetores colunas. Assim,

    a matriz X(IJ) tambm ser definida como 1 2

    , ,...,J

    X x x x em que xj, j =

    1,2,...,J so as (I1) colunas de X. Se for necessrio considerar a matriz formada

    pelas primeiras S (< J) colunas de X, a matriz ser escrita como Xs, em que

    1 2( ) , ,...,

    s SI SX x x x .

  • Tefilo, R. F. 7

    Tensores

    Uma seqncia de matrizes de iguais dimenses organizadas de maneira a

    formar, por exemplo, um cubo de dados (arranjo de altas ordens), chamado de

    tensor (Figura 1.1) [3]. Os tensores sero definidos por letras maisculas, em

    negrito e sublinhadas, podendo estar em letras gregas ou romanas, i.e., ,...,

    .

    Seus elementos sero representados como indicado para as matrizes, porm,

    os subscritos estaro definindo os modos do tensor e.g., os elementos do tensor X

    sero dados por xijk. Algumas vezes, tensores sero escritos como X (IJK) para

    enfatizar que o tensor X tem I matrizes no modo 1, J matrizes no modo 2 e K

    matrizes no modo 3 (Figura 1.1).

    Um tensor frequentemente considerado em termos de seu conjunto de

    matrizes. Estas matrizes formam as fatias horizontal, lateral e frontal de um tensor

    em trs dimenses (Figura 1.2). Especificamente, a fatia horizontal i pertence s

    entidades i = 1,....,I do modo 1, a fatia lateral j pertence s entidades j = 1,....,J do

    modo 2, a fatia frontal k pertence s entidades k = 1,....,K do modo 3.

    Figura 1.2. Ilustrao do arranjo tensorial (trs modos) em fatias (dois modos).

    Os tensores, como as matrizes, so um bloco de dados. Assim, as definies

    para variveis e amostras seguem a mesma idia, porm mais de duas dimenses

    so consideradas para este tipo de dado e esta nova dimenso definida como mais

    uma varivel da dimenso adicional. Deste modo, as I linhas representam a

    dimenso 1, das amostras (modo 1), as J colunas representam as variveis da

  • Tefilo, R. F. 8

    dimenso 2 (modo 2) e os K tubos representam as variveis da dimenso 3 (modo

    3), conforme indicado na Figura 1.3.

    Figura 1.3. Definio de linhas, colunas, e tubos em um arranjo de trs dimenses.

    , porm, til coletar todos os modos em uma nica matriz. O processo de

    rearranjo dos elementos de X dentro de X frequentemente chamado em

    quimiometria de desdobramento, mas este termo confuso, visto que em

    psicometria o termo desdobramento uma tcnica particular para escalar dados

    multidimensionais [4].

    Aqui este processo ser denominado como matriciao de um tensor em uma

    matriz e o processo reverso ser chamado de reforma de uma matriz em um tensor.

    As matriciaes podem ser realizadas em todos os modos (Figura 1.4). Assim,

    JKI, corresponde s entidades do modo 3 embutidas nas entidades do modo 1;

    KIJ, corresponde s entidades do modo 1 embutidas nas entidades do modo 2 e

    IJK, corresponde s entidades do modo 2 embutidas nas entidades do modo 3.

  • Tefilo, R. F. 9

    Figura 1.4. Matriciao de um arranjo em trs dimenses X para um de duas dimenses

    X(IJK).

    Smbolos

    Os sobrescritos t, + e -1 indicam transposio, pseudo-inversa e inversa,

    respectivamente. As barras referem-se norma euclidiana e I simboliza uma

    matriz identidade dimensionada apropriadamente. O smbolo ^ indica a matriz,

    vetor ou escalar estimado. Detalhes sobre transposio, pseudo-inversa, inversa e

    norma euclidiana esto descritos no apndice.

    Pr-Processamentos: Centrar na Mdia e Escalar pela Varincia

    Na maioria dos mtodos quimiomtricos que sero descritos nesta tese

    assumido que as colunas das matrizes so centradas na mdia e, algumas vezes, que

    elas tambm foram escaladas pela varincia da coluna. Quando estes dois pr-

    processamentos so realizados simultaneamente, o que tambm comum de se

    assumir; dito que as colunas da matriz esto autoescaladas pela varincia, ou

    somente, que a matriz est autoescalada.

    Centrar os dados na mdia equivale geometricamente, a fazer uma translao

    do sistema de eixos ao longo do vetor das mdias, para o centro do conjunto de

    dados.

    Escalar os dados tem como objetivo colocar variveis em uma mesma escala

    quando tais unidades apresentam diferentes unidades entre si ou quando a faixa de

    variao dos dados grande.

    Se xij representa o (ij)-simo elemento da matriz X, ento a centragem dos

    dados na mdia realizada da seguinte maneira

    c

    ij ij jx x x 1.1

    em que 1

    I

    j ijix x I/ a mdia aritmtica dos elementos da j-sima coluna, xj

    sendo I o nmero de elementos na coluna.

    Quando as colunas de X so escaladas pela varincia temos:

  • Tefilo, R. F. 10

    e

    ij ij jx x s/ 1.2

    em que

    2

    1

    ( )

    1

    I

    ij ji

    j

    x x

    sI

    , que representa o desvio padro da j-sima coluna. O

    autoescalamento obtido da seguinte maneira:

    /aij ij j jx x x s 1.3

    Durante a tese no ser feito nenhuma distino de notao entre a matriz X

    original e a pr-processada por centragem ou por autoescalamento.

    Transformao: Correo de Linha de Base

    Durante a obteno dos dados, variaes sistemticas podem ocorrer e devem

    ser removidas ou corrigidas antes das anlises [5,6].

    Em anlises eletroqumicas, muitas variveis podem influenciar o sinal, o que

    pode comprometer a qualidade dos resultados. Podemos destacar como influncias,

    o deslocando da linha de base para maiores ou menores valores de corrente;

    deformaes do sinal, salincias indesejveis na parte ngreme do sinal, ou um sinal

    obtido sobre uma corrente de fundo inclinada.

    Uma maneira de resolver parte destes problemas atravs da subtrao do

    branco da respectiva amostra. Entretanto, algumas salincias podem ainda

    permanecer e o deslocamento na linha de base no completamente corrigido.

    Alm disso, nem sempre possvel obter um sinal de branco para cada amostra.

    Uma maneira prtica e eficiente de resolver estes tipos de problemas

    aplicando a correo de linha de base para cada amostra usando uma mdia mvel.

    Durante a aplicao deste mtodo o nmero de pontos nos dados (nmero de

    variveis J) substitudo temporariamente pelo clculo da mdia dentro de uma

    janela de potenciais. A abertura da janela deve ser definida como tendo a menor

    largura do pico do voltamograma obtido. A linha de base subsequentemente

    calculada comparando cada valor de corrente com o valor mdio de seus dois

    vizinhos. Se o valor absoluto da mdia for menor, a corrente substituda pelo

    valor atual da mdia. Esta operao realizada repetidas vezes at que nenhum

  • Tefilo, R. F. 11

    valor de corrente seja mais substitudo. Depois que a correo da linha de base

    realizada com sucesso, um sinal com um pico bem definido obtido [7].

    importante ressaltar que ao final do processo o nmero de variveis originais no

    alterado.

    Um experimento apenas um teste de uma srie de testes. Experimentos so

    executados em todas as disciplinas cientficas e so uma importante parte do nosso

    aprendizado sobre o funcionamento dos sistemas e processos. A validade das

    concluses que so inferidas de um experimento depende da escala em que o

    experimento foi conduzido. Portanto, o planejamento de experimentos representa

    um dos principais papis na eventual soluo do problema que inicialmente

    motivou o experimento [8].

    Os experimentos podem ser executados em duas ou mais variveis (ou fatores)

    que o experimentalista supe serem importantes, como por exemplo, pH e tipo de

    enzima. Os planejamentos fatoriais uma poderosa ferramenta para investigar este

    tipo de problema. Geralmente, em um planejamento experimental, os ensaios so

    executados em todas as combinaes dos nveis dos fatores, normalmente dois ou

    trs.

    Por outro lado, a metodologia de superfcie de resposta (RSM) uma coleo

    de tcnicas matemticas e estatsticas que so teis para modelar e analisar sistemas

    onde a resposta de interesse influenciada por vrias variveis, e cujo objetivo

    otimizar a resposta. Neste caso, em relao aos planejamentos fatoriais, mais nveis

    das variveis so investigados em uma maior regio experimental.

    Para analisar os resultados de ambas as metodologias, vrios grficos e tabelas

    so utilizadas. O mtodo de regresso por quadrados mnimos extremamente

    necessrio e normalmente, o primeiro clculo realizado. A anlise de varincia

    (ANOVA), em particular, usada como uma das principais ferramentas para a

    anlise estatstica.

    Nesta seo sero descritos os planejamentos fatoriais completos e

    fracionrios, normalmente empregados na etapa de triagem. Para a etapa de

  • Tefilo, R. F. 12

    otimizao sero descritos os planejamentos compostos centrais e Doehlert, que se

    baseiam na metodologia de superfcie de resposta.

    Experimentos para Triagem

    Muitas vezes em um sistema, diversos fatores ou variveis (os termos fatores e

    variveis sero usados nesta seo indistintamente) podem influenciar a resposta

    desejada. Um experimento para triagem executado com o interesse em se

    determinar as variveis experimentais e as interaes entre variveis que tm

    influncia significativa sobre as diferentes respostas de interesse [8,9].

    Aps selecionar as variveis que so possveis de serem estudadas e que

    provavelmente interferem no sistema, preciso avaliar a metodologia experimental

    (tempo, custo, etc.). As variveis que no forem selecionadas devem ser fixadas

    durante todo o experimento.

    Em uma etapa seguinte, deve-se escolher qual planejamento usar para estimar

    a influncia (o efeito) das diferentes variveis no resultado. No estudo de triagem,

    as interaes entre as variveis (interaes principais) e de segunda ordem, obtidas

    normalmente pelos planejamentos fatoriais completos ou fracionrios, so de

    extrema importncia para a compreenso do comportamento do sistema.

    Planejamentos Fatoriais Completos

    Em um planejamento fatorial so investigadas as influncias de todas as

    variveis experimentais de interesse e os efeitos de interao (sinergismo) entre

    elas na resposta ou respostas. Se a combinao de J fatores investigada em dois

    nveis, um planejamento fatorial consistir de 2J experimentos. Normalmente, os

    nveis dos fatores quantitativos (i.e. concentraes de uma substncia, valores de

    pH, etc.) so designados pelos sinais (menos) para o nvel mais baixo e + (mais)

    para o nvel mais alto, porm o que importa a relao inicial entre o sinal

    atribudo e o efeito obtido, no sendo um critrio definido a nomeao dos sinais.

    Para fatores qualitativos (i.e. tipos de cidos, tipos de catalisadores, etc.), como no

    existem valores altos ou baixos, fica a critrio do experimentalista atribuir os seus

    nveis.

  • Tefilo, R. F. 13

    Os sinais para os efeitos de interao de 2 ordem e de ordem superior entre

    todas as variveis do planejamento, realizando todas as combinaes possveis, so

    obtidos pelo produto dos sinais originais das variveis envolvidas. Desta maneira

    possvel construir as colunas de sinais para todas as interaes e assim elaborar a

    matriz de coeficientes de contraste (Tabela 1.2).

    Tabela 1.2. Matriz de coeficientes de contraste para um planejamento fatorial 23.

    Variveis Interaes*

    Mdia x1 x2 x3 x12 x13 x23 x123

    + - - - + + + -

    + + - - - - + +

    + - + - - + - +

    + + + - + - - -

    + - - + + - - +

    + + - + - + - -

    + - + + - - + -

    + + + + + + + + * x12, x13 e x23, so os efeitos de interao de 2 ordem; x123 o efeito de interao de 3

    ordem.

    Uma coluna de sinais + (mais) adicionada esquerda da matriz de

    coeficientes de contraste para o clculo da mdia de todas as respostas observadas.

    Suponha um planejamento fatorial com I ensaios e com iy observaes

    individuais (quando houver replicatas, considere a resposta mdia iy ). Os efeitos

    para cada coluna da matriz de coeficientes de contraste (conforme Tabela 1.2) so

    dados pelas seguintes equaes:

    1

    I

    ii

    mdio

    y

    efI

    1.4

    1 1

    2

    I I

    i ii i

    I

    y y

    ef

    2 2

    ( ) ( )

    1.5

    A equao 1.4 descreve o efeito para a mdia de todas as observaes,

    enquanto a equao 1.5 descreve a diferena entre as mdias das observaes no

    nvel mais (iy ( ) ) e as mdias das observaes no nvel menos ( iy ( ) ).

  • Tefilo, R. F. 14

    Outro mtodo para o clculo dos efeitos para um planejamento fatorial

    completo ser descrito mais adiante no item: Modelos Empricos em Estudo de

    Triagem.

    Planejamentos Fatoriais Fracionrios

    O planejamento fatorial completo necessita de 2J ensaios para sua execuo,

    portanto sua principal desvantagem o grande nmero de ensaios que devem ser

    realizados a cada fator adicionado ao estudo. Se considerarmos (e observarmos)

    que os efeitos de altas ordens, principalmente para planejamentos com J > 4, so

    quase sempre no significativos, a realizao de ensaios para estimar tais efeitos de

    interao desnecessria. Desta maneira, com um nmero menor de experimentos,

    possvel obter informaes daqueles efeitos mais importantes e retirar, na maioria

    das vezes, as mesmas concluses caso fosse realizado um planejamento fatorial

    completo. Os planejamentos que apresentam estas caractersticas so conhecidos

    como planejamentos fatoriais fracionrios [9-13].

    H muitos e diferentes tipos de planejamentos fatoriais fracionrios (1/2, 1/4,

    1/8, 1/16...1/2b de um planejamento 2

    J-b) descritos na literatura [9-11], em que J o

    nmero de variveis investigadas e b o tamanho da frao. O tamanho da frao

    influenciar no possvel nmero de efeitos a serem estimados, e consequentemente,

    no nmero de experimentos necessrios [9].

    Pode-se ainda dizer que h dois tipos de fraes: aquelas cujo objetivo obter

    somente os efeitos principais [12] e aquelas em que se adicionam experimentos

    para separar e estimar efeitos de interaes, caso se assuma que tais interaes

    apresentam influncia sobre os resultados [9]. No primeiro caso necessrio

    executar, por exemplo, apenas 8 experimentos para investigar 7 variveis, 12

    experimentos para 11 variveis, etc. Estes so conhecidos como planejamentos

    saturados [9-11] e planejamentos de Plackett-Burman [12].

    Construo do planejamento fatorial fracionrio

    Normalmente, para a construo do planejamento fatorial fracionrio

    desejado, utiliza-se um planejamento fatorial completo. Para exemplificar,

    consideremos um planejamento 23-1

    construdo a partir de um planejamento fatorial

  • Tefilo, R. F. 15

    completo com duas variveis: V1 e V2. A Tabela 1.3 apresenta o planejamento

    fatorial completo com duas variveis. Sero necessrios quatro experimentos para a

    execuo deste planejamento 22 e a partir dos resultados podem-se obter os efeitos

    principais das duas variveis e o efeito de interao (V1.V2). A coluna da matriz de

    coeficientes de contraste responsvel pela interao obtida pela multiplicao dos

    elementos da coluna da varivel V1 com os respectivos elementos da varivel V2.

    As colunas de V1, V2 e V1V2 da matriz de coeficientes de contraste de um

    planejamento fatorial completo definem a configurao de um planejamento

    fatorial fracionrio com trs variveis utilizando apenas os quatro ensaios

    destacados em negrito na Tabela 1.4, em que V1, V2 e V1V2 sero substitudas pelas

    variveis independentes x1, x2 e x3.

    Como o nmero de experimentos a metade do completo, temos uma meia

    frao de um planejamento fatorial 23 ( 3 1 3 3 11

    22 2 2 2 ), conforme as Tabelas 1.3

    e 1.4.

    Tabela 1.3. Planejamento fatorial fracionrio 23-1

    a partir de um planejamento fatorial

    completo 22.

    Nexp.(*)

    x1 (V1) x2 (V2) x3 (V1V2)

    5 -1 -1 1

    2 1 -1 -1

    3 -1 1 -1

    8 1 1 1 (*)

    Ensaios correspondentes obtidos da Tabela 1.3.

    Uma outra propriedade importante dos planejamentos fatoriais fracionrios diz

    respeito aos experimentos selecionados que cobrem o volume mximo do domnio

    considerado em um nmero limitado de experimentos [9]. Note nas Tabelas 1.2 e

    1.3 que os experimentos destacados so comuns aos dois planejamentos.

    distribuem em um domnio experimental para trs variveis (Tabela 1.4).

    Tabela 1.4. Planejamento fatorial completo 23.

    N exp. x1 x2 x3

  • Tefilo, R. F. 16

    1 -1 -1 -1

    2 1 -1 -1

    3 -1 1 -1

    4 1 1 -1

    5 -1 -1 1

    6 1 -1 1

    7 -1 1 1

    8 1 1 1

    23-1

    .

    Para a montagem de um planejamento fatorial fracionrio saturado, considere

    o seguinte exemplo: sete variveis podem ser estudadas, com um mnimo de

    experimentos, em um planejamento fatorial fracionrio com frao 1/16, ou seja,

    27-4 7 4 7 7 41

    162 2 2 2 . Para este caso, o planejamento definido pelo modelo de

    matriz para um planejamento fatorial 23 (Tabela 1.4).

    Um planejamento fatorial completo com sete variveis necessita de 128

    experimentos. Sendo o planejamento fracionrio 27-4

    , 1/16 do planejamento

    completo, ele necessitar de somente 8 experimentos.

    Neste caso, para a elaborao da matriz de planejamento a partir da matriz

    mostrada na Tabela 1.4, as variveis x4, x5, x6 e x7, sero os produtos das colunas

    das variveis x1x2, x1x3, x2x3 e x1x2x3, respectivamente.

  • Tefilo, R. F. 17

    Efeitos confundidos e resoluo

    Certamente h perda de informaes quando se realizar um planejamento

    fatorial fracionrio. Os efeitos principais so misturados com os efeitos de

    interao e esta contaminao aumenta entre as interaes quando se aumenta a

    frao do planejamento.

    Para entender melhor a confuso causada por esta mistura, considere uma

    meia frao de um planejamento fatorial 25-1

    (Tabela 1.5). O objetivo obter todos

    os efeitos principais e todos os possveis efeitos de interao realizando apenas 16

    ensaios. Uma matriz de planejamento elaborada a partir de um planejamento 24.

    A coluna da quinta varivel (5) obtida a partir da multiplicao de todas as outras,

    ou seja, 1234. Assim 5 = 1234, chamado de gerador de um planejamento

    fracionrio [11] [13]. Observa-se pela Tabela 1.5 que os coeficientes de contraste

    para o efeito de 123 tm os mesmos sinais de 45. Isto mostra que os efeitos

    estimados por estas duas interaes sero os mesmos, ou seja, sero confundidos,

    sendo assim chamados de pseudnimo um do outro.

    A meia frao do planejamento mostrada na Tabela 1.5 foi obtida a partir do

    gerador (5=1234), no entanto, para conhecer a identidade de um pseudnimo

    realizada uma definio de contrastes a partir da relao apresentada pela equao

    1.6.

    C = 12345 1.6

    O pseudnimo obtido multiplicando o definido contraste C por cada um dos

    efeitos. Por exemplo: o pseudnimo de 1 obtido multiplicando 1 por 12345.

    Considere tambm, como regra, que se um mesmo termo aparecer mais de uma vez

    na multiplicao, este termo desaparece. Portanto, 112345 = 2345. Para 12 o

    pseudnimo 1212345 = 345.

    Tabela 1.5. Coeficientes de contraste para um planejamento fatorial fracionrio 25-1

    .

    N exp. 1 2 3 4 5 1234 123 45 2345

    1 - - - - + + - - -

    2 + - - - - - + + +

    3 - + - - - - + + -

    4 + + - - + + - - +

    5 - - + - - - + + -

  • Tefilo, R. F. 18

    6 + - + - + + - - +

    7 - + + - + + - - -

    8 + + + - - - + + +

    9 - - - + - - - - +

    10 + - - + + + + + +

    11 - + - + + + + + -

    12 + + - + - - - - +

    13 - - + + + + + + -

    14 + - + + - - - - +

    15 - + + + - - - - -

    16 + + + + + + + + +

    Se outro fator F adicionado ao planejamento 25-1

    (Tabela 1.5) ele passa a ser

    um planejamento 25-2

    e, portanto, um quarto do fatorial completo. Para obter este

    novo fator, uma outra definio de contrastes obtida de um gerador adicional.

    Assim 5 = 1234 e 6 = 123. Portanto, C = 12345 e C = 1236, respectivamente. Uma

    terceira definio de contrastes ento obtida multiplicando os dois anteriores

    conforme a equao 1.7.

    C = 123451236 = 456 1.7

    O pseudnimo para cada efeito pode agora ser obtido pela maneira usual. Para

    1 temos: 1 = 112345 = 11236 = 1456 ou 1 = 2345 = 236 = 1456.

    Assim, com um quarto do planejamento 25, cada efeito apresenta trs

    pseudnimos e a estimativa dos efeitos principais so individuais, no entanto eles

    se confundem com efeitos de interao de 2 ordem.

    Este tipo de confuso pode ocasionalmente causar dificuldades na

    interpretao dos resultados, mas isto facilmente contornado por adio de

    poucos experimentos complementares a fim de separar efeitos confundidos.

    Um importante conceito em planejamentos fatoriais fracionrios a resoluo

    do planejamento, que define a ordem em que se negligenciam os efeitos e

    definida por um nmero romano colocado depois do planejamento ou subescrito.

    Em geral, a resoluo o valor do nmero de fatores que compem o termo de

    menor comprimento nas definies de contrastes C [11]. Para ilustrar:

    Resoluo III No confunde efeitos principais entre si, mas os confunde com

    efeitos de interao entre dois fatores.

  • Tefilo, R. F. 19

    Resoluo IV No confunde efeitos principais entre si e nem com efeitos de

    interao entre dois fatores, mas confunde efeitos principais com efeitos de

    interao entre trs variveis e os efeitos entre duas variveis se confundem com

    outros efeitos, inclusive entre eles.

    Resoluo V Os efeitos principais so confundidos com efeitos de interao

    entre quatro variveis e os efeitos de interao entre duas variveis so confundidos

    com efeitos de interao entre trs variveis.

    Planejamentos fatoriais fracionrios com resoluo maior que V so raramente

    usados em triagem [9].

    Os clculos para estimativa dos efeitos para um planejamento fatorial

    fracionrio sero descritos mais adiante no item: Modelos Empricos em Estudo de

    Triagem.

    Planejamentos Fatoriais com Ponto Central

    Em muitos casos, a realizao de repeties autnticas pode ser algo

    inconveniente por diversas razes. Para contornar este infortnio e obter uma boa

    estimativa dos erros, um experimento normalmente includo no centro do

    planejamento (Figura 1.6), em que o valor mdio dos nveis de todas as variveis

    empregado. So os conhecidos experimentos no ponto central (nvel zero). Deste

    modo, possvel avaliar a significncia dos efeitos ou coeficientes, tanto em

    planejamentos de triagem (completos ou fracionrios) como em metodologias de

    superfcie de resposta (discutidos mais adiante). Alm desta vantagem, recomenda-

    se este tipo de experimento pelas seguintes razes [9]:

    - o risco de perder a relao no linear entre os intervalos minimizado;

    - possvel estimar um modelo razovel e verificar se h falta de ajuste;

    Logicamente no h como fugir das repeties, mas o nmero destas, na

    maioria dos casos, significativamente reduzido.

    No entanto, esta metodologia somente possvel de ser aplicada quando se

    utilizam variveis quantitativas, visto que, para variveis qualitativas no h como

    adicionar nveis no ponto central.

  • Tefilo, R. F. 20

    Os clculos para estimativa de efeitos e coeficientes relacionados aos

    planejamentos com ponto central sero discutidos mais adiante no item: Modelos

    Empricos em Estudo de Triagem.

    Figura 1.6. Planejamento 22 com ponto central.

    Modelos Empricos em Estudo de Triagem

    Pode-se assumir, desde o incio do experimento, que o sistema estudado

    (domnio experimental) regido por uma expresso matemtica que funo das

    variveis experimentais. Normalmente esta funo pode ser aproximada por um

    polinmio, o qual pode fornecer uma boa descrio entre os fatores e a resposta

    obtida. A ordem deste polinmio limitada pelo tipo de planejamento usado.

    Planejamentos fatoriais de dois nveis, completos ou fracionrios, podem estimar

    apenas efeitos principais e interaes. Planejamentos fatoriais de trs nveis (ponto

    central) podem estimar, alm disso, o grau de curvatura na resposta.

    Para descrever tais modelos em um estudo de triagem, so utilizados os

    polinmios mais simples, ou seja, aqueles que contm apenas termos lineares.

    Considerando um exemplo para trs variveis, x1, x2 e x3 dois polinmios seriam:

    y = b0 + b1x1 + b2x2 + b3x3+ e 1.8

    y = b0 + b1x1 + b2x2 + b3x3 + b12x1x2 + b13x1x3 + b23x2x3 + b123x1x2x3+ e 1.9

    Segundo a equao 1.8, o coeficiente b0 o valor populacional da mdia de

    todas as respostas obtidas, b1, b2 e b3 so os coeficientes relacionados com as

  • Tefilo, R. F. 21

    variveis x1, x2, e x3 respectivamente, e o erro aleatrio associado ao modelo e,

    para o caso da equao 1.9, b12, b13, b23 so os coeficientes para as interaes x1x2,

    x1x3, x2x3 e b123 o coeficiente para a interao x1x2x3.

    A partir do planejamento montado, pode-se construir a matriz de coeficientes

    de contraste, de acordo com a Tabela 1.1. A matriz de coeficientes de contraste X,

    juntamente com o vetor de respostas y, obtido experimentalmente, ser utilizada

    para o clculo dos coeficientes do modelo, conhecidos tambm como vetor de

    regresso.

    O modelo procurado, descrito pelas equaes 5 e 6 pode ser representado

    matricialmente pela equao 1.10,

    = Xb 1.10

    em que o vetor das respostas estimadas pelo modelo e b o vetor de regresso.

    Uma maneira de determinar o vetor de regresso b atravs do mtodo dos

    quadrados mnimos [14] [15], definido pela equao 1.13, em que Xt indica a

    transposta de X.

    b = (XtX)

    -1X

    ty 1.11

    em que (XtX)

    -1 a matriz inversa do produto da transposta da matriz X com ela

    mesma.

    Para um planejamento fatorial completo, a matriz 1I

    X quadrada e ortogonal

    onde I corresponde ao nmero de ensaios. Isto ocorre pois as colunas de X no

    esto normalizadas, portanto X-1

    = 1I X

    t. Neste caso a equao 1.13 se resume

    equao 1.12.

    b = 1I X

    ty 1.12

    A equao 1.11 geral e pode ser empregada para fazer a estimativa de efeitos

    e coeficientes para todos os planejamentos descritos neste artigo, no entanto a

    equao 1.12 especfica para o planejamento fatorial completo, no sendo

    aplicvel aos outros planejamentos descritos.

  • Tefilo, R. F. 22

    Como as variveis so estudadas em dois nveis codificados, cada efeito

    satisfaz variao de duas unidades da varivel correspondente. Se considerarmos

    os fatores individualmente, pode-se provar que o valor de cada coeficiente do

    modelo a metade do valor do efeito correspondente, exceto para b0, cujo valor o

    mesmo do calculado para seu efeito (equao 1.6). Desta maneira, o modelo

    empregado para descrever as respostas elaborado em funo dos efeitos por

    unidade de variao individual [10].

    Estimativa dos Erros para os Efeitos atravs de Repeties

    Normalmente, os resultados obtidos em experimentos de planejamento fatorial

    completo ou fracionrio com repeties, consistem de uma pequena amostra de um

    hipottico conjunto maior, representado por uma populao. Destes dados podemos

    obter a mdia amostral, a varincia amostral e o desvio padro amostral, como se

    segue:

    1

    R

    rr

    y

    yR

    1.13

    2

    2 1

    ( )

    ( 1)

    R

    rr

    y y

    sR

    1.14

    2

    1

    ( )

    ( 1)

    R

    rr

    y y

    sR

    1.15

    em que R o nmero de replicatas, isto , o nmero de ensaios realizados em um

    mesmo ponto experimental (nvel), yr so os valores de cada observao individual,

    y o valor mdio, s2 a varincia e s o desvio padro.

    A soma dos desvios da mdia amostral de R replicatas necessariamente zero.

    Isto requer que ( ) 0r

    y y constitua uma restrio linear nos desvios usados no

    clculo de s2. Est subentendido que com R 1 replicatas possvel determinar a

    que falta. Os R resduos y y e consequentemente a soma dos seus quadrados

    juntamente com a varincia amostral, so ditas ter, por esta razo, R 1 graus de

  • Tefilo, R. F. 23

    liberdade. A perda de um grau de liberdade est associada necessidade de

    substituir a mdia populacional pela mdia amostral derivada dos dados. Desta

    maneira, quando repeties genunas so realizadas em uma srie de condies

    experimentais, a variao entre suas observaes pode ser usada para estimar o

    desvio padro de uma simples observao e consequentemente o desvio dos efeitos

    [11]. Todos os ensaios, inclusive repeties, devem ser realizados aleatoriamente,

    refazendo todas as etapas do experimento. As repeties realizadas desta maneira

    so consideradas genunas.

    Em um experimento em que cada ensaio foi realizado r vezes, se o valor de R

    R

    clculo da varincia. Uma maneira para se obter um maior nmero de graus de

    liberdade realizando uma estimativa conjunta das varincias conforme a equao

    1.16.

    2

    2 1

    1

    [( 1) ]

    ( 1)

    I

    i ii

    c I

    ii

    R s

    s

    R

    1.16

    1

    ( 1)I

    ii

    R 1.17

    O resultado da equao 1.16 reflete a varincia conjunta ( 2cs ) de cada

    observao individual yi sendo o erro padro igual raiz quadrada do mesmo. A

    equao 1.17, que exatamente o denominador da equao 1.16 , portanto, o

    nmero de graus de liberdade da estimativa conjunta, designada como .

    Observa-se atravs das equaes 1 e 2 e considerando a realizao de

    repeties autnticas, que cada efeito uma combinao linear dos valores de yi

    dos I ensaios, com coeficientes c iguais a + 2/I e -2/I. Levando em considerao a

    aleatoriedade dos ensaios, tais valores so estatisticamente independentes e

    apresentam a mesma varincia populacional 2. Neste caso, por definio, as

    correlaes entre todas as variveis so nulas, e a varincia da combinao linear

    das variveis aleatrias pode ser dada por [10]:

    2 2 2

    i ii

    c 1.18

  • Tefilo, R. F. 24

    Transportando a equao 1.18 para o nosso mundo amostral, pode-se provar

    que a varincia de cada efeito dada por [10]:

    2

    1

    4( )

    c

    I

    ii

    sV ef

    R

    1.19

    em que 2cs dada pela equao 1.16.

    Finalmente, para calcular o valor do erro padro de cada efeito, basta extrair a

    raiz quadrada de V(ef).

    Estimativa dos Erros para os Efeitos, sem Repeties

    Uma maneira de estimar erros de efeitos sem a realizao de repeties

    supor que interaes de altas ordens para J 3 no so significativos e, portanto, so

    erros experimentais nos valores dos efeitos.

    Aplicando a equao 1.16 sobre estes efeitos de interao e fazendo algumas

    consideraes, obtm-se a varincia dos efeitos conforme a equao 1.20.

    1

    ( )

    V( )

    l

    ii

    efi

    efl

    2

    1.20

    em que efii so os efeitos de interao considerados como erros experimentais e l

    o nmero total de efeitos considerados.

    preciso estar atento ao utilizar este tipo de estimativa do erro. Nem sempre

    os efeitos de altas ordens so irrelevantes e, se tais efeitos forem includos no

    clculo, os erros se tornam altos e desta maneira no possvel distinguir com

    confiabilidade aqueles que so realmente importantes.

    O nmero de graus de liberdade utilizado para a avaliao dos efeitos

    agregados a estes erros o mesmo nmero total de efeitos considerados como

    erros, isto , o valor l da equao 1.20.

  • Tefilo, R. F. 25

    Estimativa dos Erros para os Efeitos e Coeficientes a partir das Repeties no Ponto Central

    Conforme mencionado anteriormente, uma das grandes vantagens da incluso

    de experimentos no centro do planejamento devido a estimativa do erro com

    poucas repeties, normalmente entre 3 e 5.

    A partir das repeties realizadas possvel obter a mdia e a varincia das

    replicatas de acordo com as equaes 1.13 e 1.14, respectivamente.

    Por outro lado, sendo os coeficientes obtidos atravs da equao 1.11, nota-se

    que a matriz (XtX)

    -1 apresenta grande influncia na varincia dos parmetros de

    regresso. O produto desta matriz com o valor da varincia obtida atravs das

    repeties no ponto central (equao 1.14) fornece a matriz V(b) conhecida como

    matriz de varincia-covarincia (equao 1.21). A matriz V(b) simtrica e os

    elementos de sua diagonal so as varincias dos parmetros de regresso na mesma

    ordem em que elas aparecem na equao de regresso. Os elementos fora da

    diagonal so as covarincias entre os parmetros de regresso. A raiz quadrada dos

    elementos da diagonal principal da matriz V(b) determina os valores

    correspondentes dos erros padro (sbi) dos coeficientes calculados (equao 1.22).

    V(b) = (XtX)

    -1s

    2 1.21

    sbi = ii( )v b , i=1, 2, ..., I 1.22

    Identificao dos Efeitos e Coeficientes Significativos

    Na literatura [9-11,13] h diferentes mtodos para se avaliar efeitos e

    coeficientes significativos; entre os mais usados destaca-se a anlise de varincia

    (ANOVA), o grfico de probabilidade (distribuio normal), e a comparao de

    efeitos com uma medida independente da variabilidade. Neste trabalho, as

    avaliaes de significncia para a deciso estatstica, tanto para efeitos como para

    coeficientes de modelos, foram realizadas empregando o teste t (distribuio de

    Student), atravs do valor p [8,16].

  • Tefilo, R. F. 26

    Para realizar a interpretao correta utilizando o valor p necessrio

    compreender os testes de hiptese e significncia, conforme descrito abaixo.

    Em muitos casos, formula-se uma hiptese estatstica com o propsito de

    rejeit-la ou invalid-la. Por exemplo: se o desejo decidir se um sistema

    diferente do que outro, formula-se a hiptese de que no h diferena entre os

    sistemas. Essa hiptese denominada nula e representada por H0. Qualquer

    hiptese diferente da pr-fixada denominada hiptese alternativa e normalmente

    representada por H1 [8,16].

    Se uma hiptese for rejeitada quando deveria ser aceita, diz-se que foi

    cometido um erro tipo I. Se, por outro lado, uma hiptese for aceita quando deveria

    ter sido rejeitada, diz-se que foi cometido um erro do tipo II. Em ambos os casos

    foi tomada uma deciso errada ou foi cometido um erro de julgamento [8].

    Para que qualquer teste de hiptese ou regra de deciso seja adequada, eles

    devem ser planejados de modo que os erros de deciso sejam reduzidos ao mnimo.

    Ao testar uma hiptese estabelecida, a probabilidade mxima, representada

    freqentemente por , com a qual se sujeitaria a correr o risco de um erro do tipo I

    denominada nvel de significncia do teste.

    Se, por exemplo, escolhido um nvel de significncia = 0,05 ou 5%, h

    ento cerca de 5 chances em 100 da hiptese nula ser rejeitada, quando deveria ser

    aceita, isto , h uma confiana de 95% de que se tomou uma deciso correta.

    Nesses casos, diz-se que a hiptese rejeitada ao nvel de significncia 0,05, o que

    significa que a probabilidade de erro seria de 0,05 [16].

    Considerando a hiptese nula de que o valor do efeito se confunde com seu

    erro, pode-se formular a seguinte regra de deciso:

    a) Rejeio da hiptese nula com 5% de significncia, quando o valor de

    tcalc situar-se fora do intervalo entre t ( calct t ). Isso equivale a dizer que o

    valor estatstico amostral observado significativo no nvel definido.

    b) Aceitao da hiptese, caso contrrio.

    Uma maneira alternativa de concluir o teste de hiptese comparar o valor p

    do teste estatstico amostral com o nvel de significncia . O valor p do teste

    estatstico amostral o menor nvel de significncia para que se rejeite H0 [8].

    Neste sentido, compara-se o valor p com e, se o valor p rejeita-se H0, caso

  • Tefilo, R. F. 27

    contrrio H0 aceito. A vantagem de se conhecer o valor p est na possibilidade de

    se avaliar todos os nveis de significncia para que o resultado observado possa ser

    estatisticamente rejeitado [8,16]. A representao grfica do valor p descrita na

    Figura 1.7.

    Figura 1.7. Representao grfica do valor p para um teste unilateral.

    Conforme as Figuras 1.7(a e b), o nvel de significncia a rea hachurada

    no grfico de distribuio. Na Figura 1.7a a rea correspondente ao valor p maior

    que o nvel de significncia, portanto, o valor calculado do teste estatstico est fora

    da regio crtica, o que implica em aceitar H0. Para a Figura 1.7b a rea do valor p

    menor que o nvel de significncia e assim, o valor calculado do teste estatstico

    est dentro da regio crtica, o que implica e rejeitar H0. importante ressaltar que

    esta discusso vlida tanto para testes unilaterais quanto para bilaterais.

    Especificamente, o valor p representa a probabilidade de validade do erro

    envolvido no resultado observado, isto , como representativo da populao. Por

    exemplo: levando em considerao o valor de um efeito, se o valor do teste

    estatstico calculado (razo entre o efeito e o seu erro) apresentar um grande desvio

    da distribuio de Student, ele provavelmente descreve algo mais que o resduo

    experimental. Desta maneira, ser significativo dentro de um intervalo de confiana

    e assim, ttcalc ou p , para o nmero de graus de liberdade em questo.

  • Tefilo, R. F. 28

    Metodologia de Superfcie de Resposta: Otimizao

    Aps a realizao dos experimentos de triagem, os fatores significativos so

    selecionados e uma metodologia de anlise de superfcies de respostas pode ser

    executada para a otimizao do experimento. Neste sentido, otimizar significa

    encontrar os valores das variveis que iro produzir a melhor resposta desejada, isto

    , encontrar a regio tima na superfcie definida pelos fatores.

    A metodologia de superfcie de resposta baseia-se na construo de modelos

    matemticos empricos que geralmente empregam funes polinomiais lineares ou

    quadrticas, para descrever o sistema estudado e, conseqentemente do condies

    de explorar (modelar e deslocar) o sistema at sua otimizao.

    Um planejamento experimental construdo para estimar coeficientes, segundo

    algum modelo aproximado, deve reunir certos critrios desejveis, sendo os

    principais [14,15]: Proporcionar boas estimativas para todos os coeficientes,

    exigindo poucos experimentos; Fornecer condies de avaliao dos coeficientes e

    do modelo, ou seja, da regresso e da falta de ajuste.

    Neste trabalho sero descritos os Planejamentos: Composto Central (CCD -

    Central Composite Design) [17] e Doehlert [18], visto que apresentam todos os

    critrios descritos acima, dentre outros e possivelmente so as classes de

    planejamentos mais utilizadas para ajustar modelos quadrticos (equao 1.23),

    2

    01 1

    J J

    j j jj j fj f jj j f j j

    y b b x b x b x x e 1.23

    na equao 1.23, J, o nmero de variveis.

    Planejamento Composto Central

    Os planejamentos compostos centrais (CCD) foram apresentados por Box e

    Wilson [17] em 1951 como uma evoluo dos planejamentos 33, que necessitavam

    de muitos experimentos para um pequeno nmero de fatores, mesmo para

    planejamentos fracionrios. Outras vantagens, como rotabilidade e blocagem

  • Tefilo, R. F. 29

    ortogonal, alm do pouco nmero de ensaios, foram obtidas devido presena das

    seguintes partes no planejamento [14]:

    Um planejamento fatorial completo de dois nveis, podendo ser usado ainda,

    um planejamento fatorial fracionrio de dois nveis;

    Experimentos no ponto central, isto , xi = 0 para todo i;

    Experimentos nos pontos axiais em que xi xj = 0 para j i4 2J . Estes pontos so situados nos eixos do sistema de coordenadas com distncia

    A Figura 1.8 ilustra os pontos experimentais no sistema de coordenadas,

    definidos pelos eixos xi.

    Figura 1.8. Planejamentos compostos centrais: (A) J B) J = 3 e

    axiais e (O) ponto central.

    Para construo de um planejamento CCD necessrio definir o nmero de

    variveis a serem estudadas (J), qual planejamento fatorial ser empregado

    (completo 2J ou fracionrio 2

    J-b) e quantos experimentos sero realizados no ponto

    central (normalmente, 2J+1). O nmero de experimentos a ser realizado dado por:

    2J+2J+1.

    variveis [14,15] e a Tabela 1.7 apresenta as matrizes de planejamento para 2 e 3

    variveis.

    Tabela 1.6. Alguns planejamentos CCD e suas caractersticas.

    N variveis(J) 2 3 4 5 5 6 6

  • Tefilo, R. F. 30

    Valor de b para 2J-b

    0 0 0 0 1 0 1

    N de exp. no planej. fatorial 4 8 16 32 16 64 32

    N de exp. no ponto axial 4 6 8 10 10 12 12

    1,414 1,682 2,000 2,378 2,000 2,828 2,378

    Tabela 1.7. Matrizes dos planejamentos compostos centrais com duas e trs variveis.

    Planejamento CCD 22 Planejamento CCD 2

    3

    x1 x2 x1 x2 x3

    -1 -1 Planejamento

    fatorial

    -1 -1 -1 Planejamento

    fatorial 1 -1 1 -1 -1

    -1 1 -1 1 -1

    1 1 1 1 -1

    -1 -1 1

    0 0 Ponto central 1 -1 1

    -1 1 1

    - 0 Pontos axiais 1 1 1

    0

    0 - 0 0 0 Ponto central

    0

    - 0 0 Pontos axiais

    0 0

    0 - 0

    0 0

    0 0 -

    0 0

    qualquer valor codificado xi) necessitam ser decodificados para os valores

    experimentais dos nveis das variveis a serem estudadas e para isso utiliza-se a

    equao 1.24:

    2

    ii

    z zx

    z 1.24

    em que xi o valor codificado do planejamento CCD, zi o valor experimental do

    nvel, z o valor mdio entre os nveis mais (+) e menos (-), que exatamente o

    valor do nvel zero (0) e z a diferena entre os nveis mais (+) e menos (-).

  • Tefilo, R. F. 31

    experimentalmente vivel para o nvel, desde que no ocorram grandes distores

    no valor original.

    Utilizando a Tabela 1.6 podem-se construir diferentes tipos de planejamentos

    CCD, conforme aqueles apresentados na Tabela 1.7. A partir do planejamento

    montado, pode-se obter a matriz de coeficientes de contraste, de acordo com a

    Tabela 1.2. O modelo apresentado na equao 1.23 pode ser representado

    matricialmente segundo a equao 1.10 e seus coeficientes so estimados atravs

    da equao 1.11.

    A estimativa dos erros para os coeficientes a partir das replicatas no ponto

    central realizada conforme as equaes 1.21 e 1.22 e a avaliao dos coeficientes

    realizada conforme o item: Identificao dos Efeitos e Coeficientes

    Significativos, descrito anteriormente.

    Matriz Doehlert

    O planejamento Doehlert ou Matriz Doehlert foi apresentado por David H.

    Doehlert em 1970 [18], sendo uma alternativa bastante til e atrativa aos

    planejamentos experimentais de segunda ordem. Os pontos da matriz Doehlert

    correspondem aos vrtices de um hexgono gerado de um simplex regular e em

    geral, o nmero total de pontos experimentais no planejamento igual a J2+J+pc,

    em que J o nmero de fatores e pc o nmero experimentos no ponto central.

    Uma importante propriedade do planejamento Doehlert diz respeito ao nmero de

    nveis que cada varivel possui. Com quatro variveis, por exemplo, o nmero de

    nveis so 5, 7, 7 e 3, o que permite avaliar as variveis consideradas mais

    importantes, ou seja, que apresentam efeitos mais pronunciados em um nmero

    maior de pontos do espao estudado [19]. Alm disso, este tipo de planejamento

    necessita de um menor nmero de experimentos em relao ao planejamento

    Composto Central, sendo, portanto, mais eficiente. Esse menor nmero de

    experimentos para se chegar regio tima vem do fato de que o domnio da

    vizinhana facilmente explorado pelo ajuste de poucos experimentos, j que o

    prximo hexgono utiliza pontos experimentais j explorados pelo hexgono

    anterior, conforme Figura 1.9 [9].

  • Tefilo, R. F. 32

    Figura 1.9. Planejamento

    experimentos ( ).

    O planejamento Doehlert descreve um domnio circular para duas variveis,

    esfrico para trs e hiperesfrico para mais de trs variveis, o que acentua a

    uniformidade no espao envolvido. Embora suas matrizes no sejam ortogonais

    nem rotacionais, elas no apresentam divergncias significativas que comprometa a

    qualidade necessria para seu uso efetivo [20]. Para duas variveis, a matriz

    Doehlert consiste de um ponto central e mais seis pontos adicionais formando um

    hexgono regular e, por esse motivo, situada sob um crculo (Figura 1.9). As

    matrizes do planejamento Doehlert para duas, trs e quatro variveis podem ser

    visualizadas na Tabela 1.8. As matrizes Doehlert apresentadas na Tabela 1.8 so

    pr-estabelecidas e suas construes no so triviais como os outros planejamentos

    apresentados neste trabalho. Mais detalhes sobre a construo deste tipo de matriz

    podem ser obtidos nas referncias 22 e 25.

    Cada planejamento definido considerando o nmero de variveis e os

    valores codificados (xi) da matriz experimental. A relao entre os valores

    experimentais e os valores codificados dada pela Equao 1.25.

    0

    i ii d

    i

    z zx

    z 1.25

    O termo xi o valor codificado para o nvel do fator i; zi o seu experimental;

    zi a distncia entre o valor experimental no ponto central e o experimental no

  • Tefilo, R. F. 33

    nvel superior ou inferior, d o maior valor limite codificado na matriz para cada

    fator e 0iz o valor experimental no ponto central.

    Tabela 1.8. Matrizes Doehlert para duas, trs e quatro variveis.

    Variveis Experimentais Matriz Doehlert

    2 Variveis 3 Variveis 4 Variveis

    x1a x2a x1b x2b x3b x1c x2c x3c x4c

    1 0 0 0 0 0 0 0 0 0

    2 1 0 1 0 0 1 0 0 0 3 0,5 0,866 0,5 0,866 0 0,5 0,866 0 0 4 -1 0 0,5 0,289 0,817 0,5 0,289 0,817 0 5 -0,5 -0,866 -1 0 0 0,5 0,289 0,204 0,791 6 0,5 -0,866 -0,5 -

    0,866

    0 -1 0 0 0 7 -0,5 0,866 -0,5 -

    0,289

    -

    0,817

    -0,5 -0,866 0 0 8 0,5 -

    0,866

    0 -0,5 -0,289 -

    0,817

    0 9 0,5 -

    0,289

    -

    0,817

    -0,5 -0,289 -

    0,204

    -

    0,791 10 -0,5 0,866 0 0,5 -0,866 0 0 11 0 0,577 -

    0,817

    0,5 -0,289 -

    0,817

    0 12 -0,5 0,289 0,817 0,5 -0,289 -

    0,204

    -

    0,791 13 0 -

    0,577

    0,817 -0,5 0,866 0 0 14 0 0,577 -

    0,817

    0 15 0 0,577 -

    0,204

    -

    0,791 16 -0,5 0,289 0,817 0 17 0 -0,577 0,817 0 18 0 0 0,613 -

    0,791 19 -0,5 0,289 0,204 0,791 20 0 -0,577 0,204 0,791 21 0 0 -

    0,613

    0,791

    A maioria dos pacotes computacionais disponveis atualmente, comerciais ou

    gratuitos, ainda no disponibilizou algoritmos para clculos de planejamentos

    Doehlert sendo, portanto, um indicativo dentre outros, de que este planejamento

    est relativamente pouco difundido entre os pesquisadores.

    Avaliao do Modelo

    O modelo obtido pode no ser exatamente aquele que descreve a regio

    estudada do sistema e, neste caso, no pode ser usado para fazer estimativas para

    deslocamento e muito menos para extrair concluses sobre a regio tima. A

  • Tefilo, R. F. 34

    maneira mais confivel de se avaliar a qualidade do ajuste do modelo

    empregando a anlise de varincia (ANOVA) [8,16].

    Na ANOVA a variao total da resposta definida como a soma quadrtica de

    dois componentes: a soma quadrtica da regresso (SQregr) e a soma quadrtica dos

    resduos (SQres). A soma quadrtica da variao total, corrigida para a mdia

    (SQtotal), pode assim ser escrita como a equao 1.26.

    SQtotal = SQregr + SQres 1.26

    em que SQregr e SQres so apresentadas com mais detalhes nas equaes 1.27 e 1.28,

    respectivamente.

    SQregr = ( )iRM

    mm r

    y y 2

    1 1

    1.27

    SQres = i

    ( )RM

    mr im m

    y y 2

    1 1

    1.28

    Da equao 1.27, M o nmero total de nveis do planejamento, isto , pontos

    experimentais do planejamento; m

    y o valor estimado pelo modelo para o nvel m

    e y o valor mdio das replicatas (R). No entanto, como h somente replicatas no

    ponto central, a mdia das replicatas nos nveis (+) mais e (-) menos o prprio

    valor observado do ensaio naquele nvel. Note que o segundo somatrio indica que

    se deve fazer o quadrado das diferenas inclusive com cada repetio.

    As replicatas realizadas no ponto central deixaro um resduo para cada

    observao m

    y . A soma quadrtica destes resduos fornece a soma quadrtica

    residual somente no nvel zero.

    A equao 1.28 indica que o quadrado da diferena entre o valor de cada

    observao (m

    y ) e o valor estimado (m

    y ) e inclusive das replicatas (ry ) em cada

    nvel (m), fornece a soma quadrtica residual de todos os nveis.

    Quando algum modelo ajustado aos dados, a soma quadrtica do erro puro

    sempre uma parte da soma quadrtica dos resduos. Ento cada resduo pode ser

    desmembrado em duas partes, isto [15]:

    ( ) ( ) ( )mr m mr m m m

    y y y y y y 1.29

  • Tefilo, R. F. 35

    Pela equao 1.29, o primeiro termo da direita diz respeito diferena entre o

    valor de cada observao individual no nvel e a mdia de todas as observaes

    naquele nvel. J o segundo termo corresponde diferena entre o valor estimado

    no nvel e a mdia de todas as observaes naquele nvel. A subtrao entre estes

    dois termos fornece como resposta o resduo de cada observao individual.

    Para evitar os termos negativos na equao 1.29, tomam-se as suas diferenas

    quadrticas e obtm-se equao 1.30.

    i

    ( ) ( ) ( )iRRM M M

    mr m mr m m mm r m r m

    y y y y y y2 2 2

    1 1 1 1 1

    1.30

    O primeiro termo da direita chamado de soma quadrtica do erro puro e est

    relacionado exclusivamente com os erros aleatrios das replicatas. J o segundo

    termo da direita chamado de soma quadrtica da falta de ajuste, pois ele uma

    medida da discrepncia entre a resposta do modelo de previso (m

    y ) e a mdia das

    replicatas (m

    y ) realizadas no conjunto de condies experimentais.16

    A equao 1.30 pode ser resumida da seguinte maneira:

    SQres = SQep + SQfaj 1.31

    Para cada fonte de variao (regresso, resduos, falta de ajuste, erro puro e

    total), necessrio obter o nmero de graus de liberdade. No introduzindo

    detalhes, pode-se provar que o nmero de graus de liberdade para as equaes 1.27,

    1.28 e 1.30 so, P 1, I P e (I M) + (M P), respectivamente [11,15,20], em

    que P o nmero de parmetros (coeficientes) do modelo, I o nmero total de

    observaes (ensaios) e M o nmero de nveis do planejamento. O nmero de

    graus de liberdade para as outras fontes de variao pode ser obtido por clculos

    algbricos simples.

    A diviso da soma quadrtica de cada fonte de variao pelo seu respectivo

    nmero de grau de liberdade fornece a mdia quadrtica (MQ). A razo entre a

    mdia quadrtica da regresso (MQreg) pela mdia quadrtica dos resduos (MQres),

    que nada mais do que a razo entre duas varincias, pode ser usada para comparar

    tais fontes de variao atravs do teste F (distribuio de Fisher), levando em

    considerao seus respectivos nmeros de graus de liberdade. O mesmo pode ser

  • Tefilo, R. F. 36

    feito para a razo entre a mdia quadrtica da falta de ajuste (MQfaj) pela mdia

    quadrtica do erro puro (MQep).

    Assim, como foi realizada a avaliao dos efeitos e coeficientes empregando o

    teste t, atravs do valor p, o mesmo ser feito para comparar as duas fontes de

    variao entre si, empregando-se neste caso o teste F (equao 1.32).

    1 2,F1

    2

    MQ

    MQ 1.32

    em que MQ1 e MQ2 so as mdias quadrticas das fontes de variao 1 e 2

    respectivamente e, 1, 2 so seus respectivos nmeros de graus de liberdade.

    Exemplificando, a razo entre as mdias quadrticas da falta de ajuste e do

    erro puro o valor calculado do teste estatstico (Fcalc), que usado para comparar

    qual mais significativo. Pode-se formular uma hiptese nula (H0) considerando

    que no h diferena entre as fontes de variao comparadas. Esta hiptese se

    reflete na seguinte regra de deciso:

    a) Rejeio da hiptese nula com 5% de significncia, quando o valor de

    Fcalc situar-se fora do intervalo definido por F ( calcF F ), ou seja, p . Isso

    equivale a dizer que o valor estatstico amostral observado significativo no nvel

    definido e as fontes de variao comparadas so diferentes.

    b) Aceitao da hiptese nula, caso contrrio.

    Se H0 for rejeitada para MQfaj/MQep, isto , p , ento h uma falta de ajuste

    significativa ao nvel de probabilidade e nmero de graus de liberdade definidos

    (normalmente, = 0,05) e o modelo no adequado.

    Em termos prticos, um bom modelo necessita ter uma regresso significativa

    e uma falta de ajuste no significativa. Isto equivale a dizer que a maior parte da

    variao total das observaes em torno da mdia deve ser descrito pelo modelo de

    regresso e o restante certamente, ficar com os resduos. Da variao que fica com

    os resduos esperado que a maior parte fique com o erro puro, que o erro

    experimental, e no com a falta de ajuste, que est diretamente relacionada com o

    modelo.

  • Tefilo, R. F. 37

    Outros parmetros para observar se toda variao em torno da mdia foi

    explicada pela regresso so o valor do coeficiente de variao R2 (equao 1.33) e

    o grfico dos resduos [10].

    O valor de R2 representa a frao da variao em torno da mdia que

    explicada pela regresso (equao 1.33). Quanto mais prximo de 1 o valor do

    coeficiente estiver, melhor estar o ajuste do modelo s respostas observadas.

    2

    exp .

    SQR

    SQ

    regr

    l

    total

    1.33

    Note que o erro puro no explica nada do modelo, ento o valor mximo

    possvel de R2 :

    2SQ -SQ

    RSQ

    total ep

    max

    total

    1.34

    A anlise de varincia (ANOVA), de acordo com as equaes descritas para a

    avaliao do modelo, est resumida na Tabela 1.9.

    Tabela 1.9. Anlise de varincia para regresso mltipla.

    Fonte de variao SQ Nde graus de liberdade MQ F

    Regresso SQregr P 1 MQregr MQregr/MQres

    Resduos SQres I P MQres

    Falta de ajuste SQfaj M P MQfaj MQfaj/MQep

    Erro Puro SQep I M MQep

    Total SQtotal I 1

    Uma boa prtica examinar a distribuio dos resduos, pois ajuda a verificar

    se no h nada de errado com o modelo. Neste caso, pode-se fazer um grfico dos

    valores estimados pelo modelo ( )iy com os valores da diferena entre os valores

    observados experimentalmente ( )iy e os seus respectivos valores estimados, isto ,

    ( )iy versus ( )i iy y . Se os resduos no estiverem aleatoriamente distribudos,

    pode-se desconfiar do modelo e investir em outros recursos para a sua melhoria.

    A Anlise de Componentes Principais (PCA) provavelmente o mtodo

    quimiomtrico mais amplamente difundido, e devido importncia das medidas

  • Tefilo, R. F. 38

    multivariadas em qumica, ela considerada por muitos como o mtodo que mais

    significativamente muda o ponto de vista dos qumicos para a anlise multivariada

    dos dados [6].

    A aplicao mais freqente do mtodo PCA ocorre nos casos em que as

    colunas em X so altamente colineares, i.e., as variveis so correlacionadas e

    apresentam redundncias. Tais colinearidades indicam que a matriz X apresenta

    algum tipo de variabilidade dominante que carrega a maioria da informao

    disponvel. Estas redundncias e pequenas variabilidades devem ento ser

    removidas. A proposta da PCA expressar as informaes mais significativas

    contidas nas variveis originais em um pequeno nmero de novas variveis, as

    ento chamadas componentes principais de X [21].

    Naturalmente, pode-se estender esta descrio para outros mtodos

    multivariados, pois muitos diferem apenas no critrio utilizado para determinar

    como as componentes so construdas [22]. Assim, a PCA constitui, em muitas

    maneiras, a base para a anlise multivariada dos dados [1].

    Uma variedade de algoritmos pode ser usada para calcular as componentes

    principais de X. A decomposio por valores singulares (SVD) um algoritmo

    rotineiramente empregado [23] e est descrito no apndice. Usando este algoritmo,

    uma matriz de dimenso arbitrria pode ser escrita como produto de trs outras

    matrizes, assim:

    tX ADP 1.35

    Na literatura, as matrizes A ou AD so denominadas escores e contm as

    coordenadas das amostras nos eixos das componentes. Nesta tese, o produto AD

    ser definido como escore e representado como a matriz T. A matriz P contm a

    informao sobre como as variveis originais esto relacionadas s componentes e

    denominada de matriz de loadings. A matriz D diagonal (Apndice) e contm

    informaes sobre a quantidade de varincia em cada componente.

    O princpio matemtico bsico da PCA est em produzir uma aproximao da

    matriz de dados X, em termos do produto de duas matrizes T e Pt conforme

    Equao 1.36.

    t t

    h h h h hX = T P A D P 1.36

  • Tefilo, R. F. 39

    em que o subscrito h representa o nmero do trucamento das matrizes i.e., quantas

    componentes foram usadas para reconstruir a matriz X, definida por X .

    Figura 1.10. Representao matricial da anlise de componentes principais.

    Como mostrado na Figura 1.10, na matriz T, de escores, o nmero de linhas

    igual ao nmero de linhas da matriz original, usualmente o nmero de amostras. O

    nmero de colunas igual ao nmero h de componentes significativos nos dados, e

    pode ser qualquer nmero entre 1 e min{I,J}. O nmero de componentes

    significativos comumente definido como a dimensionalidade intrnseca dos dados

    ou posto qumico da matriz original.

    Na matriz Pt, de loadings, o nmero de colunas igual ao nmero de colunas

    na matriz original, usualmente o nmero de variveis. O nmero de linhas

    corresponde ao nmero de componentes principais h.

    Geometricamente, as matrizes A e P geram um novo sistema de coordenadas

    formado pelas h componentes principais (colunas de A e P), que so os novos eixos

    (Figura 1.11). Assim, exatamente como as amostras tm coordenadas no espao

    original das linhas (definida pelas variveis originais), elas tambm tm

    coordenadas em relao aos novos eixos i.e., os escores. Estas coordenadas so as

    projees ortogonais de cada amostra sobre os eixos das componentes, como

    representado pelas setas retas na Figura 1.7 e descrevem a representao das

    amostras padres dominantes das linhas em X.

    Cada componente construda a partir da combinao das variveis originais.

    Em termos matemticos, a contribuio de cada eixo original para uma componente

    principal o co-seno do ngulo entre o eixo da varivel com o eixo da componente

    (ngulos 's na Figura 1.11). Se uma componente principal aponta exatamente na

    mesma direo de uma varivel individual, o ngulo entre elas zero e o co-seno

  • Tefilo, R. F. 40

    1. Isto indica que a componente descreve toda a variao no eixo daquela varivel.

    Similarmente, se uma componente perpendicular (90) ao eixo de uma

    determinada varivel, o co-seno 0 indicando que esta varivel no fornece

    nenhuma contribuio componente em questo. Os valores destes co-senos so os

    loadings e variam na faixa de -1 a 1 [24,25].

    Figura 1.11. Representao geomtrica de duas componentes principais em um espao

    com trs variveis (3D).

    A direo da primeira componente principal descreve o espalhamento mximo

    das amostras (linhas) i.e., a quantidade mxima de variao possvel dos dados e

    pode ser definida como o melhor ajuste da reta no espao multidimensional. A

    prxima componente, perpendicular primeira (Figura 1.11), captura a varincia

    comum em sua direo e em menor quantidade que a primeira e assim

    sucessivamente. As componentes principais so, portanto, calculadas em ordem

    decrescente de significncia [25,26] e a percentagem da variao total nos dados

    descrita por qualquer componente pode ser calculada com preciso usando, por

    exemplo, informaes da diagonal da matriz D. Porm, como as componentes so

    perpendiculares entre si, elas contm informaes diferentes e complementares em

    ordem decrescente de quantidade de varincia.

    Devido reorientao das coordenadas do sistema de maneira a obter a

    mxima varincia comum, a maioria da informao dos dados pode ser capturada