Quimiometria Conceitos

i

REINALDO FRANCISCO TEFILO

Mtodos Quimiomtricos: Uma Viso Geral

Conceitos bsicos de quimiometria

Viosa - MG

Maio de 20 13

ii

Caro Leitor,

Se voc usar este material, por favor, cite-o em suas referncias.

Citar a tese de doutorado que deu origem a este texto:

R.F. Tefilo, Chemometric methods in the electrochemical studies of phenols on boron-doped

diamond films, Universidade Estadual de Campinas, Campinas, 2007.

Ou simplesmente este texto:

R.F. Tefilo, Mtodos Quimiomtricos: Uma Viso Geral - Conceitos bsicos de quimiometria,

Universidade Federal de Viosa, Viosa, Vol. 1, 2013.

Introduo

Tefilo, R. F. 1

Introduo

A anlise de dados multivariados tem se tornado, de modo crescente, uma

importante rea da qumica e de outras cincias [1,2]. Isto sugere que a tendncia

atual do pensamento cientfico envolve um raciocnio multivariado [1,3],

principalmente devido ao desenvolvimento tecnolgico atingido neste ltimo

sculo [1].

Historicamente, a anlise de dados multivariados em qumica tem utilizado

ferramentas desenvolvidas na rea de cincias sociais como economia

(econometria) e psicologia (psicometria). Apesar de serem interpretadas para

objetivos especficos em cada rea, a maioria destas ferramentas se baseia em

sofisticados mtodos matemticos, estatsticos, computacionais e de lgica formal

[2,4]. Em qumica, as anlises multivariadas so teis para (1) planejar ou

selecionar procedimentos experimentais timos; (2) extrair o mximo da

informao qumica relevante pela anlise dos dados; e (3) obter conhecimentos

sobre os sistemas qumicos estudados [5].

Com a aplicao destas ferramentas sobre dados fundamentalmente obtidos

nas reas da qumica, nasceu uma nova disciplina designada por Svante Wold em

1972, de quimiometria [6]. De uma maneira filosfica, se partirmos do ponto de

vista de que a quimiometria , teoricamente, a aplicao de quaisquer mtodos

matemticos e estatsticos para o tratamento de dados qumicos, a quimiometria se

inicia em 1772 com Lavoisier, que deve ser considerado o primeiro quimiometrista,

por ter sido o primeiro a usar mtodos quantitativos em qumica [6]. Porm, h um

consenso geral de que a quimiometria se iniciou por volta de 1970 com diversos

trabalhos cientficos, livros e um simpsio, ocorrido em So Francisco, em 2 de

setembro de 1976 [7], todos direcionados para a anlise multivariada de dados

qumicos. O grande divulgador e entusiasta internacional desta nova disciplina foi,

sem dvida, Bruce Kowalski [6,8]. Foram dele os primeiros trabalhos, a primeira

Introduo

Tefilo, R. F. 2

comunicao por escrito dirigida aos qumicos anunciando esta nova rea e o

primeiro livro editado na rea [9].

A criao desta nova disciplina ocorreu, principalmente, devido automao

dos laboratrios com o aumento significativo no nmero de instrumentos analticos

que fornecem dados multivariados, ou seja, mtodos que geram mais de uma

medida para uma dada amostra [10]. Alm disso, outras importantes contribuies

foram: a acessibilidade a microcomputadores e a disponibilidade de metodologias e

softwares dedicados realizao de clculos com dados multivariados [4].

Atualmente a quimiometria est suficientemente estabelecida e seu uso

disseminado [11]. Cada vez mais, metodologias quimiomtricas esto sendo

aperfeioadas e/ou desenvolvidas de maneira direcionada para os problemas de

origem qumica [12,13].

Dentre as reas tradicionais da qumica, a qumica analtica , atualmente, a

mais influenciada pela quimiometria [4]. Dentre as diferentes tcnicas analticas, as

ferramentas quimiomtricas se tornaram mais populares na rea de espectroscopia

[14].

Este texto tem como objetivo mostrar os conceitos bsicos dos mtodos

quimiomtricos mais utilizados. O leitor interessado poder, aps dominar estes

conceitos, explorar novos, aplic-lo e desenvolver novos mtodos. Bem vindo ao

mundo da quimiometria.

Referncias

1. Rencher, A. C. Methods of multivariate analysis. 2nd ed.; John Wiley & Sons Inc: New

York, 2002.

2. Phatak, A. Evaluation of some multivariate methods and their applications in chemical

engineering. University of Waterloo, Ontario, 1993.

3. Workman, J. J.; Mobley, P. R.; Kowalski, B. R.; Bro, R. Review of chemometrics

applied to spectroscopy: 1985-95 .1. Appl. Spectrosc. Rev. 1996, 31, (1-2), 73-124.

4. Brereton, R. G. Chemometrics: Data Analysis for the laboratory and chemical plant.

John Wiley & Sons Inc: Chinchester, 2003; p 407.

5. Massart, D. L.; Vandeginste, B. G. M.; Buydens, L. M. C.; de Jong, S.; Lewi, P. J.;

Verbeke-Smeyers, J. Handbook of Chemometrics and Qualimetrics. Elsevier:

Amsterdam, 1998; Vol. Part A, .

Introduo

Tefilo, R. F. 3

6. Esbensen, K.; Geladi, P. The start and early history of chemometrics - selected

interviews .2. J. Chemometr. 1990, 4, (6), 389-412.

7. Sheperd, P. Retrospective. J. Chemometr. 1987, 1, 3-6.

8. Geladi, P.; Esbensen, K. The start and early history of chemometrics .1. selected

interviews. J. Chemometr. 1990, 4, (5), 337-354.

9. Kowalski, B. R. Chemometrics: Theory and Application. ACS Symp. Ser.: New York,

1977; .

10. Richards, E.; Bessant, C.; Saini, S. Multivariate data analysis in electroanalytical

chemistry. Electroanalysis 2002, 14, (22), 1533-1542.

11. Lavine, B. K.; Workman, J. Chemometrics: Past, present, and future. 2005, 894, 1-13.

12. Hopke, P. K. The evolution of chemometrics. Anal. Chim. Acta 2003, 500, (1-2), 365-

377.

13. Hasegawa, T.; Ozaki, Y. New development in chemometrics. Bunseki Kagaku 2005,

54, (1), 1-26.

Introduo

Tefilo, R. F. ii

Aristteles

Tefilo, R. F. 3

Embora muitos mtodos quimiomtricos tenham originalmente sido

desenvolvidos na rea de cincias sociais, elas agora esto sendo aplicadas quase

que como um procedimento de rotina na anlise de dados oriundos de sistemas

qumicos. Assim, fica bem definido que a Quimiometria no uma disciplina nem

da matemtica, nem da estatstica ou da computao, mas sim da qumica. Os

problemas que ela se prope a resolver so de interesse e originados na qumica,

ainda que as ferramentas de trabalho provenham principalmente da matemtica,

estatstica e computao [1].

Informaes qumicas tais como, voltamogramas, espectros, cromatogramas,

curvas de titulao e outras fontes podem ser digitalizadas formando uma srie de

nmeros que podem ser representadas como vetores e matrizes [2]. Em

quimiometria, os processamentos destes dados exigem, na maioria das vezes,

operaes algbricas bem definidas. Portanto, torna-se necessrio padronizar as

notaes e convenes destas operaes para em seguida apresentar as

metodologias quimiomtricas. Neste material sero discutidas as notaes,

convenes e alguns pr-processamentos, alm dos seguintes mtodos

quimiomtricos: (1) planejamento e anlise de experimentos; (2) anlise de

componentes principais (PCA); (3) regresso multivariada empregando quadrados

mnimos parciais (PLS); (4) metodologias de seleo de variveis em calibrao

multivariada; (5) clculo do sinal analtico lquido (NAS) para calibrao

multivariada inversa e estimativas de parmetros analticos (figuras de mrito); (6)

anlise dos fatores paralelos (PARAFAC) e (7) regresso em multimodos i.e., PLS

multilinear (N-PLS).

Tefilo, R. F. 4

-

Em toda a tese, as notaes e convenes listadas abaixo sero seguidas.

Outras notaes especiais sero introduzidas quando necessrias. Ainda neste

subttulo, alguns pr-tratamentos que sero empregados em quase toda tese, sero

descritos.

Variveis e amostras

Vetores podem ser definidos como uma seqncia de escalares (nmeros),

matrizes como uma seqncia de vetores e tensores como uma seqncia de

matrizes. Estas estruturas so apresentadas na Figura 1.1..

representa as posies do elemento no vetor (1), na matriz (1,1) e no tensor (1,1,1). As

setas indicam que h escalares em todas as outras posies.

A Tabela 1.1 representa uma matriz de dados com I linhas e J colunas. Por

definio, nas colunas de uma matriz X(IJ) esto dispostas as J variveis e nas

linhas esto as I diferentes amostras.

Usando voltamogramas como exemplo, a Tabela 1.1 pode ser construda da

seguinte maneira: as variveis (1,2,, J) seriam os potenciais investigados; em

cada posio das amostras (1,2,, I) estariam as indicaes dos diferentes

voltamogramas e cada posio dentro do quadrado pontilhado (xij) estariam as

correntes obtidas em cada potencial.

Tefilo, R. F. 5

Somente os nmeros presentes dentro do quadrado pontilhado na Tabela 1.1

fazem parte do nico ou de um dos blocos considerados para a realizao de

clculos quimiomtricos.

Tabela 1.1. Representao esquemtica de uma matriz de dados.

Variveis

Amostras 1 2 J

1 x11 x12 x13 x1J

2 x21 x22 x23 x2J

I xI 1 xI 2 xI 3 xI J

Escalares

Um escalar um nmero que em qumica pode representar uma medida

representativa (Figura 1.1). Em voltametria, por exemplo, ao obter uma corrente de

pico, temos um nmero que a corrente.

Os escalares sero indicados por letras minsculas em itlico, podendo estar

em letras gregas ou romanas.

a, b, c,... , , , , ...

Vetores

Um vetor uma seqncia de escalares que pode trazer alguma informao

interpretvel (Figura 1.1). Em voltametria, por exemplo, ao obter a corrente de pico

de medidas diferentes (amostras), pode-se dispor cada escalar (corrente de pico

individual) em uma seqncia de correntes. Ao observar esta seqncia de

escalares no vetor pode-se inferir sobre as medidas e realizar interpretaes.

Os vetores sero definidos como uma coluna de nmeros e eles sero

representados por letras minsculas em negrito.

a, b, c, ... , , , , ...

Tefilo, R. F. 6

Um vetor com I elementos ter uma dimenso (I1) com seu i-simo elemento

dado pela correspondente letra minscula itlico com um subscrito apropriado. Por

exemplo, o i-simo elemento do vetor x xi. O vetor 1 define uma seqncia de

nmeros, todos eles iguais a 1.

Matrizes

Uma matriz uma seqncia de vetores, todos eles com a mesma dimenso e

organizados em uma tabela (Figura 1.1). Um voltamograma, por exemplo,

formado por uma seqncia de correntes obtidas com a varredura de potenciais.

Esta seqncia de correntes constitue um vetor que traz toda a informao do

voltamograma. Se mais de um voltamograma obtido nas mesmas condies e

estes voltamogramas forem dispostos seqencialmente (amostras), forma-se uma

tabela com tais voltamogramas (Tabela 1.1), onde cada ponto nesta tabela uma

corrente obtida no definido potencial. Esta tabela pode ser definida como uma

matriz de dados contendo, neste caso, informaes eletroqumicas.

Matrizes sero definidas por letras maisculas gregas ou romanas, em negrito.

,..., ...

Seus elementos sero representados pelas correspondentes letras minsculas,

em itlico com os subscritos definindo a linha e coluna, respectivamente, e.g., os

elementos da matriz X so dados por xij.

Em quimiometria, os conjuntos de dados obtidos instrumentalmente so

geralmente definidos pelo smbolo X. No caso de dados de segunda ordem (i.e.

uma matriz de dados) a letra X mauscula e em negrito ser usada.

Algumas vezes, matrizes sero escritas como X(IJ) para enfatizar que a

matriz X tem I linhas e J colunas. As matrizes identidades (Apndice) de ordem J

so escritas como Ij, mas onde a ordem bvia a partir do contexto, o subscrito

ser omitido. Frequentemente ser feito referncia s colunas da matriz, e ,

portanto conveniente definir as matrizes como uma srie de vetores colunas. Assim,

a matriz X(IJ) tambm ser definida como 1 2

, ,...,J

X x x x em que xj, j =

1,2,...,J so as (I1) colunas de X. Se for necessrio considerar a matriz formada

pelas primeiras S (< J) colunas de X, a matriz ser escrita como Xs, em que

1 2( ) , ,...,

s SI SX x x x .

Tefilo, R. F. 7

Tensores

Uma seqncia de matrizes de iguais dimenses organizadas de maneira a

formar, por exemplo, um cubo de dados (arranjo de altas ordens), chamado de

tensor (Figura 1.1) [3]. Os tensores sero definidos por letras maisculas, em

negrito e sublinhadas, podendo estar em letras gregas ou romanas, i.e., ,...,

.

Seus elementos sero representados como indicado para as matrizes, porm,

os subscritos estaro definindo os modos do tensor e.g., os elementos do tensor X

sero dados por xijk. Algumas vezes, tensores sero escritos como X (IJK) para

enfatizar que o tensor X tem I matrizes no modo 1, J matrizes no modo 2 e K

matrizes no modo 3 (Figura 1.1).

Um tensor frequentemente considerado em termos de seu conjunto de

matrizes. Estas matrizes formam as fatias horizontal, lateral e frontal de um tensor

em trs dimenses (Figura 1.2). Especificamente, a fatia horizontal i pertence s

entidades i = 1,....,I do modo 1, a fatia lateral j pertence s entidades j = 1,....,J do

modo 2, a fatia frontal k pertence s entidades k = 1,....,K do modo 3.

Figura 1.2. Ilustrao do arranjo tensorial (trs modos) em fatias (dois modos).

Os tensores, como as matrizes, so um bloco de dados. Assim, as definies

para variveis e amostras seguem a mesma idia, porm mais de duas dimenses

so consideradas para este tipo de dado e esta nova dimenso definida como mais

uma varivel da dimenso adicional. Deste modo, as I linhas representam a

dimenso 1, das amostras (modo 1), as J colunas representam as variveis da

Tefilo, R. F. 8

dimenso 2 (modo 2) e os K tubos representam as variveis da dimenso 3 (modo

3), conforme indicado na Figura 1.3.

Figura 1.3. Definio de linhas, colunas, e tubos em um arranjo de trs dimenses.

, porm, til coletar todos os modos em uma nica matriz. O processo de

rearranjo dos elementos de X dentro de X frequentemente chamado em

quimiometria de desdobramento, mas este termo confuso, visto que em

psicometria o termo desdobramento uma tcnica particular para escalar dados

multidimensionais [4].

Aqui este processo ser denominado como matriciao de um tensor em uma

matriz e o processo reverso ser chamado de reforma de uma matriz em um tensor.

As matriciaes podem ser realizadas em todos os modos (Figura 1.4). Assim,

JKI, corresponde s entidades do modo 3 embutidas nas entidades do modo 1;

KIJ, corresponde s entidades do modo 1 embutidas nas entidades do modo 2 e

IJK, corresponde s entidades do modo 2 embutidas nas entidades do modo 3.

Tefilo, R. F. 9

Figura 1.4. Matriciao de um arranjo em trs dimenses X para um de duas dimenses

X(IJK).

Smbolos

Os sobrescritos t, + e -1 indicam transposio, pseudo-inversa e inversa,

respectivamente. As barras referem-se norma euclidiana e I simboliza uma

matriz identidade dimensionada apropriadamente. O smbolo ^ indica a matriz,

vetor ou escalar estimado. Detalhes sobre transposio, pseudo-inversa, inversa e

norma euclidiana esto descritos no apndice.

Pr-Processamentos: Centrar na Mdia e Escalar pela Varincia

Na maioria dos mtodos quimiomtricos que sero descritos nesta tese

assumido que as colunas das matrizes so centradas na mdia e, algumas vezes, que

elas tambm foram escaladas pela varincia da coluna. Quando estes dois pr-

processamentos so realizados simultaneamente, o que tambm comum de se

assumir; dito que as colunas da matriz esto autoescaladas pela varincia, ou

somente, que a matriz est autoescalada.

Centrar os dados na mdia equivale geometricamente, a fazer uma translao

do sistema de eixos ao longo do vetor das mdias, para o centro do conjunto de

dados.

Escalar os dados tem como objetivo colocar variveis em uma mesma escala

quando tais unidades apresentam diferentes unidades entre si ou quando a faixa de

variao dos dados grande.

Se xij representa o (ij)-simo elemento da matriz X, ento a centragem dos

dados na mdia realizada da seguinte maneira

c

ij ij jx x x 1.1

em que 1

I

j ijix x I/ a mdia aritmtica dos elementos da j-sima coluna, xj

sendo I o nmero de elementos na coluna.

Quando as colunas de X so escaladas pela varincia temos:

Tefilo, R. F. 10

e

ij ij jx x s/ 1.2

em que

2

1

( )

1

I

ij ji

j

x x

sI

, que representa o desvio padro da j-sima coluna. O

autoescalamento obtido da seguinte maneira:

/aij ij j jx x x s 1.3

Durante a tese no ser feito nenhuma distino de notao entre a matriz X

original e a pr-processada por centragem ou por autoescalamento.

Transformao: Correo de Linha de Base

Durante a obteno dos dados, variaes sistemticas podem ocorrer e devem

ser removidas ou corrigidas antes das anlises [5,6].

Em anlises eletroqumicas, muitas variveis podem influenciar o sinal, o que

pode comprometer a qualidade dos resultados. Podemos destacar como influncias,

o deslocando da linha de base para maiores ou menores valores de corrente;

deformaes do sinal, salincias indesejveis na parte ngreme do sinal, ou um sinal

obtido sobre uma corrente de fundo inclinada.

Uma maneira de resolver parte destes problemas atravs da subtrao do

branco da respectiva amostra. Entretanto, algumas salincias podem ainda

permanecer e o deslocamento na linha de base no completamente corrigido.

Alm disso, nem sempre possvel obter um sinal de branco para cada amostra.

Uma maneira prtica e eficiente de resolver estes tipos de problemas

aplicando a correo de linha de base para cada amostra usando uma mdia mvel.

Durante a aplicao deste mtodo o nmero de pontos nos dados (nmero de

variveis J) substitudo temporariamente pelo clculo da mdia dentro de uma

janela de potenciais. A abertura da janela deve ser definida como tendo a menor

largura do pico do voltamograma obtido. A linha de base subsequentemente

calculada comparando cada valor de corrente com o valor mdio de seus dois

vizinhos. Se o valor absoluto da mdia for menor, a corrente substituda pelo

valor atual da mdia. Esta operao realizada repetidas vezes at que nenhum

Tefilo, R. F. 11

valor de corrente seja mais substitudo. Depois que a correo da linha de base

realizada com sucesso, um sinal com um pico bem definido obtido [7].

importante ressaltar que ao final do processo o nmero de variveis originais no

alterado.

Um experimento apenas um teste de uma srie de testes. Experimentos so

executados em todas as disciplinas cientficas e so uma importante parte do nosso

aprendizado sobre o funcionamento dos sistemas e processos. A validade das

concluses que so inferidas de um experimento depende da escala em que o

experimento foi conduzido. Portanto, o planejamento de experimentos representa

um dos principais papis na eventual soluo do problema que inicialmente

motivou o experimento [8].

Os experimentos podem ser executados em duas ou mais variveis (ou fatores)

que o experimentalista supe serem importantes, como por exemplo, pH e tipo de

enzima. Os planejamentos fatoriais uma poderosa ferramenta para investigar este

tipo de problema. Geralmente, em um planejamento experimental, os ensaios so

executados em todas as combinaes dos nveis dos fatores, normalmente dois ou

trs.

Por outro lado, a metodologia de superfcie de resposta (RSM) uma coleo

de tcnicas matemticas e estatsticas que so teis para modelar e analisar sistemas

onde a resposta de interesse influenciada por vrias variveis, e cujo objetivo

otimizar a resposta. Neste caso, em relao aos planejamentos fatoriais, mais nveis

das variveis so investigados em uma maior regio experimental.

Para analisar os resultados de ambas as metodologias, vrios grficos e tabelas

so utilizadas. O mtodo de regresso por quadrados mnimos extremamente

necessrio e normalmente, o primeiro clculo realizado. A anlise de varincia

(ANOVA), em particular, usada como uma das principais ferramentas para a

anlise estatstica.

Nesta seo sero descritos os planejamentos fatoriais completos e

fracionrios, normalmente empregados na etapa de triagem. Para a etapa de

Tefilo, R. F. 12

otimizao sero descritos os planejamentos compostos centrais e Doehlert, que se

baseiam na metodologia de superfcie de resposta.

Experimentos para Triagem

Muitas vezes em um sistema, diversos fatores ou variveis (os termos fatores e

variveis sero usados nesta seo indistintamente) podem influenciar a resposta

desejada. Um experimento para triagem executado com o interesse em se

determinar as variveis experimentais e as interaes entre variveis que tm

influncia significativa sobre as diferentes respostas de interesse [8,9].

Aps selecionar as variveis que so possveis de serem estudadas e que

provavelmente interferem no sistema, preciso avaliar a metodologia experimental

(tempo, custo, etc.). As variveis que no forem selecionadas devem ser fixadas

durante todo o experimento.

Em uma etapa seguinte, deve-se escolher qual planejamento usar para estimar

a influncia (o efeito) das diferentes variveis no resultado. No estudo de triagem,

as interaes entre as variveis (interaes principais) e de segunda ordem, obtidas

normalmente pelos planejamentos fatoriais completos ou fracionrios, so de

extrema importncia para a compreenso do comportamento do sistema.

Planejamentos Fatoriais Completos

Em um planejamento fatorial so investigadas as influncias de todas as

variveis experimentais de interesse e os efeitos de interao (sinergismo) entre

elas na resposta ou respostas. Se a combinao de J fatores investigada em dois

nveis, um planejamento fatorial consistir de 2J experimentos. Normalmente, os

nveis dos fatores quantitativos (i.e. concentraes de uma substncia, valores de

pH, etc.) so designados pelos sinais (menos) para o nvel mais baixo e + (mais)

para o nvel mais alto, porm o que importa a relao inicial entre o sinal

atribudo e o efeito obtido, no sendo um critrio definido a nomeao dos sinais.

Para fatores qualitativos (i.e. tipos de cidos, tipos de catalisadores, etc.), como no

existem valores altos ou baixos, fica a critrio do experimentalista atribuir os seus

nveis.

Tefilo, R. F. 13

Os sinais para os efeitos de interao de 2 ordem e de ordem superior entre

todas as variveis do planejamento, realizando todas as combinaes possveis, so

obtidos pelo produto dos sinais originais das variveis envolvidas. Desta maneira

possvel construir as colunas de sinais para todas as interaes e assim elaborar a

matriz de coeficientes de contraste (Tabela 1.2).

Tabela 1.2. Matriz de coeficientes de contraste para um planejamento fatorial 23.

Variveis Interaes*

Mdia x1 x2 x3 x12 x13 x23 x123

+ - - - + + + -

+ + - - - - + +

+ - + - - + - +

+ + + - + - - -

+ - - + + - - +

+ + - + - + - -

+ - + + - - + -

+ + + + + + + + * x12, x13 e x23, so os efeitos de interao de 2 ordem; x123 o efeito de interao de 3

ordem.

Uma coluna de sinais + (mais) adicionada esquerda da matriz de

coeficientes de contraste para o clculo da mdia de todas as respostas observadas.

Suponha um planejamento fatorial com I ensaios e com iy observaes

individuais (quando houver replicatas, considere a resposta mdia iy ). Os efeitos

para cada coluna da matriz de coeficientes de contraste (conforme Tabela 1.2) so

dados pelas seguintes equaes:

1

I

ii

mdio

y

efI

1.4

1 1

2

I I

i ii i

I

y y

ef

2 2

( ) ( )

1.5

A equao 1.4 descreve o efeito para a mdia de todas as observaes,

enquanto a equao 1.5 descreve a diferena entre as mdias das observaes no

nvel mais (iy ( ) ) e as mdias das observaes no nvel menos ( iy ( ) ).

Tefilo, R. F. 14

Outro mtodo para o clculo dos efeitos para um planejamento fatorial

completo ser descrito mais adiante no item: Modelos Empricos em Estudo de

Triagem.

Planejamentos Fatoriais Fracionrios

O planejamento fatorial completo necessita de 2J ensaios para sua execuo,

portanto sua principal desvantagem o grande nmero de ensaios que devem ser

realizados a cada fator adicionado ao estudo. Se considerarmos (e observarmos)

que os efeitos de altas ordens, principalmente para planejamentos com J > 4, so

quase sempre no significativos, a realizao de ensaios para estimar tais efeitos de

interao desnecessria. Desta maneira, com um nmero menor de experimentos,

possvel obter informaes daqueles efeitos mais importantes e retirar, na maioria

das vezes, as mesmas concluses caso fosse realizado um planejamento fatorial

completo. Os planejamentos que apresentam estas caractersticas so conhecidos

como planejamentos fatoriais fracionrios [9-13].

H muitos e diferentes tipos de planejamentos fatoriais fracionrios (1/2, 1/4,

1/8, 1/16...1/2b de um planejamento 2

J-b) descritos na literatura [9-11], em que J o

nmero de variveis investigadas e b o tamanho da frao. O tamanho da frao

influenciar no possvel nmero de efeitos a serem estimados, e consequentemente,

no nmero de experimentos necessrios [9].

Pode-se ainda dizer que h dois tipos de fraes: aquelas cujo objetivo obter

somente os efeitos principais [12] e aquelas em que se adicionam experimentos

para separar e estimar efeitos de interaes, caso se assuma que tais interaes

apresentam influncia sobre os resultados [9]. No primeiro caso necessrio

executar, por exemplo, apenas 8 experimentos para investigar 7 variveis, 12

experimentos para 11 variveis, etc. Estes so conhecidos como planejamentos

saturados [9-11] e planejamentos de Plackett-Burman [12].

Construo do planejamento fatorial fracionrio

Normalmente, para a construo do planejamento fatorial fracionrio

desejado, utiliza-se um planejamento fatorial completo. Para exemplificar,

consideremos um planejamento 23-1

construdo a partir de um planejamento fatorial

Tefilo, R. F. 15

completo com duas variveis: V1 e V2. A Tabela 1.3 apresenta o planejamento

fatorial completo com duas variveis. Sero necessrios quatro experimentos para a

execuo deste planejamento 22 e a partir dos resultados podem-se obter os efeitos

principais das duas variveis e o efeito de interao (V1.V2). A coluna da matriz de

coeficientes de contraste responsvel pela interao obtida pela multiplicao dos

elementos da coluna da varivel V1 com os respectivos elementos da varivel V2.

As colunas de V1, V2 e V1V2 da matriz de coeficientes de contraste de um

planejamento fatorial completo definem a configurao de um planejamento

fatorial fracionrio com trs variveis utilizando apenas os quatro ensaios

destacados em negrito na Tabela 1.4, em que V1, V2 e V1V2 sero substitudas pelas

variveis independentes x1, x2 e x3.

Como o nmero de experimentos a metade do completo, temos uma meia

frao de um planejamento fatorial 23 ( 3 1 3 3 11

22 2 2 2 ), conforme as Tabelas 1.3

e 1.4.

Tabela 1.3. Planejamento fatorial fracionrio 23-1

a partir de um planejamento fatorial

completo 22.

Nexp.(*)

x1 (V1) x2 (V2) x3 (V1V2)

5 -1 -1 1

2 1 -1 -1

3 -1 1 -1

8 1 1 1 (*)

Ensaios correspondentes obtidos da Tabela 1.3.

Uma outra propriedade importante dos planejamentos fatoriais fracionrios diz

respeito aos experimentos selecionados que cobrem o volume mximo do domnio

considerado em um nmero limitado de experimentos [9]. Note nas Tabelas 1.2 e

1.3 que os experimentos destacados so comuns aos dois planejamentos.

distribuem em um domnio experimental para trs variveis (Tabela 1.4).

Tabela 1.4. Planejamento fatorial completo 23.

N exp. x1 x2 x3

Tefilo, R. F. 16

1 -1 -1 -1

2 1 -1 -1

3 -1 1 -1

4 1 1 -1

5 -1 -1 1

6 1 -1 1

7 -1 1 1

8 1 1 1

23-1

.

Para a montagem de um planejamento fatorial fracionrio saturado, considere

o seguinte exemplo: sete variveis podem ser estudadas, com um mnimo de

experimentos, em um planejamento fatorial fracionrio com frao 1/16, ou seja,

27-4 7 4 7 7 41

162 2 2 2 . Para este caso, o planejamento definido pelo modelo de

matriz para um planejamento fatorial 23 (Tabela 1.4).

Um planejamento fatorial completo com sete variveis necessita de 128

experimentos. Sendo o planejamento fracionrio 27-4

, 1/16 do planejamento

completo, ele necessitar de somente 8 experimentos.

Neste caso, para a elaborao da matriz de planejamento a partir da matriz

mostrada na Tabela 1.4, as variveis x4, x5, x6 e x7, sero os produtos das colunas

das variveis x1x2, x1x3, x2x3 e x1x2x3, respectivamente.

Tefilo, R. F. 17

Efeitos confundidos e resoluo

Certamente h perda de informaes quando se realizar um planejamento

fatorial fracionrio. Os efeitos principais so misturados com os efeitos de

interao e esta contaminao aumenta entre as interaes quando se aumenta a

frao do planejamento.

Para entender melhor a confuso causada por esta mistura, considere uma

meia frao de um planejamento fatorial 25-1

(Tabela 1.5). O objetivo obter todos

os efeitos principais e todos os possveis efeitos de interao realizando apenas 16

ensaios. Uma matriz de planejamento elaborada a partir de um planejamento 24.

A coluna da quinta varivel (5) obtida a partir da multiplicao de todas as outras,

ou seja, 1234. Assim 5 = 1234, chamado de gerador de um planejamento

fracionrio [11] [13]. Observa-se pela Tabela 1.5 que os coeficientes de contraste

para o efeito de 123 tm os mesmos sinais de 45. Isto mostra que os efeitos

estimados por estas duas interaes sero os mesmos, ou seja, sero confundidos,

sendo assim chamados de pseudnimo um do outro.

A meia frao do planejamento mostrada na Tabela 1.5 foi obtida a partir do

gerador (5=1234), no entanto, para conhecer a identidade de um pseudnimo

realizada uma definio de contrastes a partir da relao apresentada pela equao

1.6.

C = 12345 1.6

O pseudnimo obtido multiplicando o definido contraste C por cada um dos

efeitos. Por exemplo: o pseudnimo de 1 obtido multiplicando 1 por 12345.

Considere tambm, como regra, que se um mesmo termo aparecer mais de uma vez

na multiplicao, este termo desaparece. Portanto, 112345 = 2345. Para 12 o

pseudnimo 1212345 = 345.

Tabela 1.5. Coeficientes de contraste para um planejamento fatorial fracionrio 25-1

.

N exp. 1 2 3 4 5 1234 123 45 2345

1 - - - - + + - - -

2 + - - - - - + + +

3 - + - - - - + + -

4 + + - - + + - - +

5 - - + - - - + + -

Tefilo, R. F. 18

6 + - + - + + - - +

7 - + + - + + - - -

8 + + + - - - + + +

9 - - - + - - - - +

10 + - - + + + + + +

11 - + - + + + + + -

12 + + - + - - - - +

13 - - + + + + + + -

14 + - + + - - - - +

15 - + + + - - - - -

16 + + + + + + + + +

Se outro fator F adicionado ao planejamento 25-1

(Tabela 1.5) ele passa a ser

um planejamento 25-2

e, portanto, um quarto do fatorial completo. Para obter este

novo fator, uma outra definio de contrastes obtida de um gerador adicional.

Assim 5 = 1234 e 6 = 123. Portanto, C = 12345 e C = 1236, respectivamente. Uma

terceira definio de contrastes ento obtida multiplicando os dois anteriores

conforme a equao 1.7.

C = 123451236 = 456 1.7

O pseudnimo para cada efeito pode agora ser obtido pela maneira usual. Para

1 temos: 1 = 112345 = 11236 = 1456 ou 1 = 2345 = 236 = 1456.

Assim, com um quarto do planejamento 25, cada efeito apresenta trs

pseudnimos e a estimativa dos efeitos principais so individuais, no entanto eles

se confundem com efeitos de interao de 2 ordem.

Este tipo de confuso pode ocasionalmente causar dificuldades na

interpretao dos resultados, mas isto facilmente contornado por adio de

poucos experimentos complementares a fim de separar efeitos confundidos.

Um importante conceito em planejamentos fatoriais fracionrios a resoluo

do planejamento, que define a ordem em que se negligenciam os efeitos e

definida por um nmero romano colocado depois do planejamento ou subescrito.

Em geral, a resoluo o valor do nmero de fatores que compem o termo de

menor comprimento nas definies de contrastes C [11]. Para ilustrar:

Resoluo III No confunde efeitos principais entre si, mas os confunde com

efeitos de interao entre dois fatores.

Tefilo, R. F. 19

Resoluo IV No confunde efeitos principais entre si e nem com efeitos de

interao entre dois fatores, mas confunde efeitos principais com efeitos de

interao entre trs variveis e os efeitos entre duas variveis se confundem com

outros efeitos, inclusive entre eles.

Resoluo V Os efeitos principais so confundidos com efeitos de interao

entre quatro variveis e os efeitos de interao entre duas variveis so confundidos

com efeitos de interao entre trs variveis.

Planejamentos fatoriais fracionrios com resoluo maior que V so raramente

usados em triagem [9].

Os clculos para estimativa dos efeitos para um planejamento fatorial

fracionrio sero descritos mais adiante no item: Modelos Empricos em Estudo de

Triagem.

Planejamentos Fatoriais com Ponto Central

Em muitos casos, a realizao de repeties autnticas pode ser algo

inconveniente por diversas razes. Para contornar este infortnio e obter uma boa

estimativa dos erros, um experimento normalmente includo no centro do

planejamento (Figura 1.6), em que o valor mdio dos nveis de todas as variveis

empregado. So os conhecidos experimentos no ponto central (nvel zero). Deste

modo, possvel avaliar a significncia dos efeitos ou coeficientes, tanto em

planejamentos de triagem (completos ou fracionrios) como em metodologias de

superfcie de resposta (discutidos mais adiante). Alm desta vantagem, recomenda-

se este tipo de experimento pelas seguintes razes [9]:

- o risco de perder a relao no linear entre os intervalos minimizado;

- possvel estimar um modelo razovel e verificar se h falta de ajuste;

Logicamente no h como fugir das repeties, mas o nmero destas, na

maioria dos casos, significativamente reduzido.

No entanto, esta metodologia somente possvel de ser aplicada quando se

utilizam variveis quantitativas, visto que, para variveis qualitativas no h como

adicionar nveis no ponto central.

Tefilo, R. F. 20

Os clculos para estimativa de efeitos e coeficientes relacionados aos

planejamentos com ponto central sero discutidos mais adiante no item: Modelos

Empricos em Estudo de Triagem.

Figura 1.6. Planejamento 22 com ponto central.

Modelos Empricos em Estudo de Triagem

Pode-se assumir, desde o incio do experimento, que o sistema estudado

(domnio experimental) regido por uma expresso matemtica que funo das

variveis experimentais. Normalmente esta funo pode ser aproximada por um

polinmio, o qual pode fornecer uma boa descrio entre os fatores e a resposta

obtida. A ordem deste polinmio limitada pelo tipo de planejamento usado.

Planejamentos fatoriais de dois nveis, completos ou fracionrios, podem estimar

apenas efeitos principais e interaes. Planejamentos fatoriais de trs nveis (ponto

central) podem estimar, alm disso, o grau de curvatura na resposta.

Para descrever tais modelos em um estudo de triagem, so utilizados os

polinmios mais simples, ou seja, aqueles que contm apenas termos lineares.

Considerando um exemplo para trs variveis, x1, x2 e x3 dois polinmios seriam:

y = b0 + b1x1 + b2x2 + b3x3+ e 1.8

y = b0 + b1x1 + b2x2 + b3x3 + b12x1x2 + b13x1x3 + b23x2x3 + b123x1x2x3+ e 1.9

Segundo a equao 1.8, o coeficiente b0 o valor populacional da mdia de

todas as respostas obtidas, b1, b2 e b3 so os coeficientes relacionados com as

Tefilo, R. F. 21

variveis x1, x2, e x3 respectivamente, e o erro aleatrio associado ao modelo e,

para o caso da equao 1.9, b12, b13, b23 so os coeficientes para as interaes x1x2,

x1x3, x2x3 e b123 o coeficiente para a interao x1x2x3.

A partir do planejamento montado, pode-se construir a matriz de coeficientes

de contraste, de acordo com a Tabela 1.1. A matriz de coeficientes de contraste X,

juntamente com o vetor de respostas y, obtido experimentalmente, ser utilizada

para o clculo dos coeficientes do modelo, conhecidos tambm como vetor de

regresso.

O modelo procurado, descrito pelas equaes 5 e 6 pode ser representado

matricialmente pela equao 1.10,

= Xb 1.10

em que o vetor das respostas estimadas pelo modelo e b o vetor de regresso.

Uma maneira de determinar o vetor de regresso b atravs do mtodo dos

quadrados mnimos [14] [15], definido pela equao 1.13, em que Xt indica a

transposta de X.

b = (XtX)

-1X

ty 1.11

em que (XtX)

-1 a matriz inversa do produto da transposta da matriz X com ela

mesma.

Para um planejamento fatorial completo, a matriz 1I

X quadrada e ortogonal

onde I corresponde ao nmero de ensaios. Isto ocorre pois as colunas de X no

esto normalizadas, portanto X-1

= 1I X

t. Neste caso a equao 1.13 se resume

equao 1.12.

b = 1I X

ty 1.12

A equao 1.11 geral e pode ser empregada para fazer a estimativa de efeitos

e coeficientes para todos os planejamentos descritos neste artigo, no entanto a

equao 1.12 especfica para o planejamento fatorial completo, no sendo

aplicvel aos outros planejamentos descritos.

Tefilo, R. F. 22

Como as variveis so estudadas em dois nveis codificados, cada efeito

satisfaz variao de duas unidades da varivel correspondente. Se considerarmos

os fatores individualmente, pode-se provar que o valor de cada coeficiente do

modelo a metade do valor do efeito correspondente, exceto para b0, cujo valor o

mesmo do calculado para seu efeito (equao 1.6). Desta maneira, o modelo

empregado para descrever as respostas elaborado em funo dos efeitos por

unidade de variao individual [10].

Estimativa dos Erros para os Efeitos atravs de Repeties

Normalmente, os resultados obtidos em experimentos de planejamento fatorial

completo ou fracionrio com repeties, consistem de uma pequena amostra de um

hipottico conjunto maior, representado por uma populao. Destes dados podemos

obter a mdia amostral, a varincia amostral e o desvio padro amostral, como se

segue:

1

R

rr

y

yR

1.13

2

2 1

( )

( 1)

R

rr

y y

sR

1.14

2

1

( )

( 1)

R

rr

y y

sR

1.15

em que R o nmero de replicatas, isto , o nmero de ensaios realizados em um

mesmo ponto experimental (nvel), yr so os valores de cada observao individual,

y o valor mdio, s2 a varincia e s o desvio padro.

A soma dos desvios da mdia amostral de R replicatas necessariamente zero.

Isto requer que ( ) 0r

y y constitua uma restrio linear nos desvios usados no

clculo de s2. Est subentendido que com R 1 replicatas possvel determinar a

que falta. Os R resduos y y e consequentemente a soma dos seus quadrados

juntamente com a varincia amostral, so ditas ter, por esta razo, R 1 graus de

Tefilo, R. F. 23

liberdade. A perda de um grau de liberdade est associada necessidade de

substituir a mdia populacional pela mdia amostral derivada dos dados. Desta

maneira, quando repeties genunas so realizadas em uma srie de condies

experimentais, a variao entre suas observaes pode ser usada para estimar o

desvio padro de uma simples observao e consequentemente o desvio dos efeitos

[11]. Todos os ensaios, inclusive repeties, devem ser realizados aleatoriamente,

refazendo todas as etapas do experimento. As repeties realizadas desta maneira

so consideradas genunas.

Em um experimento em que cada ensaio foi realizado r vezes, se o valor de R

R

clculo da varincia. Uma maneira para se obter um maior nmero de graus de

liberdade realizando uma estimativa conjunta das varincias conforme a equao

1.16.

2

2 1

1

[( 1) ]

( 1)

I

i ii

c I

ii

R s

s

R

1.16

1

( 1)I

ii

R 1.17

O resultado da equao 1.16 reflete a varincia conjunta ( 2cs ) de cada

observao individual yi sendo o erro padro igual raiz quadrada do mesmo. A

equao 1.17, que exatamente o denominador da equao 1.16 , portanto, o

nmero de graus de liberdade da estimativa conjunta, designada como .

Observa-se atravs das equaes 1 e 2 e considerando a realizao de

repeties autnticas, que cada efeito uma combinao linear dos valores de yi

dos I ensaios, com coeficientes c iguais a + 2/I e -2/I. Levando em considerao a

aleatoriedade dos ensaios, tais valores so estatisticamente independentes e

apresentam a mesma varincia populacional 2. Neste caso, por definio, as

correlaes entre todas as variveis so nulas, e a varincia da combinao linear

das variveis aleatrias pode ser dada por [10]:

2 2 2

i ii

c 1.18

Tefilo, R. F. 24

Transportando a equao 1.18 para o nosso mundo amostral, pode-se provar

que a varincia de cada efeito dada por [10]:

2

1

4( )

c

I

ii

sV ef

R

1.19

em que 2cs dada pela equao 1.16.

Finalmente, para calcular o valor do erro padro de cada efeito, basta extrair a

raiz quadrada de V(ef).

Estimativa dos Erros para os Efeitos, sem Repeties

Uma maneira de estimar erros de efeitos sem a realizao de repeties

supor que interaes de altas ordens para J 3 no so significativos e, portanto, so

erros experimentais nos valores dos efeitos.

Aplicando a equao 1.16 sobre estes efeitos de interao e fazendo algumas

consideraes, obtm-se a varincia dos efeitos conforme a equao 1.20.

1

( )

V( )

l

ii

efi

efl

2

1.20

em que efii so os efeitos de interao considerados como erros experimentais e l

o nmero total de efeitos considerados.

preciso estar atento ao utilizar este tipo de estimativa do erro. Nem sempre

os efeitos de altas ordens so irrelevantes e, se tais efeitos forem includos no

clculo, os erros se tornam altos e desta maneira no possvel distinguir com

confiabilidade aqueles que so realmente importantes.

O nmero de graus de liberdade utilizado para a avaliao dos efeitos

agregados a estes erros o mesmo nmero total de efeitos considerados como

erros, isto , o valor l da equao 1.20.

Tefilo, R. F. 25

Estimativa dos Erros para os Efeitos e Coeficientes a partir das Repeties no Ponto Central

Conforme mencionado anteriormente, uma das grandes vantagens da incluso

de experimentos no centro do planejamento devido a estimativa do erro com

poucas repeties, normalmente entre 3 e 5.

A partir das repeties realizadas possvel obter a mdia e a varincia das

replicatas de acordo com as equaes 1.13 e 1.14, respectivamente.

Por outro lado, sendo os coeficientes obtidos atravs da equao 1.11, nota-se

que a matriz (XtX)

-1 apresenta grande influncia na varincia dos parmetros de

regresso. O produto desta matriz com o valor da varincia obtida atravs das

repeties no ponto central (equao 1.14) fornece a matriz V(b) conhecida como

matriz de varincia-covarincia (equao 1.21). A matriz V(b) simtrica e os

elementos de sua diagonal so as varincias dos parmetros de regresso na mesma

ordem em que elas aparecem na equao de regresso. Os elementos fora da

diagonal so as covarincias entre os parmetros de regresso. A raiz quadrada dos

elementos da diagonal principal da matriz V(b) determina os valores

correspondentes dos erros padro (sbi) dos coeficientes calculados (equao 1.22).

V(b) = (XtX)

-1s

2 1.21

sbi = ii( )v b , i=1, 2, ..., I 1.22

Identificao dos Efeitos e Coeficientes Significativos

Na literatura [9-11,13] h diferentes mtodos para se avaliar efeitos e

coeficientes significativos; entre os mais usados destaca-se a anlise de varincia

(ANOVA), o grfico de probabilidade (distribuio normal), e a comparao de

efeitos com uma medida independente da variabilidade. Neste trabalho, as

avaliaes de significncia para a deciso estatstica, tanto para efeitos como para

coeficientes de modelos, foram realizadas empregando o teste t (distribuio de

Student), atravs do valor p [8,16].

Tefilo, R. F. 26

Para realizar a interpretao correta utilizando o valor p necessrio

compreender os testes de hiptese e significncia, conforme descrito abaixo.

Em muitos casos, formula-se uma hiptese estatstica com o propsito de

rejeit-la ou invalid-la. Por exemplo: se o desejo decidir se um sistema

diferente do que outro, formula-se a hiptese de que no h diferena entre os

sistemas. Essa hiptese denominada nula e representada por H0. Qualquer

hiptese diferente da pr-fixada denominada hiptese alternativa e normalmente

representada por H1 [8,16].

Se uma hiptese for rejeitada quando deveria ser aceita, diz-se que foi

cometido um erro tipo I. Se, por outro lado, uma hiptese for aceita quando deveria

ter sido rejeitada, diz-se que foi cometido um erro do tipo II. Em ambos os casos

foi tomada uma deciso errada ou foi cometido um erro de julgamento [8].

Para que qualquer teste de hiptese ou regra de deciso seja adequada, eles

devem ser planejados de modo que os erros de deciso sejam reduzidos ao mnimo.

Ao testar uma hiptese estabelecida, a probabilidade mxima, representada

freqentemente por , com a qual se sujeitaria a correr o risco de um erro do tipo I

denominada nvel de significncia do teste.

Se, por exemplo, escolhido um nvel de significncia = 0,05 ou 5%, h

ento cerca de 5 chances em 100 da hiptese nula ser rejeitada, quando deveria ser

aceita, isto , h uma confiana de 95% de que se tomou uma deciso correta.

Nesses casos, diz-se que a hiptese rejeitada ao nvel de significncia 0,05, o que

significa que a probabilidade de erro seria de 0,05 [16].

Considerando a hiptese nula de que o valor do efeito se confunde com seu

erro, pode-se formular a seguinte regra de deciso:

a) Rejeio da hiptese nula com 5% de significncia, quando o valor de

tcalc situar-se fora do intervalo entre t ( calct t ). Isso equivale a dizer que o

valor estatstico amostral observado significativo no nvel definido.

b) Aceitao da hiptese, caso contrrio.

Uma maneira alternativa de concluir o teste de hiptese comparar o valor p

do teste estatstico amostral com o nvel de significncia . O valor p do teste

estatstico amostral o menor nvel de significncia para que se rejeite H0 [8].

Neste sentido, compara-se o valor p com e, se o valor p rejeita-se H0, caso

Tefilo, R. F. 27

contrrio H0 aceito. A vantagem de se conhecer o valor p est na possibilidade de

se avaliar todos os nveis de significncia para que o resultado observado possa ser

estatisticamente rejeitado [8,16]. A representao grfica do valor p descrita na

Figura 1.7.

Figura 1.7. Representao grfica do valor p para um teste unilateral.

Conforme as Figuras 1.7(a e b), o nvel de significncia a rea hachurada

no grfico de distribuio. Na Figura 1.7a a rea correspondente ao valor p maior

que o nvel de significncia, portanto, o valor calculado do teste estatstico est fora

da regio crtica, o que implica em aceitar H0. Para a Figura 1.7b a rea do valor p

menor que o nvel de significncia e assim, o valor calculado do teste estatstico

est dentro da regio crtica, o que implica e rejeitar H0. importante ressaltar que

esta discusso vlida tanto para testes unilaterais quanto para bilaterais.

Especificamente, o valor p representa a probabilidade de validade do erro

envolvido no resultado observado, isto , como representativo da populao. Por

exemplo: levando em considerao o valor de um efeito, se o valor do teste

estatstico calculado (razo entre o efeito e o seu erro) apresentar um grande desvio

da distribuio de Student, ele provavelmente descreve algo mais que o resduo

experimental. Desta maneira, ser significativo dentro de um intervalo de confiana

e assim, ttcalc ou p , para o nmero de graus de liberdade em questo.

Tefilo, R. F. 28

Metodologia de Superfcie de Resposta: Otimizao

Aps a realizao dos experimentos de triagem, os fatores significativos so

selecionados e uma metodologia de anlise de superfcies de respostas pode ser

executada para a otimizao do experimento. Neste sentido, otimizar significa

encontrar os valores das variveis que iro produzir a melhor resposta desejada, isto

, encontrar a regio tima na superfcie definida pelos fatores.

A metodologia de superfcie de resposta baseia-se na construo de modelos

matemticos empricos que geralmente empregam funes polinomiais lineares ou

quadrticas, para descrever o sistema estudado e, conseqentemente do condies

de explorar (modelar e deslocar) o sistema at sua otimizao.

Um planejamento experimental construdo para estimar coeficientes, segundo

algum modelo aproximado, deve reunir certos critrios desejveis, sendo os

principais [14,15]: Proporcionar boas estimativas para todos os coeficientes,

exigindo poucos experimentos; Fornecer condies de avaliao dos coeficientes e

do modelo, ou seja, da regresso e da falta de ajuste.

Neste trabalho sero descritos os Planejamentos: Composto Central (CCD -

Central Composite Design) [17] e Doehlert [18], visto que apresentam todos os

critrios descritos acima, dentre outros e possivelmente so as classes de

planejamentos mais utilizadas para ajustar modelos quadrticos (equao 1.23),

2

01 1

J J

j j jj j fj f jj j f j j

y b b x b x b x x e 1.23

na equao 1.23, J, o nmero de variveis.

Planejamento Composto Central

Os planejamentos compostos centrais (CCD) foram apresentados por Box e

Wilson [17] em 1951 como uma evoluo dos planejamentos 33, que necessitavam

de muitos experimentos para um pequeno nmero de fatores, mesmo para

planejamentos fracionrios. Outras vantagens, como rotabilidade e blocagem

Tefilo, R. F. 29

ortogonal, alm do pouco nmero de ensaios, foram obtidas devido presena das

seguintes partes no planejamento [14]:

Um planejamento fatorial completo de dois nveis, podendo ser usado ainda,

um planejamento fatorial fracionrio de dois nveis;

Experimentos no ponto central, isto , xi = 0 para todo i;

Experimentos nos pontos axiais em que xi xj = 0 para j i4 2J . Estes pontos so situados nos eixos do sistema de coordenadas com distncia

A Figura 1.8 ilustra os pontos experimentais no sistema de coordenadas,

definidos pelos eixos xi.

Figura 1.8. Planejamentos compostos centrais: (A) J B) J = 3 e

axiais e (O) ponto central.

Para construo de um planejamento CCD necessrio definir o nmero de

variveis a serem estudadas (J), qual planejamento fatorial ser empregado

(completo 2J ou fracionrio 2

J-b) e quantos experimentos sero realizados no ponto

central (normalmente, 2J+1). O nmero de experimentos a ser realizado dado por:

2J+2J+1.

variveis [14,15] e a Tabela 1.7 apresenta as matrizes de planejamento para 2 e 3

variveis.

Tabela 1.6. Alguns planejamentos CCD e suas caractersticas.

N variveis(J) 2 3 4 5 5 6 6

Tefilo, R. F. 30

Valor de b para 2J-b

0 0 0 0 1 0 1

N de exp. no planej. fatorial 4 8 16 32 16 64 32

N de exp. no ponto axial 4 6 8 10 10 12 12

1,414 1,682 2,000 2,378 2,000 2,828 2,378

Tabela 1.7. Matrizes dos planejamentos compostos centrais com duas e trs variveis.

Planejamento CCD 22 Planejamento CCD 2

3

x1 x2 x1 x2 x3

-1 -1 Planejamento

fatorial

-1 -1 -1 Planejamento

fatorial 1 -1 1 -1 -1

-1 1 -1 1 -1

1 1 1 1 -1

-1 -1 1

0 0 Ponto central 1 -1 1

-1 1 1

- 0 Pontos axiais 1 1 1

0

0 - 0 0 0 Ponto central

0

- 0 0 Pontos axiais

0 0

0 - 0

0 0

0 0 -

0 0

qualquer valor codificado xi) necessitam ser decodificados para os valores

experimentais dos nveis das variveis a serem estudadas e para isso utiliza-se a

equao 1.24:

2

ii

z zx

z 1.24

em que xi o valor codificado do planejamento CCD, zi o valor experimental do

nvel, z o valor mdio entre os nveis mais (+) e menos (-), que exatamente o

valor do nvel zero (0) e z a diferena entre os nveis mais (+) e menos (-).

Tefilo, R. F. 31

experimentalmente vivel para o nvel, desde que no ocorram grandes distores

no valor original.

Utilizando a Tabela 1.6 podem-se construir diferentes tipos de planejamentos

CCD, conforme aqueles apresentados na Tabela 1.7. A partir do planejamento

montado, pode-se obter a matriz de coeficientes de contraste, de acordo com a

Tabela 1.2. O modelo apresentado na equao 1.23 pode ser representado

matricialmente segundo a equao 1.10 e seus coeficientes so estimados atravs

da equao 1.11.

A estimativa dos erros para os coeficientes a partir das replicatas no ponto

central realizada conforme as equaes 1.21 e 1.22 e a avaliao dos coeficientes

realizada conforme o item: Identificao dos Efeitos e Coeficientes

Significativos, descrito anteriormente.

Matriz Doehlert

O planejamento Doehlert ou Matriz Doehlert foi apresentado por David H.

Doehlert em 1970 [18], sendo uma alternativa bastante til e atrativa aos

planejamentos experimentais de segunda ordem. Os pontos da matriz Doehlert

correspondem aos vrtices de um hexgono gerado de um simplex regular e em

geral, o nmero total de pontos experimentais no planejamento igual a J2+J+pc,

em que J o nmero de fatores e pc o nmero experimentos no ponto central.

Uma importante propriedade do planejamento Doehlert diz respeito ao nmero de

nveis que cada varivel possui. Com quatro variveis, por exemplo, o nmero de

nveis so 5, 7, 7 e 3, o que permite avaliar as variveis consideradas mais

importantes, ou seja, que apresentam efeitos mais pronunciados em um nmero

maior de pontos do espao estudado [19]. Alm disso, este tipo de planejamento

necessita de um menor nmero de experimentos em relao ao planejamento

Composto Central, sendo, portanto, mais eficiente. Esse menor nmero de

experimentos para se chegar regio tima vem do fato de que o domnio da

vizinhana facilmente explorado pelo ajuste de poucos experimentos, j que o

prximo hexgono utiliza pontos experimentais j explorados pelo hexgono

anterior, conforme Figura 1.9 [9].

Tefilo, R. F. 32

Figura 1.9. Planejamento

experimentos ( ).

O planejamento Doehlert descreve um domnio circular para duas variveis,

esfrico para trs e hiperesfrico para mais de trs variveis, o que acentua a

uniformidade no espao envolvido. Embora suas matrizes no sejam ortogonais

nem rotacionais, elas no apresentam divergncias significativas que comprometa a

qualidade necessria para seu uso efetivo [20]. Para duas variveis, a matriz

Doehlert consiste de um ponto central e mais seis pontos adicionais formando um

hexgono regular e, por esse motivo, situada sob um crculo (Figura 1.9). As

matrizes do planejamento Doehlert para duas, trs e quatro variveis podem ser

visualizadas na Tabela 1.8. As matrizes Doehlert apresentadas na Tabela 1.8 so

pr-estabelecidas e suas construes no so triviais como os outros planejamentos

apresentados neste trabalho. Mais detalhes sobre a construo deste tipo de matriz

podem ser obtidos nas referncias 22 e 25.

Cada planejamento definido considerando o nmero de variveis e os

valores codificados (xi) da matriz experimental. A relao entre os valores

experimentais e os valores codificados dada pela Equao 1.25.

0

i ii d

i

z zx

z 1.25

O termo xi o valor codificado para o nvel do fator i; zi o seu experimental;

zi a distncia entre o valor experimental no ponto central e o experimental no

Tefilo, R. F. 33

nvel superior ou inferior, d o maior valor limite codificado na matriz para cada

fator e 0iz o valor experimental no ponto central.

Tabela 1.8. Matrizes Doehlert para duas, trs e quatro variveis.

Variveis Experimentais Matriz Doehlert

2 Variveis 3 Variveis 4 Variveis

x1a x2a x1b x2b x3b x1c x2c x3c x4c

1 0 0 0 0 0 0 0 0 0

2 1 0 1 0 0 1 0 0 0 3 0,5 0,866 0,5 0,866 0 0,5 0,866 0 0 4 -1 0 0,5 0,289 0,817 0,5 0,289 0,817 0 5 -0,5 -0,866 -1 0 0 0,5 0,289 0,204 0,791 6 0,5 -0,866 -0,5 -

0,866

0 -1 0 0 0 7 -0,5 0,866 -0,5 -

0,289

-

0,817

-0,5 -0,866 0 0 8 0,5 -

0,866

0 -0,5 -0,289 -

0,817

0 9 0,5 -

0,289

-

0,817

-0,5 -0,289 -

0,204

-

0,791 10 -0,5 0,866 0 0,5 -0,866 0 0 11 0 0,577 -

0,817

0,5 -0,289 -

0,817

0 12 -0,5 0,289 0,817 0,5 -0,289 -

0,204

-

0,791 13 0 -

0,577

0,817 -0,5 0,866 0 0 14 0 0,577 -

0,817

0 15 0 0,577 -

0,204

-

0,791 16 -0,5 0,289 0,817 0 17 0 -0,577 0,817 0 18 0 0 0,613 -

0,791 19 -0,5 0,289 0,204 0,791 20 0 -0,577 0,204 0,791 21 0 0 -

0,613

0,791

A maioria dos pacotes computacionais disponveis atualmente, comerciais ou

gratuitos, ainda no disponibilizou algoritmos para clculos de planejamentos

Doehlert sendo, portanto, um indicativo dentre outros, de que este planejamento

est relativamente pouco difundido entre os pesquisadores.

Avaliao do Modelo

O modelo obtido pode no ser exatamente aquele que descreve a regio

estudada do sistema e, neste caso, no pode ser usado para fazer estimativas para

deslocamento e muito menos para extrair concluses sobre a regio tima. A

Tefilo, R. F. 34

maneira mais confivel de se avaliar a qualidade do ajuste do modelo

empregando a anlise de varincia (ANOVA) [8,16].

Na ANOVA a variao total da resposta definida como a soma quadrtica de

dois componentes: a soma quadrtica da regresso (SQregr) e a soma quadrtica dos

resduos (SQres). A soma quadrtica da variao total, corrigida para a mdia

(SQtotal), pode assim ser escrita como a equao 1.26.

SQtotal = SQregr + SQres 1.26

em que SQregr e SQres so apresentadas com mais detalhes nas equaes 1.27 e 1.28,

respectivamente.

SQregr = ( )iRM

mm r

y y 2

1 1

1.27

SQres = i

( )RM

mr im m

y y 2

1 1

1.28

Da equao 1.27, M o nmero total de nveis do planejamento, isto , pontos

experimentais do planejamento; m

y o valor estimado pelo modelo para o nvel m

e y o valor mdio das replicatas (R). No entanto, como h somente replicatas no

ponto central, a mdia das replicatas nos nveis (+) mais e (-) menos o prprio

valor observado do ensaio naquele nvel. Note que o segundo somatrio indica que

se deve fazer o quadrado das diferenas inclusive com cada repetio.

As replicatas realizadas no ponto central deixaro um resduo para cada

observao m

y . A soma quadrtica destes resduos fornece a soma quadrtica

residual somente no nvel zero.

A equao 1.28 indica que o quadrado da diferena entre o valor de cada

observao (m

y ) e o valor estimado (m

y ) e inclusive das replicatas (ry ) em cada

nvel (m), fornece a soma quadrtica residual de todos os nveis.

Quando algum modelo ajustado aos dados, a soma quadrtica do erro puro

sempre uma parte da soma quadrtica dos resduos. Ento cada resduo pode ser

desmembrado em duas partes, isto [15]:

( ) ( ) ( )mr m mr m m m

y y y y y y 1.29

Tefilo, R. F. 35

Pela equao 1.29, o primeiro termo da direita diz respeito diferena entre o

valor de cada observao individual no nvel e a mdia de todas as observaes

naquele nvel. J o segundo termo corresponde diferena entre o valor estimado

no nvel e a mdia de todas as observaes naquele nvel. A subtrao entre estes

dois termos fornece como resposta o resduo de cada observao individual.

Para evitar os termos negativos na equao 1.29, tomam-se as suas diferenas

quadrticas e obtm-se equao 1.30.

i

( ) ( ) ( )iRRM M M

mr m mr m m mm r m r m

y y y y y y2 2 2

1 1 1 1 1

1.30

O primeiro termo da direita chamado de soma quadrtica do erro puro e est

relacionado exclusivamente com os erros aleatrios das replicatas. J o segundo

termo da direita chamado de soma quadrtica da falta de ajuste, pois ele uma

medida da discrepncia entre a resposta do modelo de previso (m

y ) e a mdia das

replicatas (m

y ) realizadas no conjunto de condies experimentais.16

A equao 1.30 pode ser resumida da seguinte maneira:

SQres = SQep + SQfaj 1.31

Para cada fonte de variao (regresso, resduos, falta de ajuste, erro puro e

total), necessrio obter o nmero de graus de liberdade. No introduzindo

detalhes, pode-se provar que o nmero de graus de liberdade para as equaes 1.27,

1.28 e 1.30 so, P 1, I P e (I M) + (M P), respectivamente [11,15,20], em

que P o nmero de parmetros (coeficientes) do modelo, I o nmero total de

observaes (ensaios) e M o nmero de nveis do planejamento. O nmero de

graus de liberdade para as outras fontes de variao pode ser obtido por clculos

algbricos simples.

A diviso da soma quadrtica de cada fonte de variao pelo seu respectivo

nmero de grau de liberdade fornece a mdia quadrtica (MQ). A razo entre a

mdia quadrtica da regresso (MQreg) pela mdia quadrtica dos resduos (MQres),

que nada mais do que a razo entre duas varincias, pode ser usada para comparar

tais fontes de variao atravs do teste F (distribuio de Fisher), levando em

considerao seus respectivos nmeros de graus de liberdade. O mesmo pode ser

Tefilo, R. F. 36

feito para a razo entre a mdia quadrtica da falta de ajuste (MQfaj) pela mdia

quadrtica do erro puro (MQep).

Assim, como foi realizada a avaliao dos efeitos e coeficientes empregando o

teste t, atravs do valor p, o mesmo ser feito para comparar as duas fontes de

variao entre si, empregando-se neste caso o teste F (equao 1.32).

1 2,F1

2

MQ

MQ 1.32

em que MQ1 e MQ2 so as mdias quadrticas das fontes de variao 1 e 2

respectivamente e, 1, 2 so seus respectivos nmeros de graus de liberdade.

Exemplificando, a razo entre as mdias quadrticas da falta de ajuste e do

erro puro o valor calculado do teste estatstico (Fcalc), que usado para comparar

qual mais significativo. Pode-se formular uma hiptese nula (H0) considerando

que no h diferena entre as fontes de variao comparadas. Esta hiptese se

reflete na seguinte regra de deciso:

a) Rejeio da hiptese nula com 5% de significncia, quando o valor de

Fcalc situar-se fora do intervalo definido por F ( calcF F ), ou seja, p . Isso

equivale a dizer que o valor estatstico amostral observado significativo no nvel

definido e as fontes de variao comparadas so diferentes.

b) Aceitao da hiptese nula, caso contrrio.

Se H0 for rejeitada para MQfaj/MQep, isto , p , ento h uma falta de ajuste

significativa ao nvel de probabilidade e nmero de graus de liberdade definidos

(normalmente, = 0,05) e o modelo no adequado.

Em termos prticos, um bom modelo necessita ter uma regresso significativa

e uma falta de ajuste no significativa. Isto equivale a dizer que a maior parte da

variao total das observaes em torno da mdia deve ser descrito pelo modelo de

regresso e o restante certamente, ficar com os resduos. Da variao que fica com

os resduos esperado que a maior parte fique com o erro puro, que o erro

experimental, e no com a falta de ajuste, que est diretamente relacionada com o

modelo.

Tefilo, R. F. 37

Outros parmetros para observar se toda variao em torno da mdia foi

explicada pela regresso so o valor do coeficiente de variao R2 (equao 1.33) e

o grfico dos resduos [10].

O valor de R2 representa a frao da variao em torno da mdia que

explicada pela regresso (equao 1.33). Quanto mais prximo de 1 o valor do

coeficiente estiver, melhor estar o ajuste do modelo s respostas observadas.

2

exp .

SQR

SQ

regr

l

total

1.33

Note que o erro puro no explica nada do modelo, ento o valor mximo

possvel de R2 :

2SQ -SQ

RSQ

total ep

max

total

1.34

A anlise de varincia (ANOVA), de acordo com as equaes descritas para a

avaliao do modelo, est resumida na Tabela 1.9.

Tabela 1.9. Anlise de varincia para regresso mltipla.

Fonte de variao SQ Nde graus de liberdade MQ F

Regresso SQregr P 1 MQregr MQregr/MQres

Resduos SQres I P MQres

Falta de ajuste SQfaj M P MQfaj MQfaj/MQep

Erro Puro SQep I M MQep

Total SQtotal I 1

Uma boa prtica examinar a distribuio dos resduos, pois ajuda a verificar

se no h nada de errado com o modelo. Neste caso, pode-se fazer um grfico dos

valores estimados pelo modelo ( )iy com os valores da diferena entre os valores

observados experimentalmente ( )iy e os seus respectivos valores estimados, isto ,

( )iy versus ( )i iy y . Se os resduos no estiverem aleatoriamente distribudos,

pode-se desconfiar do modelo e investir em outros recursos para a sua melhoria.

A Anlise de Componentes Principais (PCA) provavelmente o mtodo

quimiomtrico mais amplamente difundido, e devido importncia das medidas

Tefilo, R. F. 38

multivariadas em qumica, ela considerada por muitos como o mtodo que mais

significativamente muda o ponto de vista dos qumicos para a anlise multivariada

dos dados [6].

A aplicao mais freqente do mtodo PCA ocorre nos casos em que as

colunas em X so altamente colineares, i.e., as variveis so correlacionadas e

apresentam redundncias. Tais colinearidades indicam que a matriz X apresenta

algum tipo de variabilidade dominante que carrega a maioria da informao

disponvel. Estas redundncias e pequenas variabilidades devem ento ser

removidas. A proposta da PCA expressar as informaes mais significativas

contidas nas variveis originais em um pequeno nmero de novas variveis, as

ento chamadas componentes principais de X [21].

Naturalmente, pode-se estender esta descrio para outros mtodos

multivariados, pois muitos diferem apenas no critrio utilizado para determinar

como as componentes so construdas [22]. Assim, a PCA constitui, em muitas

maneiras, a base para a anlise multivariada dos dados [1].

Uma variedade de algoritmos pode ser usada para calcular as componentes

principais de X. A decomposio por valores singulares (SVD) um algoritmo

rotineiramente empregado [23] e est descrito no apndice. Usando este algoritmo,

uma matriz de dimenso arbitrria pode ser escrita como produto de trs outras

matrizes, assim:

tX ADP 1.35

Na literatura, as matrizes A ou AD so denominadas escores e contm as

coordenadas das amostras nos eixos das componentes. Nesta tese, o produto AD

ser definido como escore e representado como a matriz T. A matriz P contm a

informao sobre como as variveis originais esto relacionadas s componentes e

denominada de matriz de loadings. A matriz D diagonal (Apndice) e contm

informaes sobre a quantidade de varincia em cada componente.

O princpio matemtico bsico da PCA est em produzir uma aproximao da

matriz de dados X, em termos do produto de duas matrizes T e Pt conforme

Equao 1.36.

t t

h h h h hX = T P A D P 1.36

Tefilo, R. F. 39

em que o subscrito h representa o nmero do trucamento das matrizes i.e., quantas

componentes foram usadas para reconstruir a matriz X, definida por X .

Figura 1.10. Representao matricial da anlise de componentes principais.

Como mostrado na Figura 1.10, na matriz T, de escores, o nmero de linhas

igual ao nmero de linhas da matriz original, usualmente o nmero de amostras. O

nmero de colunas igual ao nmero h de componentes significativos nos dados, e

pode ser qualquer nmero entre 1 e min{I,J}. O nmero de componentes

significativos comumente definido como a dimensionalidade intrnseca dos dados

ou posto qumico da matriz original.

Na matriz Pt, de loadings, o nmero de colunas igual ao nmero de colunas

na matriz original, usualmente o nmero de variveis. O nmero de linhas

corresponde ao nmero de componentes principais h.

Geometricamente, as matrizes A e P geram um novo sistema de coordenadas

formado pelas h componentes principais (colunas de A e P), que so os novos eixos

(Figura 1.11). Assim, exatamente como as amostras tm coordenadas no espao

original das linhas (definida pelas variveis originais), elas tambm tm

coordenadas em relao aos novos eixos i.e., os escores. Estas coordenadas so as

projees ortogonais de cada amostra sobre os eixos das componentes, como

representado pelas setas retas na Figura 1.7 e descrevem a representao das

amostras padres dominantes das linhas em X.

Cada componente construda a partir da combinao das variveis originais.

Em termos matemticos, a contribuio de cada eixo original para uma componente

principal o co-seno do ngulo entre o eixo da varivel com o eixo da componente

(ngulos 's na Figura 1.11). Se uma componente principal aponta exatamente na

mesma direo de uma varivel individual, o ngulo entre elas zero e o co-seno

Tefilo, R. F. 40

1. Isto indica que a componente descreve toda a variao no eixo daquela varivel.

Similarmente, se uma componente perpendicular (90) ao eixo de uma

determinada varivel, o co-seno 0 indicando que esta varivel no fornece

nenhuma contribuio componente em questo. Os valores destes co-senos so os

loadings e variam na faixa de -1 a 1 [24,25].

Figura 1.11. Representao geomtrica de duas componentes principais em um espao

com trs variveis (3D).

A direo da primeira componente principal descreve o espalhamento mximo

das amostras (linhas) i.e., a quantidade mxima de variao possvel dos dados e

pode ser definida como o melhor ajuste da reta no espao multidimensional. A

prxima componente, perpendicular primeira (Figura 1.11), captura a varincia

comum em sua direo e em menor quantidade que a primeira e assim

sucessivamente. As componentes principais so, portanto, calculadas em ordem

decrescente de significncia [25,26] e a percentagem da variao total nos dados

descrita por qualquer componente pode ser calculada com preciso usando, por

exemplo, informaes da diagonal da matriz D. Porm, como as componentes so

perpendiculares entre si, elas contm informaes diferentes e complementares em

ordem decrescente de quantidade de varincia.

Devido reorientao das coordenadas do sistema de maneira a obter a

mxima varincia comum, a maioria da informao dos dados pode ser capturada

Quimiometria Conceitos

Documents

Transcript of Quimiometria Conceitos