Quimiometria Conceitos
-
Upload
mayara-goncalves -
Category
Documents
-
view
132 -
download
90
description
Transcript of Quimiometria Conceitos
-
i
REINALDO FRANCISCO TEFILO
Mtodos Quimiomtricos: Uma Viso Geral
Conceitos bsicos de quimiometria
Viosa - MG
Maio de 20 13
-
ii
Caro Leitor,
Se voc usar este material, por favor, cite-o em suas referncias.
Citar a tese de doutorado que deu origem a este texto:
R.F. Tefilo, Chemometric methods in the electrochemical studies of phenols on boron-doped
diamond films, Universidade Estadual de Campinas, Campinas, 2007.
Ou simplesmente este texto:
R.F. Tefilo, Mtodos Quimiomtricos: Uma Viso Geral - Conceitos bsicos de quimiometria,
Universidade Federal de Viosa, Viosa, Vol. 1, 2013.
-
iii
-
Introduo
Tefilo, R. F. 1
Introduo
A anlise de dados multivariados tem se tornado, de modo crescente, uma
importante rea da qumica e de outras cincias [1,2]. Isto sugere que a tendncia
atual do pensamento cientfico envolve um raciocnio multivariado [1,3],
principalmente devido ao desenvolvimento tecnolgico atingido neste ltimo
sculo [1].
Historicamente, a anlise de dados multivariados em qumica tem utilizado
ferramentas desenvolvidas na rea de cincias sociais como economia
(econometria) e psicologia (psicometria). Apesar de serem interpretadas para
objetivos especficos em cada rea, a maioria destas ferramentas se baseia em
sofisticados mtodos matemticos, estatsticos, computacionais e de lgica formal
[2,4]. Em qumica, as anlises multivariadas so teis para (1) planejar ou
selecionar procedimentos experimentais timos; (2) extrair o mximo da
informao qumica relevante pela anlise dos dados; e (3) obter conhecimentos
sobre os sistemas qumicos estudados [5].
Com a aplicao destas ferramentas sobre dados fundamentalmente obtidos
nas reas da qumica, nasceu uma nova disciplina designada por Svante Wold em
1972, de quimiometria [6]. De uma maneira filosfica, se partirmos do ponto de
vista de que a quimiometria , teoricamente, a aplicao de quaisquer mtodos
matemticos e estatsticos para o tratamento de dados qumicos, a quimiometria se
inicia em 1772 com Lavoisier, que deve ser considerado o primeiro quimiometrista,
por ter sido o primeiro a usar mtodos quantitativos em qumica [6]. Porm, h um
consenso geral de que a quimiometria se iniciou por volta de 1970 com diversos
trabalhos cientficos, livros e um simpsio, ocorrido em So Francisco, em 2 de
setembro de 1976 [7], todos direcionados para a anlise multivariada de dados
qumicos. O grande divulgador e entusiasta internacional desta nova disciplina foi,
sem dvida, Bruce Kowalski [6,8]. Foram dele os primeiros trabalhos, a primeira
-
Introduo
Tefilo, R. F. 2
comunicao por escrito dirigida aos qumicos anunciando esta nova rea e o
primeiro livro editado na rea [9].
A criao desta nova disciplina ocorreu, principalmente, devido automao
dos laboratrios com o aumento significativo no nmero de instrumentos analticos
que fornecem dados multivariados, ou seja, mtodos que geram mais de uma
medida para uma dada amostra [10]. Alm disso, outras importantes contribuies
foram: a acessibilidade a microcomputadores e a disponibilidade de metodologias e
softwares dedicados realizao de clculos com dados multivariados [4].
Atualmente a quimiometria est suficientemente estabelecida e seu uso
disseminado [11]. Cada vez mais, metodologias quimiomtricas esto sendo
aperfeioadas e/ou desenvolvidas de maneira direcionada para os problemas de
origem qumica [12,13].
Dentre as reas tradicionais da qumica, a qumica analtica , atualmente, a
mais influenciada pela quimiometria [4]. Dentre as diferentes tcnicas analticas, as
ferramentas quimiomtricas se tornaram mais populares na rea de espectroscopia
[14].
Este texto tem como objetivo mostrar os conceitos bsicos dos mtodos
quimiomtricos mais utilizados. O leitor interessado poder, aps dominar estes
conceitos, explorar novos, aplic-lo e desenvolver novos mtodos. Bem vindo ao
mundo da quimiometria.
Referncias
1. Rencher, A. C. Methods of multivariate analysis. 2nd ed.; John Wiley & Sons Inc: New
York, 2002.
2. Phatak, A. Evaluation of some multivariate methods and their applications in chemical
engineering. University of Waterloo, Ontario, 1993.
3. Workman, J. J.; Mobley, P. R.; Kowalski, B. R.; Bro, R. Review of chemometrics
applied to spectroscopy: 1985-95 .1. Appl. Spectrosc. Rev. 1996, 31, (1-2), 73-124.
4. Brereton, R. G. Chemometrics: Data Analysis for the laboratory and chemical plant.
John Wiley & Sons Inc: Chinchester, 2003; p 407.
5. Massart, D. L.; Vandeginste, B. G. M.; Buydens, L. M. C.; de Jong, S.; Lewi, P. J.;
Verbeke-Smeyers, J. Handbook of Chemometrics and Qualimetrics. Elsevier:
Amsterdam, 1998; Vol. Part A, .
-
Introduo
Tefilo, R. F. 3
6. Esbensen, K.; Geladi, P. The start and early history of chemometrics - selected
interviews .2. J. Chemometr. 1990, 4, (6), 389-412.
7. Sheperd, P. Retrospective. J. Chemometr. 1987, 1, 3-6.
8. Geladi, P.; Esbensen, K. The start and early history of chemometrics .1. selected
interviews. J. Chemometr. 1990, 4, (5), 337-354.
9. Kowalski, B. R. Chemometrics: Theory and Application. ACS Symp. Ser.: New York,
1977; .
10. Richards, E.; Bessant, C.; Saini, S. Multivariate data analysis in electroanalytical
chemistry. Electroanalysis 2002, 14, (22), 1533-1542.
11. Lavine, B. K.; Workman, J. Chemometrics: Past, present, and future. 2005, 894, 1-13.
12. Hopke, P. K. The evolution of chemometrics. Anal. Chim. Acta 2003, 500, (1-2), 365-
377.
13. Hasegawa, T.; Ozaki, Y. New development in chemometrics. Bunseki Kagaku 2005,
54, (1), 1-26.
-
Introduo
Tefilo, R. F. ii
Aristteles
-
Tefilo, R. F. 3
Embora muitos mtodos quimiomtricos tenham originalmente sido
desenvolvidos na rea de cincias sociais, elas agora esto sendo aplicadas quase
que como um procedimento de rotina na anlise de dados oriundos de sistemas
qumicos. Assim, fica bem definido que a Quimiometria no uma disciplina nem
da matemtica, nem da estatstica ou da computao, mas sim da qumica. Os
problemas que ela se prope a resolver so de interesse e originados na qumica,
ainda que as ferramentas de trabalho provenham principalmente da matemtica,
estatstica e computao [1].
Informaes qumicas tais como, voltamogramas, espectros, cromatogramas,
curvas de titulao e outras fontes podem ser digitalizadas formando uma srie de
nmeros que podem ser representadas como vetores e matrizes [2]. Em
quimiometria, os processamentos destes dados exigem, na maioria das vezes,
operaes algbricas bem definidas. Portanto, torna-se necessrio padronizar as
notaes e convenes destas operaes para em seguida apresentar as
metodologias quimiomtricas. Neste material sero discutidas as notaes,
convenes e alguns pr-processamentos, alm dos seguintes mtodos
quimiomtricos: (1) planejamento e anlise de experimentos; (2) anlise de
componentes principais (PCA); (3) regresso multivariada empregando quadrados
mnimos parciais (PLS); (4) metodologias de seleo de variveis em calibrao
multivariada; (5) clculo do sinal analtico lquido (NAS) para calibrao
multivariada inversa e estimativas de parmetros analticos (figuras de mrito); (6)
anlise dos fatores paralelos (PARAFAC) e (7) regresso em multimodos i.e., PLS
multilinear (N-PLS).
-
Tefilo, R. F. 4
-
Em toda a tese, as notaes e convenes listadas abaixo sero seguidas.
Outras notaes especiais sero introduzidas quando necessrias. Ainda neste
subttulo, alguns pr-tratamentos que sero empregados em quase toda tese, sero
descritos.
Variveis e amostras
Vetores podem ser definidos como uma seqncia de escalares (nmeros),
matrizes como uma seqncia de vetores e tensores como uma seqncia de
matrizes. Estas estruturas so apresentadas na Figura 1.1..
representa as posies do elemento no vetor (1), na matriz (1,1) e no tensor (1,1,1). As
setas indicam que h escalares em todas as outras posies.
A Tabela 1.1 representa uma matriz de dados com I linhas e J colunas. Por
definio, nas colunas de uma matriz X(IJ) esto dispostas as J variveis e nas
linhas esto as I diferentes amostras.
Usando voltamogramas como exemplo, a Tabela 1.1 pode ser construda da
seguinte maneira: as variveis (1,2,, J) seriam os potenciais investigados; em
cada posio das amostras (1,2,, I) estariam as indicaes dos diferentes
voltamogramas e cada posio dentro do quadrado pontilhado (xij) estariam as
correntes obtidas em cada potencial.
-
Tefilo, R. F. 5
Somente os nmeros presentes dentro do quadrado pontilhado na Tabela 1.1
fazem parte do nico ou de um dos blocos considerados para a realizao de
clculos quimiomtricos.
Tabela 1.1. Representao esquemtica de uma matriz de dados.
Variveis
Amostras 1 2 J
1 x11 x12 x13 x1J
2 x21 x22 x23 x2J
I xI 1 xI 2 xI 3 xI J
Escalares
Um escalar um nmero que em qumica pode representar uma medida
representativa (Figura 1.1). Em voltametria, por exemplo, ao obter uma corrente de
pico, temos um nmero que a corrente.
Os escalares sero indicados por letras minsculas em itlico, podendo estar
em letras gregas ou romanas.
a, b, c,... , , , , ...
Vetores
Um vetor uma seqncia de escalares que pode trazer alguma informao
interpretvel (Figura 1.1). Em voltametria, por exemplo, ao obter a corrente de pico
de medidas diferentes (amostras), pode-se dispor cada escalar (corrente de pico
individual) em uma seqncia de correntes. Ao observar esta seqncia de
escalares no vetor pode-se inferir sobre as medidas e realizar interpretaes.
Os vetores sero definidos como uma coluna de nmeros e eles sero
representados por letras minsculas em negrito.
a, b, c, ... , , , , ...
-
Tefilo, R. F. 6
Um vetor com I elementos ter uma dimenso (I1) com seu i-simo elemento
dado pela correspondente letra minscula itlico com um subscrito apropriado. Por
exemplo, o i-simo elemento do vetor x xi. O vetor 1 define uma seqncia de
nmeros, todos eles iguais a 1.
Matrizes
Uma matriz uma seqncia de vetores, todos eles com a mesma dimenso e
organizados em uma tabela (Figura 1.1). Um voltamograma, por exemplo,
formado por uma seqncia de correntes obtidas com a varredura de potenciais.
Esta seqncia de correntes constitue um vetor que traz toda a informao do
voltamograma. Se mais de um voltamograma obtido nas mesmas condies e
estes voltamogramas forem dispostos seqencialmente (amostras), forma-se uma
tabela com tais voltamogramas (Tabela 1.1), onde cada ponto nesta tabela uma
corrente obtida no definido potencial. Esta tabela pode ser definida como uma
matriz de dados contendo, neste caso, informaes eletroqumicas.
Matrizes sero definidas por letras maisculas gregas ou romanas, em negrito.
,..., ...
Seus elementos sero representados pelas correspondentes letras minsculas,
em itlico com os subscritos definindo a linha e coluna, respectivamente, e.g., os
elementos da matriz X so dados por xij.
Em quimiometria, os conjuntos de dados obtidos instrumentalmente so
geralmente definidos pelo smbolo X. No caso de dados de segunda ordem (i.e.
uma matriz de dados) a letra X mauscula e em negrito ser usada.
Algumas vezes, matrizes sero escritas como X(IJ) para enfatizar que a
matriz X tem I linhas e J colunas. As matrizes identidades (Apndice) de ordem J
so escritas como Ij, mas onde a ordem bvia a partir do contexto, o subscrito
ser omitido. Frequentemente ser feito referncia s colunas da matriz, e ,
portanto conveniente definir as matrizes como uma srie de vetores colunas. Assim,
a matriz X(IJ) tambm ser definida como 1 2
, ,...,J
X x x x em que xj, j =
1,2,...,J so as (I1) colunas de X. Se for necessrio considerar a matriz formada
pelas primeiras S (< J) colunas de X, a matriz ser escrita como Xs, em que
1 2( ) , ,...,
s SI SX x x x .
-
Tefilo, R. F. 7
Tensores
Uma seqncia de matrizes de iguais dimenses organizadas de maneira a
formar, por exemplo, um cubo de dados (arranjo de altas ordens), chamado de
tensor (Figura 1.1) [3]. Os tensores sero definidos por letras maisculas, em
negrito e sublinhadas, podendo estar em letras gregas ou romanas, i.e., ,...,
.
Seus elementos sero representados como indicado para as matrizes, porm,
os subscritos estaro definindo os modos do tensor e.g., os elementos do tensor X
sero dados por xijk. Algumas vezes, tensores sero escritos como X (IJK) para
enfatizar que o tensor X tem I matrizes no modo 1, J matrizes no modo 2 e K
matrizes no modo 3 (Figura 1.1).
Um tensor frequentemente considerado em termos de seu conjunto de
matrizes. Estas matrizes formam as fatias horizontal, lateral e frontal de um tensor
em trs dimenses (Figura 1.2). Especificamente, a fatia horizontal i pertence s
entidades i = 1,....,I do modo 1, a fatia lateral j pertence s entidades j = 1,....,J do
modo 2, a fatia frontal k pertence s entidades k = 1,....,K do modo 3.
Figura 1.2. Ilustrao do arranjo tensorial (trs modos) em fatias (dois modos).
Os tensores, como as matrizes, so um bloco de dados. Assim, as definies
para variveis e amostras seguem a mesma idia, porm mais de duas dimenses
so consideradas para este tipo de dado e esta nova dimenso definida como mais
uma varivel da dimenso adicional. Deste modo, as I linhas representam a
dimenso 1, das amostras (modo 1), as J colunas representam as variveis da
-
Tefilo, R. F. 8
dimenso 2 (modo 2) e os K tubos representam as variveis da dimenso 3 (modo
3), conforme indicado na Figura 1.3.
Figura 1.3. Definio de linhas, colunas, e tubos em um arranjo de trs dimenses.
, porm, til coletar todos os modos em uma nica matriz. O processo de
rearranjo dos elementos de X dentro de X frequentemente chamado em
quimiometria de desdobramento, mas este termo confuso, visto que em
psicometria o termo desdobramento uma tcnica particular para escalar dados
multidimensionais [4].
Aqui este processo ser denominado como matriciao de um tensor em uma
matriz e o processo reverso ser chamado de reforma de uma matriz em um tensor.
As matriciaes podem ser realizadas em todos os modos (Figura 1.4). Assim,
JKI, corresponde s entidades do modo 3 embutidas nas entidades do modo 1;
KIJ, corresponde s entidades do modo 1 embutidas nas entidades do modo 2 e
IJK, corresponde s entidades do modo 2 embutidas nas entidades do modo 3.
-
Tefilo, R. F. 9
Figura 1.4. Matriciao de um arranjo em trs dimenses X para um de duas dimenses
X(IJK).
Smbolos
Os sobrescritos t, + e -1 indicam transposio, pseudo-inversa e inversa,
respectivamente. As barras referem-se norma euclidiana e I simboliza uma
matriz identidade dimensionada apropriadamente. O smbolo ^ indica a matriz,
vetor ou escalar estimado. Detalhes sobre transposio, pseudo-inversa, inversa e
norma euclidiana esto descritos no apndice.
Pr-Processamentos: Centrar na Mdia e Escalar pela Varincia
Na maioria dos mtodos quimiomtricos que sero descritos nesta tese
assumido que as colunas das matrizes so centradas na mdia e, algumas vezes, que
elas tambm foram escaladas pela varincia da coluna. Quando estes dois pr-
processamentos so realizados simultaneamente, o que tambm comum de se
assumir; dito que as colunas da matriz esto autoescaladas pela varincia, ou
somente, que a matriz est autoescalada.
Centrar os dados na mdia equivale geometricamente, a fazer uma translao
do sistema de eixos ao longo do vetor das mdias, para o centro do conjunto de
dados.
Escalar os dados tem como objetivo colocar variveis em uma mesma escala
quando tais unidades apresentam diferentes unidades entre si ou quando a faixa de
variao dos dados grande.
Se xij representa o (ij)-simo elemento da matriz X, ento a centragem dos
dados na mdia realizada da seguinte maneira
c
ij ij jx x x 1.1
em que 1
I
j ijix x I/ a mdia aritmtica dos elementos da j-sima coluna, xj
sendo I o nmero de elementos na coluna.
Quando as colunas de X so escaladas pela varincia temos:
-
Tefilo, R. F. 10
e
ij ij jx x s/ 1.2
em que
2
1
( )
1
I
ij ji
j
x x
sI
, que representa o desvio padro da j-sima coluna. O
autoescalamento obtido da seguinte maneira:
/aij ij j jx x x s 1.3
Durante a tese no ser feito nenhuma distino de notao entre a matriz X
original e a pr-processada por centragem ou por autoescalamento.
Transformao: Correo de Linha de Base
Durante a obteno dos dados, variaes sistemticas podem ocorrer e devem
ser removidas ou corrigidas antes das anlises [5,6].
Em anlises eletroqumicas, muitas variveis podem influenciar o sinal, o que
pode comprometer a qualidade dos resultados. Podemos destacar como influncias,
o deslocando da linha de base para maiores ou menores valores de corrente;
deformaes do sinal, salincias indesejveis na parte ngreme do sinal, ou um sinal
obtido sobre uma corrente de fundo inclinada.
Uma maneira de resolver parte destes problemas atravs da subtrao do
branco da respectiva amostra. Entretanto, algumas salincias podem ainda
permanecer e o deslocamento na linha de base no completamente corrigido.
Alm disso, nem sempre possvel obter um sinal de branco para cada amostra.
Uma maneira prtica e eficiente de resolver estes tipos de problemas
aplicando a correo de linha de base para cada amostra usando uma mdia mvel.
Durante a aplicao deste mtodo o nmero de pontos nos dados (nmero de
variveis J) substitudo temporariamente pelo clculo da mdia dentro de uma
janela de potenciais. A abertura da janela deve ser definida como tendo a menor
largura do pico do voltamograma obtido. A linha de base subsequentemente
calculada comparando cada valor de corrente com o valor mdio de seus dois
vizinhos. Se o valor absoluto da mdia for menor, a corrente substituda pelo
valor atual da mdia. Esta operao realizada repetidas vezes at que nenhum
-
Tefilo, R. F. 11
valor de corrente seja mais substitudo. Depois que a correo da linha de base
realizada com sucesso, um sinal com um pico bem definido obtido [7].
importante ressaltar que ao final do processo o nmero de variveis originais no
alterado.
Um experimento apenas um teste de uma srie de testes. Experimentos so
executados em todas as disciplinas cientficas e so uma importante parte do nosso
aprendizado sobre o funcionamento dos sistemas e processos. A validade das
concluses que so inferidas de um experimento depende da escala em que o
experimento foi conduzido. Portanto, o planejamento de experimentos representa
um dos principais papis na eventual soluo do problema que inicialmente
motivou o experimento [8].
Os experimentos podem ser executados em duas ou mais variveis (ou fatores)
que o experimentalista supe serem importantes, como por exemplo, pH e tipo de
enzima. Os planejamentos fatoriais uma poderosa ferramenta para investigar este
tipo de problema. Geralmente, em um planejamento experimental, os ensaios so
executados em todas as combinaes dos nveis dos fatores, normalmente dois ou
trs.
Por outro lado, a metodologia de superfcie de resposta (RSM) uma coleo
de tcnicas matemticas e estatsticas que so teis para modelar e analisar sistemas
onde a resposta de interesse influenciada por vrias variveis, e cujo objetivo
otimizar a resposta. Neste caso, em relao aos planejamentos fatoriais, mais nveis
das variveis so investigados em uma maior regio experimental.
Para analisar os resultados de ambas as metodologias, vrios grficos e tabelas
so utilizadas. O mtodo de regresso por quadrados mnimos extremamente
necessrio e normalmente, o primeiro clculo realizado. A anlise de varincia
(ANOVA), em particular, usada como uma das principais ferramentas para a
anlise estatstica.
Nesta seo sero descritos os planejamentos fatoriais completos e
fracionrios, normalmente empregados na etapa de triagem. Para a etapa de
-
Tefilo, R. F. 12
otimizao sero descritos os planejamentos compostos centrais e Doehlert, que se
baseiam na metodologia de superfcie de resposta.
Experimentos para Triagem
Muitas vezes em um sistema, diversos fatores ou variveis (os termos fatores e
variveis sero usados nesta seo indistintamente) podem influenciar a resposta
desejada. Um experimento para triagem executado com o interesse em se
determinar as variveis experimentais e as interaes entre variveis que tm
influncia significativa sobre as diferentes respostas de interesse [8,9].
Aps selecionar as variveis que so possveis de serem estudadas e que
provavelmente interferem no sistema, preciso avaliar a metodologia experimental
(tempo, custo, etc.). As variveis que no forem selecionadas devem ser fixadas
durante todo o experimento.
Em uma etapa seguinte, deve-se escolher qual planejamento usar para estimar
a influncia (o efeito) das diferentes variveis no resultado. No estudo de triagem,
as interaes entre as variveis (interaes principais) e de segunda ordem, obtidas
normalmente pelos planejamentos fatoriais completos ou fracionrios, so de
extrema importncia para a compreenso do comportamento do sistema.
Planejamentos Fatoriais Completos
Em um planejamento fatorial so investigadas as influncias de todas as
variveis experimentais de interesse e os efeitos de interao (sinergismo) entre
elas na resposta ou respostas. Se a combinao de J fatores investigada em dois
nveis, um planejamento fatorial consistir de 2J experimentos. Normalmente, os
nveis dos fatores quantitativos (i.e. concentraes de uma substncia, valores de
pH, etc.) so designados pelos sinais (menos) para o nvel mais baixo e + (mais)
para o nvel mais alto, porm o que importa a relao inicial entre o sinal
atribudo e o efeito obtido, no sendo um critrio definido a nomeao dos sinais.
Para fatores qualitativos (i.e. tipos de cidos, tipos de catalisadores, etc.), como no
existem valores altos ou baixos, fica a critrio do experimentalista atribuir os seus
nveis.
-
Tefilo, R. F. 13
Os sinais para os efeitos de interao de 2 ordem e de ordem superior entre
todas as variveis do planejamento, realizando todas as combinaes possveis, so
obtidos pelo produto dos sinais originais das variveis envolvidas. Desta maneira
possvel construir as colunas de sinais para todas as interaes e assim elaborar a
matriz de coeficientes de contraste (Tabela 1.2).
Tabela 1.2. Matriz de coeficientes de contraste para um planejamento fatorial 23.
Variveis Interaes*
Mdia x1 x2 x3 x12 x13 x23 x123
+ - - - + + + -
+ + - - - - + +
+ - + - - + - +
+ + + - + - - -
+ - - + + - - +
+ + - + - + - -
+ - + + - - + -
+ + + + + + + + * x12, x13 e x23, so os efeitos de interao de 2 ordem; x123 o efeito de interao de 3
ordem.
Uma coluna de sinais + (mais) adicionada esquerda da matriz de
coeficientes de contraste para o clculo da mdia de todas as respostas observadas.
Suponha um planejamento fatorial com I ensaios e com iy observaes
individuais (quando houver replicatas, considere a resposta mdia iy ). Os efeitos
para cada coluna da matriz de coeficientes de contraste (conforme Tabela 1.2) so
dados pelas seguintes equaes:
1
I
ii
mdio
y
efI
1.4
1 1
2
I I
i ii i
I
y y
ef
2 2
( ) ( )
1.5
A equao 1.4 descreve o efeito para a mdia de todas as observaes,
enquanto a equao 1.5 descreve a diferena entre as mdias das observaes no
nvel mais (iy ( ) ) e as mdias das observaes no nvel menos ( iy ( ) ).
-
Tefilo, R. F. 14
Outro mtodo para o clculo dos efeitos para um planejamento fatorial
completo ser descrito mais adiante no item: Modelos Empricos em Estudo de
Triagem.
Planejamentos Fatoriais Fracionrios
O planejamento fatorial completo necessita de 2J ensaios para sua execuo,
portanto sua principal desvantagem o grande nmero de ensaios que devem ser
realizados a cada fator adicionado ao estudo. Se considerarmos (e observarmos)
que os efeitos de altas ordens, principalmente para planejamentos com J > 4, so
quase sempre no significativos, a realizao de ensaios para estimar tais efeitos de
interao desnecessria. Desta maneira, com um nmero menor de experimentos,
possvel obter informaes daqueles efeitos mais importantes e retirar, na maioria
das vezes, as mesmas concluses caso fosse realizado um planejamento fatorial
completo. Os planejamentos que apresentam estas caractersticas so conhecidos
como planejamentos fatoriais fracionrios [9-13].
H muitos e diferentes tipos de planejamentos fatoriais fracionrios (1/2, 1/4,
1/8, 1/16...1/2b de um planejamento 2
J-b) descritos na literatura [9-11], em que J o
nmero de variveis investigadas e b o tamanho da frao. O tamanho da frao
influenciar no possvel nmero de efeitos a serem estimados, e consequentemente,
no nmero de experimentos necessrios [9].
Pode-se ainda dizer que h dois tipos de fraes: aquelas cujo objetivo obter
somente os efeitos principais [12] e aquelas em que se adicionam experimentos
para separar e estimar efeitos de interaes, caso se assuma que tais interaes
apresentam influncia sobre os resultados [9]. No primeiro caso necessrio
executar, por exemplo, apenas 8 experimentos para investigar 7 variveis, 12
experimentos para 11 variveis, etc. Estes so conhecidos como planejamentos
saturados [9-11] e planejamentos de Plackett-Burman [12].
Construo do planejamento fatorial fracionrio
Normalmente, para a construo do planejamento fatorial fracionrio
desejado, utiliza-se um planejamento fatorial completo. Para exemplificar,
consideremos um planejamento 23-1
construdo a partir de um planejamento fatorial
-
Tefilo, R. F. 15
completo com duas variveis: V1 e V2. A Tabela 1.3 apresenta o planejamento
fatorial completo com duas variveis. Sero necessrios quatro experimentos para a
execuo deste planejamento 22 e a partir dos resultados podem-se obter os efeitos
principais das duas variveis e o efeito de interao (V1.V2). A coluna da matriz de
coeficientes de contraste responsvel pela interao obtida pela multiplicao dos
elementos da coluna da varivel V1 com os respectivos elementos da varivel V2.
As colunas de V1, V2 e V1V2 da matriz de coeficientes de contraste de um
planejamento fatorial completo definem a configurao de um planejamento
fatorial fracionrio com trs variveis utilizando apenas os quatro ensaios
destacados em negrito na Tabela 1.4, em que V1, V2 e V1V2 sero substitudas pelas
variveis independentes x1, x2 e x3.
Como o nmero de experimentos a metade do completo, temos uma meia
frao de um planejamento fatorial 23 ( 3 1 3 3 11
22 2 2 2 ), conforme as Tabelas 1.3
e 1.4.
Tabela 1.3. Planejamento fatorial fracionrio 23-1
a partir de um planejamento fatorial
completo 22.
Nexp.(*)
x1 (V1) x2 (V2) x3 (V1V2)
5 -1 -1 1
2 1 -1 -1
3 -1 1 -1
8 1 1 1 (*)
Ensaios correspondentes obtidos da Tabela 1.3.
Uma outra propriedade importante dos planejamentos fatoriais fracionrios diz
respeito aos experimentos selecionados que cobrem o volume mximo do domnio
considerado em um nmero limitado de experimentos [9]. Note nas Tabelas 1.2 e
1.3 que os experimentos destacados so comuns aos dois planejamentos.
distribuem em um domnio experimental para trs variveis (Tabela 1.4).
Tabela 1.4. Planejamento fatorial completo 23.
N exp. x1 x2 x3
-
Tefilo, R. F. 16
1 -1 -1 -1
2 1 -1 -1
3 -1 1 -1
4 1 1 -1
5 -1 -1 1
6 1 -1 1
7 -1 1 1
8 1 1 1
23-1
.
Para a montagem de um planejamento fatorial fracionrio saturado, considere
o seguinte exemplo: sete variveis podem ser estudadas, com um mnimo de
experimentos, em um planejamento fatorial fracionrio com frao 1/16, ou seja,
27-4 7 4 7 7 41
162 2 2 2 . Para este caso, o planejamento definido pelo modelo de
matriz para um planejamento fatorial 23 (Tabela 1.4).
Um planejamento fatorial completo com sete variveis necessita de 128
experimentos. Sendo o planejamento fracionrio 27-4
, 1/16 do planejamento
completo, ele necessitar de somente 8 experimentos.
Neste caso, para a elaborao da matriz de planejamento a partir da matriz
mostrada na Tabela 1.4, as variveis x4, x5, x6 e x7, sero os produtos das colunas
das variveis x1x2, x1x3, x2x3 e x1x2x3, respectivamente.
-
Tefilo, R. F. 17
Efeitos confundidos e resoluo
Certamente h perda de informaes quando se realizar um planejamento
fatorial fracionrio. Os efeitos principais so misturados com os efeitos de
interao e esta contaminao aumenta entre as interaes quando se aumenta a
frao do planejamento.
Para entender melhor a confuso causada por esta mistura, considere uma
meia frao de um planejamento fatorial 25-1
(Tabela 1.5). O objetivo obter todos
os efeitos principais e todos os possveis efeitos de interao realizando apenas 16
ensaios. Uma matriz de planejamento elaborada a partir de um planejamento 24.
A coluna da quinta varivel (5) obtida a partir da multiplicao de todas as outras,
ou seja, 1234. Assim 5 = 1234, chamado de gerador de um planejamento
fracionrio [11] [13]. Observa-se pela Tabela 1.5 que os coeficientes de contraste
para o efeito de 123 tm os mesmos sinais de 45. Isto mostra que os efeitos
estimados por estas duas interaes sero os mesmos, ou seja, sero confundidos,
sendo assim chamados de pseudnimo um do outro.
A meia frao do planejamento mostrada na Tabela 1.5 foi obtida a partir do
gerador (5=1234), no entanto, para conhecer a identidade de um pseudnimo
realizada uma definio de contrastes a partir da relao apresentada pela equao
1.6.
C = 12345 1.6
O pseudnimo obtido multiplicando o definido contraste C por cada um dos
efeitos. Por exemplo: o pseudnimo de 1 obtido multiplicando 1 por 12345.
Considere tambm, como regra, que se um mesmo termo aparecer mais de uma vez
na multiplicao, este termo desaparece. Portanto, 112345 = 2345. Para 12 o
pseudnimo 1212345 = 345.
Tabela 1.5. Coeficientes de contraste para um planejamento fatorial fracionrio 25-1
.
N exp. 1 2 3 4 5 1234 123 45 2345
1 - - - - + + - - -
2 + - - - - - + + +
3 - + - - - - + + -
4 + + - - + + - - +
5 - - + - - - + + -
-
Tefilo, R. F. 18
6 + - + - + + - - +
7 - + + - + + - - -
8 + + + - - - + + +
9 - - - + - - - - +
10 + - - + + + + + +
11 - + - + + + + + -
12 + + - + - - - - +
13 - - + + + + + + -
14 + - + + - - - - +
15 - + + + - - - - -
16 + + + + + + + + +
Se outro fator F adicionado ao planejamento 25-1
(Tabela 1.5) ele passa a ser
um planejamento 25-2
e, portanto, um quarto do fatorial completo. Para obter este
novo fator, uma outra definio de contrastes obtida de um gerador adicional.
Assim 5 = 1234 e 6 = 123. Portanto, C = 12345 e C = 1236, respectivamente. Uma
terceira definio de contrastes ento obtida multiplicando os dois anteriores
conforme a equao 1.7.
C = 123451236 = 456 1.7
O pseudnimo para cada efeito pode agora ser obtido pela maneira usual. Para
1 temos: 1 = 112345 = 11236 = 1456 ou 1 = 2345 = 236 = 1456.
Assim, com um quarto do planejamento 25, cada efeito apresenta trs
pseudnimos e a estimativa dos efeitos principais so individuais, no entanto eles
se confundem com efeitos de interao de 2 ordem.
Este tipo de confuso pode ocasionalmente causar dificuldades na
interpretao dos resultados, mas isto facilmente contornado por adio de
poucos experimentos complementares a fim de separar efeitos confundidos.
Um importante conceito em planejamentos fatoriais fracionrios a resoluo
do planejamento, que define a ordem em que se negligenciam os efeitos e
definida por um nmero romano colocado depois do planejamento ou subescrito.
Em geral, a resoluo o valor do nmero de fatores que compem o termo de
menor comprimento nas definies de contrastes C [11]. Para ilustrar:
Resoluo III No confunde efeitos principais entre si, mas os confunde com
efeitos de interao entre dois fatores.
-
Tefilo, R. F. 19
Resoluo IV No confunde efeitos principais entre si e nem com efeitos de
interao entre dois fatores, mas confunde efeitos principais com efeitos de
interao entre trs variveis e os efeitos entre duas variveis se confundem com
outros efeitos, inclusive entre eles.
Resoluo V Os efeitos principais so confundidos com efeitos de interao
entre quatro variveis e os efeitos de interao entre duas variveis so confundidos
com efeitos de interao entre trs variveis.
Planejamentos fatoriais fracionrios com resoluo maior que V so raramente
usados em triagem [9].
Os clculos para estimativa dos efeitos para um planejamento fatorial
fracionrio sero descritos mais adiante no item: Modelos Empricos em Estudo de
Triagem.
Planejamentos Fatoriais com Ponto Central
Em muitos casos, a realizao de repeties autnticas pode ser algo
inconveniente por diversas razes. Para contornar este infortnio e obter uma boa
estimativa dos erros, um experimento normalmente includo no centro do
planejamento (Figura 1.6), em que o valor mdio dos nveis de todas as variveis
empregado. So os conhecidos experimentos no ponto central (nvel zero). Deste
modo, possvel avaliar a significncia dos efeitos ou coeficientes, tanto em
planejamentos de triagem (completos ou fracionrios) como em metodologias de
superfcie de resposta (discutidos mais adiante). Alm desta vantagem, recomenda-
se este tipo de experimento pelas seguintes razes [9]:
- o risco de perder a relao no linear entre os intervalos minimizado;
- possvel estimar um modelo razovel e verificar se h falta de ajuste;
Logicamente no h como fugir das repeties, mas o nmero destas, na
maioria dos casos, significativamente reduzido.
No entanto, esta metodologia somente possvel de ser aplicada quando se
utilizam variveis quantitativas, visto que, para variveis qualitativas no h como
adicionar nveis no ponto central.
-
Tefilo, R. F. 20
Os clculos para estimativa de efeitos e coeficientes relacionados aos
planejamentos com ponto central sero discutidos mais adiante no item: Modelos
Empricos em Estudo de Triagem.
Figura 1.6. Planejamento 22 com ponto central.
Modelos Empricos em Estudo de Triagem
Pode-se assumir, desde o incio do experimento, que o sistema estudado
(domnio experimental) regido por uma expresso matemtica que funo das
variveis experimentais. Normalmente esta funo pode ser aproximada por um
polinmio, o qual pode fornecer uma boa descrio entre os fatores e a resposta
obtida. A ordem deste polinmio limitada pelo tipo de planejamento usado.
Planejamentos fatoriais de dois nveis, completos ou fracionrios, podem estimar
apenas efeitos principais e interaes. Planejamentos fatoriais de trs nveis (ponto
central) podem estimar, alm disso, o grau de curvatura na resposta.
Para descrever tais modelos em um estudo de triagem, so utilizados os
polinmios mais simples, ou seja, aqueles que contm apenas termos lineares.
Considerando um exemplo para trs variveis, x1, x2 e x3 dois polinmios seriam:
y = b0 + b1x1 + b2x2 + b3x3+ e 1.8
y = b0 + b1x1 + b2x2 + b3x3 + b12x1x2 + b13x1x3 + b23x2x3 + b123x1x2x3+ e 1.9
Segundo a equao 1.8, o coeficiente b0 o valor populacional da mdia de
todas as respostas obtidas, b1, b2 e b3 so os coeficientes relacionados com as
-
Tefilo, R. F. 21
variveis x1, x2, e x3 respectivamente, e o erro aleatrio associado ao modelo e,
para o caso da equao 1.9, b12, b13, b23 so os coeficientes para as interaes x1x2,
x1x3, x2x3 e b123 o coeficiente para a interao x1x2x3.
A partir do planejamento montado, pode-se construir a matriz de coeficientes
de contraste, de acordo com a Tabela 1.1. A matriz de coeficientes de contraste X,
juntamente com o vetor de respostas y, obtido experimentalmente, ser utilizada
para o clculo dos coeficientes do modelo, conhecidos tambm como vetor de
regresso.
O modelo procurado, descrito pelas equaes 5 e 6 pode ser representado
matricialmente pela equao 1.10,
= Xb 1.10
em que o vetor das respostas estimadas pelo modelo e b o vetor de regresso.
Uma maneira de determinar o vetor de regresso b atravs do mtodo dos
quadrados mnimos [14] [15], definido pela equao 1.13, em que Xt indica a
transposta de X.
b = (XtX)
-1X
ty 1.11
em que (XtX)
-1 a matriz inversa do produto da transposta da matriz X com ela
mesma.
Para um planejamento fatorial completo, a matriz 1I
X quadrada e ortogonal
onde I corresponde ao nmero de ensaios. Isto ocorre pois as colunas de X no
esto normalizadas, portanto X-1
= 1I X
t. Neste caso a equao 1.13 se resume
equao 1.12.
b = 1I X
ty 1.12
A equao 1.11 geral e pode ser empregada para fazer a estimativa de efeitos
e coeficientes para todos os planejamentos descritos neste artigo, no entanto a
equao 1.12 especfica para o planejamento fatorial completo, no sendo
aplicvel aos outros planejamentos descritos.
-
Tefilo, R. F. 22
Como as variveis so estudadas em dois nveis codificados, cada efeito
satisfaz variao de duas unidades da varivel correspondente. Se considerarmos
os fatores individualmente, pode-se provar que o valor de cada coeficiente do
modelo a metade do valor do efeito correspondente, exceto para b0, cujo valor o
mesmo do calculado para seu efeito (equao 1.6). Desta maneira, o modelo
empregado para descrever as respostas elaborado em funo dos efeitos por
unidade de variao individual [10].
Estimativa dos Erros para os Efeitos atravs de Repeties
Normalmente, os resultados obtidos em experimentos de planejamento fatorial
completo ou fracionrio com repeties, consistem de uma pequena amostra de um
hipottico conjunto maior, representado por uma populao. Destes dados podemos
obter a mdia amostral, a varincia amostral e o desvio padro amostral, como se
segue:
1
R
rr
y
yR
1.13
2
2 1
( )
( 1)
R
rr
y y
sR
1.14
2
1
( )
( 1)
R
rr
y y
sR
1.15
em que R o nmero de replicatas, isto , o nmero de ensaios realizados em um
mesmo ponto experimental (nvel), yr so os valores de cada observao individual,
y o valor mdio, s2 a varincia e s o desvio padro.
A soma dos desvios da mdia amostral de R replicatas necessariamente zero.
Isto requer que ( ) 0r
y y constitua uma restrio linear nos desvios usados no
clculo de s2. Est subentendido que com R 1 replicatas possvel determinar a
que falta. Os R resduos y y e consequentemente a soma dos seus quadrados
juntamente com a varincia amostral, so ditas ter, por esta razo, R 1 graus de
-
Tefilo, R. F. 23
liberdade. A perda de um grau de liberdade est associada necessidade de
substituir a mdia populacional pela mdia amostral derivada dos dados. Desta
maneira, quando repeties genunas so realizadas em uma srie de condies
experimentais, a variao entre suas observaes pode ser usada para estimar o
desvio padro de uma simples observao e consequentemente o desvio dos efeitos
[11]. Todos os ensaios, inclusive repeties, devem ser realizados aleatoriamente,
refazendo todas as etapas do experimento. As repeties realizadas desta maneira
so consideradas genunas.
Em um experimento em que cada ensaio foi realizado r vezes, se o valor de R
R
clculo da varincia. Uma maneira para se obter um maior nmero de graus de
liberdade realizando uma estimativa conjunta das varincias conforme a equao
1.16.
2
2 1
1
[( 1) ]
( 1)
I
i ii
c I
ii
R s
s
R
1.16
1
( 1)I
ii
R 1.17
O resultado da equao 1.16 reflete a varincia conjunta ( 2cs ) de cada
observao individual yi sendo o erro padro igual raiz quadrada do mesmo. A
equao 1.17, que exatamente o denominador da equao 1.16 , portanto, o
nmero de graus de liberdade da estimativa conjunta, designada como .
Observa-se atravs das equaes 1 e 2 e considerando a realizao de
repeties autnticas, que cada efeito uma combinao linear dos valores de yi
dos I ensaios, com coeficientes c iguais a + 2/I e -2/I. Levando em considerao a
aleatoriedade dos ensaios, tais valores so estatisticamente independentes e
apresentam a mesma varincia populacional 2. Neste caso, por definio, as
correlaes entre todas as variveis so nulas, e a varincia da combinao linear
das variveis aleatrias pode ser dada por [10]:
2 2 2
i ii
c 1.18
-
Tefilo, R. F. 24
Transportando a equao 1.18 para o nosso mundo amostral, pode-se provar
que a varincia de cada efeito dada por [10]:
2
1
4( )
c
I
ii
sV ef
R
1.19
em que 2cs dada pela equao 1.16.
Finalmente, para calcular o valor do erro padro de cada efeito, basta extrair a
raiz quadrada de V(ef).
Estimativa dos Erros para os Efeitos, sem Repeties
Uma maneira de estimar erros de efeitos sem a realizao de repeties
supor que interaes de altas ordens para J 3 no so significativos e, portanto, so
erros experimentais nos valores dos efeitos.
Aplicando a equao 1.16 sobre estes efeitos de interao e fazendo algumas
consideraes, obtm-se a varincia dos efeitos conforme a equao 1.20.
1
( )
V( )
l
ii
efi
efl
2
1.20
em que efii so os efeitos de interao considerados como erros experimentais e l
o nmero total de efeitos considerados.
preciso estar atento ao utilizar este tipo de estimativa do erro. Nem sempre
os efeitos de altas ordens so irrelevantes e, se tais efeitos forem includos no
clculo, os erros se tornam altos e desta maneira no possvel distinguir com
confiabilidade aqueles que so realmente importantes.
O nmero de graus de liberdade utilizado para a avaliao dos efeitos
agregados a estes erros o mesmo nmero total de efeitos considerados como
erros, isto , o valor l da equao 1.20.
-
Tefilo, R. F. 25
Estimativa dos Erros para os Efeitos e Coeficientes a partir das Repeties no Ponto Central
Conforme mencionado anteriormente, uma das grandes vantagens da incluso
de experimentos no centro do planejamento devido a estimativa do erro com
poucas repeties, normalmente entre 3 e 5.
A partir das repeties realizadas possvel obter a mdia e a varincia das
replicatas de acordo com as equaes 1.13 e 1.14, respectivamente.
Por outro lado, sendo os coeficientes obtidos atravs da equao 1.11, nota-se
que a matriz (XtX)
-1 apresenta grande influncia na varincia dos parmetros de
regresso. O produto desta matriz com o valor da varincia obtida atravs das
repeties no ponto central (equao 1.14) fornece a matriz V(b) conhecida como
matriz de varincia-covarincia (equao 1.21). A matriz V(b) simtrica e os
elementos de sua diagonal so as varincias dos parmetros de regresso na mesma
ordem em que elas aparecem na equao de regresso. Os elementos fora da
diagonal so as covarincias entre os parmetros de regresso. A raiz quadrada dos
elementos da diagonal principal da matriz V(b) determina os valores
correspondentes dos erros padro (sbi) dos coeficientes calculados (equao 1.22).
V(b) = (XtX)
-1s
2 1.21
sbi = ii( )v b , i=1, 2, ..., I 1.22
Identificao dos Efeitos e Coeficientes Significativos
Na literatura [9-11,13] h diferentes mtodos para se avaliar efeitos e
coeficientes significativos; entre os mais usados destaca-se a anlise de varincia
(ANOVA), o grfico de probabilidade (distribuio normal), e a comparao de
efeitos com uma medida independente da variabilidade. Neste trabalho, as
avaliaes de significncia para a deciso estatstica, tanto para efeitos como para
coeficientes de modelos, foram realizadas empregando o teste t (distribuio de
Student), atravs do valor p [8,16].
-
Tefilo, R. F. 26
Para realizar a interpretao correta utilizando o valor p necessrio
compreender os testes de hiptese e significncia, conforme descrito abaixo.
Em muitos casos, formula-se uma hiptese estatstica com o propsito de
rejeit-la ou invalid-la. Por exemplo: se o desejo decidir se um sistema
diferente do que outro, formula-se a hiptese de que no h diferena entre os
sistemas. Essa hiptese denominada nula e representada por H0. Qualquer
hiptese diferente da pr-fixada denominada hiptese alternativa e normalmente
representada por H1 [8,16].
Se uma hiptese for rejeitada quando deveria ser aceita, diz-se que foi
cometido um erro tipo I. Se, por outro lado, uma hiptese for aceita quando deveria
ter sido rejeitada, diz-se que foi cometido um erro do tipo II. Em ambos os casos
foi tomada uma deciso errada ou foi cometido um erro de julgamento [8].
Para que qualquer teste de hiptese ou regra de deciso seja adequada, eles
devem ser planejados de modo que os erros de deciso sejam reduzidos ao mnimo.
Ao testar uma hiptese estabelecida, a probabilidade mxima, representada
freqentemente por , com a qual se sujeitaria a correr o risco de um erro do tipo I
denominada nvel de significncia do teste.
Se, por exemplo, escolhido um nvel de significncia = 0,05 ou 5%, h
ento cerca de 5 chances em 100 da hiptese nula ser rejeitada, quando deveria ser
aceita, isto , h uma confiana de 95% de que se tomou uma deciso correta.
Nesses casos, diz-se que a hiptese rejeitada ao nvel de significncia 0,05, o que
significa que a probabilidade de erro seria de 0,05 [16].
Considerando a hiptese nula de que o valor do efeito se confunde com seu
erro, pode-se formular a seguinte regra de deciso:
a) Rejeio da hiptese nula com 5% de significncia, quando o valor de
tcalc situar-se fora do intervalo entre t ( calct t ). Isso equivale a dizer que o
valor estatstico amostral observado significativo no nvel definido.
b) Aceitao da hiptese, caso contrrio.
Uma maneira alternativa de concluir o teste de hiptese comparar o valor p
do teste estatstico amostral com o nvel de significncia . O valor p do teste
estatstico amostral o menor nvel de significncia para que se rejeite H0 [8].
Neste sentido, compara-se o valor p com e, se o valor p rejeita-se H0, caso
-
Tefilo, R. F. 27
contrrio H0 aceito. A vantagem de se conhecer o valor p est na possibilidade de
se avaliar todos os nveis de significncia para que o resultado observado possa ser
estatisticamente rejeitado [8,16]. A representao grfica do valor p descrita na
Figura 1.7.
Figura 1.7. Representao grfica do valor p para um teste unilateral.
Conforme as Figuras 1.7(a e b), o nvel de significncia a rea hachurada
no grfico de distribuio. Na Figura 1.7a a rea correspondente ao valor p maior
que o nvel de significncia, portanto, o valor calculado do teste estatstico est fora
da regio crtica, o que implica em aceitar H0. Para a Figura 1.7b a rea do valor p
menor que o nvel de significncia e assim, o valor calculado do teste estatstico
est dentro da regio crtica, o que implica e rejeitar H0. importante ressaltar que
esta discusso vlida tanto para testes unilaterais quanto para bilaterais.
Especificamente, o valor p representa a probabilidade de validade do erro
envolvido no resultado observado, isto , como representativo da populao. Por
exemplo: levando em considerao o valor de um efeito, se o valor do teste
estatstico calculado (razo entre o efeito e o seu erro) apresentar um grande desvio
da distribuio de Student, ele provavelmente descreve algo mais que o resduo
experimental. Desta maneira, ser significativo dentro de um intervalo de confiana
e assim, ttcalc ou p , para o nmero de graus de liberdade em questo.
-
Tefilo, R. F. 28
Metodologia de Superfcie de Resposta: Otimizao
Aps a realizao dos experimentos de triagem, os fatores significativos so
selecionados e uma metodologia de anlise de superfcies de respostas pode ser
executada para a otimizao do experimento. Neste sentido, otimizar significa
encontrar os valores das variveis que iro produzir a melhor resposta desejada, isto
, encontrar a regio tima na superfcie definida pelos fatores.
A metodologia de superfcie de resposta baseia-se na construo de modelos
matemticos empricos que geralmente empregam funes polinomiais lineares ou
quadrticas, para descrever o sistema estudado e, conseqentemente do condies
de explorar (modelar e deslocar) o sistema at sua otimizao.
Um planejamento experimental construdo para estimar coeficientes, segundo
algum modelo aproximado, deve reunir certos critrios desejveis, sendo os
principais [14,15]: Proporcionar boas estimativas para todos os coeficientes,
exigindo poucos experimentos; Fornecer condies de avaliao dos coeficientes e
do modelo, ou seja, da regresso e da falta de ajuste.
Neste trabalho sero descritos os Planejamentos: Composto Central (CCD -
Central Composite Design) [17] e Doehlert [18], visto que apresentam todos os
critrios descritos acima, dentre outros e possivelmente so as classes de
planejamentos mais utilizadas para ajustar modelos quadrticos (equao 1.23),
2
01 1
J J
j j jj j fj f jj j f j j
y b b x b x b x x e 1.23
na equao 1.23, J, o nmero de variveis.
Planejamento Composto Central
Os planejamentos compostos centrais (CCD) foram apresentados por Box e
Wilson [17] em 1951 como uma evoluo dos planejamentos 33, que necessitavam
de muitos experimentos para um pequeno nmero de fatores, mesmo para
planejamentos fracionrios. Outras vantagens, como rotabilidade e blocagem
-
Tefilo, R. F. 29
ortogonal, alm do pouco nmero de ensaios, foram obtidas devido presena das
seguintes partes no planejamento [14]:
Um planejamento fatorial completo de dois nveis, podendo ser usado ainda,
um planejamento fatorial fracionrio de dois nveis;
Experimentos no ponto central, isto , xi = 0 para todo i;
Experimentos nos pontos axiais em que xi xj = 0 para j i4 2J . Estes pontos so situados nos eixos do sistema de coordenadas com distncia
A Figura 1.8 ilustra os pontos experimentais no sistema de coordenadas,
definidos pelos eixos xi.
Figura 1.8. Planejamentos compostos centrais: (A) J B) J = 3 e
axiais e (O) ponto central.
Para construo de um planejamento CCD necessrio definir o nmero de
variveis a serem estudadas (J), qual planejamento fatorial ser empregado
(completo 2J ou fracionrio 2
J-b) e quantos experimentos sero realizados no ponto
central (normalmente, 2J+1). O nmero de experimentos a ser realizado dado por:
2J+2J+1.
variveis [14,15] e a Tabela 1.7 apresenta as matrizes de planejamento para 2 e 3
variveis.
Tabela 1.6. Alguns planejamentos CCD e suas caractersticas.
N variveis(J) 2 3 4 5 5 6 6
-
Tefilo, R. F. 30
Valor de b para 2J-b
0 0 0 0 1 0 1
N de exp. no planej. fatorial 4 8 16 32 16 64 32
N de exp. no ponto axial 4 6 8 10 10 12 12
1,414 1,682 2,000 2,378 2,000 2,828 2,378
Tabela 1.7. Matrizes dos planejamentos compostos centrais com duas e trs variveis.
Planejamento CCD 22 Planejamento CCD 2
3
x1 x2 x1 x2 x3
-1 -1 Planejamento
fatorial
-1 -1 -1 Planejamento
fatorial 1 -1 1 -1 -1
-1 1 -1 1 -1
1 1 1 1 -1
-1 -1 1
0 0 Ponto central 1 -1 1
-1 1 1
- 0 Pontos axiais 1 1 1
0
0 - 0 0 0 Ponto central
0
- 0 0 Pontos axiais
0 0
0 - 0
0 0
0 0 -
0 0
qualquer valor codificado xi) necessitam ser decodificados para os valores
experimentais dos nveis das variveis a serem estudadas e para isso utiliza-se a
equao 1.24:
2
ii
z zx
z 1.24
em que xi o valor codificado do planejamento CCD, zi o valor experimental do
nvel, z o valor mdio entre os nveis mais (+) e menos (-), que exatamente o
valor do nvel zero (0) e z a diferena entre os nveis mais (+) e menos (-).
-
Tefilo, R. F. 31
experimentalmente vivel para o nvel, desde que no ocorram grandes distores
no valor original.
Utilizando a Tabela 1.6 podem-se construir diferentes tipos de planejamentos
CCD, conforme aqueles apresentados na Tabela 1.7. A partir do planejamento
montado, pode-se obter a matriz de coeficientes de contraste, de acordo com a
Tabela 1.2. O modelo apresentado na equao 1.23 pode ser representado
matricialmente segundo a equao 1.10 e seus coeficientes so estimados atravs
da equao 1.11.
A estimativa dos erros para os coeficientes a partir das replicatas no ponto
central realizada conforme as equaes 1.21 e 1.22 e a avaliao dos coeficientes
realizada conforme o item: Identificao dos Efeitos e Coeficientes
Significativos, descrito anteriormente.
Matriz Doehlert
O planejamento Doehlert ou Matriz Doehlert foi apresentado por David H.
Doehlert em 1970 [18], sendo uma alternativa bastante til e atrativa aos
planejamentos experimentais de segunda ordem. Os pontos da matriz Doehlert
correspondem aos vrtices de um hexgono gerado de um simplex regular e em
geral, o nmero total de pontos experimentais no planejamento igual a J2+J+pc,
em que J o nmero de fatores e pc o nmero experimentos no ponto central.
Uma importante propriedade do planejamento Doehlert diz respeito ao nmero de
nveis que cada varivel possui. Com quatro variveis, por exemplo, o nmero de
nveis so 5, 7, 7 e 3, o que permite avaliar as variveis consideradas mais
importantes, ou seja, que apresentam efeitos mais pronunciados em um nmero
maior de pontos do espao estudado [19]. Alm disso, este tipo de planejamento
necessita de um menor nmero de experimentos em relao ao planejamento
Composto Central, sendo, portanto, mais eficiente. Esse menor nmero de
experimentos para se chegar regio tima vem do fato de que o domnio da
vizinhana facilmente explorado pelo ajuste de poucos experimentos, j que o
prximo hexgono utiliza pontos experimentais j explorados pelo hexgono
anterior, conforme Figura 1.9 [9].
-
Tefilo, R. F. 32
Figura 1.9. Planejamento
experimentos ( ).
O planejamento Doehlert descreve um domnio circular para duas variveis,
esfrico para trs e hiperesfrico para mais de trs variveis, o que acentua a
uniformidade no espao envolvido. Embora suas matrizes no sejam ortogonais
nem rotacionais, elas no apresentam divergncias significativas que comprometa a
qualidade necessria para seu uso efetivo [20]. Para duas variveis, a matriz
Doehlert consiste de um ponto central e mais seis pontos adicionais formando um
hexgono regular e, por esse motivo, situada sob um crculo (Figura 1.9). As
matrizes do planejamento Doehlert para duas, trs e quatro variveis podem ser
visualizadas na Tabela 1.8. As matrizes Doehlert apresentadas na Tabela 1.8 so
pr-estabelecidas e suas construes no so triviais como os outros planejamentos
apresentados neste trabalho. Mais detalhes sobre a construo deste tipo de matriz
podem ser obtidos nas referncias 22 e 25.
Cada planejamento definido considerando o nmero de variveis e os
valores codificados (xi) da matriz experimental. A relao entre os valores
experimentais e os valores codificados dada pela Equao 1.25.
0
i ii d
i
z zx
z 1.25
O termo xi o valor codificado para o nvel do fator i; zi o seu experimental;
zi a distncia entre o valor experimental no ponto central e o experimental no
-
Tefilo, R. F. 33
nvel superior ou inferior, d o maior valor limite codificado na matriz para cada
fator e 0iz o valor experimental no ponto central.
Tabela 1.8. Matrizes Doehlert para duas, trs e quatro variveis.
Variveis Experimentais Matriz Doehlert
2 Variveis 3 Variveis 4 Variveis
x1a x2a x1b x2b x3b x1c x2c x3c x4c
1 0 0 0 0 0 0 0 0 0
2 1 0 1 0 0 1 0 0 0 3 0,5 0,866 0,5 0,866 0 0,5 0,866 0 0 4 -1 0 0,5 0,289 0,817 0,5 0,289 0,817 0 5 -0,5 -0,866 -1 0 0 0,5 0,289 0,204 0,791 6 0,5 -0,866 -0,5 -
0,866
0 -1 0 0 0 7 -0,5 0,866 -0,5 -
0,289
-
0,817
-0,5 -0,866 0 0 8 0,5 -
0,866
0 -0,5 -0,289 -
0,817
0 9 0,5 -
0,289
-
0,817
-0,5 -0,289 -
0,204
-
0,791 10 -0,5 0,866 0 0,5 -0,866 0 0 11 0 0,577 -
0,817
0,5 -0,289 -
0,817
0 12 -0,5 0,289 0,817 0,5 -0,289 -
0,204
-
0,791 13 0 -
0,577
0,817 -0,5 0,866 0 0 14 0 0,577 -
0,817
0 15 0 0,577 -
0,204
-
0,791 16 -0,5 0,289 0,817 0 17 0 -0,577 0,817 0 18 0 0 0,613 -
0,791 19 -0,5 0,289 0,204 0,791 20 0 -0,577 0,204 0,791 21 0 0 -
0,613
0,791
A maioria dos pacotes computacionais disponveis atualmente, comerciais ou
gratuitos, ainda no disponibilizou algoritmos para clculos de planejamentos
Doehlert sendo, portanto, um indicativo dentre outros, de que este planejamento
est relativamente pouco difundido entre os pesquisadores.
Avaliao do Modelo
O modelo obtido pode no ser exatamente aquele que descreve a regio
estudada do sistema e, neste caso, no pode ser usado para fazer estimativas para
deslocamento e muito menos para extrair concluses sobre a regio tima. A
-
Tefilo, R. F. 34
maneira mais confivel de se avaliar a qualidade do ajuste do modelo
empregando a anlise de varincia (ANOVA) [8,16].
Na ANOVA a variao total da resposta definida como a soma quadrtica de
dois componentes: a soma quadrtica da regresso (SQregr) e a soma quadrtica dos
resduos (SQres). A soma quadrtica da variao total, corrigida para a mdia
(SQtotal), pode assim ser escrita como a equao 1.26.
SQtotal = SQregr + SQres 1.26
em que SQregr e SQres so apresentadas com mais detalhes nas equaes 1.27 e 1.28,
respectivamente.
SQregr = ( )iRM
mm r
y y 2
1 1
1.27
SQres = i
( )RM
mr im m
y y 2
1 1
1.28
Da equao 1.27, M o nmero total de nveis do planejamento, isto , pontos
experimentais do planejamento; m
y o valor estimado pelo modelo para o nvel m
e y o valor mdio das replicatas (R). No entanto, como h somente replicatas no
ponto central, a mdia das replicatas nos nveis (+) mais e (-) menos o prprio
valor observado do ensaio naquele nvel. Note que o segundo somatrio indica que
se deve fazer o quadrado das diferenas inclusive com cada repetio.
As replicatas realizadas no ponto central deixaro um resduo para cada
observao m
y . A soma quadrtica destes resduos fornece a soma quadrtica
residual somente no nvel zero.
A equao 1.28 indica que o quadrado da diferena entre o valor de cada
observao (m
y ) e o valor estimado (m
y ) e inclusive das replicatas (ry ) em cada
nvel (m), fornece a soma quadrtica residual de todos os nveis.
Quando algum modelo ajustado aos dados, a soma quadrtica do erro puro
sempre uma parte da soma quadrtica dos resduos. Ento cada resduo pode ser
desmembrado em duas partes, isto [15]:
( ) ( ) ( )mr m mr m m m
y y y y y y 1.29
-
Tefilo, R. F. 35
Pela equao 1.29, o primeiro termo da direita diz respeito diferena entre o
valor de cada observao individual no nvel e a mdia de todas as observaes
naquele nvel. J o segundo termo corresponde diferena entre o valor estimado
no nvel e a mdia de todas as observaes naquele nvel. A subtrao entre estes
dois termos fornece como resposta o resduo de cada observao individual.
Para evitar os termos negativos na equao 1.29, tomam-se as suas diferenas
quadrticas e obtm-se equao 1.30.
i
( ) ( ) ( )iRRM M M
mr m mr m m mm r m r m
y y y y y y2 2 2
1 1 1 1 1
1.30
O primeiro termo da direita chamado de soma quadrtica do erro puro e est
relacionado exclusivamente com os erros aleatrios das replicatas. J o segundo
termo da direita chamado de soma quadrtica da falta de ajuste, pois ele uma
medida da discrepncia entre a resposta do modelo de previso (m
y ) e a mdia das
replicatas (m
y ) realizadas no conjunto de condies experimentais.16
A equao 1.30 pode ser resumida da seguinte maneira:
SQres = SQep + SQfaj 1.31
Para cada fonte de variao (regresso, resduos, falta de ajuste, erro puro e
total), necessrio obter o nmero de graus de liberdade. No introduzindo
detalhes, pode-se provar que o nmero de graus de liberdade para as equaes 1.27,
1.28 e 1.30 so, P 1, I P e (I M) + (M P), respectivamente [11,15,20], em
que P o nmero de parmetros (coeficientes) do modelo, I o nmero total de
observaes (ensaios) e M o nmero de nveis do planejamento. O nmero de
graus de liberdade para as outras fontes de variao pode ser obtido por clculos
algbricos simples.
A diviso da soma quadrtica de cada fonte de variao pelo seu respectivo
nmero de grau de liberdade fornece a mdia quadrtica (MQ). A razo entre a
mdia quadrtica da regresso (MQreg) pela mdia quadrtica dos resduos (MQres),
que nada mais do que a razo entre duas varincias, pode ser usada para comparar
tais fontes de variao atravs do teste F (distribuio de Fisher), levando em
considerao seus respectivos nmeros de graus de liberdade. O mesmo pode ser
-
Tefilo, R. F. 36
feito para a razo entre a mdia quadrtica da falta de ajuste (MQfaj) pela mdia
quadrtica do erro puro (MQep).
Assim, como foi realizada a avaliao dos efeitos e coeficientes empregando o
teste t, atravs do valor p, o mesmo ser feito para comparar as duas fontes de
variao entre si, empregando-se neste caso o teste F (equao 1.32).
1 2,F1
2
MQ
MQ 1.32
em que MQ1 e MQ2 so as mdias quadrticas das fontes de variao 1 e 2
respectivamente e, 1, 2 so seus respectivos nmeros de graus de liberdade.
Exemplificando, a razo entre as mdias quadrticas da falta de ajuste e do
erro puro o valor calculado do teste estatstico (Fcalc), que usado para comparar
qual mais significativo. Pode-se formular uma hiptese nula (H0) considerando
que no h diferena entre as fontes de variao comparadas. Esta hiptese se
reflete na seguinte regra de deciso:
a) Rejeio da hiptese nula com 5% de significncia, quando o valor de
Fcalc situar-se fora do intervalo definido por F ( calcF F ), ou seja, p . Isso
equivale a dizer que o valor estatstico amostral observado significativo no nvel
definido e as fontes de variao comparadas so diferentes.
b) Aceitao da hiptese nula, caso contrrio.
Se H0 for rejeitada para MQfaj/MQep, isto , p , ento h uma falta de ajuste
significativa ao nvel de probabilidade e nmero de graus de liberdade definidos
(normalmente, = 0,05) e o modelo no adequado.
Em termos prticos, um bom modelo necessita ter uma regresso significativa
e uma falta de ajuste no significativa. Isto equivale a dizer que a maior parte da
variao total das observaes em torno da mdia deve ser descrito pelo modelo de
regresso e o restante certamente, ficar com os resduos. Da variao que fica com
os resduos esperado que a maior parte fique com o erro puro, que o erro
experimental, e no com a falta de ajuste, que est diretamente relacionada com o
modelo.
-
Tefilo, R. F. 37
Outros parmetros para observar se toda variao em torno da mdia foi
explicada pela regresso so o valor do coeficiente de variao R2 (equao 1.33) e
o grfico dos resduos [10].
O valor de R2 representa a frao da variao em torno da mdia que
explicada pela regresso (equao 1.33). Quanto mais prximo de 1 o valor do
coeficiente estiver, melhor estar o ajuste do modelo s respostas observadas.
2
exp .
SQR
SQ
regr
l
total
1.33
Note que o erro puro no explica nada do modelo, ento o valor mximo
possvel de R2 :
2SQ -SQ
RSQ
total ep
max
total
1.34
A anlise de varincia (ANOVA), de acordo com as equaes descritas para a
avaliao do modelo, est resumida na Tabela 1.9.
Tabela 1.9. Anlise de varincia para regresso mltipla.
Fonte de variao SQ Nde graus de liberdade MQ F
Regresso SQregr P 1 MQregr MQregr/MQres
Resduos SQres I P MQres
Falta de ajuste SQfaj M P MQfaj MQfaj/MQep
Erro Puro SQep I M MQep
Total SQtotal I 1
Uma boa prtica examinar a distribuio dos resduos, pois ajuda a verificar
se no h nada de errado com o modelo. Neste caso, pode-se fazer um grfico dos
valores estimados pelo modelo ( )iy com os valores da diferena entre os valores
observados experimentalmente ( )iy e os seus respectivos valores estimados, isto ,
( )iy versus ( )i iy y . Se os resduos no estiverem aleatoriamente distribudos,
pode-se desconfiar do modelo e investir em outros recursos para a sua melhoria.
A Anlise de Componentes Principais (PCA) provavelmente o mtodo
quimiomtrico mais amplamente difundido, e devido importncia das medidas
-
Tefilo, R. F. 38
multivariadas em qumica, ela considerada por muitos como o mtodo que mais
significativamente muda o ponto de vista dos qumicos para a anlise multivariada
dos dados [6].
A aplicao mais freqente do mtodo PCA ocorre nos casos em que as
colunas em X so altamente colineares, i.e., as variveis so correlacionadas e
apresentam redundncias. Tais colinearidades indicam que a matriz X apresenta
algum tipo de variabilidade dominante que carrega a maioria da informao
disponvel. Estas redundncias e pequenas variabilidades devem ento ser
removidas. A proposta da PCA expressar as informaes mais significativas
contidas nas variveis originais em um pequeno nmero de novas variveis, as
ento chamadas componentes principais de X [21].
Naturalmente, pode-se estender esta descrio para outros mtodos
multivariados, pois muitos diferem apenas no critrio utilizado para determinar
como as componentes so construdas [22]. Assim, a PCA constitui, em muitas
maneiras, a base para a anlise multivariada dos dados [1].
Uma variedade de algoritmos pode ser usada para calcular as componentes
principais de X. A decomposio por valores singulares (SVD) um algoritmo
rotineiramente empregado [23] e est descrito no apndice. Usando este algoritmo,
uma matriz de dimenso arbitrria pode ser escrita como produto de trs outras
matrizes, assim:
tX ADP 1.35
Na literatura, as matrizes A ou AD so denominadas escores e contm as
coordenadas das amostras nos eixos das componentes. Nesta tese, o produto AD
ser definido como escore e representado como a matriz T. A matriz P contm a
informao sobre como as variveis originais esto relacionadas s componentes e
denominada de matriz de loadings. A matriz D diagonal (Apndice) e contm
informaes sobre a quantidade de varincia em cada componente.
O princpio matemtico bsico da PCA est em produzir uma aproximao da
matriz de dados X, em termos do produto de duas matrizes T e Pt conforme
Equao 1.36.
t t
h h h h hX = T P A D P 1.36
-
Tefilo, R. F. 39
em que o subscrito h representa o nmero do trucamento das matrizes i.e., quantas
componentes foram usadas para reconstruir a matriz X, definida por X .
Figura 1.10. Representao matricial da anlise de componentes principais.
Como mostrado na Figura 1.10, na matriz T, de escores, o nmero de linhas
igual ao nmero de linhas da matriz original, usualmente o nmero de amostras. O
nmero de colunas igual ao nmero h de componentes significativos nos dados, e
pode ser qualquer nmero entre 1 e min{I,J}. O nmero de componentes
significativos comumente definido como a dimensionalidade intrnseca dos dados
ou posto qumico da matriz original.
Na matriz Pt, de loadings, o nmero de colunas igual ao nmero de colunas
na matriz original, usualmente o nmero de variveis. O nmero de linhas
corresponde ao nmero de componentes principais h.
Geometricamente, as matrizes A e P geram um novo sistema de coordenadas
formado pelas h componentes principais (colunas de A e P), que so os novos eixos
(Figura 1.11). Assim, exatamente como as amostras tm coordenadas no espao
original das linhas (definida pelas variveis originais), elas tambm tm
coordenadas em relao aos novos eixos i.e., os escores. Estas coordenadas so as
projees ortogonais de cada amostra sobre os eixos das componentes, como
representado pelas setas retas na Figura 1.7 e descrevem a representao das
amostras padres dominantes das linhas em X.
Cada componente construda a partir da combinao das variveis originais.
Em termos matemticos, a contribuio de cada eixo original para uma componente
principal o co-seno do ngulo entre o eixo da varivel com o eixo da componente
(ngulos 's na Figura 1.11). Se uma componente principal aponta exatamente na
mesma direo de uma varivel individual, o ngulo entre elas zero e o co-seno
-
Tefilo, R. F. 40
1. Isto indica que a componente descreve toda a variao no eixo daquela varivel.
Similarmente, se uma componente perpendicular (90) ao eixo de uma
determinada varivel, o co-seno 0 indicando que esta varivel no fornece
nenhuma contribuio componente em questo. Os valores destes co-senos so os
loadings e variam na faixa de -1 a 1 [24,25].
Figura 1.11. Representao geomtrica de duas componentes principais em um espao
com trs variveis (3D).
A direo da primeira componente principal descreve o espalhamento mximo
das amostras (linhas) i.e., a quantidade mxima de variao possvel dos dados e
pode ser definida como o melhor ajuste da reta no espao multidimensional. A
prxima componente, perpendicular primeira (Figura 1.11), captura a varincia
comum em sua direo e em menor quantidade que a primeira e assim
sucessivamente. As componentes principais so, portanto, calculadas em ordem
decrescente de significncia [25,26] e a percentagem da variao total nos dados
descrita por qualquer componente pode ser calculada com preciso usando, por
exemplo, informaes da diagonal da matriz D. Porm, como as componentes so
perpendiculares entre si, elas contm informaes diferentes e complementares em
ordem decrescente de quantidade de varincia.
Devido reorientao das coordenadas do sistema de maneira a obter a
mxima varincia comum, a maioria da informao dos dados pode ser capturada