Post on 13-Feb-2019
1
Carlos MontanariCarlos MontanariCarlos MontanariCarlos Montanari Grupo de Estudos em Química Medicinal
NEQUIMED Departamento de Química e Física Molecular
Instituto de Química de São Carlos email: montana@iqsc.usp.br
http://www.nequimed.iqsc.usp.br/
Quimiometria
Carlos MontanariCarlos MontanariCarlos MontanariCarlos Montanari
IQSC, 2012IQSC, 2012IQSC, 2012IQSC, 2012
2
Bibliografia
1. Chemometrics : A Practical Guide (Wiley-Interscie nce Series on Laboratory Automation) by Kenneth R. Beebe, Randy J. Pell, Mary Beth Seasholtz “Wiley-Interscience (March 20, 1998) 2. Chemometrics : Data Analysis for the Laboratory and Chemical Plant
by Richard G. Brereton (John Wiley & Sons, April 4, 2003) 3. Nature-inspired methods in chemometrics: genetic algorithms and artificial neural networks (Data Handling in Scienc e and Technology) by Riccardo Leardi. Elsevier Science (December 3, 2003) 4. Multi- and Megavariate Data Analysis: Principles and Applications by L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold (2001) 5. Chemometric Techniques for Quantitative Analysis
by Richard Kramer. Marcel Dekker (June 1, 1998)
Conteúdo
1. Mineração de dados 2. Estudo de casos 3. Produção e análise de dados 4. Construção de modelos
4.1Regressão, classificação, híbridos
5. Experimentos 6. Validação e interpretação
3
Definições?
1 "Chemometrics is the use of mathematical and statistical methods for handling, interpreting, and predicting chemical data." Malinowski, E.R.. (1991) Factor Analysis in Chemistry, Second Edition, page 1.
2 "The entire process whereby data (e.g., numbers in a table) are transformed into information used for decision making." Beebe, K. R., Pell, R. J., and M. B. Seasholtz. (1998) Chemometrics: A Practical Guide, page 1.
3 "Chemometrics is a chemical discipline that uses mathematics, statistics and formal logic (a) to design or select optimal experimental procedures; (b) to provide maximum relevant chemical information by analyzing chemical data; and (c) to obtain knowledge about chemical systems."
4 Massart, D.L., et al.. (1997) Data Handling in Science and Technology 20A: Handbook of Chemometrics and Qualimetrics Part A, page 1.
Aplicações Biologia, engenharia química, medicina, química analítica,
química forense, química medicinal...
1. Processamento de imagens, segmentação e análise
2. Classificação e análise de sinais de radar 3. Reconhecimento facial 4. Reconhecimento e entendimento da fala 5. Identificação de impressão digital 6. Reconhecimento do caráter 7. Classificação de cerâmica em sítios pré-clássicos
4
8. Reconhecimento da escrita
9. Análise e entendimento dos sinais de eletrocardio grafia
10.Diagnose médica
11.Mineração de dados
12.Análise sísmica
13.Reconhecimento de padrões.
Relações entre amostras: pacientes, alimentos, organismos, colunas cromatográficas, madeira, água, cachaça, es pectros.
Entre variáveis: concentração de compostos, picos espectrais, testes
cromatográficos (formato do pico, similaridade de compostos, pHs e fases móveis diferentes), composição elementar
Exemplos 1. Medicina: toxicologia 2. Genotipagem: biotecnologia 3. Produção de comprimidos (formulações): medicament os 4. Biologia: cheiro típico de animais 5. Cromatografia: classificação de colunas 6. Análise de materiais: plástico (mudança de fase – análise
térmica) 7. Deteção de drogas ilegais (cocaína, canabis, her oína,
ecstasy). Espectrometria de massas tandem (deteção de 2 íons por droga)
8. Monitorar reações (desenvolvimento de novas reaç ões, otimização de reações, processo de manufatura).
Indústrias química e farmacêutica
5
Técnicas Não há uma técnica. Use várias em várias etapas!
Quimiometria não é estatística!
1. Pré-processamento 2. Seleção de variáveis 3. Análise de componentes principais 4. Análise de agrupamentos 5. Análise discriminatória 6. Simplex 7. MRA 8. PLS 9. KNN 10.SIMCA 11.Redes Neurais
6
7
8
Modelos
1 Procedimento guiado por teoria 1.1 Sistemas complexos mal definidos
1.1.1. Conhecimento prévio insuficiente 1.1.2. Informação prévia incerta sobre a estrutura
do modelo 1.1.3. Conhecimento insuficiente sobre os fatores
de interferência
2. Procedimento guiado por dados 2.1. Falta de conhecimento prévio sobre a
estrutura do modelo matemático
Problemas em predição
1. Grande coleção de dados 1.1. Mais variáveis do que objetos
1.1.1. Problema: dimensionalidade
2. Capacidade preditiva do modelo ruim
3. Resultado: extração irrelevante de conhecimento
9
Quimiometria
1. Análise de dados: 1.1. Extração de informação dos dados
químicos
2. Planejamento experimental: 2.1. Conteúdo de informação dos dados
3. Modelagem: 3.1. Investigação das relações complicadas
4. Obtenção de dados multivariados a partir de experimentos
X Y C
Variáveis Classe
1, 2, 3, ..., p 1, 2, 3, ..., r 1
Classes
10
Estratégias quimiométricas
Dados Exploração de dados
Otimização Regressão Classificação
Análise de agrupamentos
Experimentos
Planejamento experimental
Problema Objetivos
Hipóteses
Modelo qualitativo Modelo quantitativo Modelo empír ico
Localização do modelo
1D
2D
3D
Coligativas Estereodinâmica
Estereoeletrônica
Interação Ligante-receptor
11
Nova entidade química (NCE)
Mr < 500; H, C, N, O, P, S, F, Cl, Br
= 1062-64
Nova entidade química (NCE)
Mr < 500; H, C, N, O, P, S, F, Cl, Br
= 1062-64
Problema numeral
Problema numeral...
Chemical Abstract 2,7x107 Chemical Abstract 2,7x107
WDI 7x104 WDI 7x104
~2000 fármacos em uso clínico!
12
π vs σ
Problema ontológico (Como dividir os compostos para ter homogeneidade)
3-Methyl-pent-2-one
3-Methyl-cyclopentanone
Methyl-hexanone
Acetic acid
6-Methyl-hept-5-en-2-one
3-Methyl-hexanal
Nonan-2-one E Undec-2-en-1-ol
Nonan-4-one
Heptanal
Phenol
2-Ethyl-hexan-1-ol
Methylisobutanone
1-Methyl-pyrrole
p-Xylene
Trimethyl-pyrazine
2,5-Dimethyl-pyrazine
1-Phenyl-propan-2-one
1-Ethyl-3-Methyl-benzene
1,3-Dimethyl-benzene
Hexan-2-one
2-Propenylidene-cyclobutene
2-Ethenyl-6-methyl-pyrazine
Decanal
Heptan-2-one
Ethyl-benzene
Non-2-en-4-one
Benzaldehyde
Octanal
Pentan-2-one
Hexanal
3-Ethyl-cyclopentan-1-one
Nonanal
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
Pesos (loadings): impressão digital química (aldeídos, aromáticos, cetonas)
13
Seleção de compostos
Depois de Carr e Jhoti
Quantificação da diversidade química
1. Responder às perguntas: 1. (i) Quanta diversidade está perdida 1. (ii) Quanta diversidade é necessária
2. Respostas: 2.(i) Calcular e medir propriedades:
Índices topológicos Grupos funcionais Lipofilia, etc.
2.(ii) Análise estatística multivariada
14
Quantificação
Quantificação...
1. Por exemplo: Extremos de uma coleção de hexapeptídeos
1.1. 64 milhões de possibilidades!
1.1.1. Ac-Phe-Phe-Phe-Phe-Phe-Phe-NH2.
CLOG P= 5,5 1.1.2. Ac-Arg-Arg-Arg-Arg-Arg-
Arg-NH2. CLOG P = -13 Carregado: CLOG D = -37
15
Problema de representação
1.CNS 1.1. Pequena
distribuição! 1.2. Diversidade
química redundante! 2. Então,
2.1. REPRESENTAÇÃO. Planejar série dentro
do SSS
CLOG P
Número de Ocorrências
0-1 1-2 2-3 3-4 4-5 5-6
1. Quantos grupos podem/devem ser usados
u X possibilidades = X4 combinações
2. Quais grupos?
3. Todas as combinações são necessárias?
“Grupos-de-construção” dentro do SSS?
SÍNTESE COMBINATÓRIA
2. X = 166 subs. 3. Síntese de 7,6.108 moléculas
1. X = 13 ⇒⇒⇒⇒ 28.561! (X2 = 5 ⇒⇒⇒⇒ 25)
N
N
R2
OR4
R3
R1
16
Escolha de descritores
Problema de Buffon: probabilidade da agulha aterrissar sobre a linha Comprimento Cor Composição Textura Orientação
Métodos
1. Análise 1D 2. Outras dimensões requerem técnicas
de decomposição Regressão múltipla PCA PLS ...
3. Objetivos: conectar os descritores com elementos estruturais para interpolar e extrapolar dados
17
O que são elemento estrutural e descritor físico-químico?
Qual é a relação com a atividade?
Propriedade Estrutura
Atividade
Atividade Propriedade
Estrutura
Propriedade Estrutura
Atividade
Diagrama de Venn
18
Química do século XXI!
1. Quantos substâncias químicas existem? E, quais?
2. Chemical Abstract – 679.837/ano! – 1862/dia
Perca 30 dias e você estará atrás de 55.860 substâncias!
3. O problema não é somente obter informações, mas como
organizá-las!
Como solucionar?
Quimiometria