MichaelSouzaDsc2010

download MichaelSouzaDsc2010

of 99

Transcript of MichaelSouzaDsc2010

COPPE/UFRJ COPPE/UFRJ SUAVIZAO HIPERBLICA APLICADA OTIMIZAODE GEOMETRIA MOLECULAR Michael Ferreira de Souza TesedeDoutoradoapresentadaaoProgramade Ps-graduaoemEngenhariadeSistemase Computao,COPPE,daUniversidadeFederal doRiodeJaneiro,comopartedosrequisitos necessriosobtenodottulodeDoutorem Engenharia de Sistemas e Computao.Orientadores: Nelson Maculan Filho Carlile Campos Lavor Rio de Janeiro Janeiro de 2010 SUAVIZAC AOHIPERBOLICAAPLICADA`AOTIMIZAC AODEGEOMETRIAMOLECULARMichaelFerreiradeSouzaTESESUBMETIDAAOCORPODOCENTEDOINSTITUTOALBERTOLUIZCOIMBRADE POS-GRADUAC AOEPESQUISADE ENGENHARIA(COPPE)DAUNIVERSIDADEFEDERALDORIODEJANEIROCOMOPARTEDOSREQUISITOSNECESSARIOSPARAAOBTENC AODOGRAUDEDOUTOREMCIENCIASEMENGENHARIADESISTEMASECOMPUTAC AO.Aprovadapor:Prof.NelsonMaculanFilho,D.Sc.Prof.CarlileCamposLavor,D.Sc.Prof.AdilsonEliasXavier,D.Sc.Profa.MarciaHelenaCostaFampa,D.Sc.Prof.AurelioRibeiroLeitedeOliveira,D.Sc.Prof.FabioProtti,D.Sc.RIODEJANEIRORJ,BRASILJANEIRODE2010

Souza, Michael Ferreira deSuavizao Hiperblica Aplicada Otimizao deGeometria Molecular/ Michael Ferreira de Souza. Rio deJaneiro: UFRJ/COPPE, 2010.XIII, 86 p.: il.; 29,7 cm.Orientadores:Nelson Maculan FilhoCarlile Campos LavorTese (doutorado) UFRJ/ COPPE/ Programa deEngenharia de Sistemas e Computao, 2010. Referencias Bibliogrficas: p. 73-86.1. Geometria molecular. 2. Suavizao. 3. Otimizao.I. Maculan Filho, Nelson et. al.. II.Universidade FederaldoRiodeJaneiro, COPPE, ProgramadeEngenhariadeSistemas e Computao. III. Titulo.iii`A minha Carol, essa ultimadecadaaoseuladofoifant astica.Jaanseiopelasproximas.ivAgradecimentosAgradecereumatarefagraticante, masdeimensorisco. Aoagradecer, arrisca-mosesquecer dasmaisdiversascontribui coes, dospequenosgestos. Sendoassim,agrade co inicialmente a todos os que eu deixarei de citar, quer por omissao, falta deespa coouesquecimento.Agrade coaoprofessorNelsonMaculanpelacandurae diligencia. Epelagrandefacilidadedetornarascoisassimples. Eestendendooagradecimento, naopoderiaesquecer das suas eis escudeiras Maria de F atima Cruz Marques e Josena SolangeSilvaSantosquenaomedeixaramsucumbirnagrandiosaburocraciaqueestaaonossoredorprocurandoaquempossatragar.Agrade coencarecidamenteaoprofessorAdilsonEliasXavierpelasincont aveishorasdeconversaeensinamentosobreosmaisdiversosassuntos, indodosagradoao profano. Mesmo nao ocupando formalmente o papel de orientador deste trabalho,foi um colaborador contnuoe sem ele,estetrabalho naoteria tomadoa forma nemoconte udopresentes. Obrigadopelaamizade.Agrade coaos amigosquetornaram operodododoutoradoumaagrad avellem-bran ca. Em especial, aos amigos Jurair, Alberto, Jesus, Thiago, Francisco e MarceloDibb.Agrade co ao professor Carlile Campos Lavor, que deste minha inicia cao-cientcaaindanaUERJ, passandopelomestrado, e, agora, nodoutorado, temsidoumapresen caconstante e umgrande parceiro. Sempre atenciosoe corretonos maisdiferentescenarios.Agrade coaminhaesposaCarolpelapacienciaeamorgratuitoe, `avezes, ime-recido,s oelasabecomoeupossoserchato!Agrade coaos meuspaiseirm aos pelasmaioresemaisimportanteslicoesquejativeepelosuporteincontesteeirrestrito. Meuportoseguro.vResumo da Tese apresentada `a COPPE/UFRJ como parte dos requisitos necess ariosparaaobten caodograudeDoutor emCiencias(D.Sc.)SUAVIZAC AOHIPERBOLICAAPLICADA`AOTIMIZAC AODEGEOMETRIAMOLECULARMichaelFerreiradeSouzaJaneiro/2010Orientadores: NelsonMaculanFilhoCarlileCamposLavorPrograma: EngenhariadeSistemaseComputa caoAdetermina caodeestruturas tridimensionais deprotenaseumdos grandesdesaos dabiologiamoderna. Nopresente trabalho, abordamos oproblemadadetermina caodeestruturastridimensionais, apartirdealgumasdasdist anciasen-treparesdepontosqueascomp oem. Esteproblemaestafortementerelacionado`adetermina caodaconformacaoproteicaviaresson anciamagneticanuclear, ondeapenas um subconjunto das dist ancias entre pares de atomos e conhecido. As usuaisformulacoesutilizadasparaesseproblemas aoNP-difceis,nao-diferenciaveisenao-convexas,possuindo um elevado n umero de mnimos. A contribui cao deste trabalhoe um metodo especializado que combina suaviza cao e penaliza cao hiperb olicas, paraobten cao de diferenciabilidade e convexica cao, com uma estrategia de dividir-para-conquistar,paraescalabilidade.viAbstract of Thesis presented to COPPE/UFRJ as a partial fulllment of therequirementsforthedegreeofDoctor ofScience(D.Sc.)HYPERBOLICSMOOTHINGAPPLIEDTOMOLECULARGEOMETRYOPTIMIZATIONMichaelFerreiradeSouzaJanuary/2010Advisors: NelsonMaculanFilhoCarlileCamposLavorDepartment: SystemsEngineeringandComputerScienceThedeterminationofthree-dimensional proteinstructuresisamajorchallengeinmodernbiology. Inthe present work, we consider the problemof estimatingrelative positions of all points inastructure, givenasubset of all thepair-wisedistancesbetweenasetofitspoints. Thisproblemisrelatedtotheproteinfoldingdeterminationvianuclearmagneticresonance, whereonlyasubsetofallpair-wisedistancebetweenatomsareavailable. Theusual formulationstothisproblemareNP-hard, nonsmoothedandnonconvex, having ahighnumber of local minima.The contributionof this workis aspecializedmethodthat combines hyperbolicsmoothing and penalty in order to obtain dierentiabilityand a specic divide-and-conquerstrategytogetscalability.viiSumarioListadeFiguras xListadeTabelas xiii1 Introdu cao 12 Conceitosbasicossobreprotenas 62.1 Estruturaqumica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2 Geometrialocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Metodosexperimentaisparadetermina caodaconformacaoproteica . 153 Oproblemageometricodadistanciamolecular 193.1 Problemasrelacionados. . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 ComparacaodeestruturasviaRMSD. . . . . . . . . . . . . . . . . . 253.3 MDGPviaprograma caomatem atica . . . . . . . . . . . . . . . . . . 263.4 Estrategiasdesolucao . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4.1 EMBED. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4.2 ABBIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.4.3 Perturba caoestocastica . . . . . . . . . . . . . . . . . . . . . 293.4.4 DGSOL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.5 Otimizacaodediferen casdefun coesconvexas . . . . . . . . . 313.4.6 Algoritmodeconstru caogeometrica. . . . . . . . . . . . . . . 323.4.7 Algoritmobranch-and-prune . . . . . . . . . . . . . . . . . . . 333.4.8 Programacaosemidenida . . . . . . . . . . . . . . . . . . . . 353.4.9 GNOMAD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36viii4 MDGPviasuavizacaoepenalizacaohiperb olicas 374.1 Propostadesuaviza cao. . . . . . . . . . . . . . . . . . . . . . . . . . 384.2 Propostadepenaliza cao . . . . . . . . . . . . . . . . . . . . . . . . . 394.3 Convexica cao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4 Oalgoritmodesuaviza caoepenaliza caohiperb olicas(SPH) . . . . . 444.5 AliandooalgoritmoSPHeatecnicadedividir-para-conquistar . . . 464.5.1 Combinandosolucoes . . . . . . . . . . . . . . . . . . . . . . . 504.5.2 Dividindoproblemas . . . . . . . . . . . . . . . . . . . . . . . 524.5.3 Ometodosphdc. . . . . . . . . . . . . . . . . . . . . . . . . . 555 Experimentoscomputacionais 575.1 Validandooprocedimentosph . . . . . . . . . . . . . . . . . . . . . . 585.1.1 Reducaodemnimosdelocais . . . . . . . . . . . . . . . . . . 595.1.2 Robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.1.3 Coerenciadassolucoes . . . . . . . . . . . . . . . . . . . . . . 615.2 Validandooprocedimentosphdc. . . . . . . . . . . . . . . . . . . . . 625.3 Experimentosmaiscomplexos . . . . . . . . . . . . . . . . . . . . . . 646 Conclusaoepropostasparatrabalhosfuturos 70ReferenciasBibliogracas 73ixListadeFiguras2.1 Estruturaqumicadosamino acidos. . . . . . . . . . . . . . . . . . . . 82.2 Processodeformacaodaliga caopeptdicadasprotenas. . . . . . . . 92.3 Estruturaqumicadosamino acidos. . . . . . . . . . . . . . . . . . . . 92.4 Estrutura primaria da protena phosphotransferase (1PTQ). Cadauma dos 50 caracteres esta associado a um dos 50 resduos da protena1PTQ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.5 Protena myohemerythrin(2MHR) formada por 118 resduos e quatrohelices.`Adireita, avisaosimplicadae, `aesquerda, aestruturadacadeiaprincipal.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.6 Protenabronectin(1TTG)formadapor94resduosesetefolhas.`Adireita, avisaosimplicadae, `aesquerda, aestruturadacadeiaprincipal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.7 ProtenakinaseC(1PTQ)formadapor402atomos. . . . . . . . . . 112.8 Complexo gvp-ssdna (1GPV) formado por 1842 atomos e 182 resduose4cadeias(subunidades). Assubunidadesestaorespresentadascomcoresdistintas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.9 Estruturatridimensionallocal.. . . . . . . . . . . . . . . . . . . . . . 132.10Angulodiedral , angulos das liga coes ijk, jkl, vetores de liga caorij, rjk, rklevetoresdeposi caoxi, xj, xk, xl. . . . . . . . . . . . . . . . 132.11Angulosdiedraisdacadeiaprinicipaldeumaprotena. . . . . . . . . 142.12 Nestas conguracoes, todos os quatro atomos estao situados no mesmoplano.`Aesquerda, aformacis (=0o).`Adireita, aformatranscomadist anciaentreosatomosC1eC2sendoamaiorpossvel. . . . 142.13Angulos das torcoes do resduo lisina representados pelas variaveis 1a4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15x2.14`Adireita, ve-seomapa3Ddadensidadeeletr onicaemcadapontodo espa co.`Aesquerda, sendo conhecidas a sequenca e a formadosamino acidosquecomp oemaprotena,pode-seajustaromodeloproteicoaessemapa. . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.15 N umerodeestruturasdisponveisnabasededadosPDBentre1972emarcode2009. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.1 EquivalenciadoparticionamentodeconjuntoseoMDGPunidimen-sional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Deni coes dos comprimentos, angulos das liga coes eos angulos detorcao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1 Ogracodasuaviza caohiperb olica(x) eumahiperboleequil atera. 394.2 Nogracodafun caodepenalidade,, oparametrocontrolaaintensidade(inclinacao)dapenaliza cao,e,asuaviza cao. . . . . . . 404.3`Amedidaque aumentamos ovalor doparametro, mais convexatorna-seafun caoobjetivo. . . . . . . . . . . . . . . . . . . . . . . . . 454.4 (a) Amatriz de conectividade dainst anciaderivadadageometriaconhecida daprotena1PTQ. (b) Naregi aodestacada, observa-seblocos com alta densidade sobre a diagonal da matriz de conectividade. 484.5 Os blocos destacados estao relacionados `as restricoes envolvendo atomosnomesmoresduo. Estesblocoss aoosmaisdensosnasmatrizesdeconectividadetipicamenteencontradasnaliteratura. . . . . . . . . . . 494.6 Nadivisaobin aria, osgruposs aodivididosrecursivamenteatequeexistamapenasdoisresduosemcadagrupo. . . . . . . . . . . . . . . 524.7 Nagura`aesquerda, vemosamatrizdeconectividadedosatomos.`Adireita,amatrizdeconectividadedosresduos. . . . . . . . . . . . 534.8 Nagura`aesquerda, vemosamatrizdeconectividadedosatomos.`Adireita,amatrizdeconectividadedosresduos. . . . . . . . . . . . 53xi4.9 Nagura`aesquerda, vemos ografoobtidoaplicandoaarvorege-radoram aximae, `adireita, ografoobtidopeladivisaobin aria. Adivisaocomaarvoregeradoram aximaproduzumconjuntodesub-problemas (arestas) com maior acoplamento e, consequentemete,me-norn umerodesolucoes. . . . . . . . . . . . . . . . . . . . . . . . . . 554.10 Inicialmente, oproblemaoriginal edividido. Emseguida, arotinasph eaplicadaacadaumdossubproblemas. AssolucoesXeY s aocombinadasemumaestruturaZpelarotinacombinar, utilizandoamedidarmsdcomocriteriodecoerenciadacombina caodassolucoes. 565.1 Osvaloresdefnassolucoesgeradaspelarotinava35enassolucoesgeradaspelarotinasph. . . . . . . . . . . . . . . . . . . . . . . . . . 595.2 Os erros m aximos presentes nas solucoes geradas pelarotinava35esph. Os erros associados `as solucoes obtidas pelarotinasphfo-ramconsideravelmentemenoresdoqueosobtidospelarotinava35aplicadaindividualmente. . . . . . . . . . . . . . . . . . . . . . . . . 605.3`A direita, a matriz de conectividade dos resduos da inst ancia 8DRH.Cadaumdosquadradosemvermelhoidenticamosarcosassocia-dos `as restricoes envolvendoatomos atomosnomesmoresduo.`Aesquerda, amatrizdeconectividadedosresduos, notequenaohacorrelacao(arcos)entreresduosquenaosejamvizinhos. . . . . . . . 675.4 Asmatrizesdeconectividadedainst ancia1PTQcomC=8A. Asinst ancias daformadadanaEq. 5.6s aomais complexas que asidealizadasporMoreeWu. . . . . . . . . . . . . . . . . . . . . . . . 68xiiListadeTabelas2.1 Nomes esiglas dosamino acidos encontrados nascelulas vivas. Osnomesesiglasdosamino acidosessenciaisestaoemnegrito. . . . . . . 85.1 Frequenciadeobten caodesolucoespelosmetodosdgsol,va35esph. 615.2 Desvio (RMSD) entre as coordenadas das solucoes obtidas pelos metodosdgsolespheascoordenadasoriginaisdofragmentocom100atomos. 625.3 Desvio (RMSD) entre as coordenadas das solucoes obtidas pelos metodosdgsolespheascoordenadasoriginaisdofragmentocom200atomos. 625.4 Performance dos metodos sphdc e gcdcacomdados doPDBcom=0, 001. On umerodeatomosederesduos s aorepresentados,respectivamente, pormeneotempo edadoemsegundos. . . . . . . 655.5 Performance dos metodos sphdc e gcdcacomdados doPDBcom =0, 08. On umerode atomos e de resduos s aorepresentados,respectivamente, pormeneotempo edadoemsegundos. . . . . . . 665.6 Performancedosmetodosphdc comdados doPDB eminst anciasdaformadadanaEq. (5.6)comC= 8A. . . . . . . . . . . . . . . . . . 695.7 Performancedosmetodosphdc comdados doPDB eminst anciasdaformadadanaEq. (5.6)comC= 6A. . . . . . . . . . . . . . . . . . 69xiiiCaptulo1IntroducaoAgrandecelebracaodaconclusaodomapadogenomahumanoeumraro dia na hist oria da ciencia, um dia em que um evento de signic anciahist oricaereconhecidonaoemrestrospectiva, masenquantoeleacon-tece ... Ainda que este dia merecaa aten cao de toda a humanidade,naodevemosconfundirprogressocomsolucao. Existeaindamuitotrabalhoa ser feito. Levara muitas decadas ate que consigamos comprender total-menteamagnicenciadoedifcioDNAconstrudosobrequatrobilhoesdeanosdeevolucaoeescondidonon ucleodecadaceluladocorpodecadaorganismonaTerra.DavidBaltimore,TheNewYorkTimes,25deJunhode2000.Em2001, doisgruposconcorrentes, ocons orciointernacional HumanGenomeProject eaempresaamericanaCeleraanunciaramqueconseguiram, pelaprimeiravez na hist oria da humanidade, mapear o genoma humano e estabelecer sua sequencia[96, 68]. Oqueoscientistaszeramfoidecifrar3,1bilhoesdebasesqumicas(nu-cleotdeos)doDNApresentesnogenomahumano[56].Comoamaioriadosaspectosdasa udehumana, sejamelespositivosounao,einuenciada/determinadapelasinteracoesentreoDNA e osfatores ambientais,emtese, nofuturo, serapossvel realizarconsider avel progressonodiagnostico, trata-mentoeprevencaodedoencasimportantescombasenomapadogenomahumano.No entanto, a identicacao das bases do DNA e apenas o primeiro passo. Resta aindaatarefamuitomaiscomplicadadedecifrarosignicadodecadabase, suafun cao1eoquepodeserfeitonocasodetrazeremmensagensdefeituosas,queresultememdoencas.Sabe-sequeoDNAapresentapoucamobilidade, restrigindo-seaointerior don ucleocelular. Portanto,suaa caonadetermina caodascaractersticashereditariase feita indiretamente. Em um processo denominado transcric ao, o DNA presente non ucleocelularinduz`aformacaodoRNAmensageiroquemigraparaocitoplasmacelular e se liga a um ribossomo. Juntos, RNA e ribossomo, iniciam a tradu c ao, i.e.,o processo de ordenacao e liga cao dos amino acidos que formar ao as protenas. Ser aoas protenas queatuar aodiretamentenaos onadetermina caodascaractersticashereditarias, mas tambem nas mais variadas fun coes nos organismos,desde o trans-portedenutrientesemetabolitos, catalisedereacoesbiol ogicasateacomposi caoestrutural das celulas. Grosso modo, o genoma, oconjuntocompletoda informa caogenetica, contemsomenteareceitaparafabricacaodeprotenas, enquantoqueasprotenasdesempenhamopapeldecimentoetijolosdascelulaserealizamamaiorpartedotrabalho. Assim, acompreensaodoreal signicadodomapeamentodogenomahumanoesuaspossveisaplica coesestaoprofundamenteligadosaoenten-dimentodopapeldesempenhadopelasprotenas.Infelizmente, oproteoma, i.e., oconjuntodetodasasprotenasproduzidasporumadadacelula, tecidoouorganismo, e muitomais complicadoque ogenoma[42]. OalfabetodoDNAe compostopor quatrobases qumicas conhecias porsuasiniciais: adenina(A), citosina(C), guanina(G)etimina(T). Asprotenas,noentanto,s aoformadaspelacombina caode20blocos fundamentaisdenominadosaminoacidos. Os genes especicamos amino acidos quedevemsecombinar paraformar umadadaprotena. Mas, mesmoquandoasequenciadeamino acidos deuma protena e conhecida,nao se sabe ao certo determinar a fun cao da protena e aque outras protenas ela pode se associar. Diferentemente dos genes, que s ao lineares,asprotenasassumemformascurvasque, emalgunscasos, desaamapredicaoeestaodiretamenteligadas`asfun coesdesempenhadaspelaprotena[16,42,27].Alem disso, as celulas normalmente modicam as protenas pela adicao de a c ucare gordurade umaformaque tambempode ser difcil antecipar. Por isso, paraproduzirumaprotenacodicadaporumgene, naobastaformarasequenciadeamino acidos ditada pelo gene, e tambem necess ario realizar as corretas modica coes2peloacrescimodea c ucaregordura. Eparadeterminarocomportamento/funcio-namento da protena, e preciso ainda considerar o ambiente,agua, oleo, etc, em queaprotenaatua.Umgrandevolumederecursostemsidoaplicadonoestudodomapatridimen-sional das moleculas, mais especicamente, das protenas [17, 97]. Acria caodebasesde dados de estruturasproteicascomo,por exemplo,ProteinDataBank[10],forneceapossibilidadededetec caodehomologias1entrediferentes protenasqueeventualmente nao seriam percebidas simplesmente pela compara cao das sequenciasde amino acidos que as comp oem. Ao catalogar as estruturas tridimensionais basicasdasprotenas, cria-seapossibillidadededetec caodefamliasdeprotenascomca-ractersticassimilares[11]. Essasestruturass aofundamentaisnadetermina caodosmecanismosefun coesdasprotenasepodemserutilizadasnaredu caodoscustosdedesenvolvimentoetestedemedicamentos(AndrewPollack,DrugTestersTurntoVirtualPatientsasGuineaPigs,10denovembrode1998,NewYorkTimes).Ate1984, informa caoestrutural emresolu caoatomicas opoderiaserdetermi-nada via tecnicas de difracao de raio-X com unidades de protenas cristalizadas [38].Aintroducaodaresson anciamagneticanuclear(RMN)comoumatecnicaparaadetermina cao da estrutura proteica tornou possvel a obten cao de estruturas com ele-vada precisao em um ambiente (solu cao) muito mais pr oximo da situa cao natural deum organismovivodo queos cristaisutilizados na cristalograa [1, 107, 54, 89, 11].OsexperimentosdeRMNbaseiam-senofatodequeosn ucleosdehidrogeniotemdoisestados(spins)quepodemseralteradospelofornecimentodeenergiaemumadadafrequencia. Ainforma caoestruturalvemdoacoplamentospin-spinentreosn ucleosdehidrogenio. Sedoisn ucleosestaoespacialmentepr oximos,ent aoseusspins interagem e a frequencia necess aria para alterar um spin e modicada. Os picosnoespectrotornam-seligeiramentealterados,oquetornapossvel ainferencianaos o de dist ancias envolvendopares de atomos de hidrogenio espacialmentepr oximos,comdist anciainferiora5-6A (1A =1010m), mastambemdeangulosentreatomos em uma dada protena [54, 55, 113]. Para calcular a estrutura tridimensionaldamacromolecula,essasdist anciass aousadascomorestricoesemcombina caocomdiversas informa coes suplementares, tais como: asequencia de amino acidos que1Homologia: semelhancadeorigem eestrutura.3comp oemaprotena,referenciasgeometricasparaocomprimentoeosangulosdasliga coesqumicas existentes, entreoutras. Consideraveis recursoscomputacionaiss aorequeridosparaanalisarsistematicamenteainforma caoproduzidaviaRMN.No presente trabalho, abordaremos umdos problemas relacionados `a deter-minacaodaestruturatridimensionaldasprotenasviaRMN,maisespecicamente,versaremossobreoproblemageometricodadist anciamolecular (MDGP, doinglesmoleculardistancegeometryproblem),ondeoobjetivoedeterminarumaestruturatridimensional quesejacompatvel comosdados(dist anciasatomo- atomo)prove-nientesdosexperimentoscomRMN.Na verdade, o estudo de formas de inferencia de estruturas a partir de dist anciase umtemaimportante que vemaumentandoseun umerode aplica coes, sejanapredicaodeestruturasmoleculares[11,79,30],estimacaodeposi caoemredessemo[12, 26, 90], visualizacaodeinforma cao[46, 84], tomograadainternet[23] oureconstru cao de mapas [33]. Mais recentemente,esta teoria tem sido aplicada no re-conhecimentode face [62] e segmentacaode imagem [102]. Segundo Biswas em [11],aquest aoessencial nessesproblemase, dadoumconjuntoincompletoeimprecisodedist anciaseuclideanasentreumarededepontos(emumadadadimensao), po-demosobteralgoritmosrobustos,ecazeseescalaveisparaencontrarsuasposi coesrelativas?Acontribui caodestetrabalhoeumnovoalgoritmoquecombinaatecnicadesuavizacao e penaliza cao hiperb olicas e uma especializada estrategia de dividir-para-conquistar para solucao do problema geometrico da dist ancia molecular. As tecnicasdesuaviza caoepenaliza caohiperb olicas,propostasporXavierem[108],permitemaaplica caodemetodoscl assicosdeotimiza caoaointroduziremdiferenciabilidadenaformulacaodoMDGPcomoumproblemadeprograma caomatem aticae, maisimportante ainda, reduzemo n umero de mnimoslocais pelocontrole adequadodosparametros relacionados. Ja a estrategia de dividir-para-conquistar permite que, aoinvesderesolverum unicoegrandeproblema, possamosatacarumasequenciadeproblemasmenorese, porisso, maisfaceis. Detalhesdaimplementacaoeresulta-dosdeexperimentosnumericoscomdadosprovenientesdoProteinDataBanks aoapresentados.Ocaptulo2introduzconceitosbasicossobreestruturaqumicadasprotenas,4suasrepresentacoesgeometricasefazumapanhandodosprincipaismetodosexpe-rimentaisparadetermina caodaestruturaproteica.No captulo 3, o problema geometrico da dist ancia molecular (MDGP) e formal-mente denido. Alguns aspectoshist oricos s aoexplorados,nuancessobre a comple-xidadedoMDGP s aoressaltadasediferentesabordagensencontradasnaliteraturas aoapresentadas.Aolongodocaptulo4, apresentamos apropostadesuaviza caoepenaliza caohiperb olicasparasolucaodosproblemasdemnimosquadradosrelacionadoseumalgoritmobaseadonatecnicadedivididir-para-conquistar visando`aresolu caodeinst anciasdoMDGPcomelevadon umerodeatomos.Ocaptulo5ereservadoaosexperimentoscomputacionaisrealizadoscomins-t anciasgeradasapartirdeprotenasreais. Osresultadoss aocomparadosaosen-contradosnaliteratura.Finalmente,nocaptulo6,propomoscaminhosparatrabalhosfuturosesinteti-zamosascontribui coesdopresentetrabalho.5Captulo2ConceitosbasicossobreprotenasAs protenas s ao as m aquinas e tijolos das celulas. Se nos compararmosumorganismocomomundo, cadacelulacorresponder aaumacidade,easprotenasseraoascasas,pontes, carros,guindastes, estradas,aero-portos,etc.ArnoldNeumaier,em[82].Ahist oriadasprotenascomecanoseculoXVIII, comadescobertadequecertoscomponentes do mundo vivo, como a clara de ovo (alb umen), o sangue, o leite, entreoutros, coagulam em altas temperaturas e em meio acido. Subst ancias com esse tipodecomportamentoforamdenominadasalbumin oides(semelhanteaoalb umen).NoinciodoseculoXIX,descobriu-sequeosprincipaisconstituintesdascelulasvivaseramsubstanciasalbumin oides. Emumartigopublicadoem1838,oqumicoholandesGerardusJohannesMulder(1802-1880)usou, pelaprimeiravez, otermoprotena(do grego proteios, primeiro, primitivo) para se referir `as substanciasalbu-minoides. Naverdade, foi osuecoJonsJacobBerzelius(1779-1848),umdosmaisimportantesqumicosdaepoca,quemsugeriuotermoaMulder,poracreditarqueassubstanciasalbumin oideseramosconstituintesfundamentaisdetodososseresvivos.NaviradaparaoseculoXX, ointeressepelasprotenascontinuavaacrescer.Os qumicos passaramaanalisar minuciosamente essas substancias, descobrindoque asuadegradacaoliberavaaminoacidos. Por voltade 1900, jahaviamsidoidenticados 12 amino acidos diferentes liberados pela degradacao de protenas. Face6aessaevidencia,oqumicoalem aoFranzHofmeister(1850-1922) sugeriu,em1902,queosprotenasseriamformadasporamino acidosencadeados.Em1906, jahaviamsidoidenticados 15tiposdeamino acidosliberadospeladegradacaodeprotenas; em1935, essen umerosubiupara18e, em1940, chegoua20, completandoalistadeamino acidosqueocorremnaturalmentenasprotenasdosseresvivos[4].A maioria das protenas naturais adota estruturas tridimensionais especcas queestao associadasas suas atividadesbiol ogicas. Apesar de din amica,sobre condi coestermicaseconguracoeslocaistpicas, aestruturatridimensional decadaprotenaapresentapequenasvaria coes. Umadasgrandesdescobertassobreaestruturabio-molecular e a rela caodeterminsticaentreasequenciadeamino acidos ea estruturatridimensional da protena [89]. Isto foi apontado pela primeira vez por Christian B.Annsenecolaboradores, noinciodadecadade1960 [7]. Annsencompartilhou opremio Nobel em qumica de 1972 com Stanford Moore e William H. Stein, por seustrabalhos sobre ribonuclease, conectando a sequencia de amino acidos `a conformacaobiologicamenteativa.Fundadoem1971pelosdoutoresEdgarMeyereWalterHamilton, obancodedadosPDB(ProteinDataBank)eumreposit orioparaestruturastridimensionaisdeprotenaseamino acidos[10]. OsdadosencontradosnoPDBs aofrutosdeexpe-rimentos de RMN e Raio-X, ou de desenvolvimentote orico realizadospor pesquisa-dores de diferentes partes do mundo e podem ser gratuitamente acessados. Ao longodosanos, oPDBtemsetransformadoemumaimportantefontededadosparaoavan coedivulgacaodoconhecimentosobreasprotenas.2.1 EstruturaqumicaDopontode vistapuramente qumico, umaprotenae simplesmente umalongacadeia de amino acidos unidos por liga coes peptdicas, da as protenas tambem seremdenominadaspolipeptdeos. Cadaamino acido(excetoaprolina) eformadopor umcarbonocentral, conhecidocomocarbonoalfa(C), aoqual estaoligadasquatrounidades: um atomo de hidrogenio,um grupoamina (NH+3),um grupo carboxlico(COO)eumacaractersticacadeialateral,ougrupoR(verFigura2.1).7RFigura2.1: Estruturaqumicadosamino acidos.Emborasejamin umeras, as protenas das celulas vivas s aoformadas por umalfabeto deapenas20amino acidos, queserepetemnumasequenciaespeccapara cada protena. Nove dos vinte amino acidos existentes nao s ao sintetizados pelossereshumanose, porisso, precisamserincludosemsuadieta, estesamino acidoss aodenominadosaminoacidosessenciais. OsgruposR(resduos)s aousualmenteidenticados pelas tres letras iniciais dos nomes dos amino acidos dos quais elesderivam,ouaindaporuma unicaletra(verTabela2.1).Ala - Alanina (A) Arg - Arginina (R)Asn - Asparagina (N) Asp - Aspartato (D)Cys - Cistena (C) Gln - Glutamina (Q)Glu - Glutamato (E) Gly - Glycine (G)His - Histidina (H) Ile - Isoleucina (I)Leu - Leucina (L) Lys - Lisina (K)Met - Metionina (M) Phe - Fenilalanina (F)Pro - Prolina (P) Ser - Serina (S)Thr - Treonin (T) Trp - Tripofano (W)Tyr - Tirosina (Y) Val - Valina (V)Tabela 2.1: Nomes e siglas dos amino acidos encontrados nas celulas vivas. Os nomesesiglasdosamino acidosessenciaisestaoemnegrito.Durante aformacaodas protenas, sobre ainuenciadainforma caogeneticacontidanoRNA,ogrupocarboxlicodeumamino acidoseuneaogrupoaminadeoutro amino acido formando uma liga cao peptdica (CN) e liberando uma moleculade agua (verFigura 2.2). A forma geral de umaprotena e a repeticaodaestrutura8exibidanaFigura2.3.RRRRAminocido(1)Aminocido(2)Dipeptdeo1122guaFigura2.2: Processodeformacaodaliga caopeptdicadasprotenas.iRiOHnNH HHOCaCFigura2.3: Estruturaqumicadosamino acidos.A cadeia formada pela repeticao da sequencia NCCe conhecida como ca-deia principal. Apesar da forma linear sugerida pela Figura 2.3, for cas interat omicasencurvam e torcem a estrutura proteica produzindo uma conguracao tridimensionalcaractersticaparacadaprotena. Essaconguracaoegruposquimicamenteativosnasuperfciedasprotenass aoosfatoresquedeterminamasfun coesbiol ogicasporelasdesempenhadas.Existemprotenas dediversos tamanhos, algumas realmente grandes, comoaprotenamuscular titin, comcercade27000amino acidos emassade3000kDa1,eoutraspequenas, comoatrypsin(inibidoradapancreatitebovina), formadapor58amino acidos. Mas, emmedia, as protenas s aoformadas por algumas cente-nasdeamino acidos. Portanto, aquantidadedeatomosenvolvidosvariadepoucascentenasaalgumascentenasdemilhares. Otamanhodospolipeptdeospodeserdeterminadoviaexperimentoscomgel electrophoresis, poisataxademigracaodamoleculaeinversamenteproporcional aologaritmodeseucomprimento. Assim, a1Da, ouDalton, e uma unidade de medida de massautilizada paraexpressar a massadepartculas at omicas. Ela e denida como 1/12 da massa de um atomo de carbono-12 em seu estadofundamental.9massadeumpolipetdeoouprotenapodeserestimadapelasrela coesmobilidade-massaestabelecidasporprotenasdereferenciaepelasmedicoesdeespectometriademassa. Umaoutratecnicaparadetermina caodevariascaractersticasmacro-moleculares,incluindo peso, baseada nas propriedades de transporte e a equilibriumultracentrifugation[19].Quatro nveisestruturais s ao utilizados para a descricaode estruturas proteicas:Primario: neste nvel de abstracao, considera-se apenas a sequenciade resduos nacadeia polipeptdica.E representado simplesmente por uma lista de caracteres,onde cada um deles esta associado a um dos resduos que comp oem a protenadeinteresse.HRFKVYNYMSPTFCDHCGSLLWGLVKQGLKCEDCGMNVHHKCREKVANLCFigura2.4: Estruturaprimariadaprotenaphosphotransferase(1PTQ).Cadaumados50caracteresestaassociadoaumdos50resduosdaprotena1PTQ.Secundario: nestenvel estrutural, destacam-seospadr oesestruturaislocaistaiscomo-helices(verFigura2.5)e-folhas(verFigura2.6), oucombina coesdestespadr oes.Figura2.5: Protenamyohemerythrin(2MHR)formadapor118resduosequatrohelices.`A direita, a visao simplicada e, `a esquerda, a estrutura da cadeia principal.Terciario: nestenvel, destaca-seoarranjotridimensional (posi cao) detodososatomos dacadeiapolipeptdica (ver Figura2.7). Aestrutura terci ariade10Figura2.6: Protenabronectin(1TTG)formadapor94resduosesetefolhas.`Adireita,avisaosimplicadae,`aesquerda,aestruturadacadeiaprincipal.umaprotenaearepresentacaoestruturalmaisdetalhadadeumcadeiapoli-peptdicacompleta.Figura2.7: ProtenakinaseC(1PTQ)formadapor402atomos.Quaternario(utilizadaparagrandesprotenascomsubunidadesindependentes):aredetridimensionalcompletadeinteracoesentreasdiferentessubunidades.Aestruturaquatern ariadescreveaorganizacaoespacialdassubunidades(es-truturasterci arias)(verFigura2.8).11Figura 2.8: Complexo gvp-ssdna(1GPV) formado por 1842 atomos e 182 resduos e4cadeias(subunidades). Assubunidadesestaorespresentadascomcoresdistintas.2.2 GeometrialocalA geometria de uma protena pode ser matematicamente representada atribuindo-seaoi-esimoatomoqueacomp oeumvetortridimensionalxi=

xi1xi2xi3

,que especique a posi cao desse atomo no espa co. Podemos representar uma eventualliga caoqumicaentreosatomosiejpelovetorrij= xj xi,e,nestecaso,ocomprimentodaliga cao edadopor|r| =

'r, r`,onde'x, y` = x1y1 + x2y2 + x3y3eoprodutointernocan onicoemR3.Assumindoqueos atomosi, jekestejamquimicamenteunidosdaformarepre-sentadanaFigura2.9,podemosdenirosvetoresrij= xj xi, rjk= xkxj.Apartirdadeni caodosvetoresrij, rjk, podemoscalcularoanguloijkpelasexpressoescos ijk='rij, rjk`|rij| |rjk|, sin ijk= |rijrjk||rij| |rjk|.12x xxi kjFigura2.9: Estruturatridimensionallocal.Finalmente, o angulo diedral ijkl [180, 180] e denido como o angulo entreos vetores normais aos planos denidos pelos atomos i, j, ke j, k, l (ver Figura 2.10).O angulodiedralpodesercalculadopelasformulascos ijkl ='rijrjk, rjkrkl`|rij rjk| |rjkrkl|, sin ijkl ='rij, rjkrkl` |rjk||rij rjk| |rjkrkl|.gFigura2.10:Angulodiedral , angulos das liga coes ijk, jkl, vetores de liga caorij, rjk, rklevetoresdeposi caoxi, xj, xk, xl.Um conjunto completo de vetores de liga cao, angulos de liga cao e angulos diedraiscaracteriza completamentea geometria de uma molecula (na verdade, a superdeter-mina, i.e., fornecemaisinforma caodoqueomnimonecess arioparaacompletacaracteriza cao). Emumaprotena, os angulos deliga caos aofrequentemente re-presentadospelaletraeosangulosdiedraisquedescrevemtorcoesaoredordasliga coes N C, CCe C Nna cadeia principal, s ao representados pelas letras, e respectivamente(ver Figura 2.11). Os angulos diedrais nas cadeiaslateraiss aodescritospelaletra(verFigura2.13).Devido`aspropriedadesqumicasesobrecondi coestpicas, osangulosdiedraiss aorelativamentergidos, assumindoaconguracaodenominadatrans emque=180o, oucis com=0o(verFigura2.12). Aformatrans emaisfrequentenamaioriadas liga coes peptdicas (aproximadamente, 1000:1), aexcecaos aoosgruposligadosaosresduosprolineondeafrequenciadeformastransebemmenosexpressiva(3:1). Os angulos e vetores de liga cao tambem s ao razoavelmentergidos,13LigaoPeptdicaFigura2.11:Angulosdiedraisdacadeiaprinicipaldeumaprotena.comdesviopadr aomenorque2o, paraosangulos, e0,2A, paraoscomprimentos[59,39]. Jaosanguloses aomaisexveis, sendoresponsaveispelasprincipaiscaractersticasdageometriaproteica.CCCCCONabgdCCCCCONdbgaFigura 2.12: Nestas conguracoes, todos os quatro atomos estao situados no mesmoplano.`Aesquerda, aformacis(=0o).`Adireita,aformatranscomadist anciaentreosatomosC1eC2sendoamaiorpossvel.Cabe ressaltar que, alem da exibilidade , associada `as liga coes envolvendooscarbonosalfa,m ultiplasconformacoess aopossveispara18dos20amino acidos,as excecoess ao os amino acidos glicinae alanina. Estruturasrotamericde protenass aoaquelasquepossuemosmesmosangulos , ,masdiferemnasconguracoesdas cadeias laterais. Os angulos diedrais utilizados paradenir as rota coes nascadeiaslateraiss aodenotadospelaletra,comsubscritossendoutilizadosquandonecess ario(verFigura2.13).Apesar de mais exveis, os angulos , nao assumem todos os valores possveisdevido` asrestricoesimpostaspelotamanhodasnuvenseletr onicasdosatomosdeoxigenioe hidrogenioaoredor das liga coes peptdicas. Por isso, somente certas14HHNHHC3HHC4c1c2c3c4HHaCHHC1HHC2Figura2.13:Angulosdastorcoesdoresduolisinarepresentadospelasvariaveis1a4.combina coess aotipicamenteobservadas,comalgumadependenciacomrespeitoaotamanhoe formados resduos. Naverdade,somentecercade umdecimodoespa co, egeralmenteocupadoporprotenasepolipeptdeos[89]. Osprimeirosaob-servar essa limita cao foram G. N. Ramachandran e seus colaboradores em 1963. Porisso,ogracoquemostraasregi oesmaisestaveis(demenorenergia)paraosparesdeangulos , echamadogracodeRamachandram. Estegracoeutilizadoconstantementeporpesquisadoresduranteoprocessodeconstru caodemodelosdeprotenaparavericacaodaviabilidadedosangulos , [91].2.3 Metodos experimentais para determina cao daconformacaoproteicaUmdosfundamentosdamodelagemmolecular eano caodequeageometriamole-cular,aenergiaevariaspropriedadesmolecularespodemsercalculadasapartirdemodelosmec anicossujeitosafor casfsicasbasicas. Umamoleculapodeserrepre-sentadacomoumsistemamec aniconoqual asparticulas( atomos)s aoconectadospormolas(asliga coes). Comoumaresposta`asfor casinter-eintramamoleculares,amoleculaent aogira, vibraesedeslocaparaassumirumaconformacaofavoravel(menorenergia)noespa co.Asfor casqueatuamsobreamoleculas aoexpressascomoumasomadetermosharmonicosparaodesviocomrela caoavaloresdeequilbrioparaocomprimentoeos angulosdasliga coes; termosparaastorcoesqueconsideramrota coesinternas(rotacoesdesubgruposaoredordasliga coesqueasconecta); epotenciaiseletro-estaticos e de van der Waals [89]. O uso das mec anicas molecular e quantica tem sidoumaricafontedemodelosmaisaderentes`adin amicarealdaconformacaoproteica15[99].Apesardosrecentesavan costantocomputacionaisquantote oricos, oproblemadaconformacaoproteica, i.e., oproblemadadetermina caodaestruturatridimen-sional apartirdaestruturaprimariaedadescricaodoambiente, continuaaberto,sem uma resposta denitiva [82, 89]. Por isso, os metodos experimentais para deter-minacaodaestruturaterci ariadasprotenasconservamseustatusdeferramentasfundamentais.Osdoisprincipaismetodosexperimentaisutilizadosnadetermina caodaestru-turatridimensional emaltaresolu caos aoacristalograade raio-X[16, 74] e aresson anciamagneticanuclear[107,54].Atecnicadecristalograacomraio-Xenvolveaan alisedospadr oesdedifracaoproduzidosquandoumfeixederaios-Xincidediretamentesobreumcristal bem-ordenado. Ospadr oesdedifus aopodemserinterpretadoscomoreexoesdafonteprim aria do raio sobre o conjunto de planos paralelos no cristal. As marcas produzi-daspeladifracaos aogravadassobreumdetector(equipamentoeletr onicooulmederaio-X), escaneadasporumcomputador, eanalisadasparadeterminaromapadedensidadeeletr onica(verFigura2.14). Osobjetos( atomos)podemserdistin-guidosseestiveremseparadosporumadist anciasuperioraovalordaresolu caodoequipamento utilizado. Assim, menores resolu coes estao associadas `a representacoesestruturaismaisdetalhadas. Umdosmaioresempecilhos`aaplica caodacristalo-graaeadiculdadedecrescimentodecristaisbem-ordenadosdemacromoleculasbiol ogicas. Atualmente,epossvelobterimagensdasestruturastridimensionaisviacristalograacomresolu caoinferiora2A[9].Comahabilidade de determinar estruturas de macromoleculas biologicas emresolu caoatomicaemcondi coes semisiol ogicas, aespectroscopia de resson anciamagneticanuclear(RMN)setornouumaeminenteferramentadabiologiaestrutu-ral [98]. A informa cao tridimensional resultante dos experimentos com RMN nao s aot aodetalhadasquantoasprovenientesdacristalograaderaio-X,mas, emcontra-partida, a informa caoda RMNnao e estaticae incorpora efeitosdevidos`a varia caotermicadasolucao.NaRMN,poderososcamposmagneticoseondasderadia caodealtafrequencias aoaplicadosnainvestigacaodoambientemagneticodosn ucleosatomicos. Oam-16Figura2.14:`Adireita,ve-seomapa3Ddadensidadeeletr onicaemcadapontodoespa co.`Aesquerda, sendoconhecidasasequencaeaformadosamino acidosquecomp oemaprotena,pode-seajustaromodeloproteicoaessemapa.bientelocal dosn ucleosdeterminaafrequenciadaabsor caodaresson ancia. Oes-pectroresultantedaRMNconteminforma coessobreasinteracoesedeslocamentoslocaisdasmoleculasquecontemosn ucleosressonantes. Afrequenciadeabsor caodediferentes grupospodemser distinguidasquandoequipamentos RMNdealta-frequencias aoutilizados, masanecessidadedesepararosdiferentessinais, comointuitodeproduzirumaimagemclara, limitaotamanho(menosde100kDa)dasmacromoleculasquepodemseranalisadasviaRMN.Cabe ressaltar que a cristalograa de raio-X e a resonancia magnetica nuclear naocompetem entre si, s ao, na verdade, tecnicas que se complementam. Juntas fornecemuma imagem com detalhamento atomico da estrutura e din amica macromolecularesquepode serutilizadaparaamelhorcompreensaodosprocessosbiol ogicos nonvelmolecular[18].Mais recentemente,a cryogenicelectronmicroscopy(cryo-EM)passou aser uti-lizadanoestudodeprotenasdifceisdecristalizarouanalisarviaRMN[45, 95].Estatecnicaenvolveor apidocongelamentodeamostras decomplexos molecula-resques aoent aoexpostos`asaltasradia coesdosmicroscopioseletr onicos, criandoumaimagemtridimensional pelaprojecaodas estruturas. Adetec caoadequadadepartculasimpoeumlimiteinferiordecentenasdekDaparaoscomplexosquepodemser analisadosviacryo-EM. Apesardenaopossuir aresolu caosuperioradacristalograaeRMN, comoadventodecomputadoresmaisecientesemelho-17resalgoritmosdereconstru caotridimensional, acryo-EMdespontacomoumaboapromessadecontribui caonocampodabiologiaestrutural.AFigura2.15mostraocrescimentodovolumededadosdoPDBentre1972e2009. Acristalograaderaio-Xeamaisprofcuadastecnicasexperimentaiscomcercade48.618contribui coes, sendoseguidapelaRMNcom7777ecryo-EMcom230.1970 1975 1980 1985 1990 1995 2000 2005 20100123456 x 104 TotalContribuio anualFigura2.15: N umerodeestruturasdisponveisnabasededadosPDBentre1972emarcode2009.18Captulo3OproblemageometricodadistanciamolecularA espectroscopia de RMN fornece uma preciosa informa cao: uma rede de dist anciasenvolvendoparesdeatomosdehidrogenioespacialmentepr oximos. Asdist anciass aoderivadasdeefeitosOverhausernucleares(NOEs1)entreatomosdehidrogeniovizinhos(distantesamenosde5-6A).TendooresultadodosexperimentoscomRMN,ouseja,umaredededist anciasentreparesdeatomos,odesaopassaaseraobten caodeumaconguracaovalidaparaos atomos. Este problemapodeser colocadodaseguinte forma: dadoumconjunto de limites inferiores e superiores para um subconjunto esparso do conjuntodetodasasdist anciasinterat omicas, determineumaconguracaoparaamolecula(todos os atomos) que satisfaca as restricoes de dist ancia. Ou, de forma equivalente,determinar x1, x2, . . . , xms.a lij |xixj| uij, (i, j) K 1, . . . , m2xi R3, i = 1, . . . , m,onde K e um subconjunto do produto cartesiano 1, . . . , m2e identica as dist anciascujoslimitess aoconhecidos,em eon umerodeatomosquesedesejaposicionar.Esseproblemaeconhecidocomooproblemadadist anciamolecular (MDGP,doingles moleculardistancegeometryproblem)e, segundoCrippeneHavel [30],1OefeitodeOverhauser eonomedado atrasferencia depolarizacao despinsentrepopula coesdeatomos. Estastransferencias geramaltera coes (picos)naespectroscopiadeRMN.19foi denidoporCayleyem1841. Noentanto, oproblemas oveioasersistemati-camenteestudadoem1928,quandoMengermostroucomoaconvexidadeemuitasoutraspropriedadesgeometricaspoderiamserdenidaseestudadasemtermosdasdist anciasentreparesdepontos. Jaem1935, Schoenbergencontrouumacaracte-riza cao equivalente e percebeu a conexao do problema com as formas bilineares. Em1953, Blumenthal[14] publicou umamonograa sobre o tema, onde foi enunciadooproblemafundamentaldadist anciageometricacomosendoWhenwe have givenaset of distances betweenpairs of points, thedistancegeometrycangiveacluetondacorrect set of coordinatesforthepointsinthree-dimensional Euclideanspacesatisfyingthegivendistanceconstraints.Um caso particular do problema da dist ancia molecular e obtido quando conside-ramosconhecidasasdist anciasexatasentretodososparesde atomosdaprotena.Nestecaso, oMDGPpodeser resolvidopelafatora caodamatrizformadapelasdist anciasconhecidas.Defato,seadist anciadijexistenteentreosatomosiejeconhecidaparatodopar (i, j) 1, 2, . . . , m2, oproblemapassaaser determinar umaconguracaox1, x2, . . . , xmvi avel,ouseja,talque|xixj| = dij, i, j= 1, . . . , m,ondexk=(xk1, xk2, xk3)representaaposi caonoespa cotridimensional dok-esimoatomo.Podemos, semperdadegeneralidade, posicionaroprimeiroatomonaorigem,ouseja, x1=(0, 0, 0)poisaestruturatridimensional daprotenaeinvariantecomrespeito`atranslacao. Comisso,temososeguintesistemadeequacoesnao-linearesdi1= |xix1| = |xi| ,dij= |xixj| , i, j= 2, . . . , m, (3.1)cujasvari aveiss aoasposi coesxi=(xi1, xi2, xi3), xj=(xj1, xj2, xj3)ocupadaspe-los atomosiejrespectivamente. Antesdedeterminarmosumasolucaoparaesse20sistema,seraconvenientereescrevermosaequacao(3.1)naformad2ij=3k=1(xikxjk)2= |xi|2+|xj|22xtixj= di0 + dj02xtixj, i, j= 1, . . . , m.Ou,deformaequivalente,xtixj= (di1 + dj1dij)/2, i, j= 2, . . . , m. (3.2)DenindoX=[x2, . . . , xm] R(m1)3comosendoamatrizcujaslinhas s aoasposi coesdosatomos,podemosescreveraequacao(3.2)naformamatricialD = XXt, (3.3)comDij=(di1+dj1 dij)/2. Se as dist ancias s aoconsistentes, i.e., se existeumconjuntodepontos vi aveis noespa cotridimensional, ent aoamatrizDdevenecessariamentesersemidenidapositivacompostomenorouigualatres(mesmopostodeX). Tomandoadecomposi caoemvaloressingularesdeD,obtemosD = UUt,ondeUeumamatrizn3ortogonaleumamatriz33diagonalcomautova-lores1, 2, 3positivos. Assim, umasolucaoparaosistema(3.3)podeserobtidatomandoX= U1/2.Uma vez que a decomposi cao em valores singulares pode ser feita emO(m3) operacoesem ponto utuante [51], ent ao a solucao para o MDGP com todas as dist ancias exa-tas entre os pares de atomos sendo conhecidas pode ser obtida em tempo polinomial[14,30,36].Na verdade, um algoritmo muito simples apresentado por Dong e Wu em [35] per-mite obter uma solucao para o MDGP em O(m) operacoes, no caso em que todas asdist ancias s ao conhecidas. O algoritmo se baseia na propriedade geometrica elemen-tardequeepossvel determinaraposi caodeumponto, apartirdoconhecimentodasdist anciasentreestepontoequatropontosxosenao-colinearesconhecidos.21Comefeito, sejamx1, x2, x3, x4R3quatro pontos xos conhecidos e nao-colineares, ediasdist anciasentrexi, i =1, . . . , 4, ey, opontocujaposi caode-sejamosdeterminar. Comestaship oteses,podemosescreverosistemanao-lineard2i= |xiy|2= |xi|2+|y|22xtiy, i = 1, . . . , 4.Isolando |y|2naequacaoassociadaaopontox4,obtemos|y|2= d24|x4|2+ 2xt4y.Substituindo |y|2nasequacoesassociadasaosdemaispontos(i = 1, 2, 3), obtemososistemalinearyt(x4xi) = (d2i d24 +|x4|2|xi|2)/2, i = 1, 2, 3,cuja unicasolucaoeopontoprocurado.OprimeiropassodoalgoritmopropostoporDongeWu edeterminaraposi caodequatroatomosnao-colineares. Apartirdestabase, osquatroatomos, tenta-sexartodososdemaisatomos. Como ebaixaaprobabilidadedequequatroatomostomados aleatoriamente sejam colineares, a primeira base, muito provavelmente, serasucienteparaaxacaodosoutrosatomos. Portanto, poressealgoritmo, seriamnecess ariasapenas O(m)operacoesempontoutuante.Uma abordagem mais realista do MDGP e obtida quando, ao inves de considerarconhecidastodas as dist anciasexatasentreos pontos( atomos), sup oe-sedisponvelapenasumsubconjuntoesparsodessasdist ancias. Essaabordagemaindaquesim-plista, pois considera dist ancias exatas, transforma o MDGP em um problema muitomaiscomplexodopontodevistacomputacional. Naverdade,nestecaso,oMDGPseinclui naclassedosproblemasNP-difcil. Em[87], SaxemostrouqueoMDGPunidimensional e equivalente aoproblemadoparticionamentode conjuntos, umproblemaconhecidodaclasseNP-difcil2.Em[113], encontra-seumexemplodecomooproblemadoparticionamentodegrafospodeserreduzidoaoMDGPunidimensional. Primeiro, suponhaquesete-nha um conjuntoS= 1, 2, 2, 4, 3 de n umeros inteiros e que se desejaparticiona-lo2Saxe mostrou ainda que o MDGP em um espacon-dimensional e NP-difcil para todon maiorouigualaum.22emdoissubconjuntoscujassomasdoselementossejamiguais. Apartirdessepro-blema,construaaseguinteinst anciaunidimensionaldoMDGP:considere6pontosnoespa counidimensional eexijaqueadist anciaentreoprimeiroeosegundosejaigual ao primeiro inteiro em S, que a dist ancia entre o segundo e o terceiro seja igualaosegundointeiroemS, queadist anciaentreoterceiroeoquartosejaigual aoterceirointeiroemS,eassimpordiante. Finalmente,exijaqueadist anciaentreoprimeiroeo ultimopontosejaigualazero.Se uma solucao para esse MDGP unidimensional for encontrada, ent ao obtem-seautomaticamenteumasolucaoparaoproblemadoparticionamentodeS, atravesdaseguinteregradeassociacao: seosegundopontoestiver`adireitadoprimeiroponto, oprimeiroelementodeSpertenceraao subconjuntoSd,casocontrario, per-tencer aaosubconjuntoSe; seoterceiroponto estiver`adireitadosegundoponto, osegundoelementode Spertenceraao subconjuntoSd, casocontrario,pertenceraaosubconjuntoSe;eassimsucessivamente.Nofundo, oquesefeznesse exemplofoi associar cadaumdos elementos deSaumsegmentodereta, earestricaodecoincidencianasposi coes doprimeiroe ultimopontosemotivadapelofatodequeassomasdoselementosdecadaumdos subconjuntosqueparticionamSdevemseriguais. A Figura3.1mostracomooproblemadoparticionamentopodeserreduzidoaoMDGPunidimensional.S ={1,2,2,4,3}x1x2x3x4x5x6x1x2x3x4x5x6S=e{2,4} S=d{1,2,3}Figura3.1: EquivalenciadoparticionamentodeconjuntoseoMDGPunidimensio-nal.Napr atica, os experimentos comRMNfornecemapenasumsubconjuntodasdist anciasentreosatomos(dist anciasmenoresque5-6A[89])e,comoemtodoex-perimento fsico, os dados possuemum limite em sua precisao, portanto, s ao conhe-cidosapenaslimitessuperioreseinferioresparaasdist ancias. Assim, nadeni caomais realista do MDGP, o objetivo e determinar as posi coes x1, x2, . . . , xm R3tais23quelij |xixj| uij, (i, j) K 1, . . . , m2,ondelijeuijs ao, respectivamente, oslimitesinferioresuperiorparaasrestricoesdedist ancia.Aprincpio,essaformadoMDGPparecesermaisfacildesolucionar,jaqueasrestricoesdasdist anciass aorelaxadase, portanto, maisfaceisdesatisfazer. Con-tudo,napr atica, oslimitesinferioresuperiors aopr oximose, assim, oproblemaeaindadedifcil solucao. Em[76], Moremostrouqueseoslimitessuperioreinfe-riors aopr oximos, oMDGPcomasdist anciasrelaxadastambempertenceaclasseNP-difcil sendo,portanto, t ao difcilde solucionar quantoo MDGP com dist anciasexatas.3.1 ProblemasrelacionadosNa literatura, encontram-se problemas intimamente relacionados ao MDGP, i.e., cu-jas solucoespodem com frequenciaser aplicadas ao MDGP. Um dessesproblemas eoproblemadelocaliza c aoemredecominformac aodedist ancia[41, 11, 26, 90]. Noproblemadelocaliza cao,oobjetivotambem eposicionarospontosdeumdetermi-nado conjunto de forma que as dist ancias entre eles atendam `as restricoes impostas.Aprincipal diferen caequenoproblemadelocaliza caos aoconhecidasnaoapenasasdist anciasentreospontosquesedesejaposicionar,mastambemasdist anciasaalgunspontosxos( ancoras).OutroproblemaassociadoaoMDGP eoproblemadopreenchimentodamatrizde dist ancia euclideana[2, 69], onde, sendo conhecidas apenas algumas das entradasdeumamatrizdedist ancias, deseja-sedeterminarosdemaiselementosdessama-triz. Ummetododesolucaodoproblemadepreenchimentopodeserutilizadoparadeterminar as dist ancias desconhecidasde uma inst ancia do MDGP exato, recaindoassimnaformulacaopolinomialdoMDGP.Oproblemadaaproximac aodamatrizdedist anciaeuclideanatambempossuiestreita liga cao com o MDGP [73, 22, 47]. No problema de aproximacao, uma matrizcujoselementoss aovaloresaproximadosdasdist anciasentreosatomosedadaapriorie o objetivo e determinar a matriz de dist ancia euclideana mais pr oxima desta24matriz. Emumainst anciadoMDGPemques aoconhecidososlimitesdetodasasdist ancias, a matriz formada pelos pontos medios de cada um dos intervalos pode sertomadacomoentradaparaumalgoritmodesolucaodoproblemadeaproximacao.Erazoavelsuporque, seamatrizeuclideanaobtidanasolucaoforsucientementepr oximadamatrizdeentrada, ent aoasdist anciasobtidasestar aonointeriordosintervalos(restri coes)e,novamente,recai-senaformulacaopolinomialdoMDGP.3.2 ComparacaodeestruturasviaRMSDUmainteressante quest aote orica/experimental relacionadaaoMDGPe aunici-dadedesolucao. Noteque, por ser oMDGPdenidounicamenteemfun caodedist ancias, umamesmasolucaoapresentadaemdiferentesposi coesdoespa copodedaraimpressaodaexistenciadem ultiplassolucoes. Assim, eimportantedispordeferramentasanalticas/computacionaisquepermitamcompararestruturastridi-mensionaisindependentementedasregi oesdoespa coqueelasocupem.A RMSD (root mean square deviation) e uma forma frequentemente empregadaparaquanticar discrepancias entre estruturas tridimensionais [60, 51, 113]. Su-pondo que duas estruturas tridimensionais X, Y Rm3possuam os mesmos centrosdemassa, dene-seaRMSDentreasestruturasXeY comosendoomnimodanorma de Frobenius da diferen ca entre as duas estruturas, sujeita a uma apropriadarota caoemX,i.e.,RMSD(X, Y ) = minQ|Y XQ|F , QtQ = I,ondeQ eumamatriz3 3ortogonal.Noteque,pordeni cao,|Y XQ|2F= tr (YtY ) + tr (XtX) 2tr (QtXtY ).Ent ao,minimizar |Y XQ|Fequivaleamaximizartr (QtXtY ).SejamC=XtY R33eC=UVtadecomposi caoemvaloressingularesdeC. Segueque,tr (QtXtY ) = tr (QtC) = tr (QtUVt) = tr (VtQtU) tr (),25poisoselementosdadiagonaldes aotodosnao-negativoseVtQtUeumamatrizortogonal e, porisso, possui traco. Assim, tr (QtXtY )emaximizadoquandoQ=UVt.SeguequeaRMSD(X, Y )podesercomputadapeloseguinteprocedimento:1. Fa caC= XtY ;2. Obtenhaadecomposi caoemvaloressingularesdeC,i.e.,C= USVt;3. Fa caQ = UVt,eent aoRMSD(X, Y ) = |Y XQ|.Note que oprocedimentoacimafornece umamedidade similaridadeque e inva-riantesobrerota coesetranslacoesdasestruturasetambempermitedeterminararota caoQquemelhorsobrepoeasestruturas.3.3 MDGPviaprograma caomatematicaO MDPG pode ser formulado como um problema global de mnimos quadrados. Defato, nocasomais geral, adetermina caodaestruturaproteicaestaassociadaaoproblemadedeterminarposi coesx1, . . . , xn R3taisquelij |xixj| uij, (i, j) K 1, . . . , m2, (3.4)ondelijeuijs ao, respectivamente, os limites inferioresuperior conhecidos paraasdist anciaeKumsubconjuntodosparesdeatomos. Assim, resolveroMDGPequivaleaobterumasolucaoglobaldoseguinteproblemademnimosquadrados:MDGPviaprograma caomatematica(FG) min f(x) =(i,j)Kpij(dij) (3.5)s.a dij= dij(x) = |xixj| , (i, j) K 1, . . . , m2xi R3i 1, . . . , m,ondepijequalquerfun caodepenalidadecomaspropriedades(P1) pij(dij) = 0,sedij [lij, uij];(P2) pij(dij) > 0,sedij/ [lij, uij].26Efacil verquef(x)=f(x1, . . . , xm)=0se, esomentese, s aosatisfeitastodasasrestricoesdaforma(3.4). Ou,emoutraspalavras,s aoequivalentesassenten casx R3me umasolucaoglobal de (FG) e xe umaconguracaovi avel doMDGP.Duasdasinnitaspossibilidadesparaasfun coesdepenalidadepijs aopij(dij) = max lij dij, 0 + max dij uij, 0 ; (3.6)pij(dij) = max2

l2ijd2ijl2ij, 0

+ max2

d2iju2iju2ij, 0

. (3.7)Infelizmente, oproblemadamelhor formulacaoemprograma caomatem aticaparaoproblemageometrico dadist ancia molecular continua semsolucao. Naoexistemresultados de unicidade (convexidade) e muitas formulacoes (como, porexemplo,as queutilizam as fun coesde penalidadedenidasanteriormente)nao s aosequer diferenci aveis o que inviabiliza a aplica cao direta dos metodos cl assicos e maisrobustosdeotimiza cao.3.4 EstrategiasdesolucaoNaoencontramosnaliteraturaumaformulacaoideal(convexa)doproblema(FG)para o casomaisrealista, i.e.,o casoem queKe um subconjuntopr oprio e esparsode 1, 2, . . . , m2elij< uij. Porisso,diferentespropostavemsendoapresentadas:suaviza cao [79, 5], programa cao semidenida[11], diferen ca de fun coes convexas [6],etc. SegueabaixoumalistaincompletadaspropostasparasolucaodoMDGP,viaprograma caomatem atica.3.4.1 EMBEDEm[28, 30], CrippeneHavel apresentaramumalgoritmochamadoEMBEDpararesolver oMDGP. OalgoritmoEMBEDlidacomlimitesinferioresuperiorparatodas as dist ancias entre os atomos. Na pr atica, apenas algumas das dist ancias temseuslimitesinferioresuperiorconhecidos. NoalgoritmoEMBEDestaescassezdelimitesparaasdist anciasecontornadaatravesdadesigualdadetriangular. Maisespecicamente, naausenciadelimites, assumi-seumgrandevalorpositivocomolimite superior e zero como limite inferior. Como a desigualdade triangular deve ser27satisfeita,paraquaisqueratomosi, j, ktem-seuij uik +ujke,ent ao,uijpodeserreduzido para a soma do lado direito. Este processo pode ser repetido ate que todosos limites superiores alcancem seus valores mnimos. Algo similar pode ser feito comoslimitesinferiorestambemutilizandotriplasdeatomos.O algoritmo EMBED segue sucessivamente tres etapas. Na primeira delas, tomacomoentradaasdist anciasobtidasexperimentalmente(usualmenteesparsaseim-precisas)etentaestimar(viadesigualdadetriangular)umintervalopossveldeva-lores paracadaumadelas. Na segundaetapa,um conjuntodecoordenadas paraosatomos s aocalculadasdetal formaqueas dist anciasestejamnosintervalosobtidosnaetapaanterior. Aterceiraetapautilizametodosdeotimiza caonumericaparaminimizarumafun caoerro(mnimosquadrados)cujamagnitudemedeosdesviosdascoordenadascomrela cao`asrestricoesdedist anciafornecidasnaentrada.3.4.2 ABBIEEm[57, 58], HendricksondescreveumaestrategiaparaoMDGPexatoquetentaevitar resolver grandes problemas de otimiza cao. Estaestrategiapode ser vistacomoumalgoritmodedividir-para-conquistar. Aideiadosalgoritmosbaseadosnaestrategiadedividir-para-conquistaredividirumproblemagrandeempartesme-nores,essaspartess aoresolvidasseparadamente,possivelmentede formarecursiva,esuassolucoess aorecombinadasemumasolucaoparaoproblemaoriginal.A observa cao fundamental da proposta de Hendrickson e que existem no MDGPsubproblemas que podem ser resolvidos independentemente. Se for possvel identi-car um subgrafo que possua muitas arestas, ent ao, considerando apenas as restricoesdas arestas desse subgrafo, pode ser possvel determinar as posi coes relativas de seusvertices. Uma vez que o subproblema de determinar as posi coes dos vertices do sub-grafotenhasidoresolvido,osubgrafopodesertratadocomoumcorporgido.Agrandevantagemdessapropostaestarelacionadaaon umerodevari aveisdosproblemasdeotimiza caoconsiderados. Noespa cotridimensinal, umcorporgidopossuisomenteseisgrausdeliberdade,jacadavertice,seconsideradoindependen-temente, possui tresgrausdeliberdade. Assim, aotratarumconjuntodeverticescomoumcorporgido, on umerodevari aveisconsideradaspodeserdrasticamentereduzido.28EstapropostafoiimplementadaemumcodigochamadoABBIEetestadacomdadossimuladosprovenientesdaribonucleasepancre aticabovinaA, umapequenaprotenaformadapor124amino acidos, cujaestruturatridimensional econhecida[83]. Oconjuntodedados utilizadoeraformadopor todas as dist anciasentreparesdeatomosnomesmoamino acidoe1167dist anciasadicionaiscorrespondentesaosparesdeatomosdehidrogeniocomproximidademenorque3,5A.3.4.3 Perturba caoestocasticaEm[114], Zou, BirdeSchnabel apresentaramumalgoritmodeotimizacaoglobalviapertubacaoestocasticapararesolu caodoMDGPcomrestricoesdenidastantopor dist ancias exatas quanto por dist ancias limitadas. Este algoritmo combinaumafase estocastica que identicaum conjunto inicial de minimizadores locais com umasegundafase,maisdeterminstica, quebuscamnmimoslocaismaisprofundos. Se-gundoosautores, umadasvantagensdestealgoritmoeque, nasegundafase, aoincorporaraestruturaseparavel doproblema, s aoresolvidossubproblemasdeoti-mizacaoglobalcomdimensaomuitomenorqueadoproblemaoriginal.Durante aprimeirafase doalgoritmode Zou, gera-se umconjuntoaleat oriodepontosnoespa codasvari aveisdoproblemaoriginal atravesdoposicionamentoaleat oriodos atomos noespa cotridimensional. As piores das conguracoes s aodescartadas, etenta-seaprimorarasmelhoresconguracoespelamovimentacaodeum atomo ou um par de atomos, ate que a fun cao objetivo atinja um valor de corte.Algumasdasconguracoesaprimoradass aoent aoutilizadascomopontosiniciaisparaumalgoritmode otimiza caolocal noespa codoproblemaoriginal. Algunsdosminimizadoreslocaisencontradosnestafases aoutilizadosnasegundafasenatentativadeseobterresultadosaindamelhores.Nasegundafase, seleciona-sesucessivamenteumminimizadorlocalparaaten-tativa de aprimoramento. Um par de atomos e escolhido e um algoritmo estocasticodeotimiza caoglobal depequenaescalaeaplicado`aconguracaotomandocomovari avel apenasestepardeatomosemantendoosdemaisatomosxos. Ap osessepasso, umalgoritmodeotimiza caolocaleaplicadosobreaestruturacompletato-mandocomopontoinicial amelhor conguracaoobtidadurante opassode oti-mizacaoglobal depequenaescala. Asmelhoresconguracoess aoinseridasnuma29lista de minimizadores locais e a segunda fase e iterada um denido n umero de vezes.3.4.4 DGSOLA exposi caodoalgoritmo DGSOL seraaqui feita com maior aten cao/detalhamentodevido` asemelhan caexistenteentreaabordagemdesenvolvidaporMoreeWueapropostadopresentetrabalho.Seguindoasideiasexpostasem[106],MoreeWudesenvolveramumalgoritmo,chamado DGSOL [79], para resolver uma varia cao do MDGP. O algoritmo DGSOLe baseado em uma estrategia de otimiza cao global por aproximacao contnua. A ideiaetransformarafun caoobjetivof(x1, . . . , xn) (i,j)Kmin2|xixj|2l2ij, 0 + max2|xixj|2u2ij, 0 (3.8)emumafun caosuavequepossuaummenorn umerodeminimizadoresatravesdatecnica de suaviza cao Gaussiana [64, 65, 66, 85]. Um algoritmo de otimiza cao local eaplicado `a fun cao suavizada e tecnicas de continua cao s ao utilizadas para rastrear osminimizadoresdafun caooriginal,apartirdosminimizadoresdafun caosuavizada.Uma das vantagens do DGSOLe a possibilidade de utilizacao de um conjunto esparsodedadosrelativos`asdist ancias.AtransformadaGaussianadependedeumparametroquecontrolaograudesuaviza cao. Afun caooriginal feobtidase=0eaintensidadedasuaviza caoaumenta`amedidaqueaumentamosvaloresde. AtransformadaGaussiana 'f`deumafun caof: RnR edenidacomo'f` 1n/2n

Rnf(y) exp

|y x|22

dy. (3.9)O valor 'f`(x) e uma media de fna vizinhan ca de x, com tamanho relativo destavizinhan casendocontroladopeloparametro. AtransformadaGaussiana 'f`tambem pode ser vistacomo aconvolucaode fcom a fun caodensidadeGaussiana.Emcasosparticulares, porexemplo, quandooslimiteslijeuijs aoiguais(dis-t anciasexatas),atransformadaGaussianapossuiexpressaoanaltica,mas,nocasogeral, aintegral daexpressao(3.9)deveseraproximada. Em[79], MoreutilizaaquadraturaGaussianapararealizarasaproximacoesdasintegrais.30O parametro e de extremaimportancia, pois tem a capacidade de convexicara aproximacao da fun cao transformada. Mais especicamente,para valores acimade um valor de corte c, a aproximacao a 'f`,q da transformada Gaussiana 'f`, cal-culada pela quadratura Gaussiana com q nos, e uma fun cao convexa. Curiosamente,aconvexica caodafun caoaproximadaealgoindesej avel, poisasolucaoobtidaedegenerada, todosospontosocupamamesmaposi cao. Ent ao, aescolhadovalordoparametrodeveserfeitacomparcim onia, buscandoconvexicaralgumasdasparcelasdafun caoobjetivodadapelaexpressao(3.8), masevitandovaloresaltosqueconduzamadegeneracaodassolucoes.Esta estrategia para o MDGP foi implementada e testada em inst ancias articiaiscom tamanhos modestos (entre 100 e 200 atomos), geradas a partir de dados do PDB.Nos experimentos numericos realizados, o algoritmo DGSOL foi capaz de determinaruma solucao independentemente do ponto inicial escolhido. Portanto, a estrategia deaproximacao permite determinar a solucao global com menos esforco computacionalqueorequeridoemestrategiasdemultistart.3.4.5 Otimiza caodediferencasdefunc oesconvexasEm[5, 6], Ane Taoabordaramo MDGPsoba perspectiva dos algoritmos deotimiza cao para diferen cas de fun coes convexas (d.c. algorithms, do ingles dierenceofconvexfunctions). Elestrabalharamnoespa co m,3(R),oespa codasmatrizesreais de ordem m3, onde para X m,3(R), Xi e sua i-esima linha. Identicandoumconjuntodeposi coesx1, . . . , xmcomamatrizX,Xti=xiparai =1, . . . , m,oMDGPpodeserexpressopor0 = min

(X) :=12(i,j)K,i0parai =j ewij=0paratodoi. Opotencial depar (pairwise)ij: m,3(R) R edenidoparaasrestricoesdedist anciasexatascomoij(X) = (d2ij

Xti Xtj

2)2ouij(X) = (dij

Xti Xtj

)2, (3.11)31eparaasrestricoesdedist anciaslimitadascomoij(X) =2min

Xti Xtj

2l2ijl2ij, 0+2max

Xti Xtj

2u2iju2ij, 0. (3.12)UmamatrizXeumasolucaodoMDGPse, esomentese, forumminimizadorglobaldoproblema(3.10) e(X) = 0.AneTaodemonstraramqueoalgoritmoparadiferen cas defun c oesconvexaspodeseradaptadoparadesenvolvimentodealgoritmosecientesparaasolucaodeMDGPsexatosdegrandeporte. Elespropuseramvariasversoesdoalgoritmod.c.baseadas emdiferentes formulacoes doproblema. Devidoaoseucarater local, aotimalidadeglobal naopodeser garantidaparaumproblemad.c. generico. Noentanto, o fato de que a otimalidade global pode ser obtida com pontos iniciais con-venientesosmotivouainvestigarumatecnicaparageracaodebonspontosiniciaisparaosalgoritmosd.c. nasolucaode(3.10),comijdenidoem(3.11).AneTaorealizaramexperimentosnumericoscomtresconjuntosdedados: osdadosarticiaisdeMoreeWu[78] (ate4096atomos), 16protenasdoPDB[10](de146ate4189atomos), eosdadosdeHendrickson[58] (de63ate777atomos).Utilizandoessesdados,osalgoritmos d.c. mostraram-secapazesderesolverecien-tementeMDGPsexatosdegrandeporte.3.4.6 AlgoritmodeconstrucaogeometricaComojacitado, DongeWuem[35] apresentaramumalgoritmocomcomplexi-dadeO(m)paraasolucaodaformulacaoexatadoMDGPcomtodasasdist anciassendoconhecidas. Oalgoritmobaseia-seemsimplesrela coesgeometricasentreascoordenadasdosatomoseasdist anciasexistentesentreeles. Em[36], DongeWuexibiramumaversaomodicadadoalgoritmodeconstru caogeometricaparaumconjuntoesparsodedist ancias extas. Assumindoquesejapossvel xar as coor-denadasdepelomenosquatroatomos, propuseramquecadaumdosatomosnaoxadossejaexaminadoam desedeterminarses aoconhecidasas dist anciasentreeleepelomenosquatroatomosxados. Emcasoarmativo,ascoordenadasdesseatomo podem ser imediatamente determinadas. O algoritmo continua ate que todosos atomos sejamxados,masnaohagarantias dequeumasolu caosejaencontradapois,emcadaloop,oalgoritmorequerquepelomenosumdosatomosnaoxados32possaserdeterminadoutilizandoquatrodosatomos xados. SaorequeridosO(m4)passosparaaconclusaodometodo.3.4.7 Algoritmobranch-and-pruneEm[71],Liberti,LavoreMaculanpropuseramumalgoritmo,denominadobranch-and-prune(BP), baseadoemumaformulacaodiscretaparaoMDGPexato. Elesobservaramque,comhip otesesadicionais,epossvelformularoMDGP,aplicado`acadeia principal das protenas, como um problema discreto de busca. Nesta aborda-gem, s ao consideradas as hip oteses adicionais de conhecimento dos angulos e compri-mentosdas liga coes covalentese tambem conhecimentodas dist anciasentreatomosseparadosportresliga coesconsecutivas.Para descrever a cadeia principal de uma protena com m atomos, alem dos com-primentosdi1,i, parai=2, . . . , meangulosi2,idasliga coes, parai=3, . . . , m,enecess arioconsiderarosangulosdetorcaoi3,i, parai =4, . . . , m, ques aoosangulos entre as normais aos planos denidos pelas atomos i 3, i 2, i 1ei 2, i 1, i(verFigura3.2).Figura 3.2: Deni coes dos comprimentos, angulos das liga coes e os angulos de torcao.Dadostodososcomprimentosd1,2, . . . , dm1,meosangulos1,3, . . . , m2,mdasliga coeseosangulosdetorcao1,4, . . . , m3,mdeumamoleculacommatomos,ascoordenadasCartesianas(xi1, xi2, xi3)paracadaatomoinamoleculapodemser33obtidosutilizandoaseguinteformula:

xi1xi2xi31

= B1B2. . . Bi

0001

, i = 1, . . . , m,ondeB1=

1 0 0 00 1 0 00 0 1 00 0 0 1

, B2 =

1 0 0 d1,20 1 0 00 0 1 00 0 0 1

,B3=

cos 1,3sin 1,30 d2,3 cos 1,3sin 1,3cos 1,30 d2,3 cos 1,30 0 1 00 0 0 1

eBi=

cos i2,isin i2,i0 di1,i cos i2,isin i2,i cos i3,icos i2,i cos i3,isin i3,idi1,i sin i2,i cos i3,isin i2,i sin i3,icos i2,i sin i3,icos i3,idi1,i sin i2,i cos i3,i0 0 0 1

,parai = 4, . . . , m.Umavezqueoscomprimentoseangulosdasliga coess ao, porhip otese, conhe-cidos, ascoordenadasCartesianasdetodososatomosdeumamoleculapodemserdeterminadasusandoosvalorescos i3,iesin i3,i, parai =4, . . . , m. Naver-dade, aposi caodoi-esimoatomopodeser expressaemtermos dasposi coes dostres atomos que oprecedem, assim, existem2m3conformacoes possveis, oquecaracterizaaviabilidadedediscretizacaodoproblema.Emtermos gerais, noalgoritmoBP, acadapasso, oi-esimoatomopodesersituadoemduasposi coes. Abuscaeramicadasobretodasasposi coes ques aovi aveiscomrespeitoatodasasrestricoes,e,seumaposi caonao evi avel,seuramoeabandonado.Em[71] e[31], s aoencontradosresultadosnumericosobtidoscomoalgoritmoBPcomdadosarticiaispropostosporMoreeWu[78] eLavor[70] edadosreaisobtidosnoPDB.343.4.8 Programa caosemidenidaEm [11, 13], Patrick Biswas e colaboradores propuseram um algoritmo para solucio-nar o MDGP viaprograma cao semidenida. Neste algoritmo, o grafo cujos verticess aoos ndicesdosatomoseasaresta, asdist ancias(oulimites)conhecidas,edivi-didoemsubgrafosusandoummetododeagrupamento. Ent ao, umaestrategiaderelaxa cao de programa cao semidenida e o metodo de busca do gradiente s ao aplica-dosparadeterminarumarealizacaotridimensional3decadasubgrafo. Finalmente,umalgoritmoeutilizadoparacombinarassolucoes, determinandoasposi coesnosistemadecoordenadasglobal.OproblemaderealizacaodegraforelacionadoaoMDGP eDeterminar x1, . . . , xm(3.13)s.a l2ij |xixj| u2ij, (i, j) K 1, ..., m2.SejaX=[x1x2. . . xm] amatriz3mquesedesejadeterminar. Oproblema(3.13) podeserreescritonaformamatricialabaixodeterminar Y (3.14)s.a l2ij etijY eij u2ij, (i, j) K 1, ..., m2Y= XtX,ondeeieoi-esimovetorunitarioemRmeeij= eiej.Assim, umarelaxa caoemprograma caosemidenidaparaoproblema(3.14)edadaporminimizar tr (Y ) (3.15)s.a l2ij etijY eij u2ij, (i, j) K 1, ..., m2Y _ 0,ondeY _ 0signicaqueYeumamatrizsemidenidapositiva.Afun caoobjetivodoproblema(3.15)equivaleai|xi|2e, portanto, implicanaminimiza caodasnormas. Umavezque, semperdadegeneralidade, ospontos3Umarealizacao deumgrafocompesoemumespacotridimensional eumconjuntodepontoscujasdist anciascorrespondem aospesosdasarestasqueosligam.35xipodemterseucentrodegravidadexadonaorigem, naohaqualquerlimita caonessaescolhadessafun caoobjetivo.Otermorelaxa caocondizcomofatodequepodenaoserpossvel decomporasolucao do problema (3.15), i.e., a matriz Y Rnnno produto XtX com X R3m,ou de forma equivalente,a matriz Ypode ter posto maior que tres. Se este for caso,ent aotoma-secomosolucaoostresautovetoresassociadosaosmaioresautovaloresdadecomposi caoemvaloressingularesdeY .O metodo proposto por Patrick Biswas e colaboradores foi aplicado em inst anciasderivadasdoPDB, obtendosolucoescombaixoRMSD(inferiora1A)quandooslimiteslijeuijs aopr oximos.3.4.9 GNOMADEm[104],Williamsecolaboradorespropuseramumalgoritmodeotimiza caoglobalparaoMDGPque,alemdasrestricoesdedist ancia,utilizaasrestricoesdevan derWaals4parareduziroespa codebuscadassolucoes.Este metodo baseia-se na constru caode esferas ao redor de cada ponto ( atomo).E, acadapasso, busca-sereduzirovalordafun caoobjetivomovendo-seum unicoatomode tal formaque anovaposi caoestejaforadas esferas que envolvemosdemais atomosepermitareduzirovalor dafun caoobjetivo. Estasesferaspossuemraio proporcional `afor ca de van der Waals existenteentreo ponto quesemovee osdemais. Comointuitodeaumentarataxadeconvergencia, Williamseosdemaisautoresprop oemqueduranteodeslocamentodoponto, evite-setambemaesferadecentronaatual posi caoeraioproporcional aoerroassociadoaoponto. Destaforma, pontos ( atomos) queocupemposi coesinvi aveismovem-semaisrapidamentequeospontospr oximosdaviabilidade. Asdirecoesdedecrescimoconsideradass aoasobtidasviaitera coesdometodoBFGSeosatomosvaosendoposicionadosumaum, i.e., partindodedoisatomos, depoisdealcancaraviabilidade, introduz-seumnovoatomo, atequetodososatomostenhamsidoposicionadoscorretamente(sejamvi aveis).4AsforcasdevanderWaalssaoforcas decurtoalcancequeexprimematendenciadosatomosdeserepelirem, quandoest aomuitoproximos, edeseatrarem, quandoseaproximamdeumadist anciainternuclearotima[89].36Captulo4MDGPviasuavizacaoepenalizacaohiperbolicasOs modelos (problemas de programa cao) matem aticos frequentemente utilizadosparaoMDGPpossuemdoisinconvenientes: anao-diferenciabilidadeeaexistenciade muitos mnimos locais [79]. Juntos, eles impedem a aplica cao direta dos metodoscl assicosemaisrobustosdeotimiza cao. Oprimeirodestesinconvenientes, anao-difenciabilidade, advemdapresen cadafun caonormaEuclideananadeni caodasrestricoesdedist anciaedousodafun caomax, 0nacaracteriza caodasfun coesdepenalidade. Jaoelevadon umerodemnimoslocaisdecorredoforteapelocom-binatoriodoproblema, oqueseagrava`amedidaqueseaumentaaquantidadedeatomosconsiderados.Acontribui caodeste trabalhoe umnovoalgoritmoque combinaas tecnicasdesuavizacaoepenaliza caohiperb olicaseumaespecializadaestrategiadedividir-para-conquistarparaasolucaodoproblemageometricodadist anciamolecular. Astecnicasdesuaviza caoepenaliza caohiperb olicaspropostasoriginalmenteporXa-vier em [108] permitem a aplica cao de metodos cl assicos de otimiza cao ao introduzirdiferenciabilidade naformulacaodoMDGPcomoumproblemade programa caomatem aticae, maisimportanteainda, reduzemon umerodemnimoslocaispelocontrole adequadodos parametros relacionados. Jaaestrategiade dividir-para-conquistar permite que, ao inves de resolver um unico e grande problema, possamosatacarumasequenciadeproblemasmenorese,portanto,maisfaceisdoqueopro-blemaoriginal.37Asuaviza caoepenaliza caohiperb olicastemsemostradoextremamenteeca-zesnaresolu caodosmaisdiferentes problemas deotimiza caodaformaMinimaxenvolvendoanormaEuclideana(Determinacaode estruturasgeometricas[37, 109],empacotamento[110], classicacao[80, 81, 111], aloca caode recursos [43], entreoutros). Os bons resultados obtidos em[109] e[37], por AdilsonElias Xavier eAnaFlaviaMacambira, apontaramaviabilidadedeaplica caodasuaviza caoparadetermina caodeestruturastridimensionaisdeprotenas.4.1 PropostadesuavizacaoAnalisandooproblema(P) determinar x1, . . . , xms.a lij |xixj| uij, (i, j) K 1, . . . , m2xi R3, i = 1, . . . , m,vemos que adeni caos das restricoes envolve afun cao ||. Istofaz de (P) ummodelonao-diferenciavel,comoamaioriadasformulacoesparaoMDGP.Emvistadisto, ometodoqueadotamospararesolveroproblema(P)fazusodaestrategiadesuaviza caohiperb olica[108]. Nestaabordagem,deni-seafun cao(y) =

2+3k=1y2k, y= (y1, y2, y3) R3, > 0. (4.1)Afun caoapresentaasseguintespropriedadesimediatas:(T1) lim0(y) = |y|;(T2) eumafun caodeclasseC;(T3) (y) > |y| , > 0;(T4) 1> 2 1(y) > 2(y), y R3.Apropriedade(T1)indicaqueafun caoeumaboaaproximacaodafun cao||. Oparametro indicaonvel daaproximacao, pois`amedidaque tendeazero, a fun cao suavizadase aproxima da fun cao original ||. Isto ca evidente naFigura4.1,ondeepossvel vercomclarezaqueadist anciam aximaentreafun cao38Figura4.1: Ogracodasuaviza caohiperb olica(x) eumahiperboleequil atera.original eafun caosuavizadaocorrenaorigemetemvalorigual aodoparametro. Ogracode(x), naFigura4.1, eumahiperboleequil atera, oquemotivaanomenclaturasuaviza caohiperb olica.Substituindoafun cao ||por noproblema(P),obtemosoproblemasuavi-zado(diferenciavel)(P) determinar x1, . . . , xms.a lij (xixj) uij, (i, j) K 1, . . . , m2xi R3, i = 1, . . . , m.4.2 Propostadepenaliza caoNos metodos de penaliza cao, um problema com restricoes e substitudo por uma seriede problemas irrestritos cujas solucoes convergempara a solucao do problema origi-nal. Nocasoparticulardoproblema(P),asfun coesdepenalidadefrequentementeutilizadas para as restricoesde desigualdadeenvolvema fun cao p(y) = maxy, 0,onde e um parametro (peso) queindicaa intensidadedapenaliza cao. Um dos in-convenientes no uso da fun cao max, 0 e a nao-diferenciabilidade na origem. Comoalternativa,propomosousodafun caodepenalidade,(y) =

12 tan()

y +

12 tan()y

2+ 2, (4.2)onde (0, /2),> 0ey R.39arctan(2)Figura4.2: Nogracodafun caode penalidade ,, oparametrocontrolaaintensidade(inclinacao)dapenaliza cao,e,asuaviza cao.Notequelim0/4,(x) = maxx, 0,ouseja,se = /4,afun cao,eumaboaaproximacaoparamax, 0.Substituindotan()/2por,obtemosaformamaisconveniente,(y) = y +

2y2+ 2, (4.3)paraafun caodepenaliza caohiperb olica.Ogracode,etambemumahiperbole(ver Figura4.2). Oparametrocontrolaograudesuaviza caoeaintensidade(peso)dapenalidade.Afun cao,gozadasseguintespropriedades:(P1) ,eumafun caodeclasseC;(P2) ,(y) > maxy, 0 > 0, > 0;(P3) 1> 2 ,1(y) > ,2(y) y R;(P4) 1> 2 1,(y) > 2,(y) y R.Utilizandoafun caodepenaliza caohiperb olica,,podemosobteroproblema40irrestrito(P,) minimizar f,(x) =(i,j)K,(lij ij) + ,(ijuij), (4.4)onde ij= ij(x) = (xixj),K 1, . . . , m2,xk R3, k= 1, . . . , m.Oproblema(P,)einnitamentediferenci avel comrespeitoaxe, portanto,permite aaplica caodos metodos cl assicos de otimiza cao. Noentanto, deve serobservadoqueoproblema(P,)naoeexatamenteigual aoproblema(P). Assim,parase obter asolucaodoproblema original, prop oe-se que sejaresolvida umasequencia innita de problemas suavizados (P,k) parametrizados por uma sequenciadecrescentedeparametrosk,k= 1, 2, . . .,tendendoazero,ouseja,k+1< k,limk+k= 0.Atravesdesseprocedimento, asequenciadeproblemassuavizadosseaproximagradativamente do problema original. Note que na deni cao da sequencia de proble-mas P,k, utilizamos o mesmo parametro em todas as parcelas da fun cao objetivo(Istonaoe obrigatorioe traduz apenas umaescolhados autores). Naverdade,poderamosdenir, paracadarestricao, diferentesvaloresparaosparametrose, oquepermitiriacontrolar, emcertamedida, aordemdecumprimentodasres-tri coes. Numa aplica cao com dados reais, pode ser de interesse satisfazer exatamenteapenasasrestricoescujosdadoss aoconaveisedeformarelaxada(imprecisa)asdemais. Utilizando a suaviza cao hiperb olica, podemos cumprir esse contrato apenasmodicandoosparametroseadequadamente.4.3 ConvexicacaoOusodasuaviza caoepenaliza caohiperb olicasnaosejusticaexclusivamentepelaintroducao de diferenciabilidade, ja que, no caso de dist ancias exatas, a diferenciabi-lidade poderia ser alcancada de forma mais simples,bastando para isso considerar oquadrado das dist ancias e, conseq uentemente, da fun cao norma. A grande vantagem41no uso destas fun coes esta relacionada `a convexidade,como originalmente apontadopor Xavier em [109]. Os resultados abaixo obtidos seguem a argumentacao apresen-tada por Xavier e determinam uma cota superior para o valor mnimo do parametrodesuaviza caoqueconvexicaoproblema(P,).Lema4.3.1Afunc aoij: Rm3R, dadaporij(x)=(xi xj), econvexaparatodo> 0.Prova. Verica-sediretamentequeamatrizHessianadeijpossui aseguinteestrutura:2ij(x) =

0 0 0 0 00 Hij(x) 0 Hij(x) 00 0 0 0 00 Hij(x) 0 Hij(x) 00 0 0 0 0

3m3m,ondeHij(x) =I33ij(x)(xixj)(xixj)T(ij(x))3,I33 e a matriz identidade emR3e os zeros na matriz 2ij(x) s ao blocos de matriznulas.Paraqualquerz = 0emR3,tem-sezTHij(x)z |z|2ij(x) |z|2|xixj|2(ij(x))3> 0.Portanto,Hij(x) _ 0.Finalmente,paraqualquerv = (v1, v2, . . . , vm) = 0emR3m,vT2ij(x)v= (vivj)THij(x)(vivj) 0.Assim, 2ij(x) _ 0e,consequentemente, ijeumafun caoconvexa.Corolario4.3.2Afunc aoobjetivodoproblema(P,) econvexaparatodo >maxuij: (i, j) K.Prova. Por deni cao, cada termo da fun cao objetivo do problema (P,) e dado porfij,(x) = ,(lij ij(x)) + ,(ij(x) uij)= (lij uij) +

2(ij(x) lij)2+ 2+

2(ij(x) uij)2+ 2.42Notequepodemosreescreverfij,(x)naformafij,(x) = (lij uij) + hij,(ij(x), lij)+ hij,(ij(x), uij),ondehij,(x, ) =

2(ij(x) )2+ 2.Inicialmente, provaremos que a fun cao hij,(x, ) sera convexa se . De fato,se ,temos2xhij,(x, ) =22ij(x)tij(x)h3,(x, )+(ij(x) )2ij(x)h,(x, )_ 0,pois ij(x), x R3m,e,pelaProposi cao4.3.2, 2ij(x) _ 0.Finalmente, porhip otese, >maxuij: (i, j) K maxlij: (i, j) K,ent ao cada termo da fun cao objetivo do problema (P,) e uma fun cao convexa,istoconcluiaprova.Napr atica, aconvexica caodoproblema(P,) obtidaatraves daescolhadevaloreselevadosparaoparametrodeveserevitada,poislimf,(x)/= 22+ 1.Ouseja, paravaloresexcessivamenteelevados, afun caoobjetivof,seaproximadaconstante22+ 1. E, portanto, naoepossvel estabelecercorrelacoesentreseusmnimoseosmnimosdoproblemaoriginal.Destaforma, oparametro deveexpressar umcompromissoharmonicoentreasimplicacao(convexica cao) doproblemaeacoerenciadasolucao. Assim, aescolhado valor inicial do parametro de suaviza caodeve ser feita cautelosamente,buscandoconvexicar algumas das parcelas presentes nadeni caodafun caof,mas evitando valores excessivamente altos que conduzam `a degeneracao do problemasuavizado. A esperan ca e que mnimos locais com valores distantes do mnimo globalsejamremovidospelaescolhaconvenientedoparametrodesuaviza cao.Nagura4.3, vemos umexemplodacapacidade convexicadoradapresentepropostae suaforte rela caocomovalor adotadoparaoparametro. Paraageracaodaimagem, consideramosainst anciadoMDGPdenidapeloconjuntode43restricoes|x1x3| = 1; |x1x6| = 0; |x2x3| = 2;|x2x4| = 2; |x2x5| = 2; |x4x5| = 4;|x4x6| = 3.Alemdisso, xamosasvari aveis(x3, x4, x5, x6)=(1, 1, 3, 0)edeixamoslivresasvari aveisx1, x2comintuitodeobterumarepresentacaotridimensional dafun caoobjetivo. Parafacilitar avisualizacaodas curvas de nvel e dos pontos crticos,plotamosogracode f(x1, x2), ouseja, invertemos osinal dafun caoobjetivo.Assim, os mnimos doproblemas aoidenticados comom aximos nas superfciesrepresentadas.Nagura4.3, caclaraarela caoentreaconvexica caodoproblemaeovalordoparametrode suaviza cao .`Amedida que aumentamos ovalor de , maisconvexotorna-seoproblemagracas`aremocaogradativadosmnimoslocaismenosatrativos. Tambemepossvel perceberaexistenciadeumatrajetoria, comincionominimizadordoproblemaconvexo( =2, 00)emnominimizadorglobal doproblemaoriginal(= 0, 00),passandopelosminimizadoresglobaisdosproblemasintermedi ariosgeradospelaredu caodovalordoparametro.4.4 Oalgoritmodesuavizacaoepenaliza caohi-perbolicas(SPH)As propriedades de diferenciabilidade e, principalmente, convexica cao da suaviza caoepenaliza caohiperb olicass aoexploradasnoAlgoritmo1pararesolu caodoproble-ma(P). Seguindoanotacaopropostaem[79], denota-seporlocmin(f, y, )ominimizadorobtido pelometododeminimiza caolocal assumindoycomopontoinicial.44Figura 4.3:`A medida que aumentamos o valor do parametro , mais convexa torna-seafun caoobjetivo.Algoritmo1Suaviza caoePenaliza caoHiperb olicasfun c~ao sph(x, , , ) : x R3, (0, 1), > 0, > 0;enquanto(f,(x) > f)x = locmin(f,, x, ); = ;fimretorna (x, f,(x));NoAlgoritmo1, arotinademinimiza caolocal utilizacomopontoinicial ominimizador obtidonaitera caoanterior. Por tras destaescolha, haaesperan cadequeumaconvenienteescolhadoparametrodeatualizacaoexijaumn umeroreduzidodeitera coesinternasdarotinademinimiza caolocal. Aescolhadovalordoparametrodeveserfeitacomcautela, jaqueestadiretamenterelacionada`arazaoentreon umerodeitera coesinternas(realizadaspelometododeotimiza caolocal) e o n umero de itera coes externas (atualiza coes do parametro ). Uma escolhapor valores baixos parapode implicar naoapenas emumelevadon umerode45itera coesinternasacadachamadadometodo ,mastambemnapossibilidadededesperdcioda trajetoria engendradapelaconvexica caodos problemas suavizados,tornando mais improvavel a obten cao de minimizadores globais ao nal do processo.Opontox Rm3tomadocomoentradadoAlgoritmo1podesergeradodemaneiraaleat oria, masumaescolharazoavel podereduzir on umerodeitera coesrequeridasparaaobten caodeumminimizadorglobal. Dopontodevistate orico,ometododeotimiza caolocal podeserescolhidocomtotal liberdadejaqueosparametrose s aopositivosemtodasasitera coese, porisso, osproblemasdeminimiza caorelacionadoss aoinnitamentediferenci aveis.Eclaraarela caoentreometodoaqui propostoeometododgsol apresentadoporMoreeWuem[106]. Sendoassim, cabemcoment ariossobreassemelhan casediferen casexistentesentreessaspropostas. Emambas, afun caoobjetivodopro-blema original e aproximada por uma seq uencia de fun coes suavizadas com o intuitode obter tantoadiferenciabilidade quantoaredu caodon umerode mnimos lo-caisatravesdamanipula caoadequadadosparametrosdesuaviza caorelacionados.Contudo,caberessaltarasimplicidadedapresenteproposta,jaqueaestrategiadesuaviza caoaqui empregadapermite quea fun cao suavizadaf,sejaexplicitamenteavaliadasemqueserequeiraqualqueresforcocomputacional extra. Omesmonaopodeser ditoarespeitodapropostadeMoreeWu, ondeocalculodovalor dafun caoobjetivosuavizadarequeraaplica caodemetodosdeintegra caonumerica.4.5 Aliando o algoritmo SPH e a tecnica de dividir-para-conquistarUtilizandoastecnicas desuaviza caoepenaliza caohiperb olicasepossvel reduzirconsideravelmenteo n umero de mnimos locais dos problemas associados. Contudo,emproblemasqueenvolvamumelevadon umerodeatomos, aquantidaderemanes-cente de mnimos locais pode ser grande, o que torna pouco provavel que uma rotinademinimiza caolocal consigadeterminarumminimizadorglobal paraoproblemapartindodeumpontolongedeumasolucaootima. Emvistadisto,propomosaro-tinasphdcquecombinaosprocedimentospheatecnicadedividir-para-conquistarparacontrolar otamanhodos problemas paraos quais bons pontos iniciais nao46estejamdisponveis.A tecnica de dividir-para-conquistar (D&C) e um importante modelo conceitualde algoritmo [63, 25, 32]. Tipicamente, um algoritmo que aplica a tecnica D&Cparasolucionar umproblemagrandee/oucomplexodividerepetidamente oproblemaoriginal emsubproblemas menores. Esteprocedimentodedivisaoerepetidoateque os subproblemasgerados sejam sucientementepequenospara serem resolvidosfacilmente. Umavezqueassolucoesdossubproblemasestejamdisponveis, inicia-seafasedecombina caodestas solucoes paraseobter umasolucaodoproblemaoriginal.OsdoisprocessosmaisimportantesparasedenirumalgoritmoqueutilizeatecnicaD&Cs aoosmetodosdedivisaodeproblemas ecombina caodesolucoes.Ometododedivisaoespecicaomomentoeaformapelaqual osproblemass aodecompostos. Ja o metodo de combina cao determina o modo de agrupar/harmonizarassolucoesdossubproblemasparaobterumasolucaoparaoproblemaoriginal.NaFigura4.4a, vemosamatrizdeconectividadedeumainst anciadoMDGPderivada da geometria conhecida da protena 1PTQ disponibilizada no Protein DataBank. Umelemento(i, j)destamatriztemvalordiferentedezeroquandoexisteumarestricaoenvolvendoadist ancia |xixj|, ezero, casocontrario. Ouseja, eumamatrizdeconectividadederivadadasrestricoesdoproblema.Apesardeserumainst anciaparticular,algunselementosdestamatrizs aotipi-camenteencontradosemtodasasinst anciasdoMDGPconsideradasnaliteratura.Uma destas caractersticas tpicas e a presen ca de uma diagonal por blocos bastantedensa. Defato,naFigura4.4b,ondedestacamosumapequenaregi aosobreadia-gonal,podemosverqueexistemblocoscomelevadon umeroderestricoes(pontos).Aaltadensidadederestricoesnestesblocosreduzon umerodepossveissolucoesparaosproblemasaelesrestritos. Assim, parecenatural consider a-loscomoblo-coselementares(mnimos)nadeni caodometododedecomposi caodaestrategiaD&CaplicadaaoMDGP. Umaquest aonatural queseimpoeaestapropostadedecomposi caoeformadecaracterizarsistematicamenteestesblocoselementares.Comoditoanteriormente(Vercaptulo2),asprotenass aocompostosqumicosformadosporumacadeialinearderesduosquepodeser determinadaviaespec-47(a) (b)Figura4.4: (a)Amatrizdeconectividadedainst anciaderivadadageometriaco-nhecidadaprotena1PTQ. (b) Naregi aodestacada, observa-se blocos comaltadensidadesobreadiagonaldamatrizdeconectividade.troscopiademassa1. Observandoos ndicesdosatomosnasinst anciastipicamenteconsideradasnaliteratura,percebemosqueosblocosmaisdensosdamatrizdeco-nectividade s ao aqueles formados pelas restricoes envolvendoatomos em um mesmoresduo (Ver Figura 4.5, onde as restricoes relacionadas aos resduos s ao destacadas).Assim, propomosumadecomposi caonatural dasinst anciasdoMDGPemblocosqueenvolvemrestricoesentreatomosemummesmoresduo.NotequepodemosrepresentarcadaumdosnresduosdeumadadaprotenaRpelosconjuntosdaformaR(k) = xi R3: i J(k)comk= 1, . . . , n,onde J(k) 1, 2, . . . , meosubconjuntoformadopelos ndicesdosatomospre-sentesnok-esimoresduonaprotenaR.Umavezquecadaatomopertenceaum unicoresduo, emumadadaprotenaRcomnresduosteremos:R =nk=1R(k) e R(i) R(j) = , i = j.Comestadeni cao, podemosdecomporoproblemaoriginal emsubproblemas1Umespectr ometrodemassaeuminstrumentoquemedearazaomassa/cargademoleculaseletricamentecarregadas. Estainformacaopermiteestabeleceropesomoleculareasestruturasdoscompostosanalisados[21].48120 140 160 180 200 220120140160180200220nz = 14176Figura 4.5: Os blocos destacados estao relacionados `as restricoes envolvendo atomosnomesmoresduo. Estesblocoss aoosmaisdensosnasmatrizesdeconectividadetipicamenteencontradasnaliteratura.doseguintetipo:[P(/)] determinarkKR(k) (4.5)s.a lij |xixj| uij,(i, j) kKJ(k).Ouseja, emcadaumdossubproblemasP(/), oconjunto /indicaquaisresduosR(k) fazemparte do subproblema e as restricoes consideradas s ao aquelas comatomoscujosndices pertencemaoconjuntokKJ(k). Assim, nocasodeumaprotenaformadapor nresduos, oproblemaoriginal serarepresentadosimples-menteporP(1, 2, ..., n).Amdesimplicaranotacao, representaremospor J(/)auni aodetodososconjuntosde ndices J(k)comk /,ouseja,J(/) =kKJ(k).494.5.1 Combinandosolu c oesNase cao3.2,apresentamosamedidaRMSDparacompara caodeestruturastridi-mensionais. Agora, apresentaremosumalgoritmoquepermitecombinareciente-mente as solucoes de subproblemas da forma (4.5), desde que estes possuam algumaintersecao. Comesteprocedimento,comoveremos,epossvelobterumbompontoinicial para o problema combinado a partir das solucoes de subproblemas utilizandoamatrizotimaderota caoQ = UVtobtidaviadecomposi caoemvaloressingularesduranteocalculodamedidaRMSD.Defato,seX= xi eumasolucaodeP(/)eX= xi,deP(/)com/ /= ,ent aooconjuntoderesduoscujos ndicespertencemaintersecao / /s aore-presentadostantoemXquantoemX. Denindo, respectivamente, Y eYcomosendoasrepresentacoesdasintersecoesnassolucoesXeX, podemosobterumaestruturacombinadaZatravesdoseguinteprocedimento:(A) aplicaremXeXatranslacaoqueiguala`aorigemoscentrosdeY eY, ouseja,xi= xic, xi X Yxi= xic, xi X Y,ondec =yYy[Y [,c=yYy[Y[.(B) rotacionar toda aestruturatransladadaXutilizandoamatrizde rota caoquedeneamedidaRMSDdassubestrutrasY eY. Explicitamente,UVt= svd(YtY);X = XUVt.50(C) aestruturacombinadaZ= zi: i {(/ /)resultante edadaporzi=

xi, sei J(/ /)xi, sei J(//)(xi + xi)/2, c.c.(4.6)Note que odesvio |Y QY|2F=tr (YtY ) +tr (YtY) 2tr () indicase acombina caodasestruturasecoerenteounao: quantomenorforseuvalor, menorseraadiscrepanciaentreasestruturasobtidasparaosresduosnaintersecaodosdoissubproblemas.No algoritmo combinar(Algoritmo 2), estas ideias s ao aplicadas para obter umaaproximacaoZparaasolucaodoproblemaP(/ /), partindodassolucoes XeXdossubproblemasP(/)eP(/). Observequeoproblemacombinadopossuirestricoes que nenhumdos subproblemas considerados individualmente possui e,portanto,possui informa coesquepodemseraplicadas`aestruturaZcomointuitode aumentar sua qualidade. Por isso, na pen ultima linha da rotina combinar, ha umachamadadometododeotimiza caolocal paraoproblemacombinadotomandocomopontoinicialaestruturacombinadaZ(Istoefeitopararenarasolucao).Algoritmo2Combina caodeestruturasfun c~ao combinar(X, X, P(/ /))Y =xi X: i J(//) ;Y= xi X: i J(/ /) ;w =y Yy/|Y |; //centr oidew=y Yy/|Y|; //centr oideY = Y w; //transla c~ao para origemY= Y w; //transla c~ao para origemUVt= svd(YtY);Q = UVt;X = (X w)Q;X= X w;Z = zi: conforme eq. (4.6);[Z, fZ] = locmin(P(/ /), Z, ); //refinamentoretorna (Z, )51Figura4.6: Na divisao bin aria, os grupos s aodivididos recursivamente ate queexistamapenasdoisresduosemcadagrupo.4.5.2 DividindoproblemasAestrategiadedivisaodoproblemaoriginalemproblemasmenores eumelementocrtico na viabilidade de obten cao de subproblemas cujas solucoes sejam compatveis,i.e., solucoesquepossamsercombinadas. Nestase cao, apresentaremosduasdife-rentes estrategias de decomposi cao. A primeira delas, a divisao bin aria, tem caraterapenasdid aticoeservir acomobaseparaoaprofundamentodaexposi cao.Assumindoqueosresduoss aodispostossequencialmentenamoleculadepro-tena, umaalternativadedecomposi caodoproblemaoriginal eadivisaobin aria.Nestecaso, partindodoconjuntodetodososresduos, cadaconjuntoedividoaomeiodandoorigemadois novos grupos. E, paraque suas solucoes possamsercombinadas,osgruposemcadapargeradocompartilhamaomenosumresduo. Oprocessoerepetidoatequecadaumdosgrupospossuaumn umeromnimo(dois)deresduos(VerFigura4.6).NaFigura4.7a, vemosamatrizdeconectividadedeumainst anciadoMDGPcom 100 atomos e 10 resduos obtida a partir de um fragmento da molecula 1GPV etodas as dist ancias inferiores a 6A. Um ponto (i, j) nesta matriz indica a existencia derestricao envolvendoo i-esimo e o j-esimo atomos. E na gura 4.7b, vemos a matrizdeconectividadedosresduos. Umponto(i, j)nestamatrizindicaaexist