Reformas Encaradas Como Experimentos - Campbell

download Reformas Encaradas Como Experimentos - Campbell

of 18

description

Texto sobre pesquisas experimentais e quase experimentais

Transcript of Reformas Encaradas Como Experimentos - Campbell

  • 1. Vulnerabilidade poltica por seconhecerem resultados;

    2.Experimentos de campo e esquemasquase-experimentais;

    3. Esquema de srie temporalinterrompida;

    4. Esquema da srie de controle;5.Esquema da descontinuidade

    na regresso:6. Experimentos com grupos de controle

    designados aleatoriamente;7. Mais conselhos para administradores

    encurralados;8. Repetio mltipla da avaliao;

    9. Concluses.

    Donald T. Campbell * *

    *Publicado originalmente em ingls,sob o titulo Reforms as experiments.

    American Psychologist, v. 24, n. 4, p 409-29, Apr., 1%9. A preparao do original

    deste trabalho foi subsidiada pelaNational Science Foundation. Vrias

    verses foram apresentadas nas seguintesformas: como uma conferncia para o

    Fundo de Ex-Alunos da Universidade deNorthwestern, em 24 de janeiro de 1%8;

    para a Seo de Psicologia Social daSociedade Britnica de Psicologia, em

    Oxford, em 20 de setembro de 1968; parao Congresso Internacional de Psicologia

    Social, em Praga, em 7 deoutubro de 1%8

    (sob titulo diferente); e para vrios outrosgrupos. Traduzido para o portugus peloProf. Fbio Luiz Mariotto, da Escola de

    Administrao de Empresas de SoPaulo da Fundao Getulio Vargas. O

    tradutor agradece a colaborao deMario Mariotto.

    * *Professor do Departamento dePsicologia da Northwestern University,

    em Evanston, Illinois, EUA.

    R. Adm. Emp., Rio de Janeiro,

    Os Estados Unidos e outras naes modernas deveriamestar preparadas a dar uma abordagem experimental reforma social, abordagem na qual novos programasobjetivando soluo de certos problemas sociais es-pecficos seriam tentados. Esse procedimento possi-bilitaria verificar a eficcia ou no dos programasexaminados a fim de que sejam mantidos, imitados,modificados ou descartados, com base em sua eficciamanifesta, analisada atravs de mltiplos critrios dis-ponveis. Nosso preparo para isso indicado pela in-cluso de clusulas especficas de avaliao de pro-gramas na primeira onda de legislao da "Great So-ciety" e pelas propostas em curso no Congresso ame-ricano para o estabelecimento de "indicadores sociais" e"bancos de dados" socialmente relevantes. Pelo fato dej h algum tempo termos tido boas intenes nesse sen-tido, muitos podem achar que j atingimos esse estgio,que j estamos prosseguindo ou suspendendo pro-gramas com base numa eficcia avaliada. Um dos temasdeste artigo mostrar que isso no ocorre, que muitosprogramas de melhorias terminam sem nenhumaavaliao interpretvel (Etzioni, 1968; Hyman &. Wright,1%7; Schwartz, 1%1). Precisamos examinar diligen-temente as origens dessa condio e esquematizarmaneiras de vencer as dificuldades. Este trabalho umesforo preliminar nesse sentido.Muitas das dificuldades esto nas intransigncias do

    ambiente de pesquisa e na presena freqente de se-dutoras ciladas de interpretao. A maior parte desteartigo ser dedicada a esses problemas. Acontece, no-entanto, que as poucas solues disponveis dependemde decises administrativas corretas no iniciamento e naexecuo do programa. Tais decises so tomadas na es-fera poltica e envolvem riscos polticos que muitas vezesso suficientes para explicar a falta de uma avaliaocriteriosa dos efeitos. A remoo dos administradores dereformas para fora do foco poltico parece ser tanto im-provvel como indesejvel, ainda que fosse possvel. Oque essencial, em vez disso, que o orientador de pes-quisa do cientista social compreenda as realidadespolticas da situao e que sua ajuda seja no sentido deestimular a criao de uma demanda pblica de ava-liaes srias, contribuindo assim para as invenespolticas que reduzem o perigo de avaliaes honestas eeducando futuros administradores nos problemas e pos-sibilidades.Por este motivo, h tambm uma tentativa neste ar-

    tigo de considerar o meio poltico da avaliao deprogramas e de oferecer sugestes de posturas polticasque possam favorecer uma abordagem verdadeiramenteexperimental reforma social. Embora tais conside-raes sejam distribudas no curso deste trabalho comoum tema de menor interesse, parece conveniente co-mear com algumas idias gerais de natureza poltica.

    1. VULNERABILIDADE POLTICA POR SECONHECEREM RESULTADOS

    Um dos aspectos mais caractersticos da situao atualrelaciona-se ao fato de que reformas especificas silopreconizadas como se o seu sucesso fosse certo. Por essarazo, o conhecimento dos resultados tem implicaespolticas imediatas. Dada a dificuldade inerente de se

    15(1):29-46, jan./fev.1975

    Reformas encaradas com experimentos

  • 30

    conseguir melhorias significativas com os meios usual-mente fornecidos e dada a discrepncia entre promessase possibilidades, a maior parte dos administradoresprefere, sensatamente, restringir as avaliaes quelesresultados que conseguem controlar, especialmente noque se refere a resultados a serem anunciados ou divul-gados pela imprensa. A ambigidade, a falta de basesverdadeiras de comparao e de evidncia concreta cons-piram para aumentar o controle do administradorsobre o que dito, ou, pelo menos, para reduzir o im-pacto da crtica no caso de fracasso real. H seguranasob o manto da ignorncia. Alm dessa conjuno depromessa e gesto, h outra fonte de vulnerabilidade nacircunstncia de que os fatos relevantes para a avaliaode um programa podem tambm ser utilizados para sequestionar a eficincia geral e at a honestidade dos ad-ministradores. A acessibilidade de tais fatos ao pblicoreduz a intimidade e a segurana de alguns adminis-tradores.Mesmo quando existe um compromisso ideolgico pa-

    ra uma avaliao sria da eficincia organizacional oupara uma organizao cientfica da sociedade, esses doisperigos levam impossibilidade de avaliao realsticade experimentos organizacionais. Se o sistema poltico eadministrativo comprometeu-se antecipadamente correo e eficcia de suas reformas, ele no pode to-lerar o reconhecimento do fracasso. Para sermos real-mente cientficos preciso que sejamos capazes de ex-perimentar e que possamos preconizar sem aquele ex-cesso de compromisso que nos torna cegos ao teste darealidade.Esse transe, favorecido pela apatia pblica e pela

    corrupo deliberada, pode vir, a longo prazo, a impediruma abordagem verdadeiramente experimental para amelhoria social. Mas nossas necessidades e esperanasde uma sociedade melhor exigem que faamos o esforo.H alguns sinais de esperana. Nos Estados Unidos con-seguimos obter ndices de custo de vida e desempregoque, embora imperfeitos, tm embaraado os governosque os publicam. Temos conseguido efetuar recen-seamentos que reduzem o nmero de deputados que umestado tem no Congresso. Esses so motivos de otimis-mo, embora a morosidade corrupta dos governos es-taduais em seguir suas prprias constituies para areviso de distritos legislativos ilustra o problema.Uma mudana simples de postura poltica que re-

    duziria o problema seria a de passar de uma preconi-zao de uma reforma especfica para a preconizao daseriedade do problema e da para a preconizao deuma persistncia em esforos alternativos de reforma,caso o primeiro falhasse. A posio poltica seria: "Esteproblema srio. Propomo-nos a adotar a 'Poltica A'numa base experimental. Se ap6s cinco anos no houverocorrido uma melhora significativa, mudaremos para a'Poltica B'." Por tornar explcito que a soluo dada aoproblema foi somente uma dentre as que o adminis-trador ou partido poderia preconizar em s conscinciae por ter j pronta uma alternativa plausvel, o adminis-trador teria condies para uma avaliao honesta deresultados. Resultados negativos como o do fracasso doprimeiro programa no poriam seu trabalho em perigo,pois sua funo seria a de lutar com o problema atachar algo que desse certo.

    Revista de Administrao de Empresas

    Simultaneamente, deveria ser instituda uma mo-rat6ria para pesquisas de avaliao ad hominem, isto ,para pesquisas objetivando mais a avaliao de ad-ministradores especficos do que polticas adminis-trativas. Se nos preocupamos com o problema do devas-samento da intimidade nos bancos de dados e indica-dores sociais do futuro (e.g., Sawyer e Schechter, 1968),o ponto mais inflamvel seria o da intimidade dos ad-ministradores. Se o ameaarmos, o sistema de medioser certamente sabotado por inmeras formas pos-sveis. Embora isto possa parecer indevidamente pes-simista, os casos freqentes de administradores que ten-taram arrasar achados de pesquisas indesejveis con-vencem-me de que estou certo. Mas deveramos poderavaliar as polticas alternativas que um dado adminis-trador tem a opo de implementar.

    2. EXPERIMENTOS DE CAMPO E ESQUEMASQUASE-EXPERIMENTAIS

    No esforo de estender a lgica da experimentao delaboratrio para os trabalhos de "campo" e situaesno-perfeitamente experimentais, organizamos uma lis-ta de ameaas validade experimental, em cujos termoscerca de 15 ou 20 esquemas experimentais e quase-ex-perimentais foram avaliados (Campbell, 1957, 1963;Campbell e Stanley, 1963). Neste artigo, somente trs ouquatro esquemas sero examinados e, portanto, nemtodas as ameaas validade sero relevantes, mas te-remos um cenrio til para examin-las sumariamente atodas. Seguem-se nove ameaas validade interna.!

    a) Histria: acontecimentos, que no o tratamento ex-perimental, que ocorrem entre o teste prvio e o testeposterior, fornecendo assim uma explicao alternativapara os efeitos.

    b) Maturao: processos internos dos respondedores oudas unidades sociais observadas, os quais produzemmudanas como resultado da passagem do tempo em si,tais como crescimento, fadiga, tendncias seculares, etc.

    c) Instabilidade: falta deconfiabilidade das medidas,flutuaes nas pessoas ou componentes que compem aamostra, instabilidade autnoma de medidas repetidasou "equivalentes". (Esta a nica ameaa para a qualos testes estatsticos de significncia so relevantes.)

    d) Teste: efeito da aplicao de um teste sobre o resul-tado de um segundo teste. Efeito da publicao de umindicador social sobre os valores subseqentes daqueleindicador.

    e) Instrumentao: mudanas na calibrao de um ins-trumento de medida ou mudanas nos observadores ouno sistema de medio, os quais podem ocasionarmudanas nas medidas obtidas.

    t) Iluses criadas por regresso: alteraes falsas queocorrem quando as pessoas ou unidades de tratamento

  • so selecionadas com base nos valores extremos de umseu atributo.

    g) Seleo: vcios resultantes de um recrutamentodiferencial dos grupos de comparao, ocasionandonveis mdios diferentes na medida dos efeitos.

    h) Mortalidade experimental: a perda diferencial derespondedores de grupos de comparao.

    i) InteraiJo entre seleo e maturaiJo: vcios de se-leo que ocasionam taxas diferentes de "maturao"ou mudana autnoma.

    Se uma mudana ou diferena ocorre, estas so ex-plicaes rivais que poderiam ser usadas para explicarum efeito e assim negar que num experimento espe-cifico, qualquer efeito genuno do tratamento experi-mental tenha sido demonstrado. So estas as falhas queos experimentos verdadeiros evitam, principalmenteatravs do uso da escolha aleatria e dos grupos de con-trole. Na abordagem aqui preconizada, esta lista deverificao usada para avaliar esquemas quase-ex-perimentais especficos. Trata-se de uma avaliao, node uma rejeio, pois acontece freqentemente que,para um esquema especifico, numa situao especifica,a ameaa no plausvel, ou existem dados suplemen-tares que possam ajudar a descart-la mesmo quando aescolha aleatria impossvel. A tica geral, preconi-zada aqui tanto para administradores pblicos comopara cientistas sociais, a de usar o melhor mtodo pos-sivel, visando a experimentos verdadeiros com grupos decontrole aleatrios. Mas quando o tratamento aleatriono possvel, preconiza-se o uso autocritico de es-quemas quase-experimentais. Precisamos fazer omelhor possvel com o que nos disponvel,

    Nossa posio face aos crticos perfeccionistas afeitos~experi~e.ntao de laboratrio mais militante do queISSO: as umcas ameaas validade que permitiremos in-validar um experimento so aquelas que reconhecem ostatus de leis empricas que sejam mais confiveis e maisplausveis do que a lei que envolve o tratamento. A merapossibilidade de alguma explicao alternativa no obastante - somente as hipteses rivais plausveis as queso capazes de invalidar. Face aos estudos de correlaoe estudos descritivos de bom-senso, por outro lado, nossaposio a de uma maior cautela. Por exemplo, devido armadilha metodolgica especifica da iluso criada porregresso, a tradio sociolgica dos esquemas ex postfacto (Chapin, 1947; Greenwood, 1945) totalmenterejeitada (Campbell e Stanley, 1963, p. 240-1' 1966 p.70-1). ' ,As ameaas validade externa, focalizadas adiante,

    abrangem os problemas de validade enfrentados na in-terpretao dos resultados experimentais, as ameaas generalizao vlida dos resultados para outras si-tuaes, para outras verses do tratamento, ou paraoutras medidas do efeito. Z

    a) Efeitos de interaiJo do teste: o efeito de um testeprvio em aumentar ou diminuir a sensibilidade oureceptividade varivel experimental, fazendo, assim,

    os resultados obtidos para uma populao previamentetestada no-representativos dos efeitos da varivel ex-perimental para o universo no submetido ao testeprvio do qual os respondedores foram selecionados.

    b) InteraiJo entre a seleo e o tratamento experimen-tal: sensibilidade no representativa da populaotratada.

    c) Efeitos reativos dos preparativos para o experimento:"artificialidade"; condies da situao experimentalno so tipicas das condies em que o tratamento aplicado regularmente: "efeitos de Hawthorne".

    d) Interferncia entre tratamentos mltiplos: quandoso aplicados conjuntamente mltiplos tratamentos,efeitos que no so tipicos da aplicao separada dostratamentos.

    e) Sensibilidade irrelevante das medidas: todas asmedidas so complexas e incluem componentes irre-levantes que podem ocasionar efeitos ilus6rios.

    t) Repetibilidade irrelevante dos tratamentos: ostratamentos so complexos e repeties dos mesmospodem deixar de incluir aqueles componentes que sona realidade responsveis pelos efeitos.

    Estas ameaas aplicam-se tanto aos experimentosverdadeiros como a quase-experimentos. So-especial-mente relevantes na experimentao aplicada. Na his-tria cumulativa de nossa metodologia, este grupo deameaas foi registrado pela primeira vez como critica aexperimentos verdadeiros que envolvam teste prvio(Schanck e Goodman, 1939; Solomon, 1949). Tais ex-perimentos forneciam um fundamento legitimo para segeneralizar a outras populaes previamente testadas,mas as reaes ao tratamento daquelas no-submetidasao teste prvio poderiam ser bem diversas. Por essarazo preconiza-se experimentos verdadeiros, deli-neados de forma a dispensar o teste prvio (Campbell,1~57; Schanck e Goodman, 1939; Solomon, 1949) e umabusca de medidas no-reativas (Webb, Campbell,Schwartz e Sechrest, 1966).Essas ameaas validade serviro de base para a dis-

    cusso que faremos de vrios esquemas experimentaisparticularmente adequados avaliao de programasespecficos de melhoria social. Esses esquemas so os 31seguintes: "esquema da srie temporal interrompida";"esquema da srie de controle"; "esquema da descon-tinuidade na regresso"; e vrios "experimentos ver-dadeiros". A ordem que seguiremos a dos esquemasfracos mas geralmente disponveis para os mais fortes,que requerem mais previdncia e determinao do ad-ministrador.

    3. ESQUEMA DE S~RIE TEMPORALINTERROMPIDA

    Normalmente quando uma unidade politica inicia umareforma, esta instituda de modo geral, afetando toda aunidade. Nessa situao, a nica base de comparao

  • a documentao dos anos anteriores. A utilizao usual~ uma verso descuidada de um esquema quase-ex-perimental muito fraco, o esquema de teste prvio e testeposterior de um s6 grupo.Prova conveniente nos dada pelo maior rigor

    adotado na punio do excesso de velocidade no Estadode Connecticut em 1955, analisado por mim e pelosocilogo H. Laurence Ross como um exemplo para es-clarecimento (Campbell e Ross, 1968; Glass, 1968; Rosse Campbell, 1968). Depois de se ter registrado o maiornmero j ocorrido de mortes em acidentes de trnsitoem 1955, o Governador Abraham Ribicoff combateucom rigor sem precedentes o excesso de velocidade.Aps um ano de execuo das medidas adotadasocorreram 284 mortes no trnsito, em comparao com324 no ano anterior. Ao anunci-lo, o governador de-clarou: "Tendo sido salvas 40 vidas em 1956, uma re-duo de 12,3% do nmero de mortos no trnsito em1955, podemos reiterar definitivamente a validade doprograma." Estes resultados esto no grfico da figu-ra 1, enfatizados deliberadamente para faz-los pare-cer impressionantes.

    Figura 1 - Mortes ocorridos no trdnsito no eslodo de CaT1ecticut

    280

    320

    340

    300

    290

    Anltsdo~(19551

    Depoisdo llldutecimlnlo119561

    32No que se segue, embora reconheamos que as me-

    didas adotadas tiveram alguns efeitos benficos, cri-ticaremos a interpretao que Ribicoff deu aos seusresultados, do ponto de vista dos padres estritos deevidncia do cientista social. No fosse o agora SenadorRibicoff homem da estatura que , a critica seria m-poltica, porque estaramos indispondo-nos com um dosmais fortes proponentes da experimentao social nosEstados Unidos. Devido sua ndole, no entanto, po-demos sentir-nos seguros de que ele compartilha dosnossos interesses, tanto num programa progressivo demelhoria social experimental como na realizao deavaliaes mais srias possveis desses experimentos. Naverdade, foi sua integridade em usar todos os meios sua disposio como governador para garantir que o im-popular rigor contra o excesso de velocidade fosse defato cumprido que toma esses dados dignos de qual-

    Revista de Administrao de Emprescu

    quer exame. Mas as ricas possibilidades deste exemplo enossa tentao poltica de substitui-lo por um outro quefosse menos melindroso demonstram os problemaspolticos que precisam ser enfrentados quando se ex-perimenta com reforma social.Considerando a figura 1 e a declarao de Ribicoff,

    vamos observar os mesmos dados apresentados comoparte de uma srie temporal prolongada na figura 2, eexaminar detalhadamente as ameaas relevantes validade interna:

    Figuro 2-Mortes ocorridos no trnsito em Connecticut.(Mesmos dados do figuro 1 apresentados como porte de umasrie temporal prolongado)

    325

    300

    275

    ~250~

    "'t~.l:?~

    200

    51 52 53 54 55 56 57 58 59

    a) Histria: as duas apresentaes deixam de controlaros efeitos de outros agentes potenciais de mudanas. Porexemplo, 1956 pode ter sido um ano excepcionalmenteseco, com menos acidentes causados pela chuva ou pelaneve. Ou pode ter havido um acrscimo significativo nouso de cintos de segurana ou outras medidas de se-gurana. A estratgia que preconizamos na quase-ex-perimentao no a de erguer as mos, num gesto dedesistncia, recusando o uso da evidncia por falta docontrole, mas sim a de gerar, .atravs de critica bem in-formada e apropriada para esta situao especifica, tan-tas hip6teses rivais plausveis quantas for possvel e en-to fazer a pesquisa suplementar de, por exemplo, regis-tros meteorol6gicos e de vendas de cintos de segurana,que poderiam afetar essas hip6teses rivais.

    b) Maturao: este termo vem de criticas de estudossobre treinamento de crianas. Aplicado aqui para osdados dos testes prvio e posterior da figura 1, a hip6teseplausvel poderia ser a de que as taxas de mortalidadeestavam decrescendo de ano para ano (como de fato es-to, nos Estados Unidos, em relao a milhas percor-ridas ou ao nmero de automveis). Neste caso a srietemporal prolongada apresenta grande vantagem

  • metodolgica e descarta essa ameaa validade. A ten-dncia geral inconsistentemente a de aumento antes doendurecimento e de uma diminuio estvel depois.

    c) Instabilidade: estava aparentemente implicito nopronunciamento oficial o pressuposto de que toda a al-terao de 1955 e 1956 fora devida ao endurecimento.No foi reconhecido o fato de que todas as sries tem-porais so instveis mesmo quando nenhum tratamento aplicado. O grau dessa instabilidade normal a ques-to crucial, e uma das principais vantagens da srietemporal prolongada que ela apresenta uma amostradessa instabilidade. A grande instabilidade anterior aotratamento faz agora o efeito do tratamento parecertrivial. O salto de 1955-56 menor do que os aumentostanto de 1954-55 como de 1952-53. l:: verdade que omaior decrscimo da srie, mas supera os de 1951-52,1953-54 e 1957-58 por valores triviais. Dessa forma, asinstabilidades inexplicadas da srie so tais que fazemcom que o decrscimo de 1955-56 seja interpretvelcomo uma variao como as demais. Por outro lado,deve ser notado que depois do endurecimento no houvemais aumentos, e, nesse sentido, a feio da srie tem-poral parece indubitavelmente ter mudado.

    A ameaa da instabilidade a nica para a qual ostestes estatsticos de significncia so relevantes. Box eTiao (1965) tm um elegante modelo bayesiano para s-rie temporal interrompida. Aplicado por Glass (1968) adados mensais do nosso caso em foco - removidas astendncias sazonais - demonstra uma reduo estatis-ticamente significante na srie temporal aps o en-durecimento. Mas, como veremos, existe uma expli-cao alternativa para pelo menos parte desse efeito sig-nificante.

    d) Regresso: nos experimentos verdadeiros o trata-mento aplicado independentemente do estado prviodas unidades. Em experimentos naturais o fato de umgrupo ter sido submetido a tratamento muitas vezesum dos sintomas de condio do grupo tratado. Otratamento pode ento ser perfeitamente um efeito emvez de, ou alm de, uma causa. A psicoterapia um des-ses casos onde o tratamento um dos sintomas, como o qualquer caso em que o grupo tratado auto-seleco-nado :ou autodesignado por motivo de necessidade.Todos eles apresentam problemas especiais de inter-pretao, dos quais o exemplo presente um tipo.

    A hiptese rival plausvel da seleo-regresso partedo seguinte argumento: dado que a taxa de mortalidadetem certo grau de variabilidade, ento uma subamostraselecionada por causa do seu valor extremo em 1955seria, em mdia, menos extrema em 1956, como meroreflexo dessa variabilidade. Houve seleo baseada emvalor extremo na aplicao deste tratamento? Provavel-mente sim. De todos os registros anuais de mortescusadas pelo trnsito em Connecticut, a ocasio maisprovvel para um endurecimento com o excesso develocidade seria aps um ano de taxa excepcionalmentealta. Se a srie temporal mostrava instabilidade, a taxado ano seguinte seria em mdia menor, unicamente emfuno dessa instabilidade. Efeitos de regresso soprovavelmente a forma que mais reaparece de iluso de

    si mesmo na literatura de experimentao em reformasocial. l:: difcil torn-los intuitivamente bvios. Ten-temos novamente. Tomemos qualquer srie temporalque apresente variabilidade, mesmo se esta representepuro erro de medida. Percorramo-la como se segus-semos o tempo. Escolhamos um ponto que o "mais al-to at ento". Olhemos ento o ponto seguinte. Namdia dos casos, esse ponto ser mais baixo, maisprximo da tendncia geral.

    Na situao que estamos examinando o salto mais no-tvel em toda a srie o acrscimo imediatamente ante-rior aoiendurecimento.B muito provvel que esse aumen-to tenha originado o endurecimento, em vez de ter o en-durecimento ocasionado a diminuio em 1956, ou pelomenos alm de t-la ocasionado. Pelo menos uma parteda queda em 1956 um efeito do valor extremo de 1955.Embora o grau de regresso esperado possa em prin-cipio ser computado a partir da autocorrelao da srie,no temos nesse caso uma quantidade suficientementeextensa de dados para faz-lo com alguma confiana.O aconselhamento de administradores que queiram

    fazer testes genunos da realidade deve dar ateno a es-te problema difcil de ser superado. O conselho maisgeral o de lidar com problemas crnicos cuja urgnciaou cujos valores extremos sejam persistentes, em vez dereagir a um extremo momentneo. O administradordeveria examinar a srie temporal antes do tratamentopara julgar se a instabilidade ou extremos momentneospoderiam invalidar ou no os resultados do seu pro-grama. Se o pudessem, deveria programar o tratamentopara um ou dois anos mais tarde, de modo que suadeciso fosse mais independente do valor extremodaquele ano. (Os vicios de seleo que ainda perma-necem neste procedimento precisam de um exameadiciona1.)Ao dar conselhos ao administrador experimental, es-

    t-se dando inevitavelmente conselhos aos adminis-tradores encurralados, cuja embaraosa situao po-titica exige resultado favorvel, seja vlido ou no. A taisadministradores encurralados, o conselho o de es-colher o pior ano de todos e a unidade social que seja defato a pior. Se h instabilidade inerente, no h direoa seguir seno melhorar, ao menos em mdia.Duas outras ameaas validade interna merecem dis-

    cusso com respeito a este esquema. Quando falamosem testar, ocorre-nos tipicamente a situao na qual umteste de atitude, aptido ou personalidade ele mesmoagente de mudana, ao persuadir, informar, treinar oude qualquer outra forma, ao acionar processos de 33mudana. No caso que estamos analisando nenhumprocedimento de teste foi introduzido artificialmente.Porm, para o simples esquema de "antes e depois" dafigura 1, se o teste prvio fosse o primeiro dado sobre oassunto levantado e publicado, a publicidade, por si s,poderia ocasionar uma reduo na taxa de mortes notrnsito, a qual teria tido lugar mesmosem a adoo demedidas mais rigorosas contra o excesso-de velocidade.Muitos programas de segurana no trnsito j pres-supem isso. A evidncia fornecida por uma srie tem-poral prolongada tranqiliza-nos a esse respeito somen-te na medida em que podemos pressupor que os n-meros foram publicados com nfase equivalente emtodos os anos. 3

    Reformas

  • 34

    Mudanas de instrumentao no so uma falhaprovvel neste exemplo, mas o seriam se tivesse havidouma alterao nos hbitos de registro ou na respon-sabilidade institucional ao mesmo tempo em queocorreu o endurecimento. Num caso como este, pro-vavelmente melhor usar freqncias absolutas do quendices cujos parmetros de correo estejam sujeitos arevises peri6dicas. Por exemplo, taxas per capitaesto sujeitas a saltos peridicos toda vez que os resul-tados de um recenseamento ficam disponveis e as ex-otrapolaes feitas anteriormente so revistas. De formaanloga, uma mudana nos quilmetros por litro usadopara se estimar a quilometragem total em taxas de mor-talidade por quilmetro rodado poderia explicar umavariao nessas taxas. ];; claro que tais vcios podemtambm estar ocultando um efeito genuno. ];; quasecerto que o endurecimento de Ribicoff reduziu a ve-locidade no trnsito (Campbell e Ross, 1968). Um taldecrscimo em velocidade aumenta o rendimento decombustvel em quilmetros por litro, de modo que sefosse usado o mesmo rendimento anterior para a es-timativa de quilmetros rodados, como certamente oseria, obter-se-ia um valor subestimado e portanto umaumento ilusrio na taxa de mortes por quilmetrorodado.As reformas que introduzem modificaes abruptas

    de poltica tendem tambm a modificar o sistema deregistro de dados e assim confundir tratamentos dareforma com mudanas na instrumentao. O adminis-trador experimental ideal far o possvel para evit-lo.Preferir manter um sistema de mensurao parcial-mente imperfeito, mas comparvel, a perder de vez apossibilidade de comparao. No entanto, a situaopoltica torna s vezes isso impossvel. Consideremoscomo uma reforma experimental a reorganizao do sis-tema policial de Chicago feita por Orlando Wilson. Afigura 3 mostra seu impacto em furtos de pouca montaem Chicago - um notvel aumentaI];; claro que Wilsonnotou o impasse com antecedncia, pois um dos aspec-tos da sua reforma foi a reorganizao do sistema deregistros. (Note-se nos dados anteriores reforma, aausncia suspeita de uma tendncia secular de aumen-to.) Nesta situao, Wilson no tinha outra alternativa.Se tivesse deixado o sistema de registros inalterado, como intuito de obter um esquema experimental melhor,seus policiais ressentidos o teriam triturado com umaonda de crime, comeando a registrar deliberadamenteas muitas queixas que no vinham constando nos livros.4Aqueles que advogam o uso de medidas baseadas em

    dados de arquivos como indicadores sociais (Bauer,1966; Gross, 1966, 1967; Kaysen, 1967; Webb et alii,1966) precisam enfrentar, sem medo, no s o seu altonvel de erro catico e de vcio sistemtico como tambmas mudanas no sistema de registro motivadas porrazes polticas que se seguem ao seu uso pblico comoindicadores sociais (Etzioni e Lehman, 1967). As me-didas no so igualmente suscetveis. Na figura 4 o efeitode Orlando Wilson sobre os homicdios parece- insig-nificante de uma forma ou de outra.Das ameaas validade externa, a mais relevante

    para a experimentao social a sensibilidade irrelevan-te das medidas. Parece que melhor discutir isso comrespeito ou ao problema de se generalizar de um in-

    Revista de Administrao de Empresas

    Figura 3-Nmera registrado de furtos de pouca monta(menosde 50 dlares) em Chicago,de 1942 a 1962(dadosobtidos em Uniform crime reports for the Unitedstates,1942-1962)

    50000

    Nmero de delitos registrodo --------------

    40000

    30000

    20000

    !O000

    I I I I I I I I I I I I I I I I I I I I

    Figura 4 - Nmero registrado de homiddiosdolosose culpososem Chicago,de 1942 a 1962 (dadosobtidos em Uniformcrime reports for the United states, 1942-1962)

    400

    Nmerode delitos registrodo -------------

    350

    300

    250

    200

    150I I I I I I I I I I I I I I I I I I I I I

    ~ % ~ ~ ~ M ~ ~ ro ~

    dicador para outro, ou validade imperfeita de todas asmedidas, que s superada com o uso de medidas ml-tiplas, cujas imperfeies so independentes entre si(Campbell e Fiske, 1959; Webb et alii, 1966).Para tratamentos de qualquer problema dado dentro

    de determinada subunidade governamental ou privada,haver geralmente algo como um monoplio do governoem reforma. Mesmo que divises diferentes estejam ten-

  • tando reformas diferentes da melhor forma possvel,dentro de cada diviso geralmente haver somente umareforma em curso para um dado problema de cada vez.Mas para medidas de efeito isso no precisaria e nemdeveria ser o caso. A prpria mquina administrativadeveria propor medidas mltiplas de beneficios poten-ciais e de efeitos colaterais indesejveis. Alm disso,dever-se-ia permitir oposio leal acrescentar aindaoutros indicadores, com o processo poltico e o argu-mento adversrio contestando tanto a validade como aimportncia relativa, com metodlogos das cinciassociais depondo para ambos os partidos e com os regis-tros bsicos mantidos pblicos e sob auditoria bipar-tidria (como o so os votos eleitorais em condiesideais). Esse escrutnio competitivo na verdade a prin-cipal fonte de objetividade nas cincias (Polanyi, 1966,1%7; Popper, 1963) e sintetiza um ideal de prticademocrtica em procedimentos tanto judiciais comolegislativos.As figuras seguintes retomam ao endurecimento com

    o excesso de velocidade em Connecticute examinamoutras medidas do efeito. So relevantes para confirmarque houve, de fato, um endurecimento e para a discus-so dos efeitos colaterais. Tambm trazem o consolometodolgico de nos assegurar que em alguns casos oesquema da srie temporal interrompida pode fornecerevidncia clara de um efeito. A figura 5 mostra o saltona suspenso de carteiras de habilitao por excesso develocidade - evidncia de que uma punio severa foiinstituda abruptamente. Mais um comentrio para ad-ministradores experimentais: com este esquema fraco,s mudanas abruptas e decisivas tm qualquer chancede ser avaliadas. Uma reforma introduzida gradual-mente ser impossvel de ser distinguida da circunstn-cia de mudana secular, do efeito final de inmerosagentes de mudana em ao contnua.Gostaramos de ter uma evidncia intermediria de

    que a velocidade do trnsito foi alterada. Uma amos-tragem anual de algumas centenas de filmes de cincominutos de cenas de auto-estradas (aleatria com re-lao ao local e hora) poderia t-la fornecido a customoderado, mas os filmes no foram tomados. Dos regis-tros pblicos disponveis talvez os dados da figura 6, quemostra a diminuio de multas por excesso de veloci-dade, indicam uma reduo da velocidade do trnsito.Mas os efeitos do sistema legal eram complexos e emparte indesejveis. O nmero de pessoas que guiavamcom a carteira de habilitao cassada cresceu substan-

    _ cialmente (figura 7), pelo menos na amostra viciada dosque foram presos. Pode-se presumir que devido ao rigorda pena nos casos de culpa os juzes tenham-se tornadomais lenientes (figura 8), mas esse efeito de signiticn-cia marginal.A relevncia dos indicadores para os problemas

    sociais que queremos solucionar deve ser mantida cons-tantemente em foco. A abordagem dos indicadoressociais tender a apontar como objetivo da ao social osprprios indicadores, em vez dos problemas sociais queeles indicam somente de forma imperfeita. Pode haveruma tendncia de se legislar mudanas nos indicadoresem si, em vez de mudanas nos problemas sociais.Para exemplificar o problema da sensibilidade ir-

    relevante das medidas, a figura 9 mostra um resultado

    da mudana na lei do divrcio efetuada na Alemanhaem 1900. Numa reanlise recente dos dados, com a es-tatstica de Box e Tiao (1965), Glass (Glass, Tiao eMaguire, 1969) concluiu que a mudana foi altamentesignificativa, ao contrrio de anlises estatsticas an-teriores (Rheinstein, 1959; Wolf, Lke e Hax, 1959).Mas a nfase de Rheinstein ainda seria pertinente: amudana nesse indicador no mostra melhora provvelna harmonia e na estabilidade conjugais. Ao invs dereduzir a discrdia conjugal e a separao, a mudanalegal tomou a taxa de divrcio um indicador menosvlido desses fenmenos do que o era antes (ver tambmEtzioni e Lehman, 1967).

    Figura 5-Cassa:Oesde cartas por excesso de velocidade,expressas em porcentagem de todas as cossoces

    33

    30

    ~~27 J I24 ~ I2 I II 8

    I 5 II 2 I

    II

    51 52 53 54 55 56 57 58 59

    Figura 6-Multas por excesso de velocidade,expressas emporoentagem de todas as multas

    14

    19

    18

    17

    16

    I 5

    13

    I 2

    II

    10

    51 52 53 54 55 56 57 58 59

    Reformas

    35

  • 4. ESQUEMA DA St::RIE DE CONTROLE

    O esquema da srie temporal interrompida, como foidiscutido at agora, pode ser usado em situaes nasquais um grupo de controle impossvel, ou seja, na-quelas em que a unidade governamental inteira recebeuo tratamento experimental constitudo pela reformasocial. No plano geral do delineamento quase-experi-mental, salientamos a grande vantagem de grupos decomparao no submetidos ao tratamento, mesmoquando estes grupos no podem ser designados alea-toriamente. O esquema mais comum desse tipo o dostestes prvio e posterior com grupo de controle noequivalente, no qual, para cada um dentre dois gruposnaturais, um deles recebe o tratamento, tomando-seduas medidas: uma num teste prvio e outra num pos-

    terior. Se evitarmos a prtica tradicional, mas errnea,do emparelhamento baseado nos pontos obtidos no testeprvio (com os conseqentes efeitos ilusrios causadospor regresso), este esquema fornece um controle tildos aspectos de histria, maturao e efeitos de teste-reteste compartilhados pelos dois grupos. Mas no es-tabelece um controle para a hiptese rival plausvel dainterao entre seleo e maturao, isto , a hiptese deque as diferenas de seleo nos agrupamentos naturaisenvolvem no s diferenas na mdia, mas tambm navelocidade de maturao.

    Figum 9 -Taxa de diJorcios do lrnprio Alemo, 1881-1914

    I! I I I I I I! I I I I I I I I I I ! I ! ! I ! I I ! ! I I I I I

    81 84 87 90 93 96 99 02 05 08 11 14

    Divrciospor100000habilontes-------------

    28

    Figura 7 Prises de pessoasguiando com a carteira cassado, 24expressas em porcentagem sabre o total das cossoces

    20

    6

    4

    //

    O - JI

    51 52 53 54 55 56 57 58 59

    Figura 8-~ntagem das mul~ por-excessode velocidadequeforam depoiscanceladaspor-ter sidoo acusadojulgado inooente

    36

    10

    14

    /~I 2

    /8

    6

    4

    Revista de Administrao de Empresas

    I 6

    I 2

    Figura 10 - Formas de onojse quase-experimental do efeitod.:; ~ma disciplina especfica, incluindo-se o esquema dasene de controle.

    A B

    o

    7o

    1! ~ 7i! i!~ ~con~

    9R IQR !IR sries 9R IOR itR sries

    C D

    .2

    ~

    o:Si ~b Lotimi! J~

    ~ ~

    9R IOR !IR sries 9g IOR 112 sries

  • Esse argumento pode ser exemplificado com oproblema de esquema tradicional quase-experimentaldos efeitos do aprendizado do latim na aquisio dovocabulrio em ingls, para estudantes americanos(Campbell, 1963). Nos dados hipotticos da figura 10B,duas interpretaes alternativas so possveis, O latimpode ter causado um efeito, pois os que o estudaramlucraram mais do que os outros. Mas, por outro lado, osestudantes que querem aprender latim podem ter umaumento de vocabulrio maior que se manifestaria mes-mo que no tivessem estudado latim. Ampliando esteesquema comum para duas sries temporais, obtemos

    Figura I l-Esquema da srie de =ntrole,=mparondo o nmerode mortes em Connecticut corn os de outros quatro estados

    Toxodel1lOl'toli_ ------~--------

    1 5

    9Comecficuf..........-

    EsfodosdectKIfrole... -+-- ..

    14

    1 3

    1 2

    II

    10

    8

    O esquema da srie de controle da figura 11 mostraque havia uma tendncia de decrscimo nos outros es-tados em 1955-56, devido provavelmente hist6ria ematurao, isto , a tendncias seculares comuns, con-dies climticas, dispositivos de segurana nos au-tom6veis, etc. Mas os dados tambm mostram uma ten-dncia de a taxa de mortalidade em Connecticutaproximar-se da dos outtos estados antes de 1955 e dedecrescer mais depressa que a dos outros estados a par-tir de 1956. Glass (1968) utilizou os dados mensais deConnecticut e dos estados de controle para gerar umadiferena mensal, a qual tambm mostra uma mudanasignificativa da tendncia com a estatstica de Box eTiao (1965). Impressionados especialmente com a ten-dncia de 1957, 1958 e 1959, estaremos dispostos a con-cluir que o endurecimento teve algum efeito alm dosinegveis pseudo-efeitos de regresso (Campbell e Ross,1968).Asvantagens do esquema da srie de controle demons-

    tram os proveitos que a experimentao social podetirar de um sistema social que permita diversidade nassubunidades. A possibilidade que tivemos de estimar osefeitos do endurecimento com o excesso de velocidade,

    uma evidncia relevante, como demonstra a comparaodos dois resultados alternativos das figuras lOC e 100.Dessa forma, aproximando-nos de um esquema quase-experimental, seja melhorando o esquema do grupo decontrole no equivalente, seja melhorando o esquema dasrie temporal interrompida, chegaremos ao esquemada srie de controle. A figura 11 mostra este esquemapara o endurecimento com o excesso de velocidade emConnecticut, acrescentando evidncia com as taxas demortalidade de estados vizinhos. Aqui, os dados soapresentados na forma de taxas de mortalidade ba-seadas na populao, para tomar as duas sries de mag-nitude comparvel.

    f- i-juro 12- Expcrirncntu de de~-,ernpote e anlise dedescontinuidade na rerecso

    ---Prmio---

    40

    10

    60 70 80 90 tOO uo 120 130 140 150Nmero de pontos que decidiu o outorCJOdo prOmio

    assim como a que tiveram Rose (1952) e Stieber (1949)de estimar os efeitos das leis de arbitragem compulsriasobre as greves e a de Simon (1966) estimando a elas-ticidade-preo das bebidas alc06licas, devem-se todas aofato de que as mudanas no foram postas em vigor emtodos os estados simultaneamente, por serem questesde alada estadual e no federal. Embora no estejamosjustificando desta forma uma diversidade desperdi-adora e injusta de leis e praxes de imposio de estado 37para estado, recomendaramos enfaticamente que os en-genheiros. sociais fizessem uso dessa diversidade en-quanto ela permanece disponvel e que planejassemcooperativamente suas mudanas em poltica adminis-trativa e no sistema de registro de modo a permitir umainferncia experimental 6tima. Mais importante arecomendao de que, para os aspectos de reformasocial tratados pelo Governo federal, fosse consideradauma diversidade propositada na implementao, demodo a tornar disponveis grupos de controle paraanlise. Se planejados corretamente, esses experimentospodem aproximar-se de experimentos verdadeiros,melhores do que os grupos de comparao fortuitos e adhoc de que dispomos agora. Mas sem tal planejamento

    Reformas

  • fundamental, um controle central uniforme pode re-duzir as possibilidades atuais de teste da realidade, ouseja, de uma experimentao social verdadeira. Dentrodo mesmo esprito, a descentralizao das tomadas dedeciso, tanto dentro do Governo como dentro demonoplios privados, pode proporcionar uma concor-rncia til eficincia e inovao manifestada numamultiplicidade de indicadores.

    S. ESQUEMA DA DESCONTINUIDADENA REGRESSO

    38

    Passaremos a considerar, agora, melhorias sociais queso escassas e que, portanto, no podem ser estendidas atodos os indivduos. Essa escassez inevitvel em muitascircunstncias e pode tornar possvel uma previso dosefeitos que do contrrio seria impossvel. Consideremosos notveis experimentos da vacina Salk para polio-mielite, nos quais ministrava-se a vacina a algumascrianas, enquanto que a outras aplicava-se uma injeode um placebo salino inerte. Muitas dessas crianas dogrupo de controle, atacadas mais tarde pela doena noteriam morrido se houvessem tomado a vacina real emlugar da droga inerte. A criao desses grupos de con-trole submetidos pseudovacina teria sido impossvel doponto de vista moral, psicolgico e social se tivessehavido vacina real para todos. Na ocasio, devido es-cassez da vacina, a maior parte das crianas ficaria semela de qualquer forma. A criao dos grupos experimen-.tal e de controle foi uma forma altamente moral de dis-tribuio daquela escassez, de modo a nos permitir oconhecimento da eficcia real do suposto bem. A prticamdica usual de introduzir novas curas, experimentan-do-as na clnica geral, toma impossvel uma avaliao,por confundir o estado prvio com o tratamento, isto, por ministrar a droga aos mais necessitados ou maisdesesperanados. Apresenta ainda o vcio social deministrar o suposto beneficio aos membros das classesmdia e alta, mais assduos em levar suas necessidadesmdicas ao conhecimento da comunidade mdica. Apostura poltica que favorece a experimentao socialneste caso o reconhecimento da distribuio aleatria:como o meio mais democrtico e moral de se alocarrecursos limitados (e raros deveres arriscados), alm doimperativo moral de utilizar essa distribuio aleatriade forma que a sociedade possa realmente conhecer overdadeiro valor do suposto beneficio. Esta a ideologiaque torna possvel a realizao de "experimentos ver-dadeiros" num grande nmero de reformas sociais.Mas se a distribuio aleatria no for politicamente

    vivel ou moralmente justificvel numa dada situao,existe um poderoso esquema quase-experimental quepermite que o bem escasso seja dado aos mais neces-sitados ou mais merecedores. Trata-se do esquema dadescontinuidade na regresso que exige to-somenteuma ateno rigorosa e ordenada dimenso daprioridade. Ele teve sua origem na defesa de um ex-perimento de desempate na medida dos efeitos do re-cebimento de uma bolsa de estudos (Thistlethwaite eCampbelI, 1960), e parece mais fcil explic-lo luzdaquele experimento. Consideremos, como na figura 12,a dimenso aptido e mrito antes do prmio, a qualteria alguma relao com o sucesso posterior na vida

    Revista de Administrao de Empresas

    (obter diploma em faculdade, o salrio de 10 anos maistarde, etc.), Aqueles que tinham a medida niais alta an-tes do prmio so os mais merecedores e recebem o pr-mio. Eles saem-se melhor na vida, mas ser que oprmio exerce alguma influncia? Normalmente im-praticvel diz-lo, porque eles teriam se sado melhor dequalquer forma. Uma distribuio totalmente aleatriado prmio teria sido impossvel dada a inteno de-clarada de premiar o mrito e a aptido. Mas seria viveltomar uma estreita faixa de aptido em tomo do valorque determinava quem receberia ou no o prmio. Essaspessoas seriam consideradas como empatadas e dar-se-ia o prmio a metade delas, atravs de escolha aleatriade desempate.O fundamento lgico do experimento de desempate

    ainda o toma digno de ser realizado, mas ao considerar-se esse esquema ficou bvio que se a regresso damedida antes do prmio sobre efeitos posteriores fosserazoavelmente sistemtica, poder-se-ia extrapolar osresultados do experimento de desempate, construindodois grficos da regresso do teste posterior (xito aps oprmio) sobre o prvio (nmero de pontos baseados nosquais o prmio foi dado), um para os que estavam naregio dos premiados e outro para os situados na dosno-premiados. Se no houver diferena significativapara aqueles que esto na interseo das linhas deregresso com a linha de separao, ento o experimen-to de desempate no deveria apresentar nenhuma di-ferena. Nos casos em que os que foram desempatadosaleatoriamente mostrassem mais tarde um efeito comoconseqncia de terem recebido o prmio, deveria haveruma descontinuidade abrupta na linha de regresso. Taldescontinuidade no pode ser invalidada pela regressonormal que deve existir entre o teste posterior e o prvio,pois essa regresso normal, baseada numa amostra ex-tensa das reas de premiados e no-premiados, no jus-tifica essa expectativa.A figura 12 apresenta um exemplo no qual um n-

    mero de pontos mais alto no teste prvio teria levado aum nmero de pontos mais alto no teste posterior, mes-mo sem o tratamento, mas no qual h, alm disso, umefeito substancial do tratamento. Afigura 13 mostrauma srie de resultados emparelhados, interpretando-seos da esquerda como no mostrando nenhum efeito e osda direita como mostrando um efeito. Note-se algunscasos peculiares. Em casos em que dada uma opor-tunidade com base no mrito, como 13a e 13b (e a figura12), um esquecimento da regresso subjacente do testeposterior sobre o teste prvio leva a pseudo-efeitosotimistas: na figura 13a, os que recebem o prmio real-mente saem-se melhor na vida, embora no seja, na ver-dade, por causa do prmio: Mas em casos em que seprocura incentivar os menos dotados, a situao tende aser a das figuras 13d e 13e,'em que o esquecimento daregresso subjacente far o programa parecer nocivo seno houver efeito real, ou ineficaz se o houver.

    t;: claro que o esquema funcionar igualmente bem ouat melhor se a dimenso que decide a outorga doprmio - a medida do teste prvio - no tiver relaocom a dimenso do teste posterior, ou se for irrelevanteou injusta, como nas figuras 13g, 13h e 13i. Em taiscasos, a deciso da outorga do prmio tem o mesmoefeito de uma distribuio aleatria. Relaes subjacen-

  • tes negativas so obviamente possveis, como nas figuras13j, 13k e 131.As figuras 13m, 13n e 130 foram includaspara enfatizar que o salto na interseo com o ponto deseparao que demonstra o efeito, e que diferenas eminclinao que no sejam acompanhadas de dferenasno ponto de separao no so aceitveis como evidn-cias de efeito. Isto fica mais bvio se lembrarmos que emcasos como 13m, uma escolha aleatria de desempateno teria demonstrado diferena alguma. Relaes sub-jacentes curvilneas, como as das figuras 13p, 13q e 13r,criaro obstculos adicionais inferncia clara emmuitos casos em que o erro de amostragem poderia fazercom que a figura 13p se parecesse com a figura 13b.

    Figura 13 - Exemplos de resultados de anlises dedescontinuidade na regresso.

    Efeilo dimin/JidorEfei/o oomeatodo:

    li:=:-.Chthtf.tE~[L

    Elei/onulo

    Como exemplo adicional, a figura 14 apresenta dadossimulados em computador, mostrando observaes in-dividuais e retas de regresso ajustadas a elas, numaverso mais completa do resultado de ausncia de efeitoda figura 13a. A figura 15 mostra um resultado comefeito. Esses dados foram gerados" atribuindo-se a cadaindivduo um nmero aleatrio ponderado da distri-buio normal como um "nmero de pontos verda-deiro", ao qual adicionado um "erro" independente,tambm ponderado, para se obter a medida do testeprvio. O "nmero de pontos verdadeiro" adicionado aum outro "erro", gerado de forma anloga.. produza medida do teste posterior em casos de ausncia de efei-to, como o da figura 14. Na simulao de presena deefeito, como oda figura 15, so adicionados' 'pontos refle-

    tindo o efeito" medida do teste posterior de todos oscasos que receberam o tratamento, ou seja, aqueles almdo ponto de separao na medida do teste prvio. 6

    Figura 14 - Esquema de descontinuidade na regresso-Efeito nulo

    10

    Valores do lesle poslerior3or---------------------~~---------------Sem tratomeoto Com tralamenlo

    -1~ILO----------~0----------~10L-----------2-0-----

    Valores do leste pr,io

    Figura 15 - Esquema de descontinuidade na regresso-Efeito autntico

    Valores do teste poslerior30,------------------------------------------Sem tralamenlo Com Iralamenlo,

    x xx x xxX IX X

    xx

    10

    ooo o

    o o

    -10L- -L- ---'- _-10 o 10

    Valores do teste pr,io

    Este esquema poderia ser utilizado em vrias si-tuaes. Consideremos os inscritos para o Corpo deTreinamento para Empregos (Job Training Corps), emmaior nmero do que o programa pode atender, com aqualificao determinada pela necessidade. A situaoseria a das figuras 13d e 13e. A dimenso bsica para adeciso poderia ser a renda familiar per capita, sendoque aqueles que tivessem menos que um certo valorreceberiam o treinamento. A dimenso para se mediroresultado do programa poderia ser o imposto de renda

    xxx

    20

    Reformas

    39

  • 40

    retido na fonte dois anos mais tarde, ou percentagemdos que recebem seguro de desemprego. TaIS valores deacompanhamento seriam fornecidos pelo Banco Na-cional de Dados atravs do nmero de inscrio naprevidncia social, sem quebrar o anonimato individuale o sigilo pessoal, pois o programa que est sendoexaminado, atravs de dados agregados de muitas pes-soas. Embora se pudesse dar nomes aos pontos indi-viduais, isso no necessrio. Num clssico experimentode campo sobre obedincia ao pagamento de impostos,Richard Schwartz e o Bureau of Internai Revenue(equivalente nossa Secretaria da Receita Federal) con-seguiram juntar grupos de entrevistas pessoais e de-claraes de imposto de renda de modo a permitiranlises estatsticas sem que os diferentes encarregados,tanto das entrevistas como das declaraes, ficassemsabendo os dados correspondentes de nenhuma pessoaespeeifica (Schwartz e Orleans, 1967; ver tambmSchwartz e Skolnick, 1963).Manniche e Hayes (1957) jexplicaram detalhadamente como se pode usar um in-termedirio para emparelhamento em dois estgios dedados duplamente codificados. Kaysen (1967)e Sawyer eSchechter (1968) apresentam discusses sensatas doproblema mais geral.O que se requer do administrador de um bem me-

    Ihorador escasso para que se utilize esse esquema? Omais essencial um ntido ponto de separao ao longoda dimenso que constitui o critrio de deciso e ao lon-go da qual outros pontos de separao possam seranalogamente escolhidos, tanto acima como abaixo doponto de separao utilizado para o prmio. Isso ficarmais claro mostrando-se por que a entidade que concedeas bolsas do Mrito Nacional no pode usar o esquemapara a real deciso da concesso (embora o tivesse usadopara o Certificado de Mrito). No seu sistema de tra-balho, cada uma dentre vrias comisses toma decisesde concesso do prmio considerando um grupo de can-didatos e escolhendo os N melhores para receber as Nbolsas disponveis. Esse procedimento fornece um pontode separao ao longo de uma dimenso no-especi-ficada que uma mistura de critrios, mas deixa de for-necer pontos potenciais de separao acima e abaixo. Oque poderia ser feito que cada comisso classificasse,de forma coletiva, o seu grupo de candidatos, que soem torno, de 20. Os N melhores receberiam, ento, oprmio. Ao combinar os casos das vrias comisses cadacaso poderia ser classificado de acordo com sua posioem relao ao ponto de separao que decidiu o prmio,fosse acima ou abaixo deste. Para efeito da regressocom as medidas p6s-tratamento, essa classificao seriaanloga ao ponto de separao. Tal classificao dosgrupos consumiria tempo das comisses. Procedimentoigualmente aceitvel, se as comisses concordassem,seria o de fazer cada membro da comisso atribuir acada candidato uma nota, A+, A, A-, B+, B, etc., ap6sampla discusso com liberdade de reviso, e conceder abolsa aos N candidatos que obtivessem a melhor mdianessa avaliao, no sendo permitidas revises aps ocmputo das mdias. Essas unidades de classificao,mesmo que no fossem comparveis entre uma comissoe outra na-faixa de talento abrangida, no nmero depessoas classificadas ou no valor que serviu de ponto deseparao, poderiam ser combinadas sem vicio para seanalisar a descontinuidade na regresso, na regio de

    Revista de Administrao de Empresas

    valores acima e abaixo do ponto de separao em quetodas as comisses estivessem representadas.~ a dimensionalidade e a nitidez do critrio de deciso

    que est em debate, no os seus componentes ou suavalidade. As classificaes poderiam ser feitas na basede nepotismo, capricho e superstio e, mesmo assim,servirem. Como j foi dito, se o critrio de deciso completamente invlido, aproximamo-nos da distri-buio aleat6ria dos experimentos verdadeiros. Portan-to, a fraqueza das decises subjetivas das comisses no sua subjetividade, mas sim o fato de que elas fornecemsomente um ponto de separao na sua dimenso sub-jetiva final. Os procedimentos recomendados, mesmo naforma de notas mdias, provavelmente representampequeno aumento na carga de trabalho das comisses.Mas isso poderia ser justificado perante essas comisseslembrando-lhes que, devido s desistncias, etc. no sesabe exatamente o nmero de pessoas a quem seroconcedidas bolsas quando a comisso se rene. Outroscustos na ocasio do planejamento so igualmentemnimos. A sobrecarga principal manter bons regis-tros tanto dos que receberam o prmio como dos queno o receberam. Dessa forma, um administrador ex-perimental pode, a um custo baixo, lanar os funda-mentos para um acompanhamento cientfico posterior,para os quais nem se cogita ainda fazer oramentos.A situao que estamos analisando tende a ser mais

    uma onde as medidas de pr-tratamento, medidas deaptido, avaliao das referncias, etc., podem ser com-binadas mediante correlao mltipla num ndice nico,que apresenta uma alta correlao, porm no perfeitacom a deciso da concesso da bolsa. Se esse ndice forusado como dimenso de teste prvio para a anlise dadescontinuidade na regresso, haver ento um pontode separao indistinto. O esquema pode ser usado nes-se caso? Provavelmente no. A figura 16 mostra opseudo-efeito possvel se a deciso da concesso con-tribui com qualquer varincia vlida para a evidnciaquantificada do teste prvio, como em geral o caso. Areta de regresso do grupo premiado est acima da dogrupo no-premiado somente por causa da varinciavlida neste caso simulado, no havendo nenhum efeitogenuno do prmio. (Na simulao desse caso, a decisoda concesso da bolsa foi baseada num valor compos-to da medida verdadeira do teste prvio e de um erro in-dependente.) A figura 17 mostra um ponto de separaoindistinto mas com um efeito genuno do prmio," Arecomendao para o administrador fica clara: procurarestabelecer um ponto de separao ntido ao longo deum critrio de deciso quantificado. Se existirem regrascomplexas de seleo, das quais s6 uma quantificada,procurar fazer um acompanhamento do subconjuntodas pessoas para as quais a dimenso quantificada foidecisiva. Se um pista/ao poltico criar algumas decisesinconsistentes com o ponto de separao, registrar essescasos como baseados numa "regra de deciso qualita-tiva" e mant-los fora da sua anlise experimental.9uase todos nossos programas de melhorias pla-

    nejados para os menos privilegiados poderiam ser es-tudados por meio deste esquema, assim como algumasaes importantes do Governo que afetam as vidas doscidados de formas que no julgamos ser experimentais.Por exemplo, durante um perodo considervel o n-

  • mero de pontos obtidos em testes tem sido usado naconvocao para o servio militar ou para rejeitar comoincapaz na faixa mais baixa de aptido. Se esses pontosde separao, nmero de pontos obtidos nos testes,nomes e nmeros de previdncia social foram regis-trados para alguns intervalos acima e abaixo do pontode separao, poderamos fazer estudos elegantes doefeito do servio militar na renda posterior, mortalidade,nmero de dependentes, etc. Infelizmente para esse ob-jetivo, a operao conhecida como "Operation100,000", instituda pelo Secretrio da Defesa com

    Figura 16 - Esquema de descontinuidade na regresso,Ponto de separa:oindistinto,com pseudo-efeito do tratamento

    Valores do lesle poslerior30r----------------------------------------

    10

    o

    -I OL- _

    -10 O 10 20Valores do lesle prvio

    Figura 17 - Esquema de descontinuidade na regresso,Ponto de seooroco indistinto, com pseudo-efeitos somcx:tosa um efeito real do tratamento

    Valores do lesle poslerior30r----------------------------------------

    10

    x -Trolodo0- NtJoIrolodo

    oo

    -I OL- _

    -10 10Valores do leste prvio

    20O

    nobres intuitos experimentais, est tomando indistinto oponto de separao. Mas dispomos de dados anterioresa vrios anos, referentes ao Vietn, prontos para anlise.

    Esse exemplo chama a ateno para uma das ameaas validade externa desse esquema ou do experimento dedesempate. O efeito do tratamento foi estudado somentepara aquela estreita faixa de talento em tomo do pontode separao. Uma generalizao dos efeitos do serviomilitar, por exemplo, sobre a carreira dos mais aptos,feita com base num nvel de aptido muito baixo, seriaextremamente arriscada. Mas nas leis de alistamento enos requisitos do servio militar pode haver outros pon-tos de separao ntidos ao longo de um critrio quan-titativo que tambm poderiam ser usados. Por exemplo,os que tm mais de seis ps e seis polegadas (1,98m) dealtura so dispensados do servio militar. Imagine umacompanhamento feito cinco anos mais tarde dos con-vocados agrupados por polegadas na faixa de seis ps euma polegada a seis ps e cinco polegadas e de umgrupo de seus correspondentes que teriam sido con-vocados no fosse a sua altura excessiva, seis ps e seispolegadas a seis ps e 10 polegadas. (A possibilidade deque outras razes para dispensa no terem sido exa-minadas pela junta de alistamento poderia ser umproblema nesse caso mas, provavelmente, no insu-pervel.) O fato de que no se deveria esperar que a al-tura nessa faixa tivesse qualquer relao com variveisna vida subseqente no absolutamente uma fraquezadesse esquema e se de fato tivermos uma subpopulaopara a qual h um ponto de separao numrico ntido,conseguiremos obter uma medida de efeitos com va-lidade interna. A dispensa no sistema atual umadeciso no-quantificada de uma comisso. Mas, assimcomo o senso de justia dos soldados americanos foiquantificado por meio da comparao de pares de casosde modo a se criar um sistema aceitvel de pontos parabaixa ao fim da 11 Guerra Mundial (Guttman, 1946;Stoffer, 1949), igualmente poderamos conseguir quan-tificar um ndice composto de prioridade para dispensae aplic-lo como critrio uniforme em todo o pas, es-tabelecendo-se assim outro ponto de separao nu-, .menco.

    Alm dos indicadores do tipo fornecido pelo BancoNacional de Dados, haver ocasies em que sero neces-srias novas coletas de dados atravs de entrevistas ouquestionrios, surgindo, ento, o problema especial decooperao desigual que poderia ser classificada comoerro instrumental. No nosso modo tradicional de pensar,a perfeio da descrio considerada mais valiosa doque a comparabilidade. Portanto, se como no estudo dasbolsas, um questionrio de acompanhamento enviadopelo rgo que as distribui apresentasse maior retomodos que ganharam a bolsa, isso poderia parecer dese-jvel, mesmo se o retomo das respostas dos que no aganharam fosse muito menor. Do ponto de vista daquase-experimentao, no entanto, seria melhor usaruma agncia de pesquisa independente e um objetivodissimulado, obtendo-se assim taxas de resposta igual-mente baixas, tanto dos que ganharam a bolsa como dosque no a ganharam e evitando-se a descontinuidade nograu de cooperao, a qual poderia ser interpretadaerroneamente como uma descontinuidade em efeitosmais importantes.

    Reformas

    41

  • 6. EXPERIMENTOS COM GRUPOS DECONTROLE DESIGNADOSALEATORIAMENTE

    42

    Experimentos com aleatorizao (designao aleatriapara o tratamento) tendem a ser limitados ao labora-trio e ao posto de experimentos agrcolas. Mas cer-tamente no necessrio que assim seja. A unidade dealeatorizao pode ser pessoas, famlias, zonas eleitoraisou unidades administrativas maiores. Para objetivos es-tatsticos, as unidades de aleatorizao devem sernumerosas e, portanto, teoricamente pequenas. Mas porrazes de validade externa, inclusive preparativosreativos, as unidades de aleatorizao deveriam ser es-colhidas com base nas unidades de acesso adminis-trativo. Quando as diretrizes so aplicadas atravs decontatos individuais com os clientes, pode-se conseguiruma aleatorizao ao nvel pessoal que no chame aten-o, j que os clientes no precisam ficar sabendo quealguns deles recebem o tratamento e outros no. To-davia para a maioria das reformas sociais, unidades ad-ministrativas maiores estaro envolvidas, tais como salasde aula, escolas, cidades, municpios ou estados. Temosque desenvolver posturas e ideologias polticas que tor-nem possvel a aleatorizao a esses nveis."Projeto-piloto" um termo til que j consta do nos-

    so vocabulrio poltico. Significa um programa tentativoque, se funcionar, ser ampliado para outras reas.Modificando-se a prtica real a esse respeito, sem sairdo entendimento popular do termo, poder-se-ia desen-volver uma valiosa ideologia experimental. Como se es-colhe uma rea para projeto-piloto? Se o pblico estiverpreocupado com isso, a escolha provavelmente toma aforma de presses junto aos legisladores, as quais re-presentam somente em parte a maior necessidade deuma regio, pois o poder e a convenincia polticos tmum papel importante. Sem violar a tolerncia ou opropsito do pblico, poder-se-ia provavelmente ar-quitetar um sistema no qual as presses sobre legis-ladores decidissem quais as reas elegveis para par-ticiparem de um sorteio pblico formal que realizaria asescolhas definitivas entre parelhas. Tais procedimentosde deciso, como tirar a sorte, so justamente respei-tados j h muito tempo (por exemplo, Aubert, 1959).Atualmente mantm-se registros nos projetos-pilotossomente para o grupo experimental, na maioria doscasos. De acordo com a ideologia experimental, seriamcoletados dados comparveis de controles designados.(1:: claro que h excees da prtica usual, como nosdiligentes experimentos sobre os efeitos do flor con-duzidos pelo Servio de Sade Pblica, nos quais, anoaps ano, foram examinados os dentes de crianas deOak Park, servindo de controle para aquelas tratadasem Evanston.) (Blayney e Hill, 1967,)Outra postura poltica que torna possvel a melhoria

    social experimental a da inovao gradativa. Mesmoque a inteno seja a de implantar a reforma em todasas unidades, a logstica da situao geralmente mostrarque uma introduo simultnea no possvel. O resul-tado uma seqncia de convenincia a esmo. Num pro-grama de inovao gradativa, a introduo do progra-

    Revista de Administrao de Empresas

    ma seria deliberadamente ampliada e as unidadesescolhidas para serem as primeiras ou as ltimas de"signadas por sorteio (talvez num sorteio entre pa-relhas de unidades), de forma que durante o perodo detransio os primeiros recipientes pudessem ser ana-lisados como unidades experimentais e os ltimos, comocontroles. Uma terceira ideologia que toma possvel arealizao de experimentos verdadeiros j foi discutida:a aleatorizao como uma forma democrtica de se dis-tribuir recursos escassos.

    Neste artigo no dedicaremos tanto espao expe-rimentao verdadeira quanto quase-experimentao,em virtude de existirem nossa disposio discussesexcelentes e fontes de consulta estatstica para expe-rimentos verdadeiros. Quando se pode fazer tanto ex-perimentos verdadeiros como quase-experimentos, osprimeiros devem ser quase sempre preferidos. Socasionalmente existem ameaas to fortes validadeexterna no experimento verdadeiro que um quase-ex-perimento seria prefervel. A distribuio de espao nes-te artigo no deve ser interpretada de outra forma.

    7. MAIS CONSELHOS PARA ADMINISTRADORESESCURRALADOS

    Na realidade, a rivalidade no se d entre os quase-ex-perimentos aqui revistos, os quais so razoavelmente in-terpretveis, e os experimentos "verdadeiros". Ambosrepresentam raras eminncias em comparao com umaviso distorcida e enganosa de si mesmo. Tanto para en-fatizar esse contraste, como para sugerir novamenteuma orientao que beneficie aos administradores en-curralados, cuja embaraosa situao poltica no per-mitir o risco do fracasso, algumas dessas alternativasdevem ser mencionadas.Testemunhos agradecidos. Considerando o que re-presentam a gentileza e a gratido humanas, a formamais segura de se garantir uma avaliao favorvel ob-tida atravs da utilizao de testemunhos voluntriosdaqueles que receberam o tratamento. Se os teste-munhos surgidos espontaneamente foram escassos, estesdevem ser solicitados entre os recipientes com os quais oprograma ainda mantm contato. O otimismo que essestestemunhos inspiram anlogo impresso que umprofessor tem do seu sucesso no ensino quando ouvecomentrios apenas dos alunos que vm procur-lo econversar com ele aps a aula. Em muitos programas,como na psicoterapia, o recipiente, assim como aunidade administrativa, gasta muito tempo e esforocom o programa. Nesse caso o comunicado de umamelhora, alm de reduzir o sentimento de frustrao, uma gentileza para com o terapeuta. Os testemunhosagradecidos podem vir na linguagem das cartas e deconversas, ou enquadrados nas respostas a um "teste"de mltipla escolha, nos quais um tema freqente "es-tou doente", "estou bem", "estou feliz" e "estou triste".J:: provvel que o testemunho seja tanto mais favorvel:a) quanto mais claro for para o recipiente o carter deavaliao da resposta - perfeitamente claro namaioria dos testes de personalidade, ajustamento, morale atitude; b) quanto mais direta for a identificao do

  • nome do recipiente que responde pergunta; c) quantomais o recipiente d sua resposta diretamente ao te-rapeuta ou agente da reforma; d) quanto mais o agentecontinue a ser influente na vida futura do recipiente; e)quanto mais as respostas lidam com sentimentos eavaliaes em vez de lidarem com fatos verificveis; e t)quanto mais os recipientes que participam na avaliaoconstituem um subgrupo pequeno dos recipientes, for-mado de voluntrios ou de elementos escolhidos peloagente. Se for bem planejado, o mtodo do testemunhoagradecido pode compreender testes prvios, alm detestes posteriores, e envolver grupos de controle desig-nados por aleatorizao, pois geralmente no se usampseudotratamentos e os recipientes sabem perfeitamenteque eles foram beneficiados.

    Confundir seleo e tratamento. Outra ttica segurapara se obter resultados favorveis confundir a seleocom o tratamento, de modo que na comparao levadaao conhecimento do pblico os que receberam o tra-tamento so tambm os mais capazes e bem colocados.A to citada evidncia do valor por dlar de umaeducao em faculdade desse tipo - todos os estudoscuidadosos mostram que a maior parte do efeito, e doefeito mais acentuado das melhores faculdades, pode serexplicado por um talento maior e por contatos fami-liares e no pelo que aprendido ou mesmo pelo pres-tgio do ttulo. As tcnicas de emparelhamento e do par-celamento estatstico no fornecem, em geral, um con-trole eficaz das diferenas de seleo, pois introduzemefeitos de regresso que podem ser confundidos comos efeitos do tratamento.

    Temos que distinguir dois tipos de situao. Emprimeiro lugar, existem aqueles tratamentos que soministrados aos mais promissores, como a educao emfaculdade, que normalmente dada aos que menosprecisam dela. Para esses tratamentos, as circunstnciasconcomitantes com os motivos da seleo e que semanifestam mais tarde agem no mesmo sentido dotratamento: as que tm mais probabilidade de sucessocom a educao, ou sem ela, tm tambm mais pro-babilidade de entrar numa faculdade para depois con-seguir sucesso. Para essas situaes, o administrador en-curralado deveria usar a mdia geral de todos os quereceberam o tratamento e compar-la com a mdia detodos os que no o receberam, embora neste caso quaseque qualquer comparao que pudesse ocorrer a um ad-ministrador seria viciada em seu favor.

    No outro extremo da escala de talento esto os tra-tamentos corretivos ministrados queles que maisprecisam dele. Neste caso, as circunstncias conco-mitantes com os motivos de seleo e que se manifestammais tarde so um menor sucesso. No exemplo do Corpode Treinamento para Empregos, uma comparao des-cuidada da taxa de desemprego posterior dos que re-ceberam o treinamento com a dos que no o receberam, em geral, viciada contra o efeito do treinamento. Oadministrador encurralado deve ter cuidado neste caso eprocurar aquelas poucas comparaes especiais queviciam a seleo a seu favor. Para programas de trei-namento tais como a Operao "Head Start" e pro-gramas de aulas particulares, uma soluo til com-parar o sucesso posterior dos que completaram o

    programa de treinamento com o dos que foram con-vidados mas nunca apareceram e, tambm o dos quevieram algumas vezes e abandonaram o programa. Con-siderando como "treinados" somente os que terminam oprograma e usando os outros como controles, est-sefazendo uma seleo com base no grau de conscinciaindividual, numa base familiar estvel e amparadora, nogosto pela atividade de treinamento, na aptido, naresoluo de vencer na vida - fatores todos que pro-metem sucesso futuro mesmo que o programa corretivono tenha valor algum. Para aplicar eficazmente estattica no Corpo de Treinamento para Empregos serianecessrio, talvez, eliminar do pretenso grupo de con-trole todos os que abandonaram o programa de trei-namento porque encontraram um emprego - mas istopareceria ser um procedimento razovel e no maculariao recebimento de um jubiloso relatrio de andamento.Essas so s mais duas amostras de modos de anlise

    infalveis para o administrador que no pode fazer facea uma avaliao honesta da reforma social que eledirige. Esses exemplos nos fazem lembrar novamenteque temos que ajudar a criar um clima poltico que exijatestes da realidade mais rigorosos e menos enganosos.Devemos criar posturas polticas que permitam ex-perimentos verdadeiros ou bons quase-experimentos.Das vrias sugestes visando a esse objetivo dadas nesteartigo, a mais importante provavelmente o temainicial: os administradores e os partidos polticos devempreconizar a importncia do problema e no a impor-tncia de uma soluo. Eles devem preconizar seqn-cias experimentais de reformas em vez de uma panaciainfalvel, propondo uma Reforma A e tendo uma Alter-nativa B disponvel para ser experimentada em seguida,no caso em que uma avaliao honesta de A mostrasseque ela fora intil ou prejudicial.

    8. REPETIO MLTIPLA DA AVALIAO

    Nmero excessivo de cientistas sociais espera que umnico experimento resolva uma questo definitivamente.Isto pode ser uma generalizao errnea da histria dosgrandes experimentos cruciais da fsica e da qumica.Na realidade, os experimentos significativos das cinciasfsicas so repetidos milhares de vezes, no somente emesforos deliberados de repetio, mas tambm comoeventualidades inevitveis na experimentao sucessivae na utilizao dos muitos dispositivos de medio (comoo galvanmetro), que na sua operao incorporam os 43princpios dos experimentos clssicos. Devido ao fato deque ns, cientistas sociais, possuimos menos poder paraconseguir "isolamento experimental", j que temos boasrazes para esperar que os efeitos do tratamento in-terajam significativamente com uma grande variedadede fatores sociais, muitos dos quais no levamos aindaem considerao, nossa necessidade de experimentos derepetio muito maior do que a do cientista fsico.As implicaes so claras. Devemos ser obstinados no

    teste da realidade no s na avaliao do programa-piloto e escolha da reforma a ser implementada na for-ma de lei. Devemos tambm, desde o momento em quetenha sido decidido que a reforma ser adotada comopadro em todas as unidades administrativas, avaliar

    Reformas

  • experimentalmente os efeitos da reforma em cada umadas suas implementaes (Campbell, 1967).

    9. CONCLUSOES

    Os administradores encurralados j estilo antecipa-damente to comprometidos com a eficcia da reformaque eles no se podem permitir uma avaliao honestados resultados. Recomendam-se para eles anlises ten-denciosas a seu favor, inclusive tirando proveito daregresso, dos testemunhos agradecidos e da confusoentre seleo e tratamento. l os administradores ex-perimentais tero justificado a reforma com base na im-portncia do problema e no na certeza da soluo, eseu compromisso tentar outras possveis solues se aprimeira falhar. Eles no estilo, portanto, ameaadospor uma anlise perspicaz da reforma. Por meio dedecises administrativas adequadas, podem estabelecera base para teis anlises experimentais ou quase-ex-perimentais. Com a ideologia de distribuir recursos es-cassos por sorteio, com o uso da inovao gradativa e,com projetos-pilotos, podero conseguir experimentosverdadeiros com grupos de controle de designaoaleatria. Se a reforma precisar ser introduzida simul-taneamente em todas as unidades administrativas,podemos usar o esquema da srie temporal interrom-pida. Se houver unidades semelhantes sob adminis-trao independente, um esquema de srie de controlerefora a anlise. Se um beneficio escasso precisa serdistribudo aos que mais necessitam dele ou aos quemais o merecem, a quantificao dessa necessidade oudesse mrito toma possvel a anlise da descontinuidadena regresso.

    BIBLIOGRAFIA

    44

    Aubert, V. Chance in social affairs. Inquiry, n. 2, p. 1-24, 1959.

    Bauer, R. M. Social indicators. Cambridge, Mass.M.I.T. Press, 1966.

    Blayney, I. R. & Hill, I.N. Fluorine and dental caries.The Journal of the American Dental Association(nmero especal),v. 74, p. 233-302, 1967. '

    Box, G.E.P. & Tiao, G.C. A change in level of a non-stationary time series. Biometrica v. 52 p. 181-921-965. '"

    Campbell, D.T. Factors relevant in the validity of ex-periments in social settings. Boletim Psicol6gico, v. 54,p. 297-312, 1957.

    Revista de Administrao de Empresas

    Campbell, D.T. From description to experimentation:interpreting trends as quasi-experiments. In: Harris,C.W., ed. Problems in measuring change. Madison.University of Wisconsin Press, 1963.

    Campbell, D.T. Administrative experimentation, ins-titutional records and nonreactive measures. In: Stan-ley, I.C., ed. Improving experimental design and statis-tical analysis. Chicago. Rand McNally, 1967.

    Campbell, D.T. Quasi-experimental designo In: Sills,D.L., ed. International encyclopedia ofthe social scien-ces.NewYork. Macmillan and Free Press, 1968, V. 5, p.259-63.

    Campbell, D.T. ar Fiske, D.W. Convergent and dis-criminant validation by the multitrait-multimethodmatrix. Psychological Bulletin, V. 56, p. 81-105, 1959.

    Campbell, D.T. & Ross, H.L. The Connecticut crack-down on spending: time-series data in quasi-expermen-tal analysis. Law and Society Review, V. 3, n. 1, p. 33-531968. '

    Campbell, D.T. ar. Stanley, I.C. Experimental andquasi-experimental designs for research on teaching. In:Ga~e, N.L., ed. Handbook of researcb on teaching.Chicago. Rand McNally, 1963. (Reeditado como Ex-perimental and quasi-experimental design for research.Chicago. Rand McNally, 1966.)

    Chapin, F.S. Experimental design in sociological. re-search. New York. Harper, 1947.

    Etizioni, A. "Shortcuts" to social change? The PublicInterest, V. 12, p. 40-51, 1968.

    Etz!oni, A. & Lehman, E.W. Some dangers in "valid"SOCIalmeasurement. Annals of the American AcademyofPolitical and Social Science, V. 373, p. 1-15, 1967.

    Galtung, I. Theory and methods of social research. Oslo.Universitetsforloget; London. Allen and Unwin; NewYork. Columbia University Press, 1967.

    Glass, G.V. Analysis of data on the Connecticutspeeding crackdown as a time-sries quasi-experiment.Law and Society Review, V. 3, n. 1, p. 55-76, 1968.

    Glass, G.V.; Tiao, G.C. ar Maguire, T.O. Analysis ofdata on the 1900 revision of the German divorce laws asa quasi-experiment. Law and Society Review, no prelo.

    Greenwood, E. Experimental sociology: a study inmethod. New York. King's Crown Press, 1945.

    Gross, B.M. The state of the nation: social system ac-counting, London. Tavistock Publications, 1966. (Tam-bm em R.M. Bauer. Social indicators. Cambridge.Mass. M.I.T. Press, 1966.)

    Gross, B.M., ed. Social goals and indcators. Annals of

  • the American Academy of Political and Social Science,v. 371, Parte 1, May, p. i-iii e 1-177; Parte 2, Sept. p. i-iiie 1-218, 1967.

    Guttman, L. An approach for quantifying paired com-parisons and rank order. Annals of MathematicalStatistics, v. 17, p. 144-63, 1946.

    Hyman, H.H. & Wright, C.R. Evaluating social actionprograms. In: Lazarsfeld, W.H. Sewell & Wilensky,H.L., ed. The uses ofsociology. New York. Basic Books,1967.

    Kamisar, Y. The tactics of police-persecution orientedcritics of the courts. Cornell Law Quarterly, v. 49, p.458- 71, 1964.

    Kaysen, C. Data banks and dossiers. The Public In-terest, v. 7, p. 52-60, 1967.

    Manniche, E. & Hayes, D.P. Respondent anonymityand data matching. Public Opinion Quarterly, v. 21, n.3, p. 384-8, 1957.

    Office of the Secretary of Defense, Assistant Secretary ofDefense (Manpower), Guidance paper: Project OneHundred Thousand. Washington, D.C., March 31,1967(multilith),

    Polanyi, M. A society of explorers. In: The tacit dimen-sion. New York. Doubleday, 1966. Capo 3.

    Polanyi, M. The growth ofscience in society. Minerva, V.5, p. 533-45, 1967.

    Popper, K.R. Conjectures and refutations. London.Routledge and Kegan Paul; New York. Basic Books1963. '

    Rh~instein, ~. Divorce and the law in Germany: areview. American Journal of Sociology, V. 65, p. 489-98,1959.

    Rose, A.M. Needed research on the mediation of labordisputes. Personnel Psychology, V. 5, p. 187-200, 1952.

    Ross, H.L. & Campbell, D.T. The Connecticut speedcrackdown: a study of the effects of legal change. In:Ross, H.L. ed. Perspectives on the social order: readingsin sociology. New York. MacGraw-Hill, 1968.

    Sa~er, J. & Schechter, H. Computers, Privacy and theNational Data Center: the responsibility of social scien-tists. American Psychologist, V. 23, p. 810-18, 1968.

    Schanck, ~.L. & Goodman, C. Reactions to propagandaon both sides of a controversial issue. Public OpinionQuarterly, V. 3, p. 107-12, 1939.

    Schwartz, R.D. Field experimentation in sociologicalresearch. Joumal of Legal Education, V. 13, p. 401-101961. '

    Schwartz, R.D. & Orleans, S. On Legal sanctions.

    University of Chicago Law Review, V. 34, p. 247-300,1967.

    Schwartz, R.D. & Skolnick, J.H. Televised comunicationand inco~e. tax compliance. In: Arons, L. & May, M.,00. Television and human behavior. New York. Ap-pleton-Century-Crofts, 1963.

    Selvin, H. A critique of tests of significance in surveyresearch. American Sociological Review, V. 22, p. 519-27, 1957.

    Simon, J.L. The price elasticity of liquor in the V.S. anda simple method of determination. Econometrica, V. 34,p. 193-205, 1966.

    Solomon, R.W. An extension of control group designoPsychological Bulletin, V. 46, p. 137-50, 1949.

    Stieber, J.W. Ten years of the Minnesota Labor Re-lations Act. Minneapolis. Industrial Relations Center,Vniversity of Minnesota, 1949.'

    S!ouffer, S.A. The point system for rdeployment anddischarge. In: Stouffer, S. A. et alii. The American sol-dier. Vol. 2, Combat and its aftermath. Princeton. Prin-ceton V niversity Press, 1949.

    Suchman, E.A. Evaluative research: principIes andpractice in public service and social action programs.New York. Russell Sage, 1967.

    Sween, J. & Campbell, D.T. A study of the effect ofproximall~ auto-correlated error on tests of significancefor the interrupted time-series quasi-experimentaldesigns. Recebida do autor, 1965 (rnultilith).

    This~let~waite, ~.L. & Campbell, D.T. Regression-dis-contll~ulty analyss: an altemative to the ex post-factoexperiment, Journal ofEducational Psychology V. 51 p.309-17, 1960. ' ,

    Walker, H.M. Sr. Lev, J. Statistical inference. New York.Holt, 1953.

    Webb, E.J.: Campbell, D.T.; Schwartz, R.D. &. Se-chrest, L.B. Unobstrusive measures: nonreactive researchin the social sciences. Chicago. Rand McNally, 1966.

    Wolf, E.; Lke, G. &: Max, H. Scheidung und Scheidun-gsrecht: Grundifrgen der Ehescheidung in Deuts-chland. Tubigen. J.C.B. Mohr, 1959.

    1 ~s.!a lista foi ampliada em relao s verses anteriores com aadio de Instabili~a~e (v~r ~ambm Ca~pbell. 1968; Campbell eRoss. 1968). Esta adl~ fo~feita ~omo reaao discusso sociolgicado uso dos .testes de slg.D1tic~cla na pesquisa no-experimental equase-expenmental (Selvin, 1957; a critica desse trabalho feita porGaltun.g. 1967. p. 358-89). Por um lado. uno-me aos que criticam oprestigio ~xagerado das "diferenas estatisticamente significativas" noestabeleclme~to de ce,!ieza de validade. Na melhor das hipteses, ostestes estatsticos s sao relevantes para 1 dentre 15 ameaas vali-

    Reformas

    45

  • NO IMPORTAONDE vOC ESTEJANOSSAS PUBliCAESCHEGAM AT vOC.

    dade. Por outro. concordo com os que defendem seu uso em situaesonde no foi usada a aleatorizao. Mesmo nesses casos, faz sentidodizer-se ou negar-se: "Esta diferena trivial. t;:. da ordem que teriaocorrido com freqncia se essas medidas tivessem sido designadaspor pura chance." Os testes de significincia que utilizam uma re-designao aleat6ria das medidas realmente obtidas so especialmenteteis para se transmitir este argumento.2 Esta lista tambm foi ampliada em relao s verses anterioresdeste trabalho para tornar mais evidentes as ameaas 5 e 6, as quaisso especialmente relevantes na experimentao social. A discussonas verses anteriores (Campbell, 1957, p. 309-310; Campbell eStanley. 1963, p. 203-4) tinha abrangido essas questes mas nohaviam sido includas na lista de verificao.3 No h dvida de que tanto o pblico como a imprensa partici-param do susto do governador com o nmero de mortes em 1955. Essareao discriminat6ria poderia ser encarada como um sistema derealimentao negativa no qual o efeito amortecedor proporcional aoaumento em relao tendncia prvia. Na medida em que tal sustocausa uma reduo nas mortes causadas pelo trnsito, ele acrescentauma componente negativa autocorrelao, aumentando o efeito deregresso. Esta componente deveria provavelmente ser encarada comouma causa rival ou um tratamento rival em vez de como um efeitoilus6rio. (O efeito de regresso menor quanto maior for a autocor-relao positiva e estar presente na medida em que essa correlao menor do que a unidade positiva. Uma correlao negativa numa srietemporal representaria uma regresso alm da mdia, numa formano exatamente anloga correlao negativa entre pessoas. Paraautocorrelao com retardamento I, uma alta correlao negativaseria representada por uma srie que oscilasse com mxima amplitudede um extremo a outro.)4 A inconsistncia de Wilson na utilizao dos registros e o problemapolitico de registros relevantes esto competentemente documentadosem Kamisar(1964). Etzioni (1968) relata que em 1965, em Nova York,foi proclamada uma onda de crimes que se revelou depois ser devida auma melhora no divulgada no sistema de registro.5 Sween, J. e Campbell, D. T. Computer programs for simulatingand analyzing sharp and fuzzy regression-discontinuity experiments.Em preparao.6 Embora disponhamos de pelo menos um teste de significnciaexeqlvel, pode ser bem diftcil conseguir um teste que preserve aimagem de se extrapolar para um hipottico teste de desempate comaleatorizao. Inicialmente, seguindo a orientao de Walker e Lev(1953. p. 400; Sween e Campbell, 1965, p. 7), testamos a significnciada diferena das duas linhas de regresso no ponto de separao, umaajustada s observaes abaixo do ponto de separao e a outra ajus-tada s observaes acima dele. Na simulao 'por computador decasos de efeito nulo, foram encontrados repetidamente pseudo-efeitos"significativos". Acontece que esta uma daquelas situaes em que asoluo pelo mtodo dos mlnimos quadrados viciada. Uma forma de

    46

    Basta pedir pelo ReembolsoPostalEditora da FGV - Praia de Bo/afogo, 190CP 21.120 - ZC-05 - Rio de Janeiro

    compreender a natureza desse vicio talvez considerar o que acon-teceria se tanto a reta de regresso do teste prvio sobre o teste pos-terior como a do teste posterior sobre o teste prvio fossem traadaspara toda a distribuio. Essas duas retas de regresso cruzariam nocentro da distribuio (isto , no ponto de separao, em exemplossimtricos como os das figuras 14 e 15) e se afastariam nas extremi-dadesi Quando, em vez disso, as duas retas de regresso so ajustadaspara cada metade da distribuio, elas cruzaro no centro de cadametade e se afastaro nas imediaes do-ponto de separao. Numexemplo como o da figura 14, a regresso do teste posterior sobre oteste prvio ser a mais baixa no ponto de separao para a metadeno tratada e a mais alta para a metade tratada. Este pseudo-efeitono aparece quando se traam os pontos representando as mdias decada coluna, o que pode ser verificado visualmente, e as figuras 14, 15,16 e 17 deveriam ter sido desenhadas com as mdias de cada colunarepresentadas em vez das retas ajustadas. O tamanho desse vicio uma funo- da correlao entre o teste prvio e o teste posterior e seesta puder ser adequadamente estimada, poder-se-ia calcular uma es-timativa corrigida da diferena no ponto de separao. No entanto,no se pode usar a distribuio inteira para se estimar essa correlao,pois um efeito real ir causar parte da correlao. Poder-se-ia basearuma estimativa nas correlaes calculadas em separado para as partesacima e abaixo do ponto de separao, corrigindo-a pelo fato deabrangerem uma faixa restrita. Poder-se-ia tambm encontrar pro-cedimentos de estimao de mxima verossimilhana.

    No momento, a melhor sugesto parece ser a que foi fornecida porRobert P. Abelson. A reta de regresso.do teste posterior sobre o testeprvio ajustada para um grupo de dados que se estendem para cimae para baixo do ponto de separao em pores iguais. As mdias dascolunas so expressas como desvios daquela regresso. Um teste t ento usado para se comparar as colunas junto ao ponto de separao,acima e abaixo dele. Para aumentar a base estatstica, pode-se ex-plorar uma classificao em colunas mais largas. Este teste infeliz-mente perde a analogia com o experimento verdadeiro de desempate,analogia da qual o presente autor lanou mo para um esclarecimentoconceitual.

    7 H alguns indlcios estatsticos sutis que poderiam distinguir estesdois casos se tivssemos observaes suficientes. Deveria haver umaumento da varincia dos valores combinados das colunas nas colunasmistas no caso de um efeito real. Se os dados fossem tratados arbi-trariamente como se tivesse havido um ponto de separao.nltido nomeio da regio em que as observaes se misturam, ento no deveriahaver descontinuidade no caso de efeito nulo e sim alguma descon-tinuidade no caso de efeito real, embora neste segundo caso a descon-tinuidade fosse subestimada, j que existem casos no tratados acimado ponto de separao e casos tratados abaixo desse ponto, diminuin-do o efeito vislvel. A intensidade desta diminuio deveria ser esti-mvel e corrigvel, talvez atravs de procedimentos iterativos. Mas es-tas so esperanas' para o futuro.