A literatura sobre avaliações de impacto fornece um conjunto de diferentes métodos para tratar do problema da escolha do contrafactual, cada um destes métodos possuem suas próprias hipóteses sobre a natureza potencial do viés de seleção e técnicas adequadas para a formação do grupo controle.
Considerando-se o escopo das avaliações quantitativas, os métodos de avaliação de impacto podem ser divididos em duas categorias gerais: métodos experimentais (aleatórios) e métodos quase-experimentais ou não experimentais (não aleatórios). Nos métodos ou designs experimentais, o procedimento de seleção dos indivíduos (que possuem as condições de elegibilidade para a inserção do programa) é realizado de forma aleatória. Deste modo, do ponto de vista estatístico, os grupos de tratamento e controle são equivalentes entre si20, não havendo, neste caso, viés de seleção, o que simplifica muito a análise e interpretação dos resultados, pois a mensuração do impacto da política pública pode ser calculada pela diferença entre as médias obtidas para a variável de resultado para os grupos tratamento e controle, a única exigência é que se respeite o tamanho adequado da amostra (BAKER, 2000; GERTLER et al., 2011).
Porém, apesar do método experimental ser considerado a abordagem mais robusta e menos controversa de avaliação de impacto, na prática, apresenta alguns problemas. O primeiro grande problema é de ordem ética e política e diz respeito às críticas e pressão social oriundas da exclusão de membros elegíveis dos benefícios da política pública. O exemplo mais emblemático refere-se à exclusão de um programa de tratamento médico, por exemplo, nutrição infantil. Um segundo problema é que o âmbito de aplicação do programa pode significar que não há grupos “não tratamento”, pois a política pública aplicada é de ampla abrangência. O terceiro problema diz respeito às alterações de características dos indivíduos tanto do grupo tratamento quanto do grupo controle, ao longo do programa, que podem
19
Esta hipótese é conhecida como hipótese de independência condicional ou hipótese de não confundimento (Unconfoudness Conditions) (ROSENBAUM; RUBIN, 1983).
20
Se a atribuição do programa é aleatória para o grupo com características elegíveis, os grupos controle e tratamento tenderão a apresentar a mesma média para as características de elegibilidade do programa. Neste caso, o grupo não teria viés de seleção e o grupo controle representaria o contrafactual perfeito (BAKER, 2000).
invalidar ou contaminar os resultados (mudança de área, morte, desistência em participar do programa, benefício por outra política pública, etc.). O quarto problema está relacionado à manutenção de um procedimento de seleção puramente aleatório, pois os administradores podem excluir indivíduos de alto risco para obter melhores resultados. O quinto problema relaciona-se aos custos em termos financeiros e de tempo para a coleta de novos dados (BAKER, 2000).
Os métodos quase-experimentais podem ser utilizados em avaliações quando não é possível obter grupos tratamento e controle através de um design experimental. Tais técnicas geralmente selecionam, dentre os indivíduos não participantes do programa, aqueles que mais se assemelham ao grupo tratamento, pelo menos em características observáveis, utilizando-se para isto de sofisticadas técnicas de correspondência. A principal vantagem destes métodos é que eles recorrem a fontes de dados existentes e são, portanto, em muitos casos, mais rápidos e de menor custo de implantação (BAKER, 2000). As principais desvantagens seriam: a menor robustez dos resultados em relação aos métodos experimentais e o fato de serem estatisticamente mais complexos e assumirem hipóteses mais restritas em relação aos dados utilizados (BAKER, 2000; GERTLER et al., 2011; KHANDKER; KOOLWAL; SAMAD, 2010).
Dentre os diversos métodos de avaliação quantitativa de impacto, destacam-se (BAKER, 2000; GERTLER et al., 2011; KHANDKER; KOOLWAL; SAMAD, 2010): a) Método de Avaliações Aleatorizadas; b) Método de Dupla Diferença ou “Diferença em Diferença”; c) Método de Variáveis Instrumentais; d) Design de Regressão Descontínua; e) Métodos de Pareamento – “Matching”. Ressalta-se que a escolha metodológica é determinada em virtude da natureza dos dados obtidos e objetivos do pesquisador.
No método de avaliações aleatorizadas (randomized evaluations), o programa incide ao acaso sobre uma grande população elegível, sendo possível gerar, neste caso, grupos controle que forneçam uma estimativa não tendenciosa do impacto do programa. Assim, cada unidade elegível de tratamento (por exemplo, um indivíduo, agregado familiar, comunidade, escola, hospital, ou outros) tem uma probabilidade igual de seleção para o programa. Especificamente, com um número suficientemente grande de observações, o processo de atribuição aleatória produzirá grupos que têm médias estatisticamente equivalentes para todas as suas características. Por sua vez, essas médias também tendem para a média da população da qual eles foram selecionados (GERTLER et al., 2011).
Para a aplicação do método de avaliação aleatória, é imperativo que se atendam as condições de validade interna e externa. A validade interna significa que o impacto estimado
do programa é livre de todos os outros potenciais fatores de confusão, ou que o grupo de comparação representa o verdadeiro contrafactual, de modo que se estima o verdadeiro impacto do programa. Isto é garantido através do processo de seleção aleatória dos beneficiários. A validade externa significa que o impacto estimado na amostra de avaliação pode ser generalizado para a população de todas as unidades elegíveis. Para que isso seja possível, a amostra de avaliação deve ser representativa da população de unidades elegíveis (GERTLER et al., 2011). Na prática, os pesquisadores tem proposto a aplicação do método em dois estágios. No primeiro estágio, uma amostra dos participantes potenciais é selecionada aleatoriamente da população relevante, e deve ser representativa da população para um certo erro amostral (garantia da validade externa). No segundo estágio, os indivíduos da amostra são selecionados aleatoriamente para a inserção no programa garantindo a validade interna (KHANDKER; KOOLWAL; SAMAD, 2010).
A estratégia de diferenças em diferenças pode ser aplicada quando se dispõe de dados em painel para um conjunto de grupos (indivíduos, comunidades, localidades, etc.) nos casos em que alguns destes foram expostos a variáveis causais de interesse e outros não (ANGRIST; KRUEGER, 1999). No que tange à avaliação de impacto de políticas públicas, sua aplicação se dá quando se dispõe de informações sobre os grupos controle e tratamento coletadas antes e depois da aplicação do programa. A vantagem desta técnica é que os grupos tratamento e controle não necessitam ser homogêneos nas características observadas, pois o que se compara não serão os efeitos diretos do programa, mas as diferenças nos efeitos dos dois grupos. A hipótese básica é que as diferenças pré-existentes entre os dois grupos são invariantes no tempo (GERTLER et al., 2011; KHANDKER; KOOLWAL; SAMAD, 2010). Um exemplo simplificado da aplicação do método seria a Figura 2, apresentada na seção anterior. No referido esquema, as rendas dos grupos tratamento e controle antes do programa foram Y0 eY1 e, após o programa, foram, respectivamente, Y4 e Y3. Suponha, apenas como
ilustração (conforme a Figura 2), que a renda do contrafactual perfeito (grupo participante se não tivesse ingressado no programa) fosse, respectivamente, Y0 no momento inicial e Y2 no
momento final, da hipótese de invariância temporal das tendências pré-existentes tem-se que o seguimento de reta (Y3 – Y1) é congruente ao seguimento (Y2 – Y0)21. Assim, a estimativa do
impacto em dupla diferença seria:
(5)
21
O primeiro termo da eq. 4 representa a diferença de renda do grupo tratamento antes e depois do programa, enquanto o segundo termo compreende às diferenças de renda do grupo controle, como (Y3– Y1) (Y2– Y0), então, a equação acima torna-se:
(6)
Resultando em o que equivale ao impacto real do programa em relação ao contrafactual perfeito.
A utilização da técnica de variáveis instrumentais permite a estimação do impacto de uma política pública em caso de endogeneidade da participação individual no programa (KHANDKER; KOOLWAL; SAMAD, 2010). Para compreender melhor o assunto, especifica-se o impacto do programa como um problema de estimação de uma relação de causalidade utilizando a técnica de regressão linear:
(7)
Onde: Yi representa a variável resultado do programa, Ti é uma variável dummy
assumindo valores 1 para participação do programa e 0 para não participação, os termos Xi1,
Xi2 ,..., Xik representam as características observáveis e o termo ε representa o resíduo ou erro,
que, pela hipótese do modelo, é aleatório. Um problema muito comum na prática é que características não observadas (imensuráveis) influenciam na participação do programa, ou seja, influenciado Ti e fazendo com que esta seja correlacionada com o resíduo ε. Este
problema viola um dos pressupostos básicos do estimador Mínimos Quadrados Ordinários, referente à independência entre regressores e resíduos [cov(Ti,ε) ≠0], cujo efeito será a tendenciosidade e inconsistência das estimativas (GREENE, 2002; MADDALA, 1992). Para resolver o problema, é necessário isolar a variação de T que está correlacionada a ε. Para isto, a solução é encontrar uma variável Z (variável instrumental) que seja correlacionada com a participação no programa, mas que não seja correlacionada com os resíduos da regressão. Em termos matemáticos, é necessário que Z possua as seguintes propriedades:
(8)
Outra possibilidade que possui grande credibilidade é a construção de um design do programa que já contemple as variáveis instrumentais a serem utilizadas, o que poderia ocorrer, por exemplo, em caso de seleção aleatorizada ou se regras exógenas forem utilizadas para determinar a elegibilidade para o programa. Porém, deve-se ressaltar a necessidade de escolha criteriosa dos instrumentos, pois instrumentos fracos podem aumentar o viés. Isto ocorre se os instrumentos são correlacionados com características não observadas ou variáveis omitidas (KHANDKER; KOOLWAL; SAMAD, 2010).
A abordagem de design de regressão descontínua (RDD) é um método de avaliação de impacto que pode ser utilizado para programas que têm um índice de elegibilidade contínua, como um ponto de corte bem definido para determinar quem é elegível e quem não é, gerando uma descontinuidade da probabilidade de ser selecionado para participar do programa naquele ponto (BUDDELMEYER; SKOUFIAS, 2004; KHANDKER; KOOLWAL; SAMAD, 2010). Para aplicar um design de regressão descontínua, são necessárias duas condições principais (GERTLER et al., 2011):
a) um índice de elegibilidade contínua, em outras palavras, uma medida contínua em que a população de interesse pode ser classificada, como um índice de pobreza, uma pontuação de teste, ou idade;
b) a definição da nota de corte, ou seja, um ponto sobre o índice acima ou abaixo do qual a população está classificada como elegíveis para o programa.
Deste modo, a ideia básica deste método é que, nas proximidades do índice de corte, os indivíduos ou famílias são muito homogêneos, diferenciando-se apenas no tocante à participação ou não do programa. Assim, é possível obter grupos tratamento e controle com características observáveis muito semelhantes. Após implantação do programa, se realiza uma regressão descontínua para os dois grupos. A medida do impacto será a diferença entre os valores médios da variável de interesse das famílias ou indivíduos elegíveis e não elegíveis para o programa (BUDDELMEYER; SKOUFIAS, 2004; GERTLER et al., 2011; KHANDKER; KOOLWAL; SAMAD, 2010).
Nos métodos de pareamento (matching), objetiva-se selecionar um grupo controle que seja o mais semelhante possível ao grupo tratamento nas características observáveis. Para isto, é necessário que o grupo controle seja maior que o grupo tratamento de modo a se permitir um maior número de observações pareadas (uma observação do grupo tratamento em comparação com uma observação do grupo controle), a estimação dos efeitos do tratamento ocorrerá apenas para as observações pareadas (BAKER, 2000). Tais métodos podem ser aplicados a quase todos os contextos de regras de escolha de beneficiários em políticas
públicas, desde que exista um grupo que não participou do programa. Como tais métodos dependem de características observadas para a seleção do contrafactual, assumem a hipótese de não haver diferenças não observadas entre grupos tratamento e controle (GERTLER et al., 2011).
Um dos métodos de pareamento mais utilizados é o Propensity Score Matching (PSM) ou pareamento por score de propensão, que surgiu no início dos anos 1980 a partir do trabalho seminal de Rosenbaum e Rubin (1983). Inicialmente, começou a ser aplicado na investigação dos impactos de determinado tratamento (sobretudo na área de saúde e trabalhista) sobre um grupo de indivíduos. Nos anos recentes, esta técnica tornou-se um dos métodos mais utilizados para a avaliação do efeito causal em “tratamento” nas mais diversas áreas, incluindo a avaliação de políticas públicas.
Como visto anteriormente, a questão central e o desafio de uma avaliação de impactos é estabelecer uma relação causal entre a política pública e os resultados obtidos, isolando, para isto, o efeito de quaisquer outros fatores externos que poderiam explicar os resultados observados (ATTANÁSIO et al., 2005; CALIENDO; KOPEINIG, 2005; PASSOS, 2014; ROSENBAUM; RUBIN, 1983).
Porém, é necessário ressaltar que o pareamento simples entre os grupos tratamento e controle apresenta o seguinte problema: quanto maior o número de características avaliadas, maior será o número de observações necessárias para se proceder ao pareamento entre os grupos da pesquisa. Isto porque, com o aumento do número de variáveis a serem consideradas, torna-se cada vez mais difícil encontrar um contrafactual similar no grupo controle (DUARTE; SAMPAIO; SAMPAIO, 2009). Para contornar este problema, Rosenbaum e Rubin (1983) propõem que, em vez de se utilizar as características observáveis (Xi), utilizam-se as probabilidades de um indivíduo ser beneficiado por uma política pública em função das características observadas p(Xi). A esta função de probabilidade, os respectivos autores denominaram de função propensity score ou escore de propensão. Sob certos pressupostos, o pareamento com base no escore de propensão é tão bom quanto o pareamento a partir das características observadas, tendo a vantagem adicional de se evitar os problemas decorrentes da inclusão de um grande número de covariáveis (KHANDKER; KOOWAL; SAMAD, 2010; ROSENBAUM; RUBIN, 1983).
Passos (2014) ressalta que os grupos tratamento e controle devem apresentar pelo menos três características. A primeira é que as médias das características selecionadas devem ser as mesmas entre os grupos (por exemplo, significativas diferenças em características como idade e escolaridade entre os dois grupos poderiam explicar as diferenças de renda e não a
política pública). A segunda é que os dois grupos deveriam reagir da mesma forma em relação à política pública, por exemplo, um programa de qualificação docente deveria ser capaz de induzir os mesmos efeitos sobre notas escolares dos participantes dos grupos controle e tratamento, ou um programa de transferência direta de renda deveria ser capaz de afetar da maneira similar o nível de bem-estar se fosse aplicado aos dois grupos. A terceira condição é que os membros dos dois grupos não podem ser expostos a outras intervenções durante o período de avaliação do programa. A presença destas três condições permite concluir que as diferenças de resultados devem-se exclusivamente à atuação do programa (GERTLER et al, 2011).
Na presente tese, será utilizada a abordagem de propensity score matching para se investigar diferenças nos níveis de sustentabilidade agrícola entre produtores de milho híbrido beneficiários do Projeto Hora de Plantar e produtores de milho não beneficiários, cujos aspectos metodológicos serão melhor detalhados no próximo capítulo. A seção seguinte apresenta a evidência empírica acerca da utilização desta técnica para avaliação de impacto de políticas públicas.
4.3.2 Evidência empírica da avaliação de impacto de políticas públicas pela técnica de