• No results found

Bracken invasion and bracken control

Conhecidas as hipóteses relevantes e os aspectos formais para a estimação do parâmetro de interesse (ATT), o agrupamento das observações a fim de conduzir a estimação do efeito médio do tratamento sobre o tratado, tal como sugere a equação 3.14, pode ser feito através de diversos algoritmos de pareamento. A figura 1 abaixo, extraída de Caliendo e Kopeinig (2005, p. 9), lista os principais algoritmos de pareamento e os parâmetros que podem ser definidos pelo pesquisador.

11 No contexto deste trabalho, não podemos formular um teste de hipóteses capaz de verificar se esta hipótese é satisfeita pelo modelo. Contudo, a garantia de que o escore de propensão, dadas as características familiares, consiste em um escore de balanceamento adequado, é grande a possibilidade de que o modelo proposto para a participação no programa Bolsa-Família satisfaça este pré-requisito.

120

Figura 1 – Principais algoritmos de pareamento Fonte: Caliendo & Kopeinig (2005)

O pareamento das observações pelo método do vizinho mais próximo é o mais conhecido e utilizado dentre os algoritmos de pareamento apresentados na figura 1. Neste método, estabelecem-se pares de observações selecionando os indivíduos do grupo de tratamento e do grupo de controle cujos escores de propensão sejam os mais próximos entre si. Com esta técnica, é possível estabelecer pares com reposição, onde um indivíduo não tratado pode ser utilizado para estabelecer mais de um par com indivíduos diferentes do grupo de tratamento, ou sem reposição12. Além disso, o pesquisador pode escolher utilizar mais que um vizinho mais próximo (oversampling) para fins de pareamento. Contudo, este último procedimento deve ser utilizado com cuidado, pois apesar de este procedimento resultar em um estimador mais eficiente para o ATT, ele acaba por elevar o viés da estimativa do efeito médio do tratamento sobre o tratado (CALIENDO & KOPEINIG, 2005).

Um dos riscos associados ao algoritmo do vizinho mais próximo, apresentado no parágrafo anterior, é que o pareamento das observações pode não ser satisfatório caso o vizinho mais próximo esteja muito distante. Uma forma de contornar este problema é o estabelecimento de limites de tolerância (caliper) para a diferença nos escores de propensão estimados para os indivíduos tratados e não tratados. O uso deste algoritmo isoladamente implica em estabelecer

12 O algoritmo do vizinho mais próximo sem reposição deve ser utilizado com cuidado, pois as estimativas dependem da ordem com que os pares são construídos. Por conta disto, o pesquisador precisa ser capaz de garantir que a ordem com que as observações dos grupos de tratamento e controle são pareadas é aleatória (CALIENDO & KOPEINIG, 2005).

Algoritmos de Pareamento

Vizinho Mais Próximo

Com ou sem reposição; Oversampling (dois vizinhos ou mais); Com

pesos

Radial ou Caliper

Nível máximo de tolerância (caliper); um vizinho ou mais (radial)

Estratificação ou por Intervalos

Número de estratos/intervalos

Densidade Kernel e Regressão Linear Local

Funções de densidade kernel; Largura de Banda

(bandwidth)

Ponderação

O modo como os escores de propensão são estimados é crucial

121 o pareamento das observações entre indivíduos tratados e não tratados, escolhendo apenas as observações para os grupos de tratamento e de controle que estejam dentro do limite de tolerância estabelecido, evitando assim pareamentos de pior qualidade. Este procedimento reduz consideravelmente o viés das observações, mas sob a pena de reduzir também as possibilidades de pareamento e, por isto, elevar a variância da estimativa do ATT. O algoritmo radial, por sua vez, permite estabelecer pares não apenas entre um indivíduo tratado e um indivíduo não tratado, mas sim com todos os indivíduos não tratados cujo escore de propensão esteja dentro do limite de tolerância observado. Neste sentido, o algoritmo de pareamento através do radial possui todas as características do método oversampling, com a vantagem de evitar o estabelecimento de pareamentos entre observações de ambos os grupos cujos escores de propensão estejam muito distantes entre si.

O pareamento pelo método da estratificação, conhecido também como pareamento por intervalo, consiste em repartir a amostra em intervalos e estimar o efeito do tratamento através do cálculo das diferenças médias em cada um dos intervalos. É bastante comum dividir a amostra em cinco estratos, pois pesquisas mostram que este número de intervalos é capaz de reduzir o viés de seleção em até 95% para cada covariável (COCHRANE & CHAMBERS, 1965 apud CALIENDO & KOPEINIG, 2005). A verificação deste resultado consiste em checar o balanceamento do escore de propensão em cada um dos estratos. Se, em cada estrato, forem observadas diferenças significativas entre o grupo de tratamento e o grupo de controle para cada covariável, condicional ao escore de propensão balanceado, a especificação do modelo para o cálculo dos escores de propensão não é adequada e, por isto, deve ser revista através da adição de termos de interação entre covariáveis (DEHEJIA & WAHBA, 1999 apud CALIENDO & KOPEINIG, 2005).

Diferente dos algoritmos apresentados nos parágrafos anteriores, que utilizam poucas observações do grupo de controle para a construção do contrafactual, a densidade Kernel e a Regressão Linear Local, estimadores não paramétricos para o ATT, usa “... as médias ponderadas de todos os indivíduos do grupo de controle para construir os resultados contrafactuais”13 (CALIENDO & KOPEINIG, 2005, pp. 10, 11). O benefício resultante da utilização destes algoritmos para fins de pareamento das observações é que eles permitem considerar um volume muito grande de observações, o que acaba resultando em uma menor variância do estimador do ATT. Por outro lado, estes algoritmos não evitam que indivíduos tratados sejam comparados a indivíduos não tratados e que estão distantes em termos de

122 escore de propensão dos primeiros e que, por isto, acabam elevando o viés do estimador do efeito médio do tratamento sobre o tratado.

Por fim, os escores de propensão podem ser utilizados como fatores de ponderação para que se possa obter uma amostra balanceada entre indivíduos tratados e não tratados (IMBENS, 2004 apud CALIENDO & KOPEINIG, 2005). Conhecido o escore de propensão, a utilização deste algoritmo de pareamento implica em estimar o ATT diretamente através da diferença média entre os resultados observados e ponderados para os grupos de tratamento e controle. Com exceção das amostras obtidas através de experimentos, o modo como o escore de propensão é estimado é crucial para o cálculo dos efeitos do tratamento através de ponderação (ZHAO, 2004 apud CALIENDO & KOPEINIG, 2005).

Cada um dos métodos apresentados produz resultados diferentes em termos de viés e variância, embora seus efeitos sobre amostras de tamanho mais elevado não sejam importantes, de modo que para amostras grandes a escolha de qualquer algoritmo implique na obtenção de resultados convergentes. A escolha do algoritmo, portanto, é importante de fato quando a amostra disponível para análise tem tamanho reduzido (CALIENDO & KOPEINIG, 2005). A tabela 21 abaixo compara os algoritmos discutidos nesta seção em termos da elevação (+) ou redução (-) do viés e da variância que promovem.

Tabela 21 – Trade-offs entre os algoritmos de pareamento em termos de viés e variância

Decisão Viés Variância

Pareamento pelo Vizinho mais Próximo:

Múltiplos vizinhos/um vizinho (+) (−) (−) (+)

Com caliper/sem caliper (−) (+) (+) (−)

Uso de controle dos indivíduos:

Com reposição/sem reposição (−) (+) (+) (−)

Escolha do método:

Vizinho mais próximo/radial (−) (+) (+) (−)

Densidade kernel ou regressão linear local/vizinho mais próximo

(+) (−) (−) (+)

Escolha da largura de banda com o método de densidade Kernel:

Pequena/grande (−) (+) (+) (−)

123 Com base nas informações contidas na tabela 21, estabelecer contrafactuais entre indivíduos tratados e não tratados através da seleção de um vizinho mais próximo, com intervalo de tolerância (caliper) e com reposição produz estimadores ATT com viés reduzido do que quando se constrói contrafactuais com mais de um vizinho; quando não existem limites de tolerância; quando o pareamento é realizado sem reposição; quando se opta por utilizar ou o algoritmo radial ou o método de densidade kernel ou quando se faz uso do método da regressão linear local. Por outro lado, os resultados se invertem quando levamos em conta a variância dos estimadores. Todavia, a escolha do algoritmo em amostras de tamanho reduzido deve ser feita com cuidado, pois optar por um algoritmo que produz resultados mais consistentes pode elevar as chances de aceitar a hipótese de que os efeitos do tratamento sobre as variáveis de interesse são desprezíveis quando, na verdade, não são. Em suma, tratamos, neste tópico, do problema da avaliação, relacionado às dificuldades em estabelecer contrafactuais em trabalhos empíricos não experimentais. Vimos que, nestas circunstâncias, é difícil avaliar o efeito do tratamento sobre uma variável de interesse porque os resultados observados para caso o indivíduo tratado não participasse do tratamento não são observáveis. Além disso, a comparação direta entre os resultados obtidos por indivíduos tratados e não tratados não é recomendável porque a seleção para a participação em tratamentos é aleatória em poucas ocasiões, sendo que a adesão ao tratamento tende a ser influenciada pelos mesmos fatores que afetam os resultados obtidos, tornando os resultados inconsistentes por conta de viés de seleção. O método do Pareamento pelo Escore de Propensão oferece diversos algoritmos que permitem simular um resultado contrafactual através da comparação dos resultados médios obtidos pelos indivíduos tratados e não tratados, pareados de acordo com sua semelhança em termos de escore de propensão, reduzindo o viés dos estimadores.

Nos próximos tópicos, principiaremos a avaliação dos efeitos do Programa Bolsa Família sobre as proporções de crianças e adolescentes com idades entre cinco e dezoito anos que apenas estudam, que estudam e trabalham, que apenas trabalham e que estão inativas (nem estudam e nem trabalham) através da metodologia do Pareamento pelo Escore de Propensão (PEP). No terceiro tópico, descreveremos as características do banco de dados principal, a Pesquisa Nacional por Amostras de Domicílio (PNAD), bem como os procedimentos e as razões que motivaram a construção de amostras intermediárias a partir do banco de dados principal. Ainda neste tópico, utilizaremos as amostras intermediárias para extrair

124 informações que nos permitam descrever as condições de acesso a recursos familiares, educacionais e econômicos pelas crianças e adolescentes. No quarto tópico, analisaremos os resultados da aplicação do PEP sobre as amostras intermediárias.