Intervjureferat 170221 Ole Gjermundshaug

7.1 Intervjureferat

7.1.2 Intervjureferat 170221 Ole Gjermundshaug – Gjermundshaug/Steer

Modelos estatísticos de regressão buscam analisar a relação entre indivíduos e o meio onde estão inseridos, mediante o estudo que envolve uma variável dependente (ou resposta) e um ou mais variáveis regressoras independentes. Tal estudo conclui-se em uma equação de regressão que permitirá predizer o comportamento dos indivíduos pertencentes àquela população (WALPOLE, MYERS, & MYERS, 1998, pp. 358-359).

A regressão clássica reduz os dados observados a uma curva ou reta. Neste último caso obtém-se o coeficiente angular e o intercepto com o eixo y, formando deste modo uma equação do tipo , onde a é o intecepto, b é o coeficiente angular ou inclinação

da reta e ε o erro do modelo (WALPOLE, MYERS, & MYERS, 1998, pp. 360-361):

Figura 4: Reta de ajustamento em uma regressão simples.

3.2.1. Modelos de regressão multinível

Técnicas de regressão linear têm sido largamente utilizadas no estudo da administração, particularmente regressões simples usando o método dos mínimos quadrados. Nos últimos anos, porém, o desenvolvimento de novas técnicas computacionais permitiu o avanço para técnicas mais apuradas, que permitem enfrentar problemas que as soluções tradicionais não conseguem combater (HICKLIN, 2010, p. 254), tais como:

Endogeneidade – Ocorre quando há uma retroalimentação no sistema sob

estudo, por exemplo, pode-se imaginar que as ações gerenciais afetam os resultados e estes, por sua vez, afetam as ações gerenciais. É necessário, portanto, usar de soluções que lidem com tal situação;

Não linearidade – Comumente observada, pode-se usar como exemplo de

quando o acréscimo de pessoal ou de recursos não implica num correspondente acréscimo nos resultados, podendo ser inclusive zero ou até mesmo negativo;

Independência de observações – Grande parte dos dados de gerenciamento

público viola o princípio das regressões lineares de que as observações são independentes. Geralmente os dados estão agrupados por setores, departamentos ou escritórios que, por certo, trazem um viés aos dados provenientes daquele agrupamento.

Em diversos campos de pesquisa, muitos tipos de informação apresentam uma estrutura hierárquica (GOLDSTEIN, 1999, p. 11). Por exemplo, na biologia, podem-se agrupar elementos em grupos, tais como cardumes ou matilhas. Na administração, indivíduos estão agrupados em setores, setores agrupados em departamentos, departamentos agrupados em organizações e estas, agrupadas em ambientes. Seria possível traçar n níveis hierárquicos, sendo necessário – para investigar tais níveis – medir variáveis que descrevam cada um deles, pois é nítido que variáveis em um determinado nível influenciam variáveis de outro nível (HOFMANN, 1997). Esse tipo de hierarquia está por toda parte, não há como fugir, e é o foco do pensamento multinível (HITT, BEAMISH, JACKSON, & MATHIEU, 2007).

O uso da regressão multinível, também chamada de hierárquica, teve seu uso iniciado no campo da educação, onde foi utilizada para resolver problemas com a hierarquia existente, identificando a influência de fatores pessoais e organizacionais no desempenho dos alunos. Para tanto, eram utilizados índices de desempenho (notas, por exemplo) como variáveis dependentes e uma combinação de medidas relativas ao indivíduo e relativas ao ambiente (classe ou turma), como variáveis independentes. Em alguns estudos foram utilizadas características das escolas num terceiro nível de agrupamento (Figura 5). As análises então buscam identificar o efeito das intervenções em cada nível no resultado final (HICKLIN, 2010, p. 256 e SOARES, 2005).

Figura 5: Exemplo de hierarquia em que se aplicam as técnicas multinível.

Trata-se de um tipo de modelagem da qual a regressão simples é um caso especial. Com esta metodologia é possível identificar as influências que diversas características contextuais aplicam sobre os indivíduos sob análise, ou seja, permite reconhecer a influência do macro no comportamento do micro. Devido à grande quantidade de operações matemáticas necessárias ao desenvolvimento de modelos multinível, era difícil sua aplicação em larga escala até o desenvolvimento de programas computacionais com este objetivo (SINGER & WILLET, 2003).

Segundo Hackman (1990) apud Hitt et al. (2007), grupos de trabalho são “sistemas sociais intactos, com contornos definidos, interdependência de seus membros e funções distintas

entre eles”. Devem, ainda, ter um ou mais propósitos em comum, tarefas definidas, operar em

um contexto organizacional e realizar transações com outras unidades fora de seu contorno.

Possuir tais conceitos não livra o pesquisador, contudo, das dúvidas a respeito de como especificar grupos de trabalho. Em qualquer hipótese, contudo, a adequação de uma teoria multinível vai depender de quão bem feito seja este trabalho (HITT, BEAMISH, JACKSON, & MATHIEU, 2007).

Conforme a pesquisa avança pelos diversos níveis de análise, aquela se torna mais complexa e os pesquisadores devem cuidar para que as bases teóricas de seu estudo estejam corretas. Para tanto, recomenda-se que antes de examinar relacionamentos intra ou inter níveis, o pesquisador deve assegurar-se de que tais níveis efetivamente existem, não usando como

Escola X

Turma A

Aluno 1

Aluno 2

Turma B

Aluno 3

Aluno 4

Turma C

Aluno 5

parâmetro unicamente a nomenclatura das subdivisões da organização, (HITT, BEAMISH, JACKSON, & MATHIEU, 2007).

Hofmann (1997) afirma que, na análise de dados agrupados em níveis hierárquicos, existem três possibilidades de lidar com a situação. O uso de modelos lineares hierárquicos ou multinível seria, segundo o autor, a melhor das três possibilidades, pois supera as fraquezas das demais soluções. Primeiramente, a solução admite que indivíduos dentro de um mesmo grupo sejam mais parecidos entre si do que os demais, ou seja – não há pressuposto de independência de observações. Depois, o método também permite identificar a influência de cada nível na variância total das observações.

3.2.2. Classificação cruzada

Outra característica interessante dos modelos multinível é que eles permitem modelar efeitos de classificações que atinjam mais de uma dimensão. Goldstein (1999, p. 112) apresenta um exemplo simples, mas bastante elucidativo: estudantes classificados pela escola em que estudam e pelo bairro onde moram. Certamente há estudantes do mesmo bairro que estudam em escolas diferentes. A Tabela 1 mostra como seria isso, usando um exemplo de três escolas e quatro bairros. Tem-se aqui a classificação cruzada no nível 2 enquanto que os estudantes estão no nível 1.

Tabela 1 – Uma classificação cruzada de nível 2.

Escola 1 Escola 2 Escola 3

Bairro 1 xxx xx x

Bairro 2 x x xxxx

Bairro 3 xxxxx xxxx -

3.2.3. Formulação dos modelos multinível

Segundo Singer e Willet (2003, p. 49), a componente do nível um de um modelo multinível é também conhecida como modelo de crescimento individual. Este modelo pode ser escrito como:

(Equação 1)

Onde é a variável resposta; e são os coeficientes que serão ajustados; é o parâmetro populacional de entrada e o erro ou resíduo do modelo.

Os índices i e j são utilizados para identificar os diferentes níveis utilizados no modelo. No caso do estudo dos laudos periciais, pode indicar, por exemplo, o tipo de laudo e o local onde foi elaborado.

Singer e Willet (2003, pp. 51-53) denominam a primeira parte do modelo, apresentada entre colchetes, como a parcela estrutural ou fixa do modelo. Trata-se da trajetória esperada de mudança ao longo do tempo, para cada indivíduo. O erro é considerado a parte estocástica do modelo e o interesse é em sua variância.

Quando um segundo nível é inserido na modelagem, usa-se a seguinte formulação:

(Equação 2) (Equação 3)

Onde: , , e são os coeficientes que serão ajustados; é o parâmetro populacional de entrada e e os erros ou resíduos do modelo.

Assim pode-se observar como o modelo de 2º nível modifica as características dos coeficientes do modelo de 1º nível. A parcela estrutural do modelo de 2º nível tem quatro parâmetros de efeitos fixos, , . Dois deles são interceptos e dois são

coeficientes angulares. A parcela estocástica tem dois resíduos, e , que representam as porções não explicadas no nível 2 do modelo (SINGER & WILLET, 2003, pp. 54-55).

A inserção de um terceiro nível é simples a partir do desenvolvimento acima e pode-se especificá-lo como:

(Equação 4) , f=0,…, F (Equação 5) , f=0,…, F e s=0,..., S (Equação 6)

Onde F representa o número de variáveis do 1º nível, S o número de variáveis do 2º nível e T o número de variáveis do 3º nível.

Tem-se ainda a seguinte representação:

, e são os coeficientes dos níveis 1, 2 e 3, respectivamente;

, e são as variáveis preditoras dos níveis 1, 2 e 3, respectivamente;

, e são os erros ou efeitos aleatórios dos níveis 1, 2 e 3, respectivamente.

Em um ambiente com apenas uma variável preditora de cada nível, o modelo ficaria assim:

(Equação 7) (Equação 8) (Equação 9) (Equação 10) (Equação 11) (Equação 12) (Equação 13)

3.2.4. Formulação de modelos com classificação cruzada

Para formular um modelo com classificação cruzada em dois níveis, apresenta-se uma notação ligeiramente diferente, utilizando os índices j1 e j2 para indicar os efeitos relativos à classificação cruzada, considerando a existência de uma única variável explicativa:

(Equação 14)

Já um modelo com três níveis seria assim formulado, também considerando uma única variável explicativa:

(Equação 15)

3.2.5. Ajuste do modelo

A demonstração de como se dá o ajuste do modelo envolve todo um desenvolvimento matemático que foge ao escopo deste trabalho. Atualmente diversos pacotes estatísticos, inclusive de domínio público, como é o caso do programa computacional R, são capazes de realizar todo o trabalho necessário ao ajuste.

Neste trabalho será adotado o método da máxima verossimilhança, pois como explicado em Singer e Willet (2003, pp. 63-65), conforme o tamanho das amostras aumenta, o método apresenta características desejáveis de suas estimativas. Conceitualmente, os autores definem o método como sendo aquelas estimativas dos parâmetros populacionais que maximizam a probabilidade de observar uma amostra específica de dados. Para tal é necessário construir uma função de verossimilhança para então partir para a busca das estimativas maximizadoras supramencionadas.

Para a escolha do melhor modelo há vários indicadores. Aqui será utilizada a deviance, definida como: , onde LL é o logaritmos das funções verossimilhança do modelo que se deseja comparar. A deviance é uma medida do quão ruim é o ajuste, portanto, quanto menor este indicador significa que o modelo representa melhor a variabilidade observada nos dados (SINGER & WILLET, 2003, p. 117).

In document HMS – Fjernstyrte og fullautonome anleggsmaskiner (sider 97-102)