Threats identified
Appendix 2. Tajikistan Roadmap for Future Regulatory Cooperation
O teste da qualidade psicométrica de uma medida, seja ela nova ou apenas aplicada num contexto novo, implica um conjunto de procedimentos técnicos que procurem apurar a sua validade e fiabilidade. Este ramo da Psicologia conta com uma
longa história ligada, sobretudo na academia norte-americana, à necessidade de oferecer garantias de qualidade das medidas quantitativas do comportamento humano.
De acordo com Cronbach & Meehl (1955/1998) a validação de uma medida pode ocorrer, cumulativa ou isoladamente, por via de um de três procedimentos de validação: 1) procedimentos de validade de constructo, 2) procedimentos orientados para o critério (validade preditiva e concorrente), e 3) procedimentos de validade de conteúdo.
A validade de constructo traduz o grau em que uma escala mede aquilo que se pretende medir. Ou seja, uma escala que se proponha medir por exemplo motivação no trabalho, não deve incluir itens que remetam para um conceito associado mas semanticamente distinto, como por exemplo a satisfação (Tietjen & Myers, 1998). A determinação da identidade semântica é predominantemente feita com base na teoria (Gerhart, 2012). A escolha específica dos termos que procuram expressar cada factor é crítica para a real consecução deste objectivo fundamental de uma escala: medir o que pretende medir. A dificuldade maior reside no domínio da semântica já que os constructos são latentes, apenas inferidos com base na análise conjunta dos itens. O desafio reside em traduzir para expressões manifestas (itens) os factores latentes que são, realmente, a origem das decisões e demais cognições que interessa estudar.
Entre as acepções que a validade de uma escala pode ter incluem-se quatro formas (Spector, 2012): validade facial, validade de conteúdo, validade factorial, a validade de critério (entre estas prevê-se também a validade convergente e a discriminante). No conjunto estas cumulam na validade de constructo. No quadro das medidas de práticas de GRH de elevado desempenho há convergência quanto à conceptualização dos requisitos para dar como válida uma medida (Gerhart, 2012).
A validade facial traduz o grau de verosimilhança com que se julga que cada
item expressa o factor latente que deve traduzir. A facilidade com que estes itens são semanticamente associados ao constructo aumenta a validade facial, o que se por um lado não semeia dúvidas entre peritos, por outro constitui uma indicação aos respondentes que pode facilitar a manipulação das suas respostas, assim aumentando o erro de medida. O teste de validade facial ocorre por mera indicação por parte de um grupo de interlocutores do grau de inteligibilidade das frases bem como da medida em que estas exprimem o constructo que se pretende.
A validade de conteúdo remete para o julgamento quanto ao grau em que os itens expressam todos os aspectos latentes implicados no constructo. Ou seja, até que ponto todas as dimensões semânticas do constructo estão representadas na escala (Anastasi & Urbina, 1997). Não há um método rigoroso para testar a validade de conteúdo já que esta tem natureza eminentemente subjectiva. Porém, a estrita observação de um modelo teórico oferece maior garantia de consenso.
A validade factorial ocorre quando de uma análise factorial (confirmatória ou exploratória) resulte uma solução factorial que corresponda ao esperado teoricamente. Ou seja, no caso de uma análise factorial confirmatória (a recomendável para constructos ou escalas já estabelecidas teoricamente) espera-se que os indicadores de ajustamento do modelo aos dados sejam válidos. Em acréscimo espera-se de uma medida válida que os itens componentes de cada factor apresentem scores factoriais suficientemente elevados para que pelo menos metade da variância explicada nesses itens provenha da variável latente (factor). Isto é tecnicamente avaliado por intermédio da variância média extraída (AVE) paralela à suficiência da fiabilidade compósita (composite reliability, CR). Quando tal ocorre diz-se que há validade convergente intra- factor (designação infeliz por se prestar a confusões com a validade convergente entre escalas paralelas). Por último acresce a validade divergente, que pressupõe que a variância entre os itens intra-factoriais é distinta o suficiente da apresentada entre factores do mesmo constructo (variância inter-factorial). Tecnicamente exige-se que a raiz quadrada do AVE seja de magnitude (valor absoluto) maior do que qualquer correlação standardizadas entre os factores.
A validade de critério exige a demonstração de relação entre o constructo medido pela escala sob teste e uma outra variável com relação conhecida com esta. Na prática, trata-se de verificar até que ponto se verifica empiricamente a relação teórica entre as variáveis, por exemplo, em que uma é preditora (a que se estuda) e a outra é variável critério. Isto pode ser verificado por uma análise de regressão ou por mera correlação. No caso em que as variáveis foram medidas em simultâneo trata-se de validação concorrente. Quando haja diferencial de tempo entre as recolhas de dados, poderá tratar-se de validação preditiva (pese embora o nexo causal dificilmente ser conclusivo em estudos correlacionais, apenas se pode entender que é plausível). Esta validade é designada alternativamente como validade nomológica (e.g. Hair, Black, Babin & Anderson, 2010).
A validade convergente e discriminante ocorre quando haja correlação com outra escala, já estabelecida, e que meça o mesmo constructo. Ou seja, quando ocorram correlações positivas e significativas entre ambas as escalas ou as respectivas subescalas (onde haja paridade semântica). A validade discriminante opera de igual modo mas em sentido inverso, ou seja, implica que a escala sob teste apresente correlações significativas negativas com uma outra escala estabelecida que meça um constructo oposto.
Missing values - O tratamento dos dados encetou com a análise de valores que
porventura configurassem erro de introdução ou falha informática do software e seguiu para a identificação outliers e valores omissos (missing values). Os outliers foram perscrutados por intermédio da análise de caixas de bigodes (boxplot) tomando como
outlier todos os casos em que ocorra um valor com distância da média em pelo menos 3
vezes um desvio padrão (outliers extremos). Os valores omissos foram sujeitos a tratamento de acordo com o recomendado por Hair et al. (2010). Entre os város procedimentos técnicos de substituição dos missings deve o investigador optar por aquele que a percentagem de valores omissos indicar. As regras especificadas por estes autores são: Até 10% (qualquer método de substituição é considerado aceitável). De 10 a 20% recomenda-se que se utilize um procedimento de “hot deck” e métodos de regressão. O procedimento de hot deck consiste na segmentação da amostra tomando por referência uma configuração de variáveis que se julgam informativas e, calculando as médias para esses grupos, usá-las para substituição diferenciada dos valores omissos na amostra. Acima de 20% recomendam os autores que os valores omissos sejam substituídos por métodos de regressão ou com base em modelos explicativos. Naturalmente que no caso de variáveis nominais não há espaço para imputação de valores, como é o caso do da identificação do tipo de organização que, como se verá neste estudo, é tratada sem haver qualquer substituição dos valores omissos.
Análise de dados – Optámos por utilizar as técnicas de análise de dados que têm
recebido maior credibilidade ultimamente na literatura e que se afirmaram como standard de robustez nas revistas da especialidade, nomeadamente na análise multivariada por via de equações estruturais. Estas, designadas pelo acrónimo inglês SEM (Structural Equation Modeling) apresentam uma derivação importante: ou são processadas com base na covariância (CB-SEM, Covariance-Based SEM) ou com base em algoritmos de PLS (PLS-SEM, Partial Least Squares – SEM). Hair et al. (2014)
produziu um artigo com análise comparativa sobre estas técnicas, nomeadamente com um enfoque no PLS-SEM, que, por vários motivos surge uma resposta a insuficiências e críticas movidas à utilização, por vezes pouco criteriosa, da CB-SEM.
Tecnicamente, e de acordo com Hair et al. (2011) os modelos SEM prevêem um modelo de medida para verificar até que ponto a relação entre os itens e as variáveis latentes (factores) é real. Paralelamente prevêem um modelo estrutural para estimar as associações que possam ser estabelecidas entre os factores. A relação entre estas variáveis latentes e os indicadores (os itens) pode seguir uma lógica formativa ou reflectiva ou seja, estabelece-se a priori se os factores constituem elementos contributivos para a formação de um índice compósito (como um indicador de avaliação de qualidade) ou se constituem uma expressão objectivável de uma variável latente (como uma qualidade disposicional, personalidade, por exemplo) (Tenenhaus et al., 2005).
Ao contrário do CB-SEM, o PLS-SEM não parte de pressupostos sobre distribuição, dimensão da amostra ou escala de medida (Vinzi, Trichera & Amato, 2010). Sempre que haja quebras observadas a estes pressupostos do CB-SEM, o PLS- SEM é recomendado (Hair et al., 2014). Para Chin, Marcolin & Newsted (2003) o PLS- SEM é mais capaz de detectar efeitos de moderação bem como desenvolver teoria no domínio comportamental, como é o caso da GRH ou do Comportamento Organizacional (Lowry & Gaskin, 2014).
Um outro elemento importante que tem vindo a surgir com maior premência questiona o pressuposto de linearidade. Na sua quase totalidade, as técnicas de análise ensinadas e consagradas para efeitos de investigação no domínio das Ciências Organizacional, procuram identificar relações lineares entre as variáveis. O domínio da linearidade encontra explicação por um lado na maior facilidade em apreender e explicar as associações e assim, poder articular ideias sem que se tenha de introduzir elementos condicionais nas explicações que se procura dar aos fenómenos (e.g. que a relação entre duas variáveis pode ser de valência diferentes, positiva e negativa, consoante os níveis da variável preditora). Pese embora esta linearidade traduzir de algum modo o princípio científico da parcimónia (Raykov e Marcoulides, 1999), ela realmente comporta uma margem de erro que no mínimo reduz o poder explicativo dos modelos em situações caracterizadas por relações não lineares e no máximo enviesa
inaceitavelmente as conclusões, por exemplo, dando indicação de associações estatisticamente não significativas nos casos de associações curvilíneas simétricas em U ou U invertido. Por estes motivos, a não linearidade tem vindo a ser tida como a regra e não a excepção no domínio comportamental (Bertenthal, 2007).
Para ser válido, um modelo PLS-SEM tem de cumulativamente observar um conjunto de requisitos (Kock, 2015). Primeiro, requisitos de validade convergente (intra-factorial), a variância explicada nos itens pelos factores deve ser pelo menos igual à explicada pelo erro, conforme explicitado anteriormente. Isto é traduzido pelo indicador AVE (average variance explained) e que não deve ser inferior a 0.5.
Em segundo, os factores devem ter consistência interna, o que é apurado pela Fiabilidade Compósita (CR – Composite reliability) ou pelo alfa de Cronbach. Ambos devem apresentar valores pelo menos iguais a 0.7. Nunnally (1978), porém, argumentou que este valor pode ser reduzido para 0.60 quando as escalas são novas e o estudo tem natureza exploratória. Ainda Hair et al. (2010) dão indicação que um valor de 0.60 é aceitável para o CR quando co-ocorra com outros factores cujos valores de CR sejam superiores a 0.70.
Em terceiro, a multicolinearidade expressa como factor de inflação da variância total (FVIF - Full variance inflation factor) deve situar-se abaixo de 5 tal como a sua média (AFVIF, Average FVIF) e para a média por bloco (AVIF – Average Block Variance Inflation Factor). Tradicionalmente as medidas de multicolinearidade remetem para o grau de redundância entre preditores concomitantes num mesmo modelo, o que Kock & Lynn (2012) designaram de multicolinearidade vertical. Porém estes mesmos autores consideram necessário avaliar a multicolinearidade lateral (hozintal) situação em que variáveis que desempenham papel de preditor e critério apresentam elevada associação devido a incorporarem medidas sobreponíveis quanto ao mesmo constructo (vide Kock & Lynn, 2012 para melhor detalhe).
Em quarto lugar, podem ocorrer problemas matemáticos decorrentes das matrizes de covariância geradas, que se designam de paradoxos de Simpson e que são medidos pelo indicador SPR (Simpson’s Paradox Ratio) e não devem estar abaixo de 0.7 (Pearl, 2009).
Em quinto lugar, o modelo tem de ter validade discriminante, e que se traduz no critério de Fornell-Larcker em que a raiz quadrada do AVE de cada variável latente deve ser maior do que qualquer uma das correlações entre essa variável e outra latente no modelo.
Nos casos em que os modelos prevejam relações entre variáveis latentes em que pelo menos uma opere como preditora e outra como critério, interessa identificar valores com significância estatística (p<.05) associados quer às relações (APC – Average Path Coefficient) quer à quantidade de variância média explicada na variável- critério (ARS – Average R square). A magnitude das associações é indicada pelo f2 de Cohen tomando os seguintes valores de referência para magnitude fraca, moderada ou forte, respetivamente, 0.02, 0.15 e 0.35.
Estes modelos são julgados em termos de ajustamento, indicado pela Bondade de Ajustamento (GOF, Goodness of Fit) de Tenenhaus (2005). Se o valor estiver abaixo de 0.25 é considerado existir fraco ajustamento, se entre este valor e 0.36, moderado; se superior a 0.36 então conclui-se por um ajustamento forte.