Bakgrunn - Lovforslagets innhold - Prop. 90 L(2010–2011)Proposisjon til Stortinget (forslag til

Del II Lovforslagets innhold

15.1 Bakgrunn

Os principais procedimentos aplicados no SAS, após tratamento das variáveis, para cada ano de publicação da PINTEC e para cada agrupamento pré-definido de variáveis foram: análise multivariada ACECLUS (Approximate Covariance Estimation

for CLUStering); geração dos critérios para definição de clusters CLUSTER; TREE

para criar as variáveis a serem agrupadas em clusters; e plotagem dos dados finais através do SGplot.

O ACECLUS é um procedimento preparatório no SAS, utilizado quando nem o número de observações nem o número de clusters são conhecidos, utilizado para padronizar as observações (tornar a média zero e a variância igual a um) e obter as estimativas de aproximação gerando, a partir das variáveis iniciais, uma matriz de

covariância de um conjunto de variáveis canônicas, as quais são utilizadas na elaboração dos clusters. (SAS, 2009).

O procedimento hierárquico CLUSTER, calcula a medida de dissimilaridade através da distância euclidiana. O método aplicado nesse procedimento foi o de Ward. Na tabela e gráficos resultantes, são apresentadas informações relevantes para a definição do número de clusters: critério de agrupamento cúbico ou Cubic Clustering

Criterium (CCC); estatística Pseudo F; e estatística Pseudo T². Os gráficos produzidos

são: critérios para o número de clusters (exemplo na Figura 10) e dendogramas (exemplo na Figura 11). Os conceitos relativos aos procedimentos antes referidos estão descritos mais detalhadamente no item 3.2 acima.

Figura 11 - Dendograma gerado no SAS

Após a aplicação do ACECLUS, e verificação do número de clusters indicado pelo gráfico, é aplicado o procedimento TREE, no qual são geradas duas tabelas para cada combinação de agrupamento de variáveis e ano de publicação da PINTEC. A tabela TREE gera input para o agrupamento das informações resultando na tabela NEW, que contém as variáveis canônicas utilizadas nas formações de clusters, não contendo mais informações sobre as variáveis originais.

Finalmente, com os resultados da tabela NEW é aplicado o procedimento SGPlot para plotar as variáveis canônicas dos diferentes clusters reconhecidos pelo procedimento CLUSTER, demonstrando graficamente a separação dos diferentes grupos, para cada ano e agrupamento, como pode ser visto no Figura 12, abaixo.

Figura 12 - Gráfico SGPlot - Plotagem das variáveis canônicas demonstrando o cluster gerado

3.5.2 Geração de clusters no SPSS

Já fora da Sala de Sigilo do IBGE, após a extração das informações, analisando os resultados alcançados no procedimento anterior (clusters gerados no SAS), verificou-se uma diferenciação excessiva na qualidade dos clusters. Para essa diferenciação, inferem-se os seguintes motivos: a) haviam dados na base com valores extremamente discrepantes, os quais, se não tratados, impactam os resultados dos agrupamentos; b) conforme já mencionado, as respostas das empresas aos questionários, em função do padrão tecnológico característico da indústria nacional, reflete na existência de muitos missings ou de valores pouco representativos para a análise; c) o baixo nível de atividades inovativas também é refletido na baixa

diferenciação entre os CNAES que compõem cada agrupamento. A opção de identificar através das respostas as empresas mais inovadoras, somado à reduzida quantidade de empresas desse tipo de empresa na amostra, levou à redução do volume de resultados para análise.

Dessa forma, optou-se por promover ajustes nas variáveis minimizando a discrepância das informações que continham algum “erro” de informação (números centenas de vezes maior que a média, por exemplo) e gerar novamente os clusters. Porém, na segunda tentativa, em função da indisponibilidade do SAS, foi utilizado o SPSS a partir dos procedimentos descritos a seguir.

Na tentativa de manter a similaridade com o procedimento anterior que abrangia métodos não hierárquicos e hierárquicos, adotou-se a elaboração dos clusters em duas etapas. Na primeira etapa, não hierárquica, visando determinar o número de cluster a serem gerados, foram aplicados para análise de cada agrupamento por ano de PINTEC, quatro diferentes procedimentos, quais sejam:

Euclidian Distance e Akaike Information Criterion (AIC); Euclidian Distance e Baysian Information Criterion (BIC); Log-Likehood Distance e AIC; Log-Likehood Distance e BIC. Na Figura 13 abaixo constam os resultados alcançados nesse procedimento.

Figura 13 - Resultado da aplicação de um dos diferentes procedimentos para determinação do número de clusters na primeira etapa do processo

As figuras relacionadas a todos os clusters e gráficos gerados podem ser encontrada no Apêndice 3.

Figura 14 – Análise de clusters em duas etapas – Etapa 1 – Aplicação de medida de similaridade e critérios de informação

Para a segunda etapa (hierárquica) foi definido para a geração dos respectivos clusters o maior número de clusters indicado na etapa anterior, para cada

2000 2003 2005 2008 2011 2014

Distance Euclidian / AIC 2 2 2 4 5 5

Distance Euclidian / BIC 2 2 2 1 1 2

Distance Log-Likehood / AIC 2 3 3 2 3 2

Distance Log-Likehood / BIC 1 2 2 2 2 2

2000 2003 2005 2008 2011 2014

Distance Euclidian / AIC 4 2 3 2 2 2

Distance Euclidian / BIC 2 2 2 2 2 2

Distance Log-Likehood / AIC 2 2 2 2 3 2

Distance Log-Likehood / BIC 2 2 2 2 2 2

2000 2003 2005 2008 2011 2014

Distance Euclidian / AIC 2 2 2 2 3 1

Distance Euclidian / BIC 2 2 2 2 1 1

Distance Log-Likehood / AIC 3 2 3 2 2 2

Distance Log-Likehood / BIC 2 2 2 2 2 2

2000 2003 2005 2008 2011 2014

Distance Euclidian / AIC 2 2 2 2 2 2

Distance Euclidian / BIC 1 1 2 2 2 1

Distance Log-Likehood / AIC 2 2 3 3 3 2

Distance Log-Likehood / BIC 2 2 2 2 2 2

2000 2003 2005 2008 2011 2014

Distance Euclidian / AIC 2 2 2 2 2 3

Distance Euclidian / BIC 1 2 2 2 2 2

Distance Log-Likehood / AIC 2 2 2 2 3 2

Distance Log-Likehood / BIC 2 2 2 2 2 2

Nota: AIC - Akaike Information Criterion BIC - Bayesian Information Criterion Elaboração da autora.

Medidas de Similaridade e Critérios de Informação

Agrupamento 4 - Tipo de resultado inovativo

Medidas de Similaridade e Critérios de Informação

Agrupamento 5 - Estrutura e desempenho Análise de Clusters em duas etapas - Etapa 1 Aplicação de medida de similaridade e

critérios de informação

Agrupamento 1 - Fontes de inovação Medidas de Similaridade e

Critérios de Informação

Agrupamento 2 - Tipos de conhecimento e fontes de aprendizado

Medidas de Similaridade e Critérios de Informação

agrupamento e ano. Os clusters foram gerados utilizando-se o método de Ligação Ward. As Figuras 14 e 15 abaixo, demonstram os resultados alcançados na segunda etapa do procedimento. Todos os gráficos gerados tanto no SAS, quanto no SPSS, encontram-se no Apêndice 4.

In document Prop. 90 L(2010–2011)Proposisjon til Stortinget (forslag til lovvedtak) (sider 132-135)