• No results found

Del II Lovforslagets innhold

14.5 Nærmere om aktuelle

Nesta seção, descreve-se o método de análise escolhido e suas etapas de execução, com o intuito de reconhecer padrões e propor uma classificação para as empresas inovadoras no Brasil, adaptando a classificação proposta por Pavitt para a economia em questão. Tendo em vista que em um primeiro momento não se deseja determinar a importância ou peso das variáveis em análise, optou-se por utilizar o método multivariado. A análise multivariada se divide em dois grupos: o primeiro

20Tal medida tem a vantagem de ser pouco sensível a valores extremos da distribuição

21 Seguindo a metodologia utilizada na Pesquisa Industrial, calcula-se o grau de concentração por setor

ponderando o indicador de concentração (nesse caso o CR4) pela receita líquida de vendas do setor. A partir daí, classifica-se o setor utilizando as faixas de concentração separadas da seguinte forma: de 0 a 25% - desconcentrado; de 25 a 50%, inclusive – pouco concentrado; de 50 a 75%, inclusive – concentrado; e acima de 75% - muito concentrado. (IBGE, 2011)

consiste em técnicas exploratórias de sintetização ou de simplificação da estrutura de dados e o segundo, consiste em técnicas de inferências estatísticas. Neste trabalho, utilizasse a técnica exploratória, aplicável a partir de uma estrutura correlacionável de variáveis (VICINI, 2005; MINGOTE, 2017).

A aplicação estatística de análise multivariada, utilizando-se a técnica de análise de clusters, no intuito de assegurar robustez à construção da taxonomia. A medida de similaridade utilizada inicialmente é a distância euclidiana quadrática. Quanto maior a distância euclidiana, mais heterogêneos são os clusters. O R- quadrado, por outro lado, mede a porcentagem da variabilidade total que é retida em cada uma das soluções dos clusters (SILVA & SUZIGAN, 2008). Para tanto, combinaram-se os métodos hierárquico e não-hierárquico. O hierárquico objetivou estabelecer parâmetros para a análise, através do qual é definida a quantidade de grupamentos, os quais ratificam o conjunto adotado da literatura existente. Já o não- hierárquico é mais adequado para um refinamento posterior da análise. Os dois procedimentos são complementares e não concorrentes.

Há vários métodos de agrupamento hierárquico disponíveis nos softwares estatísticos. Os mais comuns são: método de ligação simples (Single Linkage), método de ligação completa (Complete Linkage), método da média das distâncias (Average Linkage), método do centroide (Centroid Method), e método de Ward (MINGOTI, 2005). Independentemente do método, busca-se a partição contendo grupos o mais heterogêneo possível entre si e, que os elementos dentro de cada grupo sejam o mais homogêneo possível. Abaixo são descritos alguns desses métodos:

 Método de Ligação Simples – neste método, a similaridade entre dois agrupamentos é definida pelos dois elementos mais parecidos entre si. Ou seja, é a distância entre os elementos mais próximos ou mais parecidos. Em cada estágio do processo os agrupamentos mais próximos são combinados em um único cluster;

 Método de Ligação Completa – aqui, a similaridade entre dois agrupamentos é definida pelos elementos que são menos semelhantes entre si. A distância é calculada entre todos os pares de grupo e combinados em um único, a partir daqueles que apresentarem o menor valor de máximo.

 Método da Média das Distâncias –neste método, a distância entre dois conglomerados é a média das distâncias entre todos os pares de elementos, que podem ser formados com os elementos dos dois conglomerados comparados.

 Método do Centroide – neste caso, a distância entre dois grupos é definida como sendo a distância entre os vetores das médias, também chamados de centroides dos grupos comparados. Pode ser medido com a distância Euclidiana ao quadrado ou usual entre os vetores de médias. Em cada passo do algoritmo, os agrupamentos que apresentam o menor valor de distância são agrupados. Esse método não pode ser utilizado em situações em que se dispõe apenas da matriz de distâncias entre os n elementos amostrais.

 Método de Ward – também chamado de método da Mínima Variância. Neste método, não se contabiliza a distância entre dois agrupamentos. A formação dos grupamentos se dá a partir da maximização da homogeneidade interna dos grupos. O método minimiza o quadrado da distância Euclidiana às médias dos grupos. Ou seja, trata-se da soma dos quadrados dos resíduos entre duas observações. Um grupo será reunido ao outro se a reunião proporcionar o menor aumento da variância intragrupo. Esse método costuma ser altamente eficiente na formação de grupos, conforme Malhorta

apud Vicini (2005) e SAS (2009).

As principais etapas para a aplicação de técnicas hierárquicas aglomerativas são:

b) Em cada estágio do algoritmo de agrupamento os pares “similares” são combinados, constituindo um único conglomerado. Dessa forma, à medida que avança o estágio do algoritmo o número de conglomerados vai diminuindo.

c) Propriedade da hierarquia: uma vez unidos os elementos não serão mais separados.

d) Dada a propriedade anterior, é possível construir um dendograma que representa a árvore ou a história do grupamento. (MINGOTI, 2005).

Nesse contexto, o dendograma, ou gráfico de árvore, representa uma síntese do agrupamento resultante da aplicação da análise fatorial, a qual refere-se a um conjunto de técnicas estatísticas, como objetivo de reduzir o número de variáveis iniciais com a menor perda possível de informações. Isto é feito analisando-se o inter- relacionamento entre as variáveis, de forma que possam ser descritas convenientemente por um número de categorias básicas, em um número menor que o número de variáveis originais, as quais são chamadas de fatores. Na análise, os fatores explicam a variância dos elementos observados pela correlação existente entre eles. (VICINI, 2005).

Embora o número de grupamentos possa ser definido pelo dendograma, nos casos em que há um volume muito grande de grupos a serem formados, é possível utilizar outros critérios de análise para partição dos grupos. Segundo Mingoti (2005), são eles:

 Análise do comportamento do nível de fusão (distância). Consiste em avaliar através de gráfico elaborado a partir dos resultados de cada estágio, comparando-os com o nível de distância do agrupamento. O corte se daria no ponto de “salto” relativamente grande.

 Análise do comportamento do nível de similaridade – esta análise é similar à que avalia o nível de fusão, porém baseia-se em avaliar o nível da

similaridade, ao invés da distância. Ou seja, procura-se detectar onde há um decrescimento acentuado na similaridade dos conglomerados unidos, nos quais a aplicação do algoritmo de agrupamento deveria ser interrompida.

 Análise da soma de quadrados entre grupos: coeficiente R² - a partir desse critério, é calculada a soma de quadrados entre os grupos e dentro dos grupos. O valor de R² será a divisão entre a soma de Quadrados Total entre os grupos da partição e a soma de Quadrados Total dentro dos grupos da partição. Uma boa estratégia é definir uma região de valores plausíveis para o número de grupos e usar o coeficiente R² dentro da região estabelece, observando o decaimento de R² quando o valor do número de grupos é diminuído.

 Estatística Pseudo F

É como se em cada passo do algoritmo de agrupamento estivesse sendo feito um teste F de análise de variância para a comparação dos vetores de médias dos grupos que foram formados no respectivo passo. Busca-se o maior valor de Pseudo F, ou seja, aquele que estaria relacionado com a menor probabilidade de significância do teste e, consequentemente, estaria rejeitando a igualdade de vetores de médias populacionais com maior significância, resultando, desse modo, na partição com maior heterogeneidade entre grupos” (MINGOTI, 2005).

 Correlação semiparcial (Método de Ward) – nesse critério, para cada etapa do agrupamento calcula-se o coeficiente de correlação semiparcial e elabora-se um gráfico entre a etapa e o coeficiente de correlação parcial observado. Busca-se no gráfico o ponto em que houver o maior salto, que corresponderá ao momento de parada do algoritmo para estabelecer o número de grupamentos.

 Estatística Pseudo T² - similar ao Pseudo F², aqui é calculado a cada etapa do algoritmo, o valor do Pseudo T² e é elaborado um gráfico relacionando o valor do Pseudo T² a cada etapa de agrupamento. Será buscado no

gráfico o valor máximo, ou aquele imediatamente anterior, o qual definirá o número de grupos a ser estabelecido.

 Estatística CCC (Cubic Clustering Criterium) – trata-se de valor obtido a partir da comparação do valor observado para o coeficiente R² e o valor esperado para R², sob a suposição de que os grupos são gerados de acordo com uma distribuição uniforme p-dimensional. Valores positivos de CCC indicam que R² é maior que o esperado. Nesse caso, o CCC indicaria a presença de uma estrutura de agrupamentos de dados diferente da partição uniforme. Um resultado de CCC maior do que 3 estabelece o número de grupos de partição final.

Ao aplicar-se análise fatorial, o primeiro passo é verificar as relações entre as variáveis, o que pode ser feito utilizando-se um coeficiente de correlação linear entre cada par de variáveis. Para tanto, é necessário analisar a distribuição de frequência das variáveis através de teste de ajuste da normalidade (Kolmogorov-Smirnov) ou examinar as curvas de distribuição, ou ainda fazer um gráfico de dispersão, contrastando os valores observados com os esperados, em uma distribuição normal (VICINI, 2005). Outra medida de adequação importante é o Kaiser-Meyer-Olkin

Measure of Adequacy (KMO), com o mesmo intuito.

Para conferir a homogeneidade das observações nos agrupamentos são calculados os desvios-padrões de cada variável. Já para a determinação da quantidade de clusters foram utilizadas as seguintes estatísticas: distância euclidiana quadrática, R-quadrados total e parcial e Raiz Quadrada Média do Desvio-Padrão da Amostra ou Universo. O pacote estatístico computacional inicialmente utilizado na pesquisa foi o SAS.

Para este estudo, escolheu-se a distância euclidiana quadrática, definida por:

𝐷𝑖𝑗2 = ∑(𝑥

𝑖𝑘− 𝑥𝑗𝑘)² 𝑝

Onde:

𝐷𝑖𝑗2 = 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑑𝑎 𝑑𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝑒𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 𝑒𝑛𝑡𝑟𝑒 𝑖 𝑒 𝑗;

𝑥𝑖𝑘(𝑥𝑗𝑘) = 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑑𝑜 𝑖 − é𝑠𝑖𝑚𝑜 (𝑗 − é𝑠𝑖𝑚𝑜)𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡𝑒 𝑛𝑎 𝑘 − é𝑠𝑖𝑚𝑎 𝑣𝑎𝑟𝑖á𝑣𝑒𝑙;

𝑝 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖á𝑣𝑒𝑖𝑠.

Salienta-se que como unidade de análise, pelo qual se dá a formação dos clusters, é utilizado o respectivo setor econômico das empresas, uma vez que, devido à necessidade de não identificar as empresas que participaram das PINTEC, não é possível fazê-lo diretamente através dos resultados das entrevistas às empresas. Dessa forma, é utilizado o CNAE principal que as empresas respondentes cadastram junto à Receita Federal, o qual é necessariamente informado na Pesquisa.