• No results found

Results and discussion

3. Teachers’ opinions on CLIL in the Balearic Islands

3.3 Results and discussion

No capítulo 1 foram definidos três objetivos principais que tratam dos pontos de pes- quisa em aberto e que pertencem ao escopo desta tese. A seguir, as perguntas de pesquisa que nortearam o desenvolvimento do trabalho em cada um dos objetivos são discutidas, apresen- tando as soluções obtidas.

Objetivo 1: Qual a importância de um modelo formal para imputação múltipla de dados como um problema de otimização? Como definir e representar o espaço de busca e restrições de forma a respeitar as características intrínsecas da base? Quais as estratégias de busca que melhor se aplicam ao modelo formal proposto?

A utilização de uma descrição da imputação múltipla de dados como um problema de otimização propicia um melhor entendimento do problema sob seus diferentes aspectos, possibilitando a proposição de métodos de tratamento de valores ausentes aos mais variados cenários até então não explorados; bem como a adaptação de métodos existentes, a fim de se moldarem a problemas específicos como classificação desbalanceada, classificação multirrótulo e big data, por exemplo.

Com uma descrição também é possível: i) utilizar diferentes representações para o es- paço de busca a fim de reduzir o custo computacional do processo de busca de valores a serem imputados - tal como as diferenças nas representações utilizadas no AGImp e no MOGAImp (Capítulos 5e 6) que, embora sejam sutis, impactam diretamente no custo computacional; ii) adaptar estratégias de busca, como no caso do MultImp (Capítulo7), onde utilizam-se soluções provenientes de métodos de imputação simples, a fim de combiná-las e refiná-las por meio de uma estratégia evolucionária, tornando o método iterativo e de imputação múltipla; iii) identi- ficar automaticamente estratégias de busca de acordo com as características intrínsecas da base e dos algoritmos de análise a serem utilizados (e.g. correlacionar o algoritmo de classificação a um método de imputação baseado em otimização combinatorial).

Portanto, é possível afirmar que objetivo desta tese, a saber: “Propor e testar uma defini- ção formal para a imputação múltipla de dados como um problema de otimização, permitindo

suplantar as falhas presentes nos métodos de imputação de dados baseados em CE recente- mente propostos.”, foi parcialmente atingido, uma vez que mesmo com a sua potencialidade, foi apenas proposta uma descrição do problema em detrimento ao modelo formal. Descrição esta que necessita de aprimoramentos, sobretudo no estudo das múltiplas representações do espaço de busca.

Objetivo 2: Quais as vantagens e desvantagens da utilização de computação evolu- cionária para realizar a imputação de dados? Como tratar atributos numéricos e categóri- cos igualitariamente e ainda levar em consideração exemplos com valores ausentes? Como avaliar soluções candidatas e combinar as soluções levando-se em consideração medidas de desempenho conflitantes?

A principal vantagem da utilização da computação evolucionária para realização da im- putação de dados dá-se pela sua proximidade com o paradigma da imputação múltipla. Dentre as vantagens desta categoria, destacam-se: a produção de estimativas imparciais, proporcio- nando maior robustez do que abordagens ad hoc; utilização de todos os dados disponíveis, preservando o tamanho da amostra; e ainda ser possível a utilização do software estatístico (ou de aprendizado de máquina) já utilizado pelos analistas. Tais vantagens são decorrentes da sua modularidade e estratégia de estimação dos valores ausentes e combinação das diversas solu- ções produzidas.

A principal desvantagem é o custo computacional associado à iteratividade do método e o impacto da inicialização no processo de busca, por conseguinte, estratégias que diminuam o espaço de busca ou que guiem o processo de inicialização se fazem interessantes, tal como abordado nos métodos GAImp e MultImp propostos nos Capítulos5e7, respectivamente.

Em relação ao tratamento de atributos numéricos e categóricos igualitariamente, sua dis- cretização e ordenamento são estratégias interessantes, há também a possibilidade de se utilizar aproximadores de funções de densidade de probabilidade e faixas de valores. Tais estratégias possibilitam a utilização de exemplos que possuam valores ausentes na imputação de dados, não excluindo informações potencialmente úteis do processo de análise.

No tocante à avaliação de soluções candidatas, considerando medidas de desempenho conflitantes, é possível empreender diversas abordagens de otimização multiobjetivo. A abor- dagem baseada em fronteira de Pareto é útil para o estudo da relação de dominância entre as medidas de desempenho consideradas, apesar de seu custo computacional mais alto; já a ba- seada em lexicografia é uma alternativa para evitar o custo computacional da exploração do conjunto de Pareto. Tais abordagens foram utilizadas no MOGAImp e no MultImp, respectiva- mente apresentadas nos Capítulos6e7.

Frente ao exposto, é possível asseverar que o objetivo “Desenvolver e aprimorar algo- ritmos de imputação múltipla de dados baseado em CE eficientes, que considerem conjuntos de dados com atributos de tipos mistos, evitem a análise de caso completo e que lidem de forma

satisfatória com medidas de desempenho conflituosas.” foi plenamente alcançado.

Objetivo 3: Qual o impacto da variação dos parâmetros no desempenho do mé- todo? As informações acerca da convergência e parametrização são importantes para o domínio de aplicação ou podem ajudar o especialista do domínio a melhor entender a ausência de dados na base em análise?

Conforme evidenciado na análise dos experimentos computacionais desenvolvidos (Se- ção 5.4; Seção6.3), a variação dos parâmetros influenciam diretamente no desempenho e no custo computacional do método, por conseguinte, fez-se necessário um estudo acerca da sinto- nização dos parâmetros. Como conclusões, tem-se: i) para o GAImp, o tamanho da população e o número de gerações são os parâmetros mais sensíveis - observou-se que, ao utilizar um número de indivíduos superior ao número de gerações, obtém-se um melhor custo-benefício entre desempenho e custo computacional; ii) para o MOGAImp, é necessário um maior número de indivíduos e de gerações que o GAImp, tanto pelo seu esquema de codificação, quanto pela utilização de múltiplas funções objetivo - percebeu-se também que quanto mais valores ausen- tes um conjunto de dados apresenta, mais indivíduos e gerações são necessárias para garantir um bom desempenho. Estratégias de inicialização e de redução do espaço de busca fazem-se interessantes, uma vez que a iteratividade do método aumenta o custo computacional associado, este decorrente da construção de modelos de classificação.

Outro item pertinente é que as informações acerca da convergência e da parametrização podem auxiliar ao especialista no estudo do conjunto de dados, principalmente no tocante ao padrão de valores ausentes. Por exemplo, a adoção de múltiplas funções objetivo permitem ao especialista melhor entender as relações entre propriedades estatísticas da base, os padrões de ausência e o impacto na construção do modelo de análise (e.g classificação, regressão, agrupa- mento) - até mesmo, provendo informações no projeto de novos experimentos, como adição ou remoção de variáveis.

Nesse horizonte, é possível considerar que objetivo “Analisar o comportamento de mé- todos de imputação múltipla baseados em computação evolucionária em relação à convergên- cia e parametrização; de forma a estudar estratégias de sintonização e controle de parâmetros adequadas.” foi alcançado.

RELATERTE DOKUMENTER