• No results found

A forma apropriada para tratar os valores ausentes depende, na maioria dos casos, em como os atributos tornaram-se ausentes. O mecanismo de ausência de dados tenta mapear isto e é caracterizado pela distribuição condicional de M dado X:

p (M|X,ξ) = p(M|X0, Xm, ξ) (2.3)

onde ξ denota o parâmetro desconhecido que define um dos três mecanismos de ausên- cia de dados, a saber:

• Ausência completamente aleatória (Missing completely at random (MCAR)): situação que ocorre quando a probabilidade da variável ser faltosa é independente da própria variá- vel ou por qualquer outra influência (valores ausentes ou observados) e pode ser expressa por:

p (M|X0, Xm, ξ) = p (M|ξ) (2.4)

o que significa que a ausência da variável não depende dos valores de entrada pois, os exemplos disponíveis contém toda a informação para fazer inferências. Exemplos típicos do mecanismo MCAR são tubos de ensaio contendo uma amostra de sangue que quebram acidentalmente, logo, os parâmetros sanguíneos não podem ser mensurados. A razão para a ausência de dados é completamente aleatória – a probabilidade que uma observação seja ausente não é relacionada a qualquer outra característica do indivíduo.

3 Tradução de “response indicator vector”

• Ausência aleatória (Missing at random (MAR)): a ausência de dados é independente dos valores ausentes, mas o padrão de ausência é predita por outras variáveis da base de dados. A condição para ser considerada MAR é expressa pela relação:

p (M|X0, Xm, ξ) = p (M|X0, ξ) (2.5) a ausência da variável depende apenas de valores observados nos dados de entrada (casos completos). Um exemplo é a falha ocasional de um sensor devido a uma queda de energia, interrompendo o processo de aquisição. Neste exemplo, as variáveis atuais onde os dados estão faltando não são os causadores da incompletude, pois a causa da ausência está em uma influência externa.

• Ausência não aleatória (Not Missing at Random (NMAR)): o padrão de dados faltosos não é aleatório e depende do próprio valor ausente, a qual pode ser descrita por meio da equação:

p (M|X0, Xm, ξ) 6= p (M|X0, ξ) (2.6) em contraste com o padrão MAR, a variável ausente no caso MNAR não pode ser predita apenas levando-se em consideração as variáveis do conjunto de dados. Por exemplo, se um sensor não consegue adquirir informação fora de uma determinada faixa, este dado é faltoso devido ao MNAR. Então, diz-se que os dados foram censurados. Portanto, in- formações importantes são perdidas, e não há nenhum método para lidar corretamente com este tipo de falta. Outro exemplo que se faz interessante notar é quando um atributo xnb é computado a partir de um outro atributo, xna que está ausente; logo, xnb também estará ausente e não haverá, no conjunto de dados, informação que leve à inferência do seu valor.

Para Schafer e Graham (2002), há ainda um quarto mecanismo que recai no exem- plo apresentado para o padrão MAR, o de valores fora de uma determinada faixa. Contudo, a presente proposta irá ater-se somente às três categorias acima descritas, conforme padrão en- contrado na literatura. Acerca dos padrões MCAR ou MAR, é um consenso denominá-los de padrões ignoráveis. Este fato é importante pois, quando ele ocorre, os pesquisadores podem ser indiferentes quanto à natureza dos dados faltantes. Em outras palavras, tais mecanismos são fáceis de manipular, visto que seus efeitos nos modelos estatísticos, e atualmente, nos de Apren- dizado de Máquina, estão disponíveis para os analistas (MCKNIGHT et al., 2007;GRAHAM, 2009). Ainda na análise dos padrões MCAR e MAR, a simples comparação entre as Equações 2.4e2.5torna possível atestar que o MCAR possui menos parâmetros, logo a estimação é mais simples do que no mecanismo MAR. O qual possui um modelo que descreve a ausência dos dados a partir das informações contidas em X (Eq.2.2).

Em contrapartida, o mecanismo NMAR é dito não-ignorável, neste caso não há infor- mação no conjunto de dados que permita a modelagem do comportamento do mecanismo de ausência. Consequentemente, o efeito deste padrão na construção do modelo, seja ele estatístico ou de aprendizado de máquina, é difícil de se estimar. Portanto, conhecer o mecanismo de au- sência de dados auxilia o analista no entendimento da natureza dos dados faltosos e o respectivo impacto nas análises subsequentes.

A categorização de um atributo em qual mecanismo de ausência de dados se enquadra é realizada por exclusão. Primeiro avalia-se se o mecanismo é MCAR, caso os requisitos não sejam atendidos, testa-se o MAR, e por exclusão o NMAR. A avaliação do mecanismo MCAR dá-se pelos métodos propostos porLittle(1988) eChen e Little(1999), enquanto para a avali- ação dos demais métodos não há um método formal dispostos na literatura. Para fins práticos, a maior parte das pesquisas envolvendo tratamento de valores ausentes assume que os dados faltosos são regidos pelo mecanismo MAR ou MCAR.Mcknight et al. (2007) apresentam um quadro que resume as características intrínsecas dos mecanismos de ausência dos dados e as possíveis causas em pesquisas com aplicação de questionários (Quadro2.1).

Quadro 2.1 – Quadro comparativo entre as possíveis causas dos mecanismos de ausência de dados em pesquisas com aplicação de questionários.

Mecanismo

Situação MCARMCAR MARMAR MNAR

Variável (Item) Indivíduos Ocasiões Indivíduos omitem respostas aleatoria- mente. Indivíduos omitem respostas que podem ser conseguidas por outras respostas.

Indivíduos não respon- dem itens indiscrimi- nadamente.

Faltam dados de indi- víduos aleatoriamente.

Faltam dados de indi- víduos, mas que são relacionados com os dados demográficos disponíveis.

Faltam dados de indi- víduos e são relaciona- dos com os dados de- mográficos não medi- dos. Indivíduos alea- toriamente não se apresentam na sessão. Indivíduos que se desempenham mal na sessão anterior e não se apresentam na sessão seguinte.

Indivíduos que estão se desempenhando mal na sessão atual e deixam de participar. Fonte: Adaptada deMcknight et al.(2007).

Este quadro comparativo possibilita uma melhor compreensão dos mecanismos de au- sência de dados. Contudo, esta não é a única categorização, há ainda a determinação do padrão de dados faltosos, como apresentado a seguir.