FLC and FNF from ALOS-2 PALSAR-2 2014

7 Demonstration - SAR-based End Products

7.2 Forest Land Cover and Forest/Non-Forest Maps

7.2.4 FLC and FNF from ALOS-2 PALSAR-2 2014 - present

Para Jurafsky (2009), historicamente, a linguística foi tratada de maneiras distintas, pelos mais diversos profissionais, sejam eles: psicólogos, engenheiros elétricos, cientistas da computação, dentre outros que acharam alguma ligação do seu trabalho com elementos das línguas naturais. Para os linguistas, essa área “mais tecnológica” foi denominada Linguística Computacional (LC), para os cientistas da computação, foi denominada Processamento de Línguas Naturais (PLN), enquanto que para a engenharia elétrica, por exemplo, Sintetização e Reconhecimento de Voz, etc. Vejamos, a partir de Jurafsky (2009, p. 9 -14), o progresso do PLN ao longo dos últimos anos.

Nas décadas de 1940 e 1950, após a segunda guerra mundial, a computação começou a crescer e, com isso, várias áreas do conhecimento começaram a buscar meios de se unir a ela. Os autômatos probabilísticos de Turing (1948 apud Jurafsky, 2009) e seu modelo algorítmico para a computação foram considerados um marco fundamental para ciência da computação. O seu trabalho culminou no modelo lógico-computacional de McCulloch-Pitts Neuron das expressões regulares e dos modelos probabilísticos da época. Chomsky (1956 apud Jusfsky, 2009) foi considerado o primeiro a utilizar os estados finitos nas máquinas para representar gramáticas, processar e gerar língua. Esses modelos de gramática de estados finitos conduziram o campo de estudos às teorias formais da linguagem.

Outra ideia fundamental no período foi o desenvolvimento dos algoritmos probabilísticos para a fala e o processamento de língua, denominados então como os canais de comunicação e acústica da fala, que levaram aos primeiros reconhecedores de fala/voz no inicio da década de 1950. Para Dias-da-Silva (1996), nesse período de tempo foi dada ênfase na sistematização de classes de palavras presentes na gramática tradicional, para identificação (ainda precária) da fala e, ainda, devido à herança da guerra, foi dado destaque aos trabalhos em tradução automática.

Entre as décadas de 1960 e de 1970, o processamento de língua e fala foi dividido entre o simbólico e o estocástico. O simbólico formou-se por meio do pensamento de Chomsky a partir dos subsídios da sintaxe gerativa, para os quais vários linguistas e cientistas da computação passaram muito tempo na formulação de algoritmos. Outro trabalho nesse caminho foi o projeto de Análise do Discurso de Harris (1962 apud Jurafsky, 2009). A segunda linha de pesquisa foi o novo campo de inteligência artificial criado no verão de 1956 por McCarthy, Minsky e Shannon e com foco em algoritmos estatísticos, modelos probabilísticos e redes neurais. Na década de 1960, houve um aumento nos modelos de teste psicológicos no processamento de línguas naturais baseados na gramática transformacional. Também foi desenvolvido o primeiro corpus digital de Brown (1963-1964 apud Jurafsky, 2009) com mais de um milhão de palavras do inglês americano, assim como o primeiro dicionário eletrônico (DOC – Dictionary on Computer) para a língua chinesa, desenvolvido por William Wang (1967 apud Jurafsky, 2009).

O paradigma estocástico teve um papel importante no desenvolvimento de algoritmos de reconhecimento de fala, particularmente com o uso do Modelo Oculto de

Markov (HMM). Além disso, nessa mesma época, grandes companhias de tecnologia como a International Business Machines Corporation (IBM) e a American Telephone &

Telegraph (AT&T) foram foco de atenção, pois nos seus laboratórios desenvolviam

trabalhos-chave no que diz respeito à síntese e reconhecimento de voz, como documentaram Rabiner e Juang (1993 apud Jurafsky, 2009). O paradigma lógico ajudou no desenvolvimento de Q-systems e Gramáticas de Metamorfose (Colmerauer 1970-1975

apud Jurafsky, 2009), precursores no desenvolvimento do Prolog.

No final da década de 1970, Kay começou os trabalhos com gramáticas funcionais enquanto Kaplan iniciava a Gramática Léxico-Funcional (LFG) e o entendimento automático de línguas naturais, que simulava um robô capaz de identificar comandos simples de voz como destacou Winograd (1972 apud Jurafsky, 2009). Posteriormente, esses sistemas serviram para outros pesquisadores que tiveram um foco de análise na organização da memória humana em máquinas, como Schank e Abelson (1977

apud Jurafsky, 2009). Em relação aos sistemas lógicos de compreensão de línguas naturais,

tendo como foco as representações semânticas, foi criado o Sistema LUNAR de perguntas e respostas (Woods, 1967, 1973 apud Jurafsky, 2009). Em síntese, nessas décadas foi dada importância para o processamento da sintaxe gerativa, para a formalização do conhecimento nos níveis pragmático-discursivos e para a organização das palavras com intuito de compor redes semânticas.

Em meados das décadas de 1980 e de 1990, o PLN retornou aos modelos teórico-metodológicos que perderam força na década de 1960, como o gerativismo chomskyano. O primeiro deles foi o modelo de estados finitos, que recebeu atenção especial após os trabalhos de Kaplan e Kay (1981 apud Jurafsky, 2009) sobre fonologia e morfologia, e o trabalho de Church (1980 apud Jurafsky, 2009) sobre sintaxe. A década de 1980 teve como característica o desenvolvimento de muitos trabalhos na geração automática de língua. Já na década de 1990, os modelos probabilísticos e de dados dirigidos se tornaram a base do pensamento em PLN. Algoritmos para sistemas de reconhecimento de sintagmas, voz, anotação morfológica e processamento do discurso foram incorporados para implementar metodologias emprestadas do reconhecimento de voz e da recuperação de informação.

A modernidade também trouxe melhorias para os computadores, que acabaram se tornando populares, permitindo o desenvolvimento de áreas específicas com

fins mercadológicos, como reconhecimento de fala, soletramento e correção gramatical/ortográfica automática. Com o crescimento da Web, houve a necessidade de recuperação e extração automática de informações baseadas em línguas naturais. Para Dias-da-Silva (1996), essa época foi marcada por uma busca pelo desenvolvimento de sistemas capazes de processar conhecimentos linguísticos e extralinguísticos.

Desde o inicio dos anos 2000 até a atualidade, tem havido um crescimento na área de Aprendizado de Máquina, que foi conduzido por três tendências sinérgicas. A primeira foi a quantidade de material falado e escrito disponível no Linguistic Data

Consortium (LDC) e outras organizações similares, dentre elas podemos citar o Penn Treebank (Marcus et al., 1993 apud Jurafsky, 2009), Prague Dependency Treebank (Hajic,

1998 apud Jurafsky, 2009), PropBank (Palmer et al., 2005 apud Jurafsky, 2009), Penn

Discourse Treebank (Miltsakaki et al., 2004b apud Jurafsky, 2009), RSTBank (Carlson et al., 2001 apud Jurafsky, 2009) e TimeBank (Pustejovsky et al., 2003b apud Jurafsky,

2009), que possuem anotações nos diferentes níveis de análise linguística (morfológico, sintático, semântico, etc.). A existência dessa fonte de recursos possibilitou destinar a atenção dos linguistas para os problemas tradicionalmente mais complexos como a análise semântica e o aprendizado supervisionado de máquina.

A segunda tendência foi que o aumento de pesquisas em Aprendizado de Máquina levou a certa intercomunicação com outras comunidades de pesquisas em estatística, especialmente a partir das técnicas de vetor suporte (Boser et al., 1992; Vapnik, 1995 apud Jurafsky, 2009), de regressão logística multinominal (Berger et al., 1996 apud Jurafsky, 2009) e de modelos bayesianicos gráficos (Pearl, 1988 apud Jurafsky, 2009).

A terceira tendência foi o crescimento do alto-desempenho de sistemas computacionais, que culminou na facilitação no desenvolvimento de sistemas que não podiam ser imaginados décadas atrás. Finalmente, tem havido um progresso na área de abordagens estatísticas para tradução de máquina (Brown et al., 1990; Och and Ney, 2003

apud Jurafsky, 2009) e em modelação de tópicos (Blei et al., 2003 apud Jurafsky, 2009),

que tem demonstrado que aplicações efetivas podem construir sistemas que trabalhem sozinhos sobre dados não anotados. A dificuldade de obter dados supervisionados fiáveis fez com que houvesse um aumento nas técnicas e abordagens não supervisionadas.

2.3.2. Contribuições do processamento automático de língua no nível morfológico

In document ESA DUE Innovator III SAR for REDD – D2.3 Final Report. (5/2018) (sider 42-0)