• No results found

5. Virksomhetsidentitet og organisasjonsidentitet – i samsvar eller dekoplet?

5.3 Identiteter: dekoplet eller konsistent?

5.3.1 Tvetydig kommunikasjon om samfunnsansvar: filantropisk eller legalt?

O pro esso empregado noestudode aso des ritonaSeção3.2 paraidenti arexpres-

sõesde posi ionamentoem do umentosdaWeb baseiase emdois onjuntosde dados:

(1)nomesde pontosde referên ia; e(2)expressõesregulares representandoasrelações

espa iais. Nalínguaportuguesa,asrelaçõesespa iais onstituemum onjuntoestáti o

epequeno. Emnossa oleção,amaioriadasexpressõesde posi ionamentoidenti adas

ontêm o mesmo sub onjunto de relações espa iais: as dez mais freqüentes o orrem

em er a de 90% das expressões de posi ionamento, enquanto que as vinte seguintes

são en ontradas nos 10% restantes (Tabela3.2). Os elementos do onjunto de nomes

de pontos de referên ia foramsele ionados om base apenas no onhe imento de Belo

Horizonteadquiridopeloautore seus olegas. Apesar de dis utivelmenteessa ser uma

limitação, é importante observar que a maioria dos envolvidos vive na idade há dé-

adas; alguns trabalham om o SIG muni ipal há mais de 15 anos e estão, portanto,

familiarizados omosprin ipaispontosde referên iada idade. Entretanto,apesar do

esforço para torná-lo o mais ompleto e representativo possível, osresultados mostra-

ramqueestávamoslongedeatingeresseobjetivo: dos225pontosdereferên iadistintos

identi ados, 91não perten iam à lista ini ial de nomes eforam en ontrados durante

o pro esso de lassi ação. Alémdisso, ao ontrário do quefoi observado om relação

fato sugere que, à medida que o tamanhodo onjunto de pontos de referên ia res e,

as han es de en ontrarmos expressões de posi ionamento notexto de um do umento

aumentam.

A fonte habitual para nomes de lugares é um gazetteer (Hill, 2000). Mesmo exis-

tindováriosgazetteersdisponíveisnaWeb, omoADL Gazetteer 5 ,GNS 6 eGNIS 7 ,eles

geralmente possuem dados ompletos e atualizados apenas para países desenvolvidos,

espe ialmente os Estados Unidos. No Brasil e em muitos países em desenvolvimento,

fontesde dados omoessas en ontramseemestágioini ialde riaçãoousimplesmente

não existem. Mesmo os gazetteers itados na literatura omo fonte de nomes de en-

tidades geográ as do mundo inteiro ontêm muito pou a informação. Além disso, a

maioriados lugaresrefereseadivisõesgeopolíti as(áreasadministrativas)e are ur-

sos hidrográ os ou hipsográ os, apresentando uma de iên ia em termos de dados

de lo ais intraurbanos, ara terísti a típi a dos pontos de referên ia. O GNS, por

exemplo, ontém 87.608 nomes de lo ais e lugares noBrasil. Esses dados en ontram

se desatualizados (98% dos registros foram inseridos ou atualizados entre 1993-1999)

e não há distinção entre nomes atuais e antigos (ex.: os nomes `Território de Gua-

poré' e`Território de Rondnia' referemse ao`Estadode Rondnia'). Otipo de lo al

intraurbanomais freqüente, `es ola', possui tão somente 332 registros. Para efeitode

omparação, o GNIS possui atalogadas, apenas para o estado de Nova York/EUA,

4.961 es olas.

Mesmo se fssemos apazes de enumerar todos os pontos de referên ia de Belo

Horizonte, ainda assimteríamosproblemas, poisoemprego de um pontode referên ia

em uma expressãode posi ionamentoestá intimamenteligadoao ontexto onde elese

insere. Mudanças no ambiente podem interferir na forma omo um lo al é utilizado

omo um ponto de referên ia. A paisagem urbana, que serve de ontexto para as

referên ias geográ as, muda muito rapidamente, a arretando a ne essidade de uma

atualização onstantedogazetteer. Lo ais antes relevantes e empregados omo pontos

de referên ia podem perdera importân iaaolongo dotempo,passando aser ada vez

menos utilizados omoreferên ia. Domesmomodo, novos lo ais podemsurgir elo ais

antigos podemre eber novasdenominações. A in orporaçãodesses nomesde lo ais na

ultura lo alé o fatorque determinaráo seu emprego omo um pontode referên ia.

Para superar essarestrição omrelaçãoaoemprego degazetteers,foiimplementado

um método de identi ação de expressões de posi ionamento que fun iona de forma

independente, sem a ne essidade de um repositório de nomes de pontosde referên ia,

projetado ombasenosdadosresumidosnaTabela3.6. Essa tabelaexibeasdistân ias

5

http://www.alexandria.u sb.edu/gazetteer

6

http://gnswww.nga.mil/geonames/GNS

Tabela 3.6: Distân ia média, em palavras, entre a relação espa ial e o ponto de refe-

rên ia, por ategoria de relaçõesespa iais.

Tre hoInválidos Tre hos Válidos

Relações Espa iais Distân ia Média

Fuzzy 3,18 0,28

Métri a 3,00 0,08

Dire ionais 2,85 0,07

Topológi a 2,61 0,13

Geral 2,93 0,17

médias, empalavras,medidas entre as relações espa iaise ospontosde referên ia dos

tre hos válidos e inválidos, assim lassi ados noestudo de aso de Belo Horizonteda

Seção 3.2. Pelosdados databela, éfá ilper eberque,emumaexpressãode posi iona-

mento(tre hos válidos),arelaçãoespa ialeopontode referên iaen ontramsemuito

próximos, prati amentenão existindo outras palavras entre eles. Já nos tre hos invá-

lidos, onde o par

h

relação espa ial, ponto de referên ia

i

não onstitui uma expressão de posi ionamento, a distân ia entre eles é bemmaior, quase três palavras na média.

Essa ara terísti aéválidaatémesmopararelaçõesespa iais omo`pertode' e`dentro

de', empregadasem vários outros ontextos quenão o geográ o quando apare em

em uma expressão de posi ionamento a distân ia média entre elas e os respe tivos

pontos de referên ia é próxima de zero. Dessa forma, podemos assumir que, em uma

expressão de posi ionamento, o nome de um ponto de referên ia o orre logo após a

relação espa ial.

Com base nas observações a ima, oprograma extrator de padrões textuais empre-

gado anteriormente no pro esso de re onhe imento de expressões de posi ionamento

foiadaptadoparatrabalharapenas omum onjunto

R

deexpressõesregulares des re- vendo as relações espa iais, dispensando o uso de um repositório de nomes de pontos

de referên ia. Abordagem semelhante é empregada no produto omer ial Geographi

Text Sear h (GTS), da empresa Meta arta 8

para identi ar nomes de lugares e em

Pas a(2004) parare onhe er ategorias enomesprópriosemdo umentosdaWeb. Na

Figura 3.6, um pseudoalgoritmo resumeo fun ionamentodoextrator.

Para ada asamento bem su edido de um elemento de

R

em um texto

T

, uma rotina responsável por identi ar um nome de lugar é exe utada. Essa rotina ini ia a

pesquisa na posição do texto imediatamente posterior àquela onde a relação espa ial

foi en ontrada. Aidenti açãode nomesbaseiase nao orrên ia de letrasmaiús ulas,

empregadas nalínguaportuguesa paradiferen iarnomespróprios,e emoutras heurís-

Figura3.6: Fun ionamentoresumido doextrator.

ti as de pro essamentode texto. Sinais de pontuação omo `.',`)' e `!', tags HTML 9

e palavrasem minús ulasdelimitamo m de um nome.

Oextrator é apaz de identi arexpressões de posi ionamento ontendo três tipos

de nome de lo al, omo ilustrado nos exemplos abaixo, retirados dos do umentos da

oleção:

1. nome próprio: (...)a duas quadras da Praça da Liberdade<>, (...)ao lado

do Minas entro.;

2. nome genéri o: (...)perto do entro., (próximo àprefeitura);

3. nome misto, uma omposição dos tipos a ima: (...)em frente ao estádio do

Mineirão., A2 km doaeroporto da Pampulha existe um(...);

Alémdasexpressõesdeposi ionamentoilustradas,ondeo orreapenasumpontode

referên ia, háaindatratamentoparaasexpressõesdeposi ionamentoondemaisdeum

lo al é referen iado pela relação espa ial, as hamadas expressões de posi ionamento

ompostas, omo,porexemplo,(...)pertodoMinas entro edoMer ado Central..

Oextrator foi alibradoutilizandoos909 tre hos de Belo Horizonte ontendouma

expressão de posi ionamento, atingindo uma pre isão de quase 99% na identi ação

orreta dos nomes dos pontos de referên ia, omo ilustra a Tabela 3.7. Utilizando

o extrator em nossa oleção de do umentos da Web, foi possível identi ar 29.645

expressões de posi ionamento, om 13.512pontos de referên iadistintos. A qualidade

dessa extração foi veri ada mediante uma análise por amostragem do onjunto de

expressõesdeposi ionamentoextraídas. Otamanhodaamostraavaliada, er ade 500

registros, foideterminado porum pro esso estatísti o, de modoque,para um nível de

onançade95%,épossívelarmarque89,6

±

4,0%dasexpressõesdeposi ionamento são válidas. Umvalormaispre iso,ouseja, om umamargemde erro menor,pode ser

obtido aumentandose o tamanho da amostraavaliada.

Esse índi e atribuídoà qualidade daextração, um valorque pode ser onsiderado

satisfatório,pode sermelhoradomedianteumaanálisemais ompletaeindividualizada

do onjunto de expressões de posi ionamento extraídas. Identi andose asprin ipais

Tabela3.7: Desempenhodoextratorpara asexpressõesde posi ionamentodostre hos

de Belo Horizonte. As por entagens referemse ao valordoitem no nível superior.

Des rição O orrên ias

Total 909 100.00%

Pontode referên ia não en ontrado 126 13.86%

Pontode referên ia en ontrado 783 86.14%

Nome orreto 774 98.85%

Nome in orreto 9 1.15%

expressões queapare em após ada uma das relações espa iaise quesão onsideradas

pelo extrator um lo al, quando na verdade não são, é possível riar uma lista de

stopwords, expressões a serem des onsideradas peloextrator, diminuindo a in idên ia

defalsospositivos. Parailustrar,aspalavras`TV',`Deus',`Senhor'e`Estado'apare em

asso iadasa expressõesquedenotam relaçõesespa iais om erta freqüên ia, omoem

`perto de Deus', `em frenteà TV', `no oraçãodo Senhor' e `dentro doEstado'.

Um dado que hamou atenção foi a quantidade de do umentos ontendo uma ou

maisexpressõesdeposi ionamento11.485dos75.410do umentos,oque orresponde

a 15,23% uma por entagem expressiva se omparada àquelas en ontradas para ou-

tros lo alizadores geográ os, omo, por exemplo, ódigos postais (4,5%) e números

de telefone (8,5%) (M Curley, 2001). Esse resultado pode ser ontestado, uma vez

que os do umentos da oleçãoforam sele ionados justamente por onterem pontos de

referên ianotórios,o quepoderiatornara oleção propensa àexistên iade expressões

de posi ionamento. Desse modo,oextrator foiapli adoauma outra oleção,aWBR05,

omposta por quase 3,6milhõesde do umentos oletados de sites daWeb brasileira 10

em março de 2005. Como resultado, 213.093 expressões de posi ionamento ontendo

51.108 pontos de referên ia distintos foram extraídos. No aso da WBR05, 3,6% dos

do umentospossuem uma ou mais expressões de posi ionamento, om uma média de

1,6 expressões por do umento. Podese per eber, portanto, que a quantidade de ex-

pressões de posi ionamento nos do umentos de Belo Horizonte, bem a ima do valor

en ontrado para a WBR05, devese à forma om que a oleção foi obtida, tornandoa

propensaaapresentaressetipode onstrução. Nãoobstante,ovaloren ontradoé om-

patível om o de outras fontes de ontexto geográ o, o que onrma a importân ia

das expressões de posi ionamento.

10