5. Virksomhetsidentitet og organisasjonsidentitet – i samsvar eller dekoplet?
5.3 Identiteter: dekoplet eller konsistent?
5.3.1 Tvetydig kommunikasjon om samfunnsansvar: filantropisk eller legalt?
O pro esso empregado noestudode aso des ritonaSeção3.2 paraidenti arexpres-
sõesde posi ionamentoem do umentosdaWeb baseiase emdois onjuntosde dados:
(1)nomesde pontosde referên ia; e(2)expressõesregulares representandoasrelações
espa iais. Nalínguaportuguesa,asrelaçõesespa iais onstituemum onjuntoestáti o
epequeno. Emnossa oleção,amaioriadasexpressõesde posi ionamentoidenti adas
ontêm o mesmo sub onjunto de relações espa iais: as dez mais freqüentes o orrem
em er a de 90% das expressões de posi ionamento, enquanto que as vinte seguintes
são en ontradas nos 10% restantes (Tabela3.2). Os elementos do onjunto de nomes
de pontos de referên ia foramsele ionados om base apenas no onhe imento de Belo
Horizonteadquiridopeloautore seus olegas. Apesar de dis utivelmenteessa ser uma
limitação, é importante observar que a maioria dos envolvidos vive na idade há dé-
adas; alguns trabalham om o SIG muni ipal há mais de 15 anos e estão, portanto,
familiarizados omosprin ipaispontosde referên iada idade. Entretanto,apesar do
esforço para torná-lo o mais ompleto e representativo possível, osresultados mostra-
ramqueestávamoslongedeatingeresseobjetivo: dos225pontosdereferên iadistintos
identi ados, 91não perten iam à lista ini ial de nomes eforam en ontrados durante
o pro esso de lassi ação. Alémdisso, ao ontrário do quefoi observado om relação
fato sugere que, à medida que o tamanhodo onjunto de pontos de referên ia res e,
as han es de en ontrarmos expressões de posi ionamento notexto de um do umento
aumentam.
A fonte habitual para nomes de lugares é um gazetteer (Hill, 2000). Mesmo exis-
tindováriosgazetteersdisponíveisnaWeb, omoADL Gazetteer 5 ,GNS 6 eGNIS 7 ,eles
geralmente possuem dados ompletos e atualizados apenas para países desenvolvidos,
espe ialmente os Estados Unidos. No Brasil e em muitos países em desenvolvimento,
fontesde dados omoessas en ontramseemestágioini ialde riaçãoousimplesmente
não existem. Mesmo os gazetteers itados na literatura omo fonte de nomes de en-
tidades geográ as do mundo inteiro ontêm muito pou a informação. Além disso, a
maioriados lugaresrefereseadivisõesgeopolíti as(áreasadministrativas)e are ur-
sos hidrográ os ou hipsográ os, apresentando uma de iên ia em termos de dados
de lo ais intraurbanos, ara terísti a típi a dos pontos de referên ia. O GNS, por
exemplo, ontém 87.608 nomes de lo ais e lugares noBrasil. Esses dados en ontram
se desatualizados (98% dos registros foram inseridos ou atualizados entre 1993-1999)
e não há distinção entre nomes atuais e antigos (ex.: os nomes `Território de Gua-
poré' e`Território de Rondnia' referemse ao`Estadode Rondnia'). Otipo de lo al
intraurbanomais freqüente, `es ola', possui tão somente 332 registros. Para efeitode
omparação, o GNIS possui atalogadas, apenas para o estado de Nova York/EUA,
4.961 es olas.
Mesmo se fssemos apazes de enumerar todos os pontos de referên ia de Belo
Horizonte, ainda assimteríamosproblemas, poisoemprego de um pontode referên ia
em uma expressãode posi ionamentoestá intimamenteligadoao ontexto onde elese
insere. Mudanças no ambiente podem interferir na forma omo um lo al é utilizado
omo um ponto de referên ia. A paisagem urbana, que serve de ontexto para as
referên ias geográ as, muda muito rapidamente, a arretando a ne essidade de uma
atualização onstantedogazetteer. Lo ais antes relevantes e empregados omo pontos
de referên ia podem perdera importân iaaolongo dotempo,passando aser ada vez
menos utilizados omoreferên ia. Domesmomodo, novos lo ais podemsurgir elo ais
antigos podemre eber novasdenominações. A in orporaçãodesses nomesde lo ais na
ultura lo alé o fatorque determinaráo seu emprego omo um pontode referên ia.
Para superar essarestrição omrelaçãoaoemprego degazetteers,foiimplementado
um método de identi ação de expressões de posi ionamento que fun iona de forma
independente, sem a ne essidade de um repositório de nomes de pontosde referên ia,
projetado ombasenosdadosresumidosnaTabela3.6. Essa tabelaexibeasdistân ias
5
http://www.alexandria.u sb.edu/gazetteer
6
http://gnswww.nga.mil/geonames/GNS
Tabela 3.6: Distân ia média, em palavras, entre a relação espa ial e o ponto de refe-
rên ia, por ategoria de relaçõesespa iais.
Tre hoInválidos Tre hos Válidos
Relações Espa iais Distân ia Média
Fuzzy 3,18 0,28
Métri a 3,00 0,08
Dire ionais 2,85 0,07
Topológi a 2,61 0,13
Geral 2,93 0,17
médias, empalavras,medidas entre as relações espa iaise ospontosde referên ia dos
tre hos válidos e inválidos, assim lassi ados noestudo de aso de Belo Horizonteda
Seção 3.2. Pelosdados databela, éfá ilper eberque,emumaexpressãode posi iona-
mento(tre hos válidos),arelaçãoespa ialeopontode referên iaen ontramsemuito
próximos, prati amentenão existindo outras palavras entre eles. Já nos tre hos invá-
lidos, onde o par
h
relação espa ial, ponto de referên iai
não onstitui uma expressão de posi ionamento, a distân ia entre eles é bemmaior, quase três palavras na média.Essa ara terísti aéválidaatémesmopararelaçõesespa iais omo`pertode' e`dentro
de', empregadasem vários outros ontextos quenão o geográ o quando apare em
em uma expressão de posi ionamento a distân ia média entre elas e os respe tivos
pontos de referên ia é próxima de zero. Dessa forma, podemos assumir que, em uma
expressão de posi ionamento, o nome de um ponto de referên ia o orre logo após a
relação espa ial.
Com base nas observações a ima, oprograma extrator de padrões textuais empre-
gado anteriormente no pro esso de re onhe imento de expressões de posi ionamento
foiadaptadoparatrabalharapenas omum onjunto
R
deexpressõesregulares des re- vendo as relações espa iais, dispensando o uso de um repositório de nomes de pontosde referên ia. Abordagem semelhante é empregada no produto omer ial Geographi
Text Sear h (GTS), da empresa Meta arta 8
para identi ar nomes de lugares e em
Pas a(2004) parare onhe er ategorias enomesprópriosemdo umentosdaWeb. Na
Figura 3.6, um pseudoalgoritmo resumeo fun ionamentodoextrator.
Para ada asamento bem su edido de um elemento de
R
em um textoT
, uma rotina responsável por identi ar um nome de lugar é exe utada. Essa rotina ini ia apesquisa na posição do texto imediatamente posterior àquela onde a relação espa ial
foi en ontrada. Aidenti açãode nomesbaseiase nao orrên ia de letrasmaiús ulas,
empregadas nalínguaportuguesa paradiferen iarnomespróprios,e emoutras heurís-
Figura3.6: Fun ionamentoresumido doextrator.
ti as de pro essamentode texto. Sinais de pontuação omo `.',`)' e `!', tags HTML 9
e palavrasem minús ulasdelimitamo m de um nome.
Oextrator é apaz de identi arexpressões de posi ionamento ontendo três tipos
de nome de lo al, omo ilustrado nos exemplos abaixo, retirados dos do umentos da
oleção:
1. nome próprio: (...)a duas quadras da Praça da Liberdade<>, (...)ao lado
do Minas entro.;
2. nome genéri o: (...)perto do entro., (próximo àprefeitura);
3. nome misto, uma omposição dos tipos a ima: (...)em frente ao estádio do
Mineirão., A2 km doaeroporto da Pampulha existe um(...);
Alémdasexpressõesdeposi ionamentoilustradas,ondeo orreapenasumpontode
referên ia, háaindatratamentoparaasexpressõesdeposi ionamentoondemaisdeum
lo al é referen iado pela relação espa ial, as hamadas expressões de posi ionamento
ompostas, omo,porexemplo,(...)pertodoMinas entro edoMer ado Central..
Oextrator foi alibradoutilizandoos909 tre hos de Belo Horizonte ontendouma
expressão de posi ionamento, atingindo uma pre isão de quase 99% na identi ação
orreta dos nomes dos pontos de referên ia, omo ilustra a Tabela 3.7. Utilizando
o extrator em nossa oleção de do umentos da Web, foi possível identi ar 29.645
expressões de posi ionamento, om 13.512pontos de referên iadistintos. A qualidade
dessa extração foi veri ada mediante uma análise por amostragem do onjunto de
expressõesdeposi ionamentoextraídas. Otamanhodaamostraavaliada, er ade 500
registros, foideterminado porum pro esso estatísti o, de modoque,para um nível de
onançade95%,épossívelarmarque89,6
±
4,0%dasexpressõesdeposi ionamento são válidas. Umvalormaispre iso,ouseja, om umamargemde erro menor,pode serobtido aumentandose o tamanho da amostraavaliada.
Esse índi e atribuídoà qualidade daextração, um valorque pode ser onsiderado
satisfatório,pode sermelhoradomedianteumaanálisemais ompletaeindividualizada
do onjunto de expressões de posi ionamento extraídas. Identi andose asprin ipais
Tabela3.7: Desempenhodoextratorpara asexpressõesde posi ionamentodostre hos
de Belo Horizonte. As por entagens referemse ao valordoitem no nível superior.
Des rição O orrên ias
Total 909 100.00%
Pontode referên ia não en ontrado 126 13.86%
Pontode referên ia en ontrado 783 86.14%
Nome orreto 774 98.85%
Nome in orreto 9 1.15%
expressões queapare em após ada uma das relações espa iaise quesão onsideradas
pelo extrator um lo al, quando na verdade não são, é possível riar uma lista de
stopwords, expressões a serem des onsideradas peloextrator, diminuindo a in idên ia
defalsospositivos. Parailustrar,aspalavras`TV',`Deus',`Senhor'e`Estado'apare em
asso iadasa expressõesquedenotam relaçõesespa iais om erta freqüên ia, omoem
`perto de Deus', `em frenteà TV', `no oraçãodo Senhor' e `dentro doEstado'.
Um dado que hamou atenção foi a quantidade de do umentos ontendo uma ou
maisexpressõesdeposi ionamento11.485dos75.410do umentos,oque orresponde
a 15,23% uma por entagem expressiva se omparada àquelas en ontradas para ou-
tros lo alizadores geográ os, omo, por exemplo, ódigos postais (4,5%) e números
de telefone (8,5%) (M Curley, 2001). Esse resultado pode ser ontestado, uma vez
que os do umentos da oleçãoforam sele ionados justamente por onterem pontos de
referên ianotórios,o quepoderiatornara oleção propensa àexistên iade expressões
de posi ionamento. Desse modo,oextrator foiapli adoauma outra oleção,aWBR05,
omposta por quase 3,6milhõesde do umentos oletados de sites daWeb brasileira 10
em março de 2005. Como resultado, 213.093 expressões de posi ionamento ontendo
51.108 pontos de referên ia distintos foram extraídos. No aso da WBR05, 3,6% dos
do umentospossuem uma ou mais expressões de posi ionamento, om uma média de
1,6 expressões por do umento. Podese per eber, portanto, que a quantidade de ex-
pressões de posi ionamento nos do umentos de Belo Horizonte, bem a ima do valor
en ontrado para a WBR05, devese à forma om que a oleção foi obtida, tornandoa
propensaaapresentaressetipode onstrução. Nãoobstante,ovaloren ontradoé om-
patível om o de outras fontes de ontexto geográ o, o que onrma a importân ia
das expressões de posi ionamento.
10