3 Bakgrunn
4.1 Nylig stiftet gjeld
4.1.3 Departementets vurderinger og forslag
A tabela 3.2 apresenta a caracterizac~ao basica de cada carga, a saber, o numero de re- quisic~oes, o total de bytes transmitidos, o tamanho medio das requisic~oes e a mediana. No total s~ao analisadas 8 746 315 requisic~oes que compreendem mais de 110 gigabytes de dados transmitidos. A primeira observac~ao e que o crescimento da WWW e re etido na tabela. Analisando os dados dos registros mais antigos para os mais recentes, nota-se um numero crescente de requisic~oes e bytes transmitidos para espacos de tempo cada vez menores (o perodo no qual cada carga foi registrada esta na tabela 3.1). Por exemplo, o
numero diario de requisic~oes registrado no POP-MG no incio de 1999 (carga POP99) e tr^es vezes maior do que o registrado no nal de 1997 (carga POP98).
Carga Requis. Bytes Media Mediana Menor Maior Maior
Mediana BL 53399 672807109 12600 2654 8 7949704 2995 BR 179600 10070970465 56074 1999 18 10032887 5018 U 173597 2070556791 11927 2268 1 18825928 8300 NASA 1385259 26766987833 19323 4179 28 3421948 819 POP98 2111766 19142569124 9065 3235 17 20983009 6486 Portugal 1193404 10780304335 9033 2779 51 17919100 6448 POP99hug 1121747 11505589326 10257 2929 17 27164215 9274 POP99zez 1120830 17062836909 15223 2905 16 66017537 22725 NLANR-uc 800534 11291886105 14105 3461 51 53702937 15516 NLANR-bo1 606179 9028332340 14894 3683 51 49977774 13569
Tab ela 3.2: Caracterizac~ao das requisic~oes: numero, total de bytes transmitidos e ndices de dispers~ao
para o tamanho. A ultima coluna e a divis~ao do tamanho do maior documento pela mediana.
A observac~ao dos dados revela evid^encias de variabilidade. A mediana esta entre 2 e 3.7 kbytes. A media esta entre 9 e 19 kbytes, com excec~ao para a carga BR. Esta carga contem requisic~oes repetidas para arquivos de audio, que s~ao muito grandes, e elevam a media para 56 kbytes. O fato de a mediana ser menor do que a media indica que os dados seguem uma distribuic~ao com cauda a direita. Os maiores documentos s~ao da ordem de 107, seis ordens
de grandeza maiores do que os menores documentos. Estes ndices de dispers~ao p~oem em evid^encia a grande variabilidade existente nos tamanhos das requisic~oes. A ultima coluna da tabela 3.2 revela que milhares de documentos de tamanho igual a mediana podem ocupar o mesmo lugar de apenas um dos maiores arquivos.
A gura 3.1 mostra a distribuic~ao de probabilidade acumulada dos tamanhos de cada sequ^encia de requisic~oes. A ideia n~ao e identicar cada curva em particular, mas mos- trar que o comportamento das distribuic~oes e bastante similar. Para todas as cargas, as requisic~oes de tamanho pequeno s~ao a maioria. Ha tambem um numero pequeno de re- quisic~oes muito grandes. O eixo x esta em escala logartmica. As cargas NASA e BR se
diferenciam das demais cargas. BR apresenta um numero maior de requisic~oes pequenas, menores do que 1 kbyte. Ambas apresentam um numero maior de requisic~oes grandes do que as outras cargas. Este comportamento e consistente com os valores das medias e medianas apresentados na tabela 3.2.
A distribuic~ao de Pareto e apontada em (Crovella e Bestavros, 1995) e (Arlitt e Wil- liamson, 1996) como a que melhor representa os tamanhos dos objetos da WWW, enquanto (Abdulla, 1998) indica as distribuic~oes lognormal e Weibull para representar os tamanhos. Em (Barford e Crovella, 1998), os autores prop~oem que a caracterizac~ao dos tamanhos dos objetos da WWW seja feita por duas distribuic~oes, uma para representar o corpo da distribuic~ao, que inclui a maioria das requisic~oes, e outra para caracterizar a cauda. O corpo seria caracterizado pela distribuic~ao lognormal, enquanto a cauda seria melhor representada pela distribuic~ao de Pareto.
Para mostrar a variabilidade, estamos interessados na distribuic~ao que representa a 28
0 0.2 0.4 0.6 0.8 1
1 10 100 1000 10000 100000 1e+06 1e+07 1e+08
P[Tamanho<=x] Tamanho (bytes) bl br u nasa pop98 portugal hug zez bo1 uc
Figura3.1: Distribuic~ao de probabilidade acumulada emprica dos tamanhos das requisic~oes para todas
as cargas.
cauda. A gura 3.2 mostra em um graco log-log o complemento da distribuic~ao de pro- babilidade para as sequ^encias de requisic~oes e para as func~oes exponencial e Pareto. Neste graco, a inclinac~ao da curva indica o valor do par^ametro para a distribuic~ao de cauda
pesada correspondente. Por exemplo, a reta correspondente a distribuic~ao de Pareto tem
= 1:3. O graco demonstra que as caudas de todas as cargas t^em decaimento similar ao
apresentado pela distribuic~ao de Pareto para tamanhos entre 104 e 106. As cargas NASA,
BR e BL apresentam decaimento rapido para valores de tamanho maiores que 106 (extremo
da cauda) enquanto as cargas restantes continuam seguindo Pareto.
Os metodosscaling e CDPlot (Crovella e Taqqu, 1999) foram utilizados para estimar os
valores depara todas as cargas. Os resultados est~ao na coluna \requisic~oes" da tabela 3.4.
Os valores de , entre 0.85 e 1.5, conrmam as evid^encias de que as distribuic~oes s~ao de
cauda pesada, exibindo, portanto, grande variabilidade.
As diferencas nos valores de estimados pelos dois metodos devem-se a propria ela-
-7 -6 -5 -4 -3 -2 -1 0 0 1 2 3 4 5 6 7 8 Log10 (P[Tamanho>x]) Log10 (Tamanho) exponencial br nasa pareto bl br u nasa pop98 portugal hug zez bo1 uc
Figura 3.2: Cauda da distribuic~ao de probabilidade emprica dos tamanhos das requisic~oes para todas
as cargas e para as func~oes exponencial e Pareto.
borac~ao dos metodos. O metodo CDPlot consiste em estimar a inclinac~ao do decaimento da cauda. Para isso e necessario denir um valor inicial a partir do qual o comportamento da lei de pot^encia que dene a cauda pesada se inicia. Para arquivos WWW, este valor esta em torno de 104 (Crovella e Taqqu, 1999). Uma escolha apropriada deste valor e
importante porque in uencia a estimativa de. O metodoscaling elimina este problema,
mas apresenta algumas tend^encias que podem mascarar os resultados. Sua estimativa e mais precisa para valores menores de e para conjuntos grandes de dados (acima de cem
mil numeros). Este metodo agrega pontos de dados na distribuic~ao e calcula a distribuic~ao complementar do conjunto de dados agregado. Se a distribuic~ao apresenta cauda pesada ent~ao as caudas dos conjuntos formados por agregac~oes sucessivas dos dados ser~ao aproxi- madamente paralelas com inclinac~ao ?. Apesar das diferencas nas estimativas dos dois
metodos, todos os valores encontrados conrmam que as distribuic~oes apresentam cauda pesada.
Pelos valores das medianas e dos tamanhos das maiores requisic~oes, mostrados na ta- bela 3.2, podemos observar um crescimento do tamanho dos arquivos ao longo do tempo. As cargas de cache de rede registradas em 1998 e 1999 apresentam medianas maiores do que as medianas das cargas registradas anteriormente. Esta informac~ao pode ser reforcada pela observac~ao de que as cargas de 1999 tambem registram os maiores arquivos trans- mitidos. Este crescimento no tamanho das respostas e conrmado em (Abdulla, 1998). Paralelamente, n~ao foi registrado nenhum aumento no tamanho do menor documento.