9A ved Vestkantskulen
3.3.3 Etikk, personvern og å lytta til røystene til born
Nos experimentos, foram utilizados conjuntos de dados1cujas classes são estruturados hie-
rarquicamente como árvores e grafos. Os dados são relacionados à tarefa de predição de funções de proteínas, e as taxonomias hierárquicas nas quais as classes estão estruturadas são organi- zadas de acordo com dois esquemas muito utilizados na literatura, o esquema FunCat (Ruepp
et al., 2004) e a Gene Ontology (GO) (Ashburner et al., 2000). Os atributos nos conjuntos de
dados estruturados como árvores e grafos são os mesmos. A única mudança é o esquema de organização das classes. Esses dois esquemas são descritos a seguir.
O esquema FunCat é um dos mais populares esquemas de organização funcional de pro- teínas de origem eucariótica e procariótica. Sua hierarquia é organizada em uma árvore com até seis níveis de profundidade, possuindo 28 categorias principais (classes do primeiro nível hierárquico) relacionadas a funções protéicas como transporte celular, metabolismo, comunica- ção celular e ciclo celular (Ruepp et al.,2004). A Figura6.1ilustra parte do esquema FunCat. Como pode ser observado, uma classe é separada de sua subclasse pelo símbolo “·”. Dessa forma, a classe Amino acid metabolism (01.01) é uma subclasse da classe Metabolism (01).
A Tabela 6.1 apresenta as principais características dos conjuntos de dados utilizados nos experimentos envolvendo hierarquias estruturadas como árvores. Outras características desses dados são apresentadas nas Tabelas6.2e6.3. Por meio dos valores apresentados na Tabela6.2, é possível observar que muito poucos exemplos possuem classes nos últimos níveis hierárquicos, o que torna a tarefa de classificação muito difícil nesses níveis.
Um segundo esquema de organização hierárquica utilizado foi a Gene Ontology, que orga- niza as classes em uma ontologia de termos, na qual cada termo representa uma função pro- téica. A taxonomia daGOé organizada como um grafo acíclico direcionado (Directed Acyclic Graph(DAG)). Trata-se de um conjunto de três ontologias, cada uma cobrindo um domínio diferente. Os domínios cobertos são componentes celulares, processos biológicos e funções moleculares (Ashburner et al., 2000), possuindo milhares de classes. As hierarquias dos con- juntos de dados utilizados possuem mais de 4 mil classes. A Figura6.2ilustra um exemplo de parte da taxonomia de termos daGO.
01 - Metabolism -
- 01.01 - Amino acid metabolism
+ 01.01.03 - Assimilation of ammonia, metabolism of the glutamate group + 01.01.05 - Metabolism of urea cycle, creatine and polyamines
- 01.01.06 - Metabolism of the aspartate family + 01.01.06.01 - Metabolism of aspartate + 01.01.06.02 - Metabolism of asparagine + 01.01.06.04 - Metabolism of threonine - 01.01.06.05 - Metabolism of methionine - 01.01.06.05.01 - Biosynthesis of methionine 01.01.06.05.01.01 - Biosynthesis of homocysteine 01.01.06.05.01.02 - Degradation of homocysteine 01.01.06.05.02 - Degradation of methionine + 01.01.06.06 - Metabolism of lysine
+ 01.01.09 - Metabolism of the cysteine - aromatic group + 01.01.11 - Metabolism of the pyruvate family
01.01.13 - Regulation of amino acid metabolism + 01.25 - Extracellular metabolism
+ 02 - Energy + 04 - Storage protein
10 - Cell cycle and DNA processing -
- 10.01 - DNA processing
+ 10.01.01 - Cellular DNA updake 10.01.02 - DNA topology
- 10.01.03 - DNA synthesis and replication
10.01.03.03 - Ori recognition and priming complex formation 10.01.03.05 - Extension/polymerization activity
Figura 6.1: Parte do esquema de classificação FunCat. Adaptado de http://mips.
helmholtz-muenchen.de/proj/funcatDB.
Tabela 6.1: Características dos conjuntos de dados estruturados como árvores. A tabela mostra o número de atributos (|A|), o número de classes (|C|), o número total de exemplos (Total) e o número total de exemplos multirrótulo (Multirrótulo).
Conjunto de dados |A| |C| Total TreinamentoMultirrótulo Total ValidaçãoMultirrótulo Total TesteMultirrótulo
Cellcycle 77 499 1628 1323 848 673 1281 1059 Church 27 499 1630 1322 844 670 1281 1057 Derisi 63 499 1608 1309 842 671 1275 1055 Eisen 79 461 1058 900 529 441 837 719 Expr 551 499 1639 1328 849 674 1291 1064 Gasch1 173 499 1634 1325 846 672 1284 1059 Gasch2 52 499 1639 1328 849 674 1291 1064 Pheno 69 455 656 537 353 283 582 480 Seq 478 499 1701 1344 879 679 1339 1079 Spo 80 499 1600 1301 837 666 1266 1047
Tabela 6.2: Estatísticas dos conjuntos de dados estruturados como árvores. A tabela mostra, em cada nível, o número médio de exemplos por classe e o número médio de classes por exemplo.
Conjunto de dados N1 Número médio de exemplos por classeN2 N3 N4 N5 N6 N1 Número médio de classes por exemploN2 N3 N4 N5 N6 Treinamento Cellcycle 90.44 20.12 8.26 6.86 3.93 2.75 2.40 2.84 2.18 1.06 0.22 0.006 Church 90.55 20.15 8.28 6.87 3.92 2.75 2.40 2.83 2.18 1.05 0.22 0.006 Derisi 89.33 19.87 8.17 6.82 3.89 2.75 2.41 2.85 2.19 1.06 0.22 0.006 Eisen 58.77 13.86 6.04 5.09 3.13 2.00 2.48 2.98 2.35 1.13 0.24 0.007 Expr 91.05 20.26 8.32 6.89 3.93 2.75 2.39 2.83 2.17 1.05 0.22 0.006 Gasch1 90.77 20.20 8.29 6.88 3.93 2.75 2.39 2.83 2.17 1.05 0.22 0.006 Gasch2 91.05 20.26 8.32 6.89 3.93 2.75 2.39 2.83 2.17 1.05 0.22 0.006 Pheno 36.44 8.77 3.59 3.12 2.04 1.50 2.54 3.01 2.29 1.08 0.23 0.009 Seq 94.50 20.48 8.42 6.97 3.96 2.75 2.37 2.78 2.13 1.03 0.21 0.006 Spo 88.88 19.77 8.13 6.78 3.88 2.75 2.40 2.84 2.19 1.06 0.22 0.006 Validação Cellcycle 47.11 10.45 4.24 3.46 2.12 2.50 2.39 2.79 2.13 1.02 0.22 0.011 Church 46.88 10.40 4.22 3.45 2.12 2.50 2.39 2.79 2.13 1.02 0.22 0.011 Derisi 46.77 10.38 4.21 3.44 2.12 2.50 2.40 2.80 2.14 1.01 0.23 0.011 Eisen 29.38 6.90 2.98 2.46 1.55 1.75 2.47 2.93 2.28 1.10 0.23 0.013 Expr 47.16 10.46 4.25 3.47 2.12 2.50 2.39 2.79 2.13 1.02 0.22 0.011 Gasch1 47.00 10.42 4.23 3.45 2.12 2.50 2.39 2.79 2.13 1.02 0.22 0.011 Gasch2 47.16 10.46 4.25 3.47 2.12 2.50 2.39 2.79 2.13 1.02 0.22 0.011 Pheno 19.61 4.71 1.91 1.58 1.06 1.50 2.49 2.87 2.13 1.02 0.22 0.016 Seq 48.83 10.52 4.28 3.50 2.12 2.50 2.35 2.71 2.07 0.99 0.22 0.011 Spo 46.50 10.32 4.19 3.42 2.11 2.50 2.39 2.80 2.14 1.02 0.23 0.011 Teste Cellcycle 71.16 15.90 6.53 5.39 3.18 2.00 2.46 2.92 2.23 1.05 0.22 0.006 Church 71.16 15.90 6.53 5.38 3.15 2.00 2.46 2.91 2.23 1.05 0.22 0.006 Derisi 70.83 15.82 6.47 5.35 3.15 2.00 2.47 2.93 2.23 1.05 0.22 0.006 Eisen 46.50 10.97 4.75 3.94 2.40 1.00 2.54 3.03 2.36 1.10 0.23 0.004 Expr 71.72 16.02 6.58 5.40 3.18 2.00 2.46 2.91 2.23 1.04 0.22 0.006 Gasch1 71.33 15.93 6.55 5.38 3.15 2.00 2.46 2.91 2.22 1.04 0.22 0.006 Gasch2 71.72 16.02 6.58 5.40 3.18 2.00 2.46 2.91 2.23 1.04 0.22 0.006 Pheno 32.33 7.81 3.17 2.69 1.66 0.75 2.58 3.03 2.24 1.06 0.22 0.005 Seq 74.38 16.22 6.67 5.45 3.22 2.00 2.42 2.83 2.17 1.02 0.21 0.005 Spo 70.33 15.71 6.43 5.33 3.15 2.00 2.47 2.92 2.23 1.05 0.22 0.006
Tabela 6.3: Número de classes por nível nos conjuntos de dados estruturados como árvores
Conjunto de dados Nível 1 Nível 2 Nível 3 Nível 4 Nível 5 Nível 6
Cellcycle 18 80 178 142 77 4 Church 18 80 178 142 77 4 Derisi 18 80 178 142 77 4 Eisen 18 76 165 131 67 4 Expr 18 80 178 142 77 4 Gasch1 18 80 178 142 77 4 Gasch2 18 80 178 142 77 4 Pheno 18 74 165 129 65 4 Seq 18 80 178 142 77 4 Spo 18 80 178 142 77 4
Figura 6.2: Parte do esquema de classificação da Gene Ontology. Adaptado dehttp://www.
geneontology.org/.
Como pode ser observado na Figura6.2, a principal característica das hierarquias estrutu- radas comoDAGs é que uma classe pode possuir mais de uma superclasse. Isso significa que existe mais de um caminho entre o nó raiz e uma dada classe da hierarquia. Como consequên- cia, a profundidade de uma classe na hierarquia pode variar dependendo do caminho escolhido entre o nó raiz e a classe. Dessa forma, o nível em que está localizada uma classe não pode ser diretamente definido como nas hierarquias estruturadas como árvores. Para definir o nível de uma classe, é necessário que algum critério seja utilizado. Por exemplo, o nível de uma classe pode ser dado pelo número de arestas localizadas no menor caminho entre o nó raiz e a classe, ou então pelo número de arestas do maior caminho. A Tabela6.4apresenta algumas características dos conjuntos de dados estruturados comoDAGs.
Como pode ser observado na Tabela 6.4, diferentemente dos conjuntos de dados estrutu- rados como árvores, todos os exemplos dos conjuntos de dados estruturados como grafos são exemplos multirrótulo. Não foram computadas estatísticas por nível justamente porque não há definição clara dos níveis hierárquicos das classes na Gene Ontology. Nos experimentos realizados com o método HMC-LMLP (Seção 6.4), as hierarquias estruturadas como DAGs precisaram ser adaptadas para o treinamento de uma rede neural por nível hierárquico. As- sim, estatísticas foram computadas para cada nível, e serão apresentadas na Seção6.4. Já nos experimentos como o método HMC-GA(Seção6.5), por esse se tratar de um método global, foram utilizados os conjuntos de dados originais, já que nenhuma definição explícita dos níveis hierárquicos das classes é necessária.
Tabela 6.4: Características dos conjuntos de dados estruturados como grafos. A tabela mostra o número de atributos (|A|), o número de classes (|C|), o número total de exemplos (Total) e o número total de exemplos multirrótulo (Multirrótulo).
Conjunto de dados |A| |C| Total TreinamentoMultirrótulo Total ValidaçãoMultirrótulo Total TesteMultirrótulo
Cellcycle 77 4122 1625 1625 848 848 1278 1278 Church 27 4122 1627 1627 844 844 1278 1278 Derisi 63 4116 1605 1605 842 842 1272 1272 Eisen 79 3570 1055 1055 528 528 835 835 Expr 551 4128 1636 1636 849 849 1288 1288 Gasch1 173 4122 1631 1631 846 846 1281 1281 Gasch2 52 4128 1636 1636 849 849 1288 1288 Pheno 69 3124 653 653 352 352 581 581 Seq 478 4130 1692 1692 876 876 1332 1332 Spo 80 4116 1597 1597 837 837 1263 1263
Ainda nos conjuntos de dados estruturados como grafos, durante a fase de avaliação dos métodos, não foram consideras as classes GO0003674, GO0005575, GO0008150. Essas classes foram deixadas fora da avaliação por se tratarem das classes raízes das três hierarquias que compõem a Gene Ontology, respectivamente funções moleculares, componentes celulares e processos biológicos. Sendo assim, todos os exemplos dos conjuntos de dados são classificados nessas classes.
Em todos os experimentos, envolvendo ambos os conjuntos de dados estruturados como árvores ou grafos, as partições de treino, validação e teste são exatamente as mesmas original- mente utilizadas em (Vens et al., 2008). Assim, os classificadores são induzidos utilizando os conjuntos de treinamento e validação, e a avaliação final é realizada utilizando os conjuntos de teste. Optou-se pela utilização das três partições fixas de dados porque todos os trabalhos da literatura que utilizaram esses dados os utilizaram exatamente dessa maneira, com as mes- mas partições disponibilizados porVens et al.(2008). Isso facilitou a comparação dos métodos propostos com os métodos da literatura, e permitiu que os resultados da literatura fossem repro- duzidos.
Nas próximas seções são apresentados os experimentos realizados com os métodos
HMC-LMLP e HMC-GA. Nas tabelas mostrando os resultados dos experimentos, observa- se que os valores de AU(PRC) e AUPRCw apresentados são bem baixos. No entanto, deve
ser considerada a dificuldade do problema de classificação, que possui centenas ou milhares de classes. Assim, os valores apresentados são comuns considerando a área de pesquisa.