com poucos registros de classificação realizada pelos desenvolvedores, foram agregadas em uma única classe denominada others. Diante disso, durante a etapa de importação dos dados, foi necessário mitigar o reflexo dessa adaptação na filtragem das issues uti- lizadas no trainning set. Outro exemplo de adaptação realizada pelos especialistas foi a desconsideração da classe refarctoring durante a experiência de classificação humana, pelo fato de um dos issues trackers não fornecer a possibilidade de classificação das issues pelos propositores, para essa classe. Portanto, a partir da Subseção 3.1.2, essa classe foi substituída pela classe rfe ou request for enhancement.
5.4 Trabalhos Futuros
Para a realização de trabalhos futuros, deseja-se mesclar informações de issues de re- positórios particulares com informações de issues de repositórios open source ou públicos, para garantir maior diversidade de cenários de aplicação do estudo de classificação.
Durante a etapa transformation descrita na Seção 2.1, correspondente a filtragem dos dados, foi aplicado stemming. Futuramente pode-se aplicar lematização para observar o comportamento do classificador para este tipo de filtragem dos dados, uma vez que a aplicação destas técnicas produz diferentes features. Por sua vez, essa diferença afeta os resultados do experimento dos estudos classificatórios.
A avaliação do classificador foi realizada com configuração semelhante ao número de divisões da cross validation 5-fold tradicional, no experimento #1, e com a configuração cross validation 10-fold nos experimentos #2 e #3. Para estudos futuros sugere-se que sejam testados outros número de folds durante a realização da cross validation.
Com o objetivo de observar o comportamento do classificador desta pesquisa sendo aplicado a issues não rotuladas, almeja-se realizar um estudo de aplicação neste tipo de issue. Dessa forma, poderá ser observado o seu desempenho em um estudo de caso de issue trackers systems ou repositórios de software com integração a issue trackers systems que não disponham a classificação das issues aos seus propositores ou, até mesmo, em repositórios e issue trackers que disponham essa classificação, mas que o estudo de caso a desconsidere.
Para outro estudo futuro, deseja-se testar o classificador desta pesquisa em um dataset constituído por commits de repositórios de software, para ser observada sua capacidade
68 Capítulo 5. Considerações Finais
de incorporação de outros contextos de classificação de software, como o contexto dos commits.
69
Referências
ANTONIOL, G. et al. Is it a bug or an enhancement?: A text-based approach to classify change requests. In: Proceedings of the 2008 Conference of the Center
for Advanced Studies on Collaborative Research: Meeting of Minds. New
York, NY, USA: ACM, 2008. (CASCON ’08), p. 23:304–23:318. Disponível em: <http://doi.acm.org/10.1145/1463788.1463819>.
BARROS, R. et al. A survey of evolutionary algorithms for decision-tree induction.
Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, v. 42, n. 3, p. 291–312, May 2012. ISSN 1094-6977.
BISHOP, C. M. Pattern recognition and machine learning. [S.l.]: springer, 2006. BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent dirichlet allocation. J. Mach.
Learn. Res., JMLR.org, v. 3, p. 993–1022, mar. 2003. ISSN 1532-4435. Disponível em:
<http://dl.acm.org/citation.cfm?id=944919.944937>.
BUCKLAND, M.; GEY, F. The relationship between recall and precision. Journal of
the American Society for Information Science, Wiley Subscription Services, Inc.,
A Wiley Company, v. 45, n. 1, p. 12–19, 1994. ISSN 1097-4571. Disponível em: <http: //dx.doi.org/10.1002/(SICI)1097-4571(199401)45:1<12::AID-ASI2>3.0.CO;2-L>. CAMPOS EDUARDO CUNHA E MAIA, M. Automatic categorization of questions from q&a sites. In: Proceedings of the 29th Annual ACM Symposium on
Applied Computing. New York, NY, USA: ACM, 2014. (SAC ’14), p. 641–643. ISBN
978-1-4503-2469-4. Disponível em: <http://doi.acm.org/10.1145/2554850.2555117>. DUMAIS, S. T. Latent semantic analysis. Annual Review of Information Science
and Technology, Wiley Subscription Services, Inc., A Wiley Company, v. 38, n. 1,
p. 188–230, 2004. ISSN 1550-8382. Disponível em: <http://dx.doi.org/10.1002/aris. 1440380105>.
GOLDING, A. R.; ROTH, D. A winnow-based approach to context-sensitive spelling correction. Mach. Learn., Kluwer Academic Publishers, Hingham, MA, USA, v. 34, n. 1-3, p. 107–130, fev. 1999. ISSN 0885-6125. Disponível em: <http://dx.doi.org/10.1023/A:1007545901558>.
HALL, M. et al. The weka data mining software: An update. SIGKDD Explor.
Newsl., ACM, New York, NY, USA, v. 11, n. 1, p. 10–18, nov. 2009. ISSN 1931-0145.
70 Referências
HERZIG, K.; JUST, S.; ZELLER, A. It's not a bug, it's a feature: How misclassification impacts bug prediction. In: Proceedings of the 2013
International Conference on Software Engineering. Piscataway, NJ, USA:
IEEE Press, 2013. (ICSE ’13), p. 392–401. ISBN 978-1-4673-3076-3. Disponível em: <http://dl.acm.org/citation.cfm?id=2486788.2486840>.
HO, R. Pragmatic Programming Techniques. 2015. Visited 21-May-2015. Disponível em: <http://horicky.blogspot.com.br/2014/03/common-text-mining-workflow.html>. KATAKIS, I.; TSOUMAKAS, G.; VLAHAVAS, I. Multilabel text classification for automated tag suggestion. In: In: Proceedings of the ECML/PKDD-08
Workshop on Discovery Challenge. [S.l.: s.n.], 2008.
KOHAVI, R. A study of cross-validation and bootstrap for accuracy estimation and model selection. In: INTERNATIONAL JOINT CONFERENCE ON
ARTIFICIAL INTELLIGENCE. [S.l.: s.n.], 1995. p. 1137–1143.
KORENIUS, T. et al. Stemming and lemmatization in the clustering of finnish text documents. In: Proceedings of the Thirteenth ACM International
Conference on Information and Knowledge Management. New York, NY,
USA: ACM, 2004. (CIKM ’04), p. 625–633. ISBN 1-58113-874-1. Disponível em: <http://doi.acm.org/10.1145/1031171.1031285>.
KOSTER, C.; SEUTTER, M.; BENEY, J. Multi-classification of patent applications with winnow. In: BROY, M.; ZAMULIN, A. (Ed.). Perspectives of System
Informatics. Springer Berlin Heidelberg, 2003, (Lecture Notes in Computer
Science, v. 2890). p. 546–555. ISBN 978-3-540-20813-6. Disponível em: <http: //dx.doi.org/10.1007/978-3-540-39866-0_53>.
LANDGREBE, D. A survey of decision tree classifier methodology. Systems, Man
and Cybernetics, IEEE Transactions on, v. 21, n. 3, p. 660–674, May 1991. ISSN
0018-9472.
LI, Z. et al. Have things changed now?: An empirical study of bug characteristics in modern open source software. In: Proceedings of the 1st Workshop on
Architectural and System Support for Improving Software Dependability.
New York, NY, USA: ACM, 2006. (ASID ’06), p. 25–33. ISBN 1-59593-576-2. Disponível em: <http://doi.acm.org/10.1145/1181309.1181314>.
LINARES-VáSQUEZ, M. et al. On using machine learning to automatically classify software applications into domain categories. Empirical Softw. Engg., Kluwer Academic Publishers, Hingham, MA, USA, v. 19, n. 3, p. 582–618, jun. 2014. ISSN 1382-3256. Disponível em: <http://dx.doi.org/10.1007/s10664-012-9230-z>.
LITTLESTONE, N. Learning quickly when irrelevant attributes abound: A new linear-threshold algorithm. Machine Learning, Kluwer Academic Publishers- Plenum Publishers, v. 2, n. 4, p. 285–318, 1988. ISSN 0885-6125. Disponível em: <http://dx.doi.org/10.1023/A%3A1022869011914>.
MAKHOUL, J. et al. Performance measures for information extraction. In: In
Referências 71
MAKRIDAKIS, S. Accuracy measures: theoretical and practical concerns. International
Journal of Forecasting, v. 9, n. 4, p. 527 – 529, 1993. ISSN 0169-2070. Disponível em:
<http://www.sciencedirect.com/science/article/pii/0169207093900793>.
MANNING, C. D. et al. Introduction to information retrieval. [S.l.]: Cambridge university press Cambridge, 2008. v. 1.
MCCALLUM, A.; FREITAG, D.; PEREIRA, F. C. N. Maximum entropy markov models for information extraction and segmentation. In: Proceedings of the Seventeenth
International Conference on Machine Learning. San Francisco, CA, USA:
Morgan Kaufmann Publishers Inc., 2000. (ICML ’00), p. 591–598. ISBN 1-55860-707-2. Disponível em: <http://dl.acm.org/citation.cfm?id=645529.658277>.
MCCALLUM, A.; NIGAM, K. et al. A comparison of event models for naive bayes text classification. In: CITESEER. AAAI-98 workshop on learning for text
categorization. [S.l.], 1998. v. 752, p. 41–48.
PORTER, M. An algorithm for suffix stripping. Program, v. 40, n. 3, p. 211–218, 2006. RAY, B. et al. A large scale study of programming languages and code quality
in github. In: Proceedings of the 22Nd ACM SIGSOFT International
Symposium on Foundations of Software Engineering. New York, NY, USA:
ACM, 2014. (FSE 2014), p. 155–165. ISBN 978-1-4503-3056-5. Disponível em: <http://doi.acm.org/10.1145/2635868.2635922>.
RISH, I. An empirical study of the naive bayes classifier. [S.l.], 2001.
THOMAS, S.; HASSAN, A.; BLOSTEIN, D. Mining unstructured software repositories. In: MENS, T.; SEREBRENIK, A.; CLEVE, A. (Ed.). Evolving Software Systems. Springer Berlin Heidelberg, 2014. p. 139–162. ISBN 978-3-642-45397-7. Disponível em: <http://dx.doi.org/10.1007/978-3-642-45398-4_5>.
TSUKADA, M.; WASHIO, T.; MOTODA, H. Automatic web-page classification by using machine learning methods. In: Proceedings of the First Asia-Pacific
Conference on Web Intelligence: Research and Development. London, UK,
UK: Springer-Verlag, 2001. (WI ’01), p. 303–313. ISBN 3-540-42730-9. Disponível em: <http://dl.acm.org/citation.cfm?id=645960.673927>.
UGUREL, S.; KROVETZ, R.; GILES, C. L. What’s the code?: Automatic classification of source code archives. In: Proceedings of the Eighth ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining. New
York, NY, USA: ACM, 2002. (KDD ’02), p. 632–638. ISBN 1-58113-567-X. Disponível em: <http://doi.acm.org/10.1145/775047.775141>.
WALL, M.; RECHTSTEINER, A.; ROCHA, L. Singular value decomposition and principal component analysis. In: BERRAR, D.; DUBITZKY, W.; GRANZOW, M. (Ed.). A Practical Approach to Microarray Data Analysis. Springer US, 2003. p. 91–109. ISBN 978-1-4020-7260-4. Disponível em: <http://dx.doi.org/10.1007/ 0-306-47815-3_5>.
WALLACH, H. M. Topic modeling: Beyond bag-of-words. In: Proceedings of
72 Referências
USA: ACM, 2006. (ICML ’06), p. 977–984. ISBN 1-59593-383-2. Disponível em: <http://doi.acm.org/10.1145/1143844.1143967>.
WANG, C.; BLEI, D. M. Collaborative topic modeling for recommending scientific articles. In: Proceedings of the 17th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining. New York, NY,
USA: ACM, 2011. (KDD ’11), p. 448–456. ISBN 978-1-4503-0813-7. Disponível em: <http://doi.acm.org/10.1145/2020408.2020480>.
ZHANG, E.; ZHANG, Y. F-measure. In: LIU, L.; ÖZSU, M. (Ed.). Encyclopedia
of Database Systems. Springer US, 2009. p. 1147–1147. ISBN 978-0-387-35544-3.
Disponível em: <http://dx.doi.org/10.1007/978-0-387-39940-9_483>.
ZHANG, L. Maximum Entropy Modeling. 2015. Visited 14-Jun-2015. Disponível em: <http://homepages.inf.ed.ac.uk/lzhang10/maxent.html>.
ZIMMERMANN, T. et al. Improving bug tracking systems. In: Software Engineering
- Companion Volume, 2009. ICSE-Companion 2009. 31st International Conference on. [S.l.: s.n.], 2009. p. 247–250.