• No results found

Facebook`s betydning for ungdoms selvbilde

In document Når livet dreier seg om "likes" (sider 19-22)

4. RESULTAT

4.1. Facebook`s betydning for ungdoms selvbilde

tos nos Dados

Trabalhos que descrevem defeitos nos dados s˜ao comuns em certas ´areas de pesquisa, incluindo Gest˜ao da Qualidade da Informa¸c˜ao, Data Warehouse, Minera¸c˜ao de Dados, Estat´ıstica e Limpeza de Dados - do inglˆes Data Cleaning. Este trabalho analisou como tais trabalhos responde as seguintes perguntas: Qual ´e o conjunto representativo de de- feitos nos dados relacionados aos crit´erios de qualidade de acuracidade, completude e consistˆencia? Qual ´e a estrutura do problema adjacente a cada defeito?

Certos trabalhos descrevem defeitos nos dados como um t´opico complementar ao assunto principal de interesse. Essa abordagem adotada por [Ambler e Sadalage, 2006; Borek et al., 2011; English, 1999; Helfert e Ge, 2006; Schmid, 2005] produz descri¸c˜oes amb´ıguas e breves. Os defeitos tratados s˜ao majoritariamente selecionados por um mo- delo intuitivo, isto ´e, a representatividade dos defeitos ´e determinada pelo senso comum circunscrito em um contexto. Como exemplo, a descri¸c˜ao de “Instˆancias Duplicadas” abaixo permite extrair algumas das causas prov´aveis da duplica¸c˜ao de tuplas, mas im- pede qualquer compreens˜ao relativa a estrutura desse defeito.

“Multiple records that represent one single real-world entity. This may be caused by poor edit rules, business procedures that do not effectively determine duplication, data that has changed since its original data capture causing a failure to match, or incentives of productivity in the information producers.” por [English, 1999]

Em contraste, os defeitos nos dados correspondem ao objetivo central das comunida- des da Categoriza¸c˜ao de Dados [Naumann, 2014], Estat´ıstica - parcialmente - [Winkler, 2004] e Limpeza de Dados [Chaudhuri et al., 2003; Chu et al., 2013; Fan e Geerts, 2012; Ganti e Sarma, 2013]. O conhecimento aprofundado das estruturas dos defeitos permite tais comunidades prover relevantes contribui¸c˜oes a melhoria da qualidade de dados.

“Data deduplication is the problem of identifying tuples from one or more relations that refer to the same real-world entity. Consider the relational schemas below, one needs to check whether for all tuples t ∈ Ic and t′ ∈ Ib, if t[c] = t′[c] then t[Yc] and

t′[Y

b] refer to the same person, where Yc and Yb are: Yc = [F N, LN, addr, tel] and

Examples of Credit relation Icand Billing relation Ib, respectively (por Fan e Geerts [2012])

c FN LN addr tel email gender type

111 Mark Maier 10 Oak St. MH, NJ 07974 908-2345678 [email protected] M master 222 Dave Smith 620 Elm St., MH, NJ 07976 908-8955664 [email protected] M visa

c FN LN post phn email item price

111 Marx Maier 10 Oak St. MH, NJ 07974 908 mc iPad 169

111 Marx Maier NJ 908-2345678 mc book 19

111 M. Maire 10 Oak St. MH, NJ 07974 2345678 [email protected] PSP 269

O trecho acima exp˜oe parcialmente uma descri¸c˜ao de duas p´aginas de tuplas duplica- das. Atrav´es da conjun¸c˜ao dos recursos de explica¸c˜ao textual, exemplos e formaliza¸c˜ao, essa descri¸c˜ao parcial revela muito mais detalhes sobre a estrutura do defeito do que a anterior. Por´em, trabalhos dessa comunidade usualmente abordam um conjunto restrito de defeitos ou mesmo um ´unico.

Por sua vez, as taxonomias8 [Almutiry et al., 2016; Kim et al., 2003; Li et al., 2011;

M¨uller e Freytag, 2005; Oliveira et al., 2005; Rahm e Do, 2000] prop˜oem alinhar des- cri¸c˜oes assertivas a uma ampla cobertura de defeitos nos dados. Contudo, uma revis˜ao das taxonomias estado-da-arte revelam descri¸c˜oes e coberturas heterogˆeneas devido a quest˜oes relacionadas ao modelo de descri¸c˜ao, a terminologia, ao modelo de triagem dos defeitos, ao n´ıvel de abstra¸c˜ao e o escopo.

O modelo de descri¸c˜ao denota o grau de precis˜ao oferecida pela descri¸c˜ao do defeito. As descri¸c˜oes de tuplas duplicadas abaixo explicitam as varia¸c˜oes entre as taxonomias e a suscetibilidade da comunica¸c˜ao incorreta da estrutura do defeito em contraste ao modelo baseado na descri¸c˜ao formal, textual e com exemplos por [Fan e Geerts, 2012].

“Same employee represented twice due to some data entry errors. Example: emp1= (name=“John Smith”,...), emp2=(name=“J. Smith”,...). ” por [Rahm e Do, 2000] “Duplicated data (violating non-null uniqueness constraint)” por [Kim et al., 2003] “Duplicates are two or more tuples representing the same entity from the mini-world. The values of these tuples do not need to be complete identical. Inexact duplicates are specific cases of contradiction between two or more tuples. They represent the same entity but with different values for all or some of its properties. This hardens the detection of duplicates and there mergence.” por [M¨uller e Freytag, 2005] “Let S be a set of attribute names, defined as: S = {a|a ∈ R(A)∧ a does not belong to the primary key}, i.e., S ⊆ R(A). Let Θ be a real number between 0 and 1. Let similarity be a function that receives two values of an attribute, computes the similarity between them, and returns it (also as a real number between 0 and 1). There are inconsistent duplicate tuples in relation R iff: ∃a2 ∈ S, t1, t2 ∈ r, ∀a1 ∈

S\{a2} : similarity(v(t1, a1), v(t2, a1)) ≥ Θ ∧ similarity(v(t1, a2), v(t2, a2)) < Θ.

8

Trabalhos que abordam crit´erios de qualidade diferentes de acuracidade, completude e consistˆencia foram omitidos. Ademais n˜ao foram abordados certos trabalhos [Barateiro e Galhardas, 2005; Do, 2009; Helfert e Ge, 2006] cujas descri¸c˜oes dos defeitos s˜ao idˆenticas `aquelas de outros trabalhos predecesso- res, como [Rahm e Do, 2000] e [Kim et al., 2003]. Por fim, trabalhos que debatem defeitos espec´ıficos do contexto de modelos de dados multidimensionais [de Almeida et al., 2013], de Data Warehouse [Singh e Singh, 2010] e temporais [Gschwandtner et al., 2012] tamb´em n˜ao foram considerados.

The tuple Customer (10, ‘Smith Barney’, ‘Flowers Street, 123’, 502899106) is an approximate duplicate of the tuple Customer (72, ‘S. Barney’, ‘Flowers St., 123’, 502899106)” por [Oliveira et al., 2005]

“Duplicate records may happen for example, when a person’s name and address are represented in different ways, the same entity may be represented more than once in the same or different data sources.” por [Li et al., 2011]

A terminologia determina a precis˜ao e clareza t´ecnica dos termos empregados na no- menclatura e na descri¸c˜ao dos defeitos. No vocabul´ario informal predomina o uso de termos gen´ericos em detrimento ao jarg˜ao t´ecnico. Por conseguinte, essa generalidade requer a in- terpreta¸c˜ao quando considerada a partir da perspectiva t´ecnica da avalia¸c˜ao da qualidade de dados. Como exemplo, “Domain format errors” [M¨uller e Freytag, 2005] e “Wrong data type” [Kim et al., 2003; Li et al., 2011] representam diferentes nomenclatura para o mesmo defeito “Domain Constraint Violation” - um jarg˜ao na ´area de banco de dados. O modelo de triagem denota a t´ecnica de sele¸c˜ao do conjunto de defeitos discutidos. No modelo intuitivo, o grau de representatividade do defeito ´e atribu´ıdo pelo senso comum dentro de um contexto, fato observado em certos trabalhos [English, 1999; Eppler, 2003; M¨uller e Freytag, 2005; Schmid, 2005]. Em contraste, os trabalhos restantes utilizam re- vis˜oes, entrevistas ou t´ecnicas de classifica¸c˜ao9 na identifica¸c˜ao dos defeitos. Contudo, a

ausˆencia de um referencial te´orico e o cuidado com a consolida¸c˜ao das descri¸c˜oes contri- buem para a cobertura incompleta dos defeitos nos dados entre as taxonomias. A t´ıtulo de exemplo, apesar da sequˆencia de cita¸c˜ao entre [Rahm e Do, 2000], [Oliveira et al., 2005] e [Li et al., 2011], defeitos nos dados como “Wrong Reference” por [Rahm e Do, 2000] e “Existence of synonyms” por [Oliveira et al., 2005] n˜ao s˜ao discutidos em [Li et al. , 2011]. Al´em disso, defeitos relativos as regras de modelagem de dados - incluindo “Car- dinality Ratio” - e `as falhas no ciclo de vida dos dados - incluindo “False Tuple” - n˜ao s˜ao endere¸cados por taxonomia alguma. Exemplos adicionais relativos a heterogeneidade na descri¸c˜ao de defeitos s˜ao discutidos em [Laranjeiro et al., 2015].

O n´ıvel de abstra¸c˜ao determina o agrupamento de diferentes variantes de um defeito no entorno de sua estrutura. Certos trabalhos apresentam defini¸c˜oes separadas para variantes de defeitos, tais como “Approximate duplicate tuples” e “Inconsistent duplicate tuples” por [Oliveira et al., 2005] - remetem ao defeito “Tuplas Duplicadas” -, bem como “Missing value”, “Data value out of value range” e “Data value constraint violation” por [Li et al., 2011] que remetem ao defeito “Viola¸c˜ao de Restri¸c˜ao de Dom´ınio”.

O escopo denota o tipo de dado - estruturado, espacial, semi-estruturado, n˜ao estru- turado -, o aspecto temporalidade e os crit´erios de qualidade sobre os quais os defeitos ser˜ao observados. Nenhuma das taxonomias apresenta explicitamente os respectivos es- copos. Como exemplo, certas taxonomias tangenciam defeitos relativos a dados espaciais

9

Heur´ısticas de classifica¸c˜ao hier´arquica dos defeitos baseadas no local de manifesta¸c˜ao ou no modo de contornar o referido defeito, por exemplo.

[Kim et al., 2003] e temporais [Li et al., 2011].

In document Når livet dreier seg om "likes" (sider 19-22)