Enfrentando um Artigo Científico

A leitura de um artigo científico pode parecer em um primeiro momento algo aterroriza. E, dependendo da sua intimidade com o conteúdo exposto neste, pode continuar num segundo momento. :upside_down_face:

Um método para enfrentar o artigo pode atenuar esse sentimento para as situações mais extremas e lhe dar mais produtividade para a maioria dos casos. Nesta postagem apresento uma mecânica para uma interação inicial com qualquer artigo.

Para fins didáticos, vou usar o último artigo lido por mim denominado Sampling Bias in Deep Active Classification: An Empirical Study. Este artigo possui seu código disponível no paperswithcode.

Mapeamento

Nesta etapa, você vai tomar conhecimento do artigo. Gaste um tempo analisando os termos/expressões contidas no título. Algum deles lhe chamou a atenção? Em nosso exemplo vejo três conjuntos:

  • Sampling Bias

  • Deep Active Classification

  • Empirical Study

Com certeza, o título do artigo possui algo que tenha despertado a sua atenção. Algumas de suas expressões o fisgou. Eventualmente, pode ser o caso de ter encontrado algo que fuja ao seu conhecimento. Por exemplo, o que devo esperar encontrar em um empirical study? O que seria sampling bias? É importante que você tenha a noção sobre as expressões abordadas no titulo. Então sua primeira missão é:

1. Familiarizar-se com o título

Uma vez que o título deixou de ser um mistério, que tal conferir o veículo que publicou o artigo, bem como o ano. No nosso exemplo, o artigo foi publicado nos anais da Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Procurando no Google, percebi que a conferência é reconhecida como a segunda melhor em computational linguistics. Isso nos obriga a dar um pouco mais de crédito ao artigo. A conferência foi realizada em Hong Kong em novembro de 2.019. Ou seja, é uma publicação bastante recente. Essa análise nos permite comprir a seguinte missão:

2. Localizar o artigo no tempo e no espaço

Continuando a investigação anterior, podemos nos aprofundar na especialidade do autor. Google Scholar o autor e conferir as suas ultima publicações. Pelo que se apresenta, trata-se de um trabalho que compões a pesquisa de doutorado em curso do autor. Ele tem outros trabalhos publicados com redes neurais profundas. Posso afirmar que ele está direcionando o seu trabalho de pesquisa para active learning, pelo resultado deste artigo. Desde modo, cumprimos a seguinte missão:

3. Reconhecer a área do autor e relevância do artigo

Um indício importante sobre a qualidade do artigo é a quantidade de citações que ele possui. No momento em que este post foi escrito, nosso exemplo encontra-se com duas citações. Outra parte do trabalho que trás indícios relevantes sobre ele, encontra-se referências. Para o nosso exemplo, temos uma lista de 48 referências. É possível observar uma publicação relevante em active learning de Settles da University of Winconsin encontra-se lá. Esta universidade tem assumido certa proeminência nesta frente. É de lá, por exemplo, que veio o a plataforma de crowd labeling com active learning nextML. Observei muitas citações de artigos de eventos como International Conference on Machine Learning (ICML), Association for Computational Linguistics (ACL) e NeurIPS; e poucas de jornals. Isso nos faz cumprir a missão:

4. Explorar as referências

Contexto e Propósito

Chegou a hora de abrirmos o artigo e começarmos a interagir com ele. Algumas pessoas têm o hábito de explorar primeiramente as imagens e tabelas, tentando obter uma primeira indicação do que esperar de resultado do trabalho. Outras, fazem uma leitura da introdução e pulam para a conclusão. O que eu gostaria de enfatizar é sobre a importância de reter informações mínimas sobre o manuscrito. Para isso, assim como fizemos até agora, vou sugerir algumas missões para você. A primeira delas é reconhecer o propósito do artigo.

5. Reconhecendo o seu propósito

Todo artigo aprovado em conferência e periódico precisa evidenciar com clareza o seu propósito. Em nosso caso, o fragmento a seguir delineia o que nosso manuscrito de propõe.

… we investigate the issues of sampling bias and sample efficiency, the stability of the actively collected query and train sets and the impact of algorithmic factors.

Eu confesso que senti falta de perguntas objetivas que ele se propõe a esclarecer com seu estudo empírico.

Mas, enfim, de posse dessa informação, a próxima missão é reconhecer a motivação.

6. Reconhecendo a motivação

A motivação geralmente traz uma dor existente na sociedade, em particular na área alvo do artigo. Em nosso exemplo, temos os fragmentos a seguir que revelam algumas dores.

… the cost and time needed to get labeled data and to train models is a serious impediment to creating new and/or better models.

… there is lack of clarity in the active learning literature regarding sampling bias in such surrogate datasets created using active learning … its dependence on models, functions and parameters used to acquire the sample. Indeed, what constitutes a good sample?

Método e Resultados

O que dá o caráter científico de um artigo é o seu método científico. Ele é responsável por sair de uma hipótese de pesquisa para a sua resposta. O método que confere ao trabalho a reprodutibilidade. Natural, darmos atenção especial para este aspecto, juntamente com os resultados evidenciados pelo próprio método.

7. Reconhecendo o método

O método geralmente envolve os passos necessários para alcançar os resultados, materiais, ferramental, equipamentos e o ouro (aka. dados).

Em nosso exemplo, temos esses elementos razoavelmente bem qualificados. O fragmento a seguir trata dos dados:

… AG-News (AGN), DBPedia (DBP), Amazon Review Polarity (AMZP), Amazon Review Full (AMZF), Yelp Review Polarity (YRP), Yelp Review Full (YRF), Yahoo Answers (YHA) and Sogou News (SGN).

Além disso, temos também os modelos de aprendizado de máquina:

Multinomial Naive Bayes (MNB) with TF-IDF and Fast-Text.zip

Outros métodos matemáticos são usados também e espalhados em seções do manuscrito como:

  • Kullback-Leibler (KL) divergence - Class Bias

  • Support Vector Machine - Feature Bias

Temos também documentas as estratégias de queries:

… We evaluate the following ones: Least Confidence (LC) and Entropy (Ent).

Ele considera também alguns aspectos da infraestrutura usada pelo experimento que pode ser útil, se você deseja estimar a demanda de poder computacional necessário para uma tarefa análoga.

Eu, particularmente, senti falta de um diagrama que indica como ele organizou o fluxo de trabalho para realizar os 2.300 experimentos. Explicar algo assim no texto é muito mais complexo.

Lembra da lacuna que identifiquei lá em propósito, então. As perguntas poderiam direcionar melhor os caminhos a serem percorridos por quais experimentos para responder as perguntas.

8. Identificando as contribuições

Quando entramos na seção Resultados, somos levados a algumas questões que ele respondeu. Vou tentar descrevê-las.

Viés Amostral

Viés de Classe

  1. Qual o nível de divergência entre a distribuição da rotulação original versus a distribuição obtida pelas buscas isoladas (média entre as amostras individuais das buscas) e aglomeradas (calculada considerando todas as amostras das buscas)?

O fragmento a seguir da suporte para a resposta, que vem a seguir:

We observe that across queries, FTZ with entropy strategy has a balanced representation from all classes (high mean) with a high probability (low std) while Multinomial Naive Bayes (MNB) results in more biased queries (lower mean) with high probability (high std) as studied previously. However, we did not find evidence of class bias in the resulting sample in both models.

As buscas isoladas provenientes do FTZ com entropia trouxeram uma representação balanceada de todas as classes. Já para o MNB os resultados revelaram viés. As buscas aglomeradas não evidenciaram viés em nenhum dos modelos.

Viés de Característica

  1. Redes profundas de classificação podem dar ênfase em uma parte pequena dos dados próximos das fronteiras das classes se assemelhando aos vetores de suporte. A amostragem uncertainty apresenta este comportamento?

A minha intuição é de que o fragmento a seguir responde à questão anterior. Entretanto, eu tive muita dificuldade em perceber como se deu esse experimento, a partir do texto. Eu senti muita falta de uma explicação mais detalhada sobre o método para responder essa pergunta. Por isso, nem vou me arriscar a respondê-la.

… a large percentage of selected data consists of samples around the class boundaries. This overlap indicates that the actively acquired training sample covers the support vectors well which are important for good classification performance. The overlap with the support vectors of an SVM (a fixed algorithm) also suggests that uncertainty sampling using deep models might generalize beyond FastText, to other learning algorithms.

Fatores Algorítmicos

Dentre os resultados apresentados pelo nosso exemplo, temos o aspecto relacionado a perspectiva algorítmica. Nela os fatores: (a) seleção do conjunto inicial, (b) dimensão da busca e (c) estratégia de busca foram objetos de análise.

Seleção do Conjunto Inicial

  1. O conjunto de treino obtido ao longo das buscas apresenta alto grau de dependência ao conjunto inicial selecionado?

O fragmento a seguir evidencia o resultado dos experimentos.

… samples obtained using FastText are largely initialization independent … consistently across datasets while the samples obtained with Naive Bayes can be vastly different showing relatively heavy dependence on the initial seed. This indicates the relative stability of train set obtained with the posterior uncertainty of the actively trained FTZ as an acquisition function.

Conforme reportado, observou-se a independência da amostra inicial, quando usado o FastText. Isso não foi observado com o MNB.

Dimensão da busca

  1. Existe uma dependência quanto a dimensão da busca para o resultado final do conjunto de treinamento?

O fragmento a seguir evidencia o resultado dos experimentos.

… FastText … has very stable performance across sample sizes while MNB show more erratic performance. Table 5 presents the intersection of samples obtained with different query sizes across multiple runs. We observe a high overlap of the acquired samples across different query sizes indicating that the performance is independent of the query size … while MNB results in lower overlap with more erratic behavior due to change in the query size

Mais uma vez foi evidenciada a robustez do FastText, comparada ao MNB. Ou seja, enquanto o FastText não evidencia a dependência, o contrário é observado para o MNB.

Estratégia da busca

Observei duas questões a serem respondidas nesta seção.

  1. Qual o impacto no conjunto final, quando se despreza ou não o menor conjunto tanto para o uso de LC, quanto para Ent?

O fragmento a seguir traz a resposta para esta pergunta.

… Deletion of least uncertain samples reduces the dependence on the initial randomly selected set. … We present five of the ten possible combinations and again observe the high degree of overlap in the collected sam- ples. It can be concluded that the approach is fairly robust to these variations in the query strategy.

O reportado diz que os modelos são bastante insensíveis a mudança experimentada.

  1. Os modelos combinados (ensembles) proporcionam melhores resultados, quando se compara com singulares?

Mais uma vez exponho o fragmento do texto que responde esta questão.

We conclude that more expensive sampling strategies commonly used, like ensembling, may offer little benefit compared to using a single FTZ model with posterior uncertainty as a query function

Então, os modelos combinados fazem pouca diferença no resultado final.

  1. Uncertainty Sampling consegue competir com outros modelos de classificação ativa profunda?

… Note that uncertainty sampling converges to full accuracy using just 12% of the data, whereas (Siddhant and Lipton, 2018) required 50% of the data. There is also a remarkable accuracy improvement over (Siddhant and Lipton, 2018) which can be largely attributed to the models used (FastText versus 1-layer CNN/BiLSTM). Also, uncertainty sampling outperforms diversity-based augmentations like Coreset Sampling (Sener and Savarese, 2018) before convergence. Thus, we establish a new state-of-the-art baseline for further research in deep active text classification.

Conforme reportado, o modelo com entropia e FastText apresenta resultados superiores a outros modelos.

  1. Como se comporta a amostragem gerada por meio de entropia e FastText na hora de treinar modelos de Aprendizado Profundo como ULMFiT.

Our study suggests that the training samples collected with uncertainty sampling (entropy) on a single model FTZ may provide a good representation (surrogate) for the entire dataset. … We achieve 25x-200x speedup (5x fewer epochs, 5x-40x smaller training size). … We conclude that we can significantly compress the training datasets and speedup classifier training time with little tradeoff in accuracy.

Encerrando os resultados, observou-se que o dado proveniente da sub-amostragem por meio de entropia e FastText permitiu a redução significativa de esforço computacional, para se obter resultados, em termos de acurácia, muito próximos.

Exercitada análise para evidenciar os resultados do artigo, é importante dar atenção aquilo que pode nos direcionar para uma investigação científica. Daí que sai mais uma missão:

9. Evidenciar oportunidades de pesquisa

Uma oportunidade que observei foi a realização de experimento análogo em outras bases, especialmente em bases da língua portuguesa. Não deixe de incluir as suas.

Resumo

Depois de compreender com detalhes o artigo, é importante que você documente de forma resumida a sua experiência. Com isso, outras pessoas podem aproveitar o seu aprendizado e, sob ele, construir algo mais interessante, sem ter que se aprofundar como você o fez, cumprindo a meta:

10. Documentar essa experiência

Como sugestão para a forma como se fazer isso, peço licença para usar o método com adaptações, desenvolvido pelo Prof. Vinicius Borges, que propõe a construção de um parágrafo observando as seguintes regras:

  1. A primeira sentença deve apresentar de forma breve a proposta dos autores.

  2. A segunda sentença deve mencionar o problema em questão e qual a motivação para o método proposto.

  3. Escreva entre 2 e 4 sentenças sobre os passos propostos para o método, bem como os materiais, incluindo as bases de dados.

  4. Escreva entre 1 e 2 sentenças sobre os experimentos e resultados, bem como resultados relevantes (qualitativos e quantitativos)

  5. Por fim, escreva oportunidades de trabalho, como por exemplo, potenciais aplicações ou melhorias em métodos.

E o resumo do nosso exemplo, seguindo este modelo, ficou assim:

(1) Os autores investigaram alguns problemas de viés amostral e eficiência de amostragem; a estabilidade de amostras e conjuntos de treino coletados ativamente; e o impacto de fatores algorítmicos inerentes a configurações da coleção de amostras por meio de aprendizado ativo. (2) O alto custo em se obter amostragem expressiva para modelagem profunda demanda uma solução. Aprendizado ativo se propõe a resolver esse problema, entretanto há várias lacunas quanto a viés de amostragem para permitir a confiança de que uma sub-amostra, de fato, em termos de modelagem, espelha amostra como um todo. (3) Least confidence e entropia foram usadas como estratégias de queries. Os modelos de classificação Multinomial Naïve Bayes (MNB) e FastText foram usados. Além disso, Kullback-Leibler (KL) divergence foi usado para esclarecer o vies de classe e Support Vector Machine (SVM) para vies de características. Por fim, o ULMFiT foi usado como alvo de treino de aprendizado profundo para evidenciar a capacidade da classificação ativa em gerar sub-amostragem compatível com a amostra completa. Oito base de dados foram usadas para realizar cerca de 2300 experimentos. (4) O estudo empírico mostra inúmeros resultados para ampliar a compreensão de vies em aprendizado ativo. Evidencia a robustez do classificador FastText juntamente com a entropia. Além disso, temos o experimento que argumenta a favor do uso de sub-amostragem usando aprendizado ativo que revelou uma redução de 25 a 200 vezes no tempo necessário para treinar um modelo complexo como ULMFiT. (5) Como os dados usados são todos em inglês, considero uma oportunidade realizar os experimentos usando bases em outros idiomas.

Considerações Finais

Neste post procurei exercitar a tarefa, por vezes complexa, de interagir com um artigo científico, com o intuito de auxiliar a organizar as atividades e, também, sensibilizar você para aspectos relevantes a serem observados, à medida que interagimos com o manuscrito.

Espero que seja útil, e que consiga lhe inspirar a desenvolver o seu próprio método de trabalho.

Recursos Adicionais

3 curtidas