Datasets em português

Aqui está um lista de datasets em português para tarefas de NLP (classificação, Q&A, NER…).

Pode publicar um post nesse tópico com seu dataset e esse post esterá atualizado. Obrigado.

(Lista de participantes: @pierre, @juliana, @leommiranda, @monilouise, @pvcastro, @ruan, @WillianUFPR)

Corpus

General Language Understanding Evaluation (GLUE)

Uma coleção de tarefas da NLU (Natural Language Understanding), incluindo resposta a perguntas, análise de sentimento e vinculação textual, e uma plataforma online associada para avaliação, comparação e análise de modelos (link).

NER

POS Tagging ( Part-of-speech Tagging )

(fonte da informação)

  • MacMorpho: Mac-Morpho é um corpus de textos em português brasileiro anotados com tags de classes gramaticais. Sua primeira versão foi lançada em 2003 e, desde então, duas revisões foram feitas com o objetivo de melhorar a qualidade do recurso (Link: MacMorpho).

Similaridade Semântica e Inferência Textual

Rotulação de Papéis Semânticos (Semantic role labelling)

(fonte da informação)

  • PropBank: O PropBank é um corpus que é anotado com proposições verbais e seus argumentos - um “banco de proposições” (Link: PropBank-Br).

Simplificação textual (Simplification)

(fonte da informação)

Classificação de Texto (Text Classification )

  • TweetSentBR https://bitbucket.org/HBrum/tweetsentbr/
  • Portuguese Tweets for Sentiment Analysis: For sentiment polarity classification, this dataset contains 800k tweets in Portuguese divided into positive, negative, and neutral classes (fonte da informação).
    (fonte da informação)
  • B2W-Reviews01: B2W-Reviews01 é um corpus aberto de reviews de produtos. Ele contém mais de 130 mil avaliações de clientes de comércio eletrônico, coletadas no site da Americanas.com entre janeiro e maio de 2018. O B2W-Reviews01 oferece informações valiosas sobre o perfil do avaliador, como sexo, idade e localização geográfica (Link: B2W-Reviews01). (fonte da informação)
  • Mercadolibre Data Challenge 2019 : Dataset multilíngue ( Português e Espanhol ) de classificação de produtos. Coletado de anúncios no Mercado Livre. https://ml-challenge.mercadolibre.com/downloads (fonte da informação)
  • Amazon Brazilian Portuguese Books Reviews : O dataset proposto contém 2000 comentários sobre livros feitos no idioma português brasileiro por usuários da Amazon Brasil. (fonte da informação)
  • Steam Brazilian Portuguese Games Reviews : O dataset completo possui mais de 70 mil comentários, onde desses os 1000 primeiros positivos e 1000 negativos foram adotados no trabalho. Os comentários relacionados a jogos foram feitos no idioma português brasileiro por usuários da Steam. (fonte da informação)

Machine Translation

Sumarização (Text summarization )

(fonte da informação)

Perguntas e Respostas (Q&A)

SQuAD em português

MilkQA

  • MilkQA é um conjunto de dados de perguntas densas para a tarefa de seleção de respostas. Contém perguntas e respostas do domínio da pecuária leiteira que foram coletadas pelo serviço de atendimento ao cliente da Embrapa Gado de Leite entre os anos de 2003 e 2012 (fonte da informação).
  • Link: MilkQA

Recolha de Informação (IR)

CHAVE

  • A coleção CHAVE é o resultado da participação da Linguateca na organização do CLEF a partir de 2004, que além de potenciar a participação da comunidade envolvida no processamento da língua portuguesa nesta avaliação conjunta internacional, pretende fomentar e disseminar recursos públicos.
  • Link: https://www.linguateca.pt/CHAVE

Extração de Informação (fonte da informação)

5 Curtidas

da @juliana

Similaridade Semântica e Inferência Textual

  • ASSIN (Avaliação de Similaridade Semântica e INferência textual) http://nilc.icmc.usp.br/assin/
  • ASSIN 2 https://sites.google.com/view/assin2

Análise de Sentimentos

1 Curtida

Dataset para detecção de entidades em notícias em Português

Boa tarde @pierre,

O dataset completo está em https://github.com/SecexSaudeTCU/CoviDATA/blob/master/dados/noticias/labeled_4_labels.jsonl

Não é muito grande - 187 notícias anotadas manualmente. Mas para NER (diferente de classificação, por exemplo), tenho a impressão de que também não é muito pequeno, pois cada token é “classificado”.

Ainda poderei modificar o dataset para remover algumas anotações (ex.: eu havia classificado veículos de imprensa como ORG, mas na prática, ao menos para a finalidade a que se destina, não seria o caso, pois muitos nem CNPJ possuem).

4 Curtidas

SQuAD em português

do @pvcastro

(crédito: grupo Deep Learning Brasil): tradução automática para o português pelo Google Tradutor do dataset SQuAD v1.1 em inglês e ficou uns 2 meses fazendo revisão e algumas correções: squad-pt.tar.gz no Google Drive.

1 Curtida

PortugueseGLUE

Portuguese translation of the GLUE benchmark and Scitail dataset using OPUS-MT model and Google Cloud Translation.

Smaller GLUE datasets, such as CoLA, MRPC, RTE, SST-2, STS-B, and WNLI, were translated using Cloud Translation Free Tier. Other GLUE dataset (SNLI, MNLI, QNLI and QQP) and Scitail were translated using OPUS-MT.

LX parser, Binarizer code and NLTK word tokenizer were used to create dependency parsings for SNLI and MNLI datasets.

Code requirements

  • Gcloud Translation
    • google-cloud-translate
  • Opus Translation
    • transformers <= 2
    • mosestokenizer
    • tqdm
    • pytorch
  • Additional Tools
    • Remove HTML marks
      • ftfy
    • Table manipulation
      • pandas
      • unicodecsv (snli train ragged matrix)
    • Dependency parsing
      • pandas
      • nltk
      • unicodecsv (snli train ragged matrix)
      • LX-parser (downloaded in dependency_parsing.py)

Observations

There are two original GLUE data versions: first version and second version. We noticed the versions differs in QNLI and QQP datasets, where we made QNLI available in both versions and QQP in the newest version.

SNLI train split is a ragged matrix, so we made available two version of the data: train_raw.tsv contains irregular lines and train.tsv excludes those lines.

Dependency parsing code is provided using SNLI as an example. Although MNLI contains same number of sentences as SNLI, parsing SNLI takes about minutes while MNLI takes about a week because MNLI sentences structures are complex.

Manual translation were made on 12 sentences in SNLI where original sentences and their translations remained the same, that is, were not translated and 5 sentences in MNLI in which the binary parse returned error.

2 Curtidas

Adicione os datasets do NILC. Outras páginas de datasets: [1], [2].

Estou listando abaixo os datasets que basta clicar para baixar.
Existem alguns não listados abaixo que são de acesso restrito, mas são mencionados nas páginas internas do NILC.

Corpus

Sumarização ( Text summarization )

POS Tagging ( Part-of-speech Tagging )

MacMorpho

  • Mac-Morpho é um corpus de textos em português brasileiro anotados com tags de classes gramaticais. Sua primeira versão foi lançada em 2003 e, desde então, duas revisões foram feitas com o objetivo de melhorar a qualidade do recurso.

  • Link: MacMorpho

Rotulação de Papéis Semânticos ( Semantic role labelling )

PropBank

  • O PropBank é um corpus que é anotado com proposições verbais e seus argumentos - um “banco de proposições”.

  • Link: PropBank-Br

Simplificação textual ( Simplification )

PorSimplesSent

  • Um corpus português de pares de frases alinhadas para investigar a avaliação da legibilidade das frases.
  • Link: PorSimplesSent

SIMPLEX-PB

Perguntas e Respostas (Q&A)

MilkQA

  • MilkQA é um conjunto de dados de perguntas densas para a tarefa de seleção de respostas. Contém perguntas e respostas do domínio da pecuária leiteira que foram coletadas pelo serviço de atendimento ao cliente da Embrapa Gado de Leite entre os anos de 2003 e 2012.

  • Link: MilkQA

3 Curtidas

Adicione também o B2W-Reviews01.

Análise de Sentimentos

B2W-Reviews01

  • B2W-Reviews01 é um corpus aberto de reviews de produtos. Ele contém mais de 130 mil avaliações de clientes de comércio eletrônico, coletadas no site da Americanas.com entre janeiro e maio de 2018. O B2W-Reviews01 oferece informações valiosas sobre o perfil do avaliador, como sexo, idade e localização geográfica.

  • Link: B2W-Reviews01

2 Curtidas

Oi @ruan.
Tornei seu post em um wiki. Pode editá-lo com seus links incríveis? :slight_smile:

Classificação de Texto ( Text Classification )

1 Curtida

ITD - Dataset de Acordãos do STF de 2010 a 2018

Olá!
A base Iudicium Textum Dataset (ITD), contêm os textos extraídos dos Acórdãos do Supremo Tribunal Federal de 2010 a 2018. Os textos estão separados por seção, com os votos e os relatórios identificados por autor (ministro). O texto original também foi mantido de forma integral e as partes envolvidas, em grande parte, estão identificadas. Os dados estão organizados em um arquivo json, podendo ser importado para um banco MongoDB. Junto com a base, estão disponíveis também os arquivos pdfs originais, bem como as ferramentas e os códigos que foram utilizados para download, extração e conversão dos dados que compõem o dataset.

Link da base: http://dadosabertos.c3sl.ufpr.br/acordaos/
Artigo de Publicação da Base: https://www.researchgate.net/publication/336022563_Iudicium_Textum_Dataset_Uma_Base_de_Textos_Juridicos_para_NLP

2 Curtidas

Instalação do Portuguese GLUE v1

Aqui está o passo a passo num terminal Ubuntu que segui:

  1. Instalei a biblioteca cabextract pelo comando apt install cabextract

  2. Criei uma pasta PortugueseGLUE (comando mkdir) onde baixei o script glue_v1.py.

  3. Instalei MRPC seguindo os comandos seguintes a partir da pasta PortugueseGLUE:

    mkdir glue_data
    cd glue_data
    wget https://download.microsoft.com/download/D/4/6/D46FF87A-F6B9-4252-AA8B-3604ED519838/MSRParaphraseCorpus.msi
    mkdir MRPC
    cabextract MSRParaphraseCorpus.msi -d MRPC
    cat MRPC/_2DEC3DBE877E4DB192D17C0256E90F1D | tr -d $'\r' > MRPC/msr_paraphrase_train.txt
    cat MRPC/_D7B391F9EAFF4B1B8BCE8F21B20B1B61 | tr -d $'\r' > MRPC/msr_paraphrase_test.txt
    rm MRPC/_*
    rm MSRParaphraseCorpus.msi
    cd ..
    
  4. Baixei e extrai os datasets do Portuguese GLUE v1 pelo comando seguinte:
    python glue_v1.py --path_to_mrpc glue_data/MRPC

Lista das pastas instaladas: CoLA, MNLI, MRPC, QNLI, QQP, RTE, SNLI, SST-2, STS-B, WNLI, diagnostic.

1 Curtida

Datasets em português do site paperswithcode.com:

1 Curtida

Datasets em português do site huggingface.co/datasets:

https://huggingface.co/datasets?filter=languages:pt

1 Curtida

Olá a todos, gostaria de partilhar alguns datasets criados no meu grupo de investigação, na Universidade de Coimbra.

E ainda:

Olá,
Relativamente ao SQuAD, ao fazer a tradução automática, não há o risco da resposta não ser mais um sequência do texto?

Uma questão para @juliana e @pvcastro :slight_smile:
Meu ponto de vista: @hgoliv, tem razão o mas o grupo Deep Learning Brasil prestou atenção à isso fazendo revisões.

1 Curtida

Isso realmente acontece @hgoliv, observamos isso e fizemos os ajustes necessários para gerar a versão do dataset em Português.

2 Curtidas

Que bom saber!
Conhecia traduções do SQuAD 1.1 e 2.0 para português (nunorc/squad-v1.1-pt e cjaniake/squad_v2.0_pt no GitHub) e um modelo BERT treinado no primeiro (nunorc/qaptnet), mas as traduções não foram revistas.

Têm planos de fazer algo semelhante para o CoQA e / ou para o QuAC?

Por enquanto não é algo que está no nosso radar não, mas sem dúvidas iremos disponibilizar os datasets que formos convertendo desta forma, assim como fizemos com outros do GLUE :smile:

1 Curtida