fastNLP.io.loader.matching module

undocumented

class fastNLP.io.loader.matching.MNLILoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.MNLILoader fastNLP.io.loader.MNLILoader

读取的数据格式为:

Example:

index   promptID        pairID  genre   sentence1_binary_parse  sentence2_binary_parse  sentence1_parse sentence2_parse sentence1       sentence2       label1  gold_label
0       31193   31193n  government      ( ( Conceptually ( cream skimming ) ) ...
1       101457  101457e telephone       ( you ( ( know ( during ( ( ( the season ) and ) ( i guess ) ) )...
...

读取MNLI任务的数据,读取之后的DataSet中包含以下的内容,words0是sentence1, words1是sentence2, target是gold_label, 测试集中没 有target列。

raw_words1

raw_words2

target

Conceptually cream …

Product and geography…

neutral

you know during the …

You lose the things to the…

entailment

load(paths: str = None)[源代码]
参数

paths (str) – 传入数据所在目录,会在该目录下寻找dev_matched.tsv, dev_mismatched.tsv, test_matched.tsv, test_mismatched.tsv, train.tsv文件夹

返回

DataBundle

download()[源代码]

如果你使用了这个数据,请引用

https://www.nyu.edu/projects/bowman/multinli/paper.pdf :return:

class fastNLP.io.loader.matching.SNLILoader[源代码]

基类:fastNLP.io.loader.json.JsonLoader

基类 fastNLP.io.JsonLoader

别名 fastNLP.io.SNLILoader fastNLP.io.loader.SNLILoader

文件每一行是一个sample,每一行都为一个json对象,其数据格式为:

Example:

{"annotator_labels": ["neutral", "entailment", "neutral", "neutral", "neutral"], "captionID": "4705552913.jpg#2",
 "gold_label": "neutral", "pairID": "4705552913.jpg#2r1n",
 "sentence1": "Two women are embracing while holding to go packages.",
 "sentence1_binary_parse": "( ( Two women ) ( ( are ( embracing ( while ( holding ( to ( go packages ) ) ) ) ) ) . ) )",
 "sentence1_parse": "(ROOT (S (NP (CD Two) (NNS women)) (VP (VBP are) (VP (VBG embracing) (SBAR (IN while) (S (NP (VBG holding)) (VP (TO to) (VP (VB go) (NP (NNS packages)))))))) (. .)))",
 "sentence2": "The sisters are hugging goodbye while holding to go packages after just eating lunch.",
 "sentence2_binary_parse": "( ( The sisters ) ( ( are ( ( hugging goodbye ) ( while ( holding ( to ( ( go packages ) ( after ( just ( eating lunch ) ) ) ) ) ) ) ) ) . ) )",
 "sentence2_parse": "(ROOT (S (NP (DT The) (NNS sisters)) (VP (VBP are) (VP (VBG hugging) (NP (UH goodbye)) (PP (IN while) (S (VP (VBG holding) (S (VP (TO to) (VP (VB go) (NP (NNS packages)) (PP (IN after) (S (ADVP (RB just)) (VP (VBG eating) (NP (NN lunch))))))))))))) (. .)))"
 }

读取之后的DataSet中的field情况为

下面是使用SNLILoader加载的DataSet所具备的field

target

raw_words1

raw_words2

neutral

Two women are embracing while holding..

The sisters are hugging goodbye…

entailment

Two women are embracing while holding…

Two woman are holding packages.

load(paths: Union[str, Dict[str, str]] = None)fastNLP.io.data_bundle.DataBundle[源代码]

从指定一个或多个路径中的文件中读取数据,返回 DataBundle

读取的field根据Loader初始化时传入的field决定。

参数

paths (str) – 传入一个目录, 将在该目录下寻找snli_1.0_train.jsonl, snli_1.0_dev.jsonl 和snli_1.0_test.jsonl三个文件。

返回

返回的 DataBundle

download()[源代码]

如果您的文章使用了这份数据,请引用

http://nlp.stanford.edu/pubs/snli_paper.pdf

返回

str

class fastNLP.io.loader.matching.QNLILoader[源代码]

基类:fastNLP.io.loader.json.JsonLoader

基类 fastNLP.io.JsonLoader

别名 fastNLP.io.QNLILoader fastNLP.io.loader.QNLILoader

第一行为标题(具体内容会被忽略),之后每一行是一个sample,由index、问题、句子和标签构成(以制表符分割),数据结构如下:

Example:

index   question        sentence        label
0       What came into force after the new constitution was herald?     As of that day, the new constitution heralding the Second Republic came into force.     entailment

QNLI数据集的Loader, 加载的DataSet将具备以下的field, raw_words1是question, raw_words2是sentence, target是label

raw_words1

raw_words2

target

What came into force after the new…

As of that day…

entailment

.

test数据集没有target列

download()[源代码]

如果您的实验使用到了该数据,请引用

https://arxiv.org/pdf/1809.05053.pdf

返回

class fastNLP.io.loader.matching.RTELoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.RTELoader fastNLP.io.loader.RTELoader

第一行为标题(具体内容会被忽略),之后每一行是一个sample,由index、句子1、句子2和标签构成(以制表符分割),数据结构如下:

Example:

index   sentence1       sentence2       label
0       Dana Reeve, the widow of the actor Christopher Reeve, has died of lung cancer at age 44, according to the Christopher Reeve Foundation. Christopher Reeve had an accident.      not_entailment

RTE数据的loader 加载的DataSet将具备以下的field, raw_words1是sentence0,raw_words2是sentence1, target是label

raw_words1

raw_words2

target

Dana Reeve, the widow of the actor…

Christopher Reeve had an…

not_entailment

test数据集没有target列

download()[源代码]

如果您的实验使用到了该数据,请引用GLUE Benchmark

https://openreview.net/pdf?id=rJ4km2R5t7

返回

class fastNLP.io.loader.matching.QuoraLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.QuoraLoader fastNLP.io.loader.QuoraLoader

Quora matching任务的数据集Loader

支持读取的文件中的内容,应该有以下的形式, 以制表符分隔,且前三列的内容必须是:第一列是label,第二列和第三列是句子

Example:

1       How do I get funding for my web based startup idea ?    How do I get seed funding pre product ? 327970
0       Is honey a viable alternative to sugar for diabetics ?  How would you compare the United States ' euthanasia laws to Denmark ?  90348
...

加载的DataSet将具备以下的field

raw_words1

raw_words2

target

How do I get funding for my web based…

How do I get seed funding…

1

Is honey a viable alternative …

How would you compare the United…

0

download()[源代码]

由于版权限制,不能提供自动下载功能。可参考

https://www.kaggle.com/c/quora-question-pairs/data

返回

class fastNLP.io.loader.matching.BQCorpusLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.BQCorpusLoader fastNLP.io.loader.BQCorpusLoader

别名: 数据集简介:句子对二分类任务(判断是否具有相同的语义) 原始数据结构为:

Example:

sentence1,sentence2,label
综合评分不足什么原因,综合评估的依据,0
什么时候我能使用微粒贷,你就赶快给我开通就行了,0

读取后的Dataset将具有以下数据结构:

raw_chars1

raw_chars2

target

综合评分不足什么原因

综合评估的依据

0

什么时候我能使用微粒贷

你就赶快给我开通就行了

0

download()[源代码]

由于版权限制,不能提供自动下载功能。可参考

https://github.com/ymcui/Chinese-BERT-wwm

返回

class fastNLP.io.loader.matching.CNXNLILoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.CNXNLILoader fastNLP.io.loader.CNXNLILoader

数据集简介:中文句对NLI(本为multi-lingual的数据集,但是这里只取了中文的数据集)。原句子已被MOSES tokenizer处理,这里我们将其还原并重新按字tokenize 原始数据数据为:

Example:

premise hypo    label
我们 家里  一个    找到  可以   时间 我们 家里  一个   从来 没有 时间 使用  .  entailment

dev和test中的数据为csv或json格式,包括十多个field,这里只取与以上三个field中的数据 读取后的Dataset将具有以下数据结构:

raw_chars1

raw_chars2

target

我们 家里 有 一个 但 我 没 找到 我 可以 用 的 时间

我们 家里 有 一个 但 我 从来 没有 时间 使用 它 .

0

download() → str[源代码]

自动下载数据,该数据取自 https://arxiv.org/abs/1809.05053https://arxiv.org/pdf/1905.05526.pdf https://arxiv.org/pdf/1901.10125.pdf https://arxiv.org/pdf/1809.05053.pdf 有使用 :return:

class fastNLP.io.loader.matching.LCQMCLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.LCQMCLoader fastNLP.io.loader.LCQMCLoader

数据集简介:句对匹配(question matching)

原始数据为:

Example:

喜欢打篮球的男生喜欢什么样的女生        爱打篮球的男生喜欢什么样的女生 1
你帮我设计小说的封面吧     谁能帮我给小说设计个封面?   0

读取后的Dataset将具有以下的数据结构

raw_chars1

raw_chars2

target

喜欢打篮球的男生喜欢什么样的女生

爱打篮球的男生喜欢什么样的女生

1

你帮我设计小说的封面吧

妇可以戴耳机听音乐吗?

0

download()[源代码]

由于版权限制,不能提供自动下载功能。可参考

https://github.com/ymcui/Chinese-BERT-wwm

返回