fastNLP.io.loader.classification module

undocumented

class fastNLP.io.loader.classification.CLSBaseLoader(sep=',', has_header=False)[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.CLSBaseLoader fastNLP.io.loader.CLSBaseLoader

文本分类Loader的一个基类

原始数据中内容应该为, 每一行为一个sample,第一个逗号之前为target,第一个逗号之后为文本内容。

Example:

"1","I got 'new' tires from the..."
"1","Don't waste your time..."

读取的DataSet将具备以下的数据结构

raw_words

target

I got ‘new’ tires from them and…

1

Don’t waste your time. We had two…

1

class fastNLP.io.loader.classification.IMDBLoader[源代码]

基类:fastNLP.io.loader.classification.CLSBaseLoader

基类 fastNLP.io.CLSBaseLoader

别名 fastNLP.io.IMDBLoader fastNLP.io.loader.IMDBLoader

原始数据中内容应该为, 每一行为一个sample,制表符之前为target,制表符之后为文本内容。

Example:

neg     Alan Rickman & Emma...
neg     I have seen this...

IMDBLoader读取后的数据将具有以下两列内容: raw_words: str, 需要分类的文本; target: str, 文本的标签 读取的DataSet具备以下的结构:

raw_words

target

Alan Rickman & Emma…

neg

I have seen this…

neg

download(dev_ratio: float = 0.0, re_download=False)[源代码]

自动下载数据集,如果你使用了这个数据集,请引用以下的文章

http://www.aclweb.org/anthology/P11-1015

根据dev_ratio的值随机将train中的数据取出一部分作为dev数据。下载完成后不从train中切分dev

参数
  • dev_ratio (float) – 如果路径中没有dev.txt。从train划分多少作为dev的数据. 如果为0,则不划分dev

  • re_download (bool) – 是否重新下载数据,以重新切分数据。

返回

str, 数据集的目录地址

class fastNLP.io.loader.classification.SSTLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.SSTLoader fastNLP.io.loader.SSTLoader

原始数据中内容应该为:

Example:

(2 (3 (3 Effective) (2 but)) (1 (1 too-tepid)...
(3 (3 (2 If) (3 (2 you) (3 (2 sometimes)...

读取之后的DataSet具有以下的结构

下面是使用SSTLoader读取的DataSet所具备的field

raw_words

(2 (3 (3 Effective) (2 but)) (1 (1 too-tepid)…

(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) …

raw_words列是str。

download()[源代码]

自动下载数据集,如果你使用了这个数据集,请引用以下的文章

返回

str, 数据集的目录地址

class fastNLP.io.loader.classification.SST2Loader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.SST2Loader fastNLP.io.loader.SST2Loader

原始数据中内容为:第一行为标题(具体内容会被忽略),之后一行为一个sample,第一个制表符之前被认为是句子,第一个制表符之后认为是label

Example:

sentence        label
it 's a charming and often affecting journey .  1
unflinchingly bleak and desperate       0

读取之后DataSet将如下所示

raw_words

target

it ‘s a charming and often affecting journey .

1

unflinchingly bleak and desperate

0

test的DataSet没有target列。

download()[源代码]

自动下载数据集,如果你使用了该数据集,请引用以下的文章 https://nlp.stanford.edu/pubs/SocherBauerManningNg_ACL2013.pdf :return:

class fastNLP.io.loader.classification.ChnSentiCorpLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.ChnSentiCorpLoader fastNLP.io.loader.ChnSentiCorpLoader

支持读取的数据的格式为,第一行为标题(具体内容会被忽略),之后一行为一个sample,第一个制表符之前被认为是label,第 一个制表符之后认为是句子

Example:

label   text_a
1       基金痛所有投资项目一样,必须先要有所了解...
1       系统很好装,LED屏是不错,就是16比9的比例...

读取后的DataSet具有以下的field

raw_chars

target

基金痛所有投资项目一样,必须先要有所了解…

1

系统很好装,LED屏是不错,就是16比9的比例…

1

download() → str[源代码]

自动下载数据,该数据取自https://github.com/pengming617/bert_classification/tree/master/data,在 https://arxiv.org/pdf/1904.09223.pdf与https://arxiv.org/pdf/1906.08101.pdf有使用

返回

class fastNLP.io.loader.classification.THUCNewsLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.THUCNewsLoader fastNLP.io.loader.THUCNewsLoader

数据集简介:document-level分类任务,新闻10分类 原始数据内容为:每行一个sample,第一个 “\t” 之前为target,第一个 “\t” 之后为raw_words

Example:

体育      调查-您如何评价热火客场胜绿军总分3-1夺赛点?...

读取后的Dataset将具有以下数据结构:

raw_words

target

调查-您如何评价热火客场胜绿军总分3-1夺赛点?…

体育

download() → str[源代码]

自动下载数据,该数据取自

http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews

返回

class fastNLP.io.loader.classification.WeiboSenti100kLoader[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.WeiboSenti100kLoader fastNLP.io.loader.WeiboSenti100kLoader

别名: 数据集简介:微博sentiment classification,二分类

Example:

label   text
1       多谢小莲,好运满满[爱你]
1       能在他乡遇老友真不赖,哈哈,珠儿,我也要用...

读取后的Dataset将具有以下数据结构:

raw_chars

target

多谢小莲,好运满满[爱你]

1

能在他乡遇老友真不赖,哈哈,珠儿,我也要用…

1

download() → str[源代码]

自动下载数据,该数据取自 https://github.com/SophonPlus/ChineseNlpCorpus/https://arxiv.org/abs/1906.08101 有使用 :return: