fastNLP.io.pipe.summarization module

undocumented

class fastNLP.io.pipe.summarization.ExtCNNDMPipe(vocab_size, sent_max_len, doc_max_timesteps, vocab_path=None, domain=False)[源代码]

基类:fastNLP.io.pipe.pipe.Pipe

对CNN/Daily Mail数据进行适用于extractive summarization task的预处理,预处理之后的数据,具备以下结构:

__init__(vocab_size, sent_max_len, doc_max_timesteps, vocab_path=None, domain=False)[源代码]
参数
  • vocab_size – int, 词表大小

  • sent_max_len – int, 句子最大长度,不足的句子将padding,超出的将截断

  • doc_max_timesteps – int, 文章最多句子个数,不足的将padding,超出的将截断

  • vocab_path – str, 外部词表路径

  • domain – bool, 是否需要建立domain词表

process(data_bundle: fastNLP.io.data_bundle.DataBundle)[源代码]

传入的DataSet应该具备如下的结构

参数

data_bundle

返回

处理得到的数据包括 .. csv-table:

:header: "text_wd", "words", "seq_len", "target"

[["I","got",..."."],...,["..."]], [[54,89,...,5],...,[9,43,..,0]], [1,1,...,0], [0,1,...,0]
[["Don't","waste",...,"."],...,["..."]], [[5234,653,...,5],...,[87,234,..,0]], [1,1,...,0], [1,1,...,0]
[[""],...,[""]], [[],...,[]], [], []

process_from_file(paths=None)[源代码]
参数

paths – dict or string

返回

DataBundle