fastNLP.io.pipe.qa module

本文件中的Pipe主要用于处理问答任务的数据。

class fastNLP.io.pipe.qa.CMRC2018BertPipe(max_len=510)[源代码]

基类:fastNLP.io.pipe.pipe.Pipe

基类 fastNLP.io.Pipe

别名 fastNLP.io.CMRC2018BertPipe fastNLP.io.pipe.qa.CMRC2018BertPipe

处理之后的DataSet将新增以下的field(传入的field仍然保留)

context_len

raw_chars

target_start

target_end

chars

492

[‘范’

‘廷’

‘颂… ]

30

34

[21, 25, …]

491

[‘范’

‘廷’

‘颂… ]

41

61

[21, 25, …]

.

raw_words列是context与question拼起来的结果(连接的地方加入了[SEP]),words是转为index的值, target_start为答案start的index,target_end为答案end的index (闭区间);context_len指示的是words列中context的长度。

其中各列的meta信息如下:

+-------------+-------------+-----------+--------------+------------+-------+---------+
| field_names | context_len | raw_chars | target_start | target_end | chars | answers |
+-------------+-------------+-----------+--------------+------------+-------+---------|
|   is_input  |    False    |   False   |    False     |   False    |  True |  False  |
|  is_target  |     True    |    True   |     True     |    True    | False |  True   |
| ignore_type |    False    |    True   |    False     |   False    | False |  True   |
|  pad_value  |      0      |     0     |      0       |     0      |   0   |   0     |
+-------------+-------------+-----------+--------------+------------+-------+---------+
process(data_bundle: fastNLP.io.data_bundle.DataBundle)fastNLP.io.data_bundle.DataBundle[源代码]

传入的DataSet应该具备以下的field

:header:”title”, “context”, “question”, “answers”, “answer_starts”, “id”

范廷颂

范廷颂枢机(,),圣名保禄·若瑟()…

范廷颂是什么时候被任为主教的?

[“1963年”]

[“30”]

TRAIN_186_QUERY_0

范廷颂

范廷颂枢机(,),圣名保禄·若瑟()…

1990年,范廷颂担任什么职务?

[“1990年被擢升为天…”]

[“41”]

TRAIN_186_QUERY_1

.

参数

data_bundle

返回