fastNLP.io.pipe.cws module

undocumented

class fastNLP.io.pipe.cws.CWSPipe(dataset_name=None, encoding_type='bmes', replace_num_alpha=True, bigrams=False, trigrams=False)[源代码]

基类:fastNLP.io.pipe.pipe.Pipe

基类 fastNLP.io.Pipe

别名 fastNLP.io.CWSPipe fastNLP.io.pipe.CWSPipe

对CWS数据进行预处理, 处理之后的数据,具备以下的结构

raw_words

chars

target

seq_len

共同 创造 美好…

[2, 3, 4…]

[0, 2, 0, 2,…]

13

2001年 新年 钟声…

[8, 9, 9, 7, …]

[0, 1, 1, 1, 2…]

20

[…]

[…]

.

dataset的print_field_meta()函数输出的各个field的被设置成input和target的情况为:

+-------------+-----------+-------+--------+---------+
| field_names | raw_words | chars | target | seq_len |
+-------------+-----------+-------+--------+---------+
|   is_input  |   False   |  True |  True  |   True  |
|  is_target  |   False   | False |  True  |   True  |
| ignore_type |           | False | False  |  False  |
|  pad_value  |           |   0   |   0    |    0    |
+-------------+-----------+-------+--------+---------+
__init__(dataset_name=None, encoding_type='bmes', replace_num_alpha=True, bigrams=False, trigrams=False)[源代码]
参数
  • dataset_name (str,None) – 支持’pku’, ‘msra’, ‘cityu’, ‘as’, None

  • encoding_type (str) – 可以选择’bmes’, ‘segapp’两种。”我 来自 复旦大学…”, bmes的tag为[S, B, E, B, M, M, E…]; segapp 的tag为[seg, app, seg, app, app, app, seg, …]

  • replace_num_alpha (bool) – 是否将数字和字母用特殊字符替换。

  • bigrams (bool) – 是否增加一列bigram. bigram的构成是[‘复’, ‘旦’, ‘大’, ‘学’, …]->[“复旦”, “旦大”, …]

  • trigrams (bool) – 是否增加一列trigram. trigram的构成是 [‘复’, ‘旦’, ‘大’, ‘学’, …]->[“复旦大”, “旦大学”, …]

process(data_bundle: fastNLP.io.data_bundle.DataBundle)fastNLP.io.data_bundle.DataBundle[源代码]

可以处理的DataSet需要包含raw_words列

raw_words

上海 浦东 开发 与 法制 建设 同步

新华社 上海 二月 十日 电 ( 记者 谢金虎 、 张持坚 )

参数

data_bundle

返回

process_from_file(paths=None)fastNLP.io.data_bundle.DataBundle[源代码]
参数

paths (str) –

返回