fastNLP.io.loader.cws module

undocumented

class fastNLP.io.loader.cws.CWSLoader(dataset_name: str = None)[源代码]

基类:fastNLP.io.loader.loader.Loader

基类 fastNLP.io.Loader

别名 fastNLP.io.CWSLoader fastNLP.io.loader.CWSLoader

CWSLoader支持的数据格式为,一行一句话,不同词之间用空格隔开, 例如:

Example:

上海 浦东 开发 与 法制 建设 同步
新华社 上海 二月 十日 电 ( 记者 谢金虎 、 张持坚 )
...

该Loader读取后的DataSet具有如下的结构

raw_words

上海 浦东 开发 与 法制 建设 同步

新华社 上海 二月 十日 电 ( 记者 谢金虎 、 张持坚 )

__init__(dataset_name: str = None)[源代码]
参数

dataset_name (str) – data的名称,支持pku, msra, cityu(繁体), as(繁体), None

download(dev_ratio=0.1, re_download=False) → str[源代码]

如果你使用了该数据集,请引用以下的文章:Thomas Emerson, The Second International Chinese Word Segmentation Bakeoff, 2005. 更多信息可以在http://sighan.cs.uchicago.edu/bakeoff2005/查看

参数
  • dev_ratio (float) – 如果路径中没有dev集,从train划分多少作为dev的数据. 如果为0,则不划分dev。

  • re_download (bool) – 是否重新下载数据,以重新切分数据。

返回

str