fasttext-使用过程


拼接语料的过程中注意label,不要出错,否则会导致label变多,一般可以用命令行来检测label数量是否正确,
先用fasttext supervised -input cv_parser_train.txt -output cv_parser_cli.model
Read 12M words
Number of words: 4027900
Number of labels: 9

如果上面labels数量有误则可以进行下面操作

grep -Ev ‘ __label’ cv_parser_train.txt (注意__labe前面是有个空格的)
grep -Ev ‘ label(company|name|major|school|title|department)$’ cv_parser_train.txt
这样出来的结果可能导致多label

如何以完全可重现的方式运行fastText?每次我运行它都会得到不同的结果。
如果多次运行fastText,由于优化算法(异步随机梯度下降或Hogwild),每次都会得到略微不同的结果。如果你需要获得相同的结果(例如,面对不同的输入参数设置),你必须将’thread’参数设置为1.这样你就可以在每次运行时获得完全相同的性能(使用相同的输入参数) 。

该时期参数控制多少时间会遍历您的数据。默认情况下,我们循环数据集5次。如果您的数据集非常庞大,您可能希望不那么频繁地遍历它。另一个重要参数是学习率 - lr)。学习率越高,模型收敛到解决方案的速度越快,但存在过度拟合数据集的风险。默认值为0.05,这是一个很好的折衷方案。如果你想玩它我们建议保持在[0.01,1]的范围内:


文章作者: Bob
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Bob !
  目录