1 min to read
FastText
一种文本分类算法;
算法模型架构与CBOW的word2vec类似;
区别
输入
一个文档的所有词汇对于的embedding向量;
其中某个词汇的embedding向量是基于字符的n-gram表示的;(这与微软的双塔模型很类似)
apple → “<ap”,”app”,”ppl”,”ple”,”le>”;进一步,我们可以用这5个trigram的向量叠加来表示“apple”的词向量
优点:
- 对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。
- 对于训练词库之外的单词,仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量
输出
文档的标签;
Comments