FastText

Featured image

一种文本分类算法;
算法模型架构与CBOW的word2vec类似;

区别

输入
一个文档的所有词汇对于的embedding向量;
其中某个词汇的embedding向量是基于字符的n-gram表示的;(这与微软的双塔模型很类似)
apple → “<ap”,”app”,”ppl”,”ple”,”le>”;进一步,我们可以用这5个trigram的向量叠加来表示“apple”的词向量 优点:

输出
文档的标签;