将数据拆分为训练和测试集是评估学习算法性能的常用步骤。对于有监督的学习更为明确,其中您在训练集上训练模型,然后查看其在测试集上的分类与真实的类标签的匹配程度。对于无监督学习,这种评估有点棘手。在主题建模的情况下,性能的常见度量是 困惑 。您在训练集上训练模型(如LDA),然后您会看到模型在测试集上的“困惑”程度。更具体地说,您可以衡量测试文档的字数由主题所代表的单词分布表示的程度。
困惑对于模型或参数设置之间的相对比较是有益的,但它的数值并不真正意义重大。我更喜欢使用以下手动评估过程来评估主题模型:
我意识到这个过程并不像人们想象的那么好和定量,但说实话,主题模型的应用也很少量化。我建议根据您应用的问题评估您的主题模型。
祝好运!