LDA主题建模 - 培训和测试

作者: 求赞有赞必回
发布时间: 2024-05-21 08:16:29 (6天前)
转自：

2 条回复

0#
回复此人
無口君 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> 将数据拆分为训练和测试集是评估学习算法性能的常用步骤。对于有监督的学习更为明确，其中您在训练集上训练模型，然后查看其在测试集上的分类与真实的类标签的匹配程度。对于无监督学习，这种评估有点棘手。在主题建模的情况下，性能的常见度量是 <a href="http://en.wikipedia.org/wiki/Perplexity"> 困惑 </A> 。您在训练集上训练模型（如LDA），然后您会看到模型在测试集上的“困惑”程度。更具体地说，您可以衡量测试文档的字数由主题所代表的单词分布表示的程度。 困惑对于模型或参数设置之间的相对比较是有益的，但它的数值并不真正意义重大。我更喜欢使用以下手动评估过程来评估主题模型： <OL> <LI> 检查主题 ：查看每个主题中可能性最高的单词。他们听起来像是形成了一个有凝聚力的“主题”，还是只是一些随意的单词组？ </LI> <LI> 检查主题分配 ：从培训中拿出一些随机文件，看看LDA分配给他们的主题。手动检查分配的主题中的文档和顶部单词。看起来主题真的描述了文档实际上在说什么吗？ </LI> </醇> 我意识到这个过程并不像人们想象的那么好和定量，但说实话，主题模型的应用也很少量化。我建议根据您应用的问题评估您的主题模型。 祝好运！ </DIV>

编辑

登录后才能参与评论