看起来像 edu.stanfordn.nlp.process.DocumentPreprocessor 可以用来将段落分成句子,但我不知道如果没有适当的标点符号它的效果如何。
edu.stanfordn.nlp.process.DocumentPreprocessor
还有许多其他句子级标记符可用于预处理语料库,查看NLTK nltk.tokenize.punkt模块 它使用ML算法在没有良好的大写/标点符号的情况下制作句子令牌。