如何使用NLTK标记器消除标点符号？

作者: 狗头军师
发布时间: 2024-08-26 05:19:13 (24天前)

2 条回复

1#
回复此人
v-star*위위 | 2020-08-23 09-37

看一下nltk 在此处提供的其他标记化选项。例如，您可以定义一个标记生成器，该标记生成器选择字母数字字符序列作为标记，并丢弃其他所有内容： ``` from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') tokenizer.tokenize('Eighty-seven miles to go, yet. Onward!') ``` 输出： `['Eighty', 'seven', 'miles', 'to', 'go', 'yet', 'Onward']`

编辑

登录后才能参与评论