项目作者: Abioy

项目描述 :
Chinese Words Segment Library in Python 简单的中文分词库
高级语言: Python
项目地址: git://github.com/Abioy/snailseg.git
创建时间: 2012-09-18T09:57:07Z
项目社区:https://github.com/Abioy/snailseg

开源协议:

下载


snailseg

Chinese Words Segment Library in Python 简单的中文分词库

Usage

  • 将snailseg目录放置于当前目录或者site-packages目录
  • import snailseg

代码示例

  1. import snailseg
  2. words = snailseg.cut("南京市长江大桥")
  3. for w in words:
  4. print w

Algorithm

  • 算法是统计单字在词语中出现位置的概率大小,选择最大可能的分词方案
  • 算法简单,只有100行纯Python代码

Performance

  • 700 KB/Second
  • Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt

Example

Sentences:

  1. cuttest("这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。")
  2. cuttest("我不喜欢日本和服")
  3. cuttest("雷猴回归人间")
  4. cuttest("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")
  5. cuttest("我需要廉租房")
  6. cuttest("永和服装饰品有限公司")
  7. cuttest("我爱北京天安门")
  8. cuttest("abc")
  9. cuttest("隐马尔可夫")
  10. cuttest("雷猴是个好网站")
  11. cuttest("“Microsoft”一词由“MICROcomputer(微型计算机)”和“SOFTware(软件)”两部分组成")
  12. cuttest("草泥马和欺实马是今年的流行词汇")
  13. cuttest("伊藤洋华堂总府店")
  14. cuttest("中国科学院计算技术研究所")
  15. cuttest("罗密欧与朱丽叶 Hahaha")
  16. cuttest("新生小鼠中肌红蛋白含量较成年鼠高吗?")
  17. cuttest("南京市长江大桥")
  18. cuttest("乒乓球拍卖完了")
  19. cuttest("大")
  20. cuttest("")

Efect:

  1. 这是 / 一个 / 伸手 / 不见 / 五指 / / 黑夜 / / / 孙悟空 / 我爱 / 北京 /
  2. 我爱 / Python / / C++ /
  3. / / 喜欢 / 日本 / 和服 /
  4. / / 回归 / 人间 /
  5. 工信处 / / 干事 / 每月 / 经过 / 下属 / 科室 / / / 亲口 / 交代 / 24 /
  6. / 交换机 / / 技术性 / 器件 / / 安装 / 工作 /
  7. / 需要 / 廉租 / /
  8. 永和 / 服装 / 饰品 / 有限 / 公司 /
  9. 我爱 / 北京 / 天安 / /
  10. abc /
  11. / 马尔 / 可夫 /
  12. / / / / 好网 / /
  13. Microsoft / / / / MICROcomputer / 微型 / 计算机 / / SOFTware / 软件
  14. / 两部 / 分组 / /
  15. 草泥马 / / / / / / 今年 / / 流行 / 词汇 /
  16. 伊藤 / 洋华堂 / 总府 / /
  17. 中国 / 科学院 / 计算 / 技术 / 研究 / /
  18. 罗密 / / / 朱丽 / / Hahaha /
  19. 新生 / 小鼠 / / / 红蛋 / / 含量 / / 成年 / / / /
  20. 南京市 / 长江 / 大桥 /
  21. 乒乓 / 球拍 / / 完了 /
  22. /