项目作者: undertheseanlp

项目描述 :
Vietnamese Wikipedia Corpus
高级语言: Python
项目地址: git://github.com/undertheseanlp/corpus.viwiki.git
创建时间: 2017-05-15T04:38:47Z
项目社区:https://github.com/undertheseanlp/corpus.viwiki

开源协议:

下载


Vietnamese Wikipedia Corpus

7878 documents from Vietnamese Wikipedia

Examples

.gb.txt

  1. .gb là tên min quc gia cp cao nht (ccTLD) để dành cho Liên hip Vương quc Anh và Bc Ireland. Được gii thiu cùng lúc vi tên min cao nht khác ca Anh (.uk), nó chưa bao gi được dùng rng rãi, và nó không còn đăng ký được vi tên min này, và b lit vào không s dng na.
  2. Quy định trong H thng tên min là tên min quc gia cp cao nht được dn xut t mã 2 ký t tương ng trong danh sách ISO 3166-1. Theo như mã đúng dành cho Liên hip Vương quc Anh và Bc Ireland là GB, và tên min.gb do đó được y quyn.
  3. Mô hình Đăng ký tên JANET trước đây đã dùng "UK" làm mã quc gia, do đó UK cũng áp dng cho Jon Postel ca IANA cho tên min.uk. Nó được đảm bo, và tt c các tên min UK hin được phân phát là.uk, ch không phi.gb.
  4. .gb được dùng trong mt s năm, ch yếu bi t chc, chính ph và dch v e-mail thương mi s dng h tng email da trên X.400. Điu này đơn gin hóa vic dch gia tên min DNS và địa ch X.400, s dng "GB" làm mã quc gia.[1].
  5. Vi cái chết ca email X.400 và mc tiêu chung ca IANA là mt tên min mt quc gia, vic s dng.gb do đó đã b ph nhn; tên min vn tn ti, nhưng nó không cho đăng ký tên min con na.
  6. Mt tên min con.gb vn tn ti trong DNS (đến năm 2007): dra.hmg.gb, thuc v Cơ quan Nghiên cu Phòng v trước đây ca Chính quyn ca N hoàng. Tuy nhiên, tên min không được dùng na.
  7. == Tham kho ==
  8. == Liên kết ngoài ==
  9. IANA .gb whois information
  10. JANET(UK) website
  11. www.dra.hmg.gb Last accessible copy of www.dra.hmg.gb in the Internet Archive

aol.txt

  1. AOL là viết tt ca America Online, là mt công ty cung cp dch v Internet toàn cu có tr s ti Hoa Kỳ. công ty này thuc qun lý ca tp đoàn Time Warner.
  2. == Chú thích ==

HOWTO

The files are in txt format and stored in viwiki folder.

Execute the following commands to get the corpus

  1. git clone https://github.com/magizbox/corpus.viwiki
  2. cd corpus.vwiki/viwiki