项目作者: trannguyenhan

项目描述 :
Parse website and content extraction with jsoup
高级语言: Java
项目地址: git://github.com/trannguyenhan/jsoup-parse-content-website.git


Jsoup-parse-content-website

Parse website and content extraction with jsoup


See the improved versions of the project at: trannguyenhan/jsoup-parse-content-website

(improved project to crawl about bot blocking websites using selenium and headless browsers)


Project inspired by 2 articles https://dl.acm.org/doi/10.1145/2009916.2009952 and https://dl.acm.org/doi/10.1145/1718487.1718542

For example, we extraction content website https://tiki.vn/muong-xao-dandihome

and here is my result :

  1. Mung xào đa năng DandiHome s dng cht liu Inox 304 để làm cán và lõi bên trong.
  2. Phn mung s dng cht liu Silicon loi để sn xut núm ti gi tr em: chu nhit độ lên đến 200 độ, không thôi nhim vào thc phm khi đun nu, không lo biến dng, nt bể.
  3. An toàn vi cho chng dính, không là xước ni.
  4. Bên trong mung là lõi inox 304, giúp d dàng lt hay xào nu thc ăn. Không b mm như 1 s mu trên th trường.
  5. Thiết kế móc treo tin li, tiết kim din tích căn bếp.
  6. Kích thước: 34 x 10 cm
  7. Khi lượng: 115gr
  8. Mung xào DandiHome Inox 304 kết hp b mt mung silicon cao cp - chu được nhit độ cao, an toàn vi cho chng dính
  9. Giá sn phm trên Tiki đã bao gm thuế theo lut hin hành. Tuy nhiên tu vào tng loi sn phm hoc phương thc, địa ch giao hàng mà có th phát sinh thêm chi phí khác như phí vn chuyn, ph phí hàng cng knh, ...