项目作者: antauren

项目描述 :
高级语言: Python
项目地址: git://github.com/antauren/books-library-restyle.git
创建时间: 2020-07-16T15:22:31Z
项目社区:https://github.com/antauren/books-library-restyle

开源协议:MIT License

下载


Парсер книг с сайта tululu.org

Данный скрипт скачивает книги определенного жанра с сайта tululu.org.
А именно: текст, обложку, комментарии и т.д.

Как установить

Python3 должен быть уже установлен.
Затем используйте pip (или pip3, есть конфликт с Python2) для установки зависимостей:

  1. pip install -r requirements.txt

Аргументы

  • genre_id - id жанра ( tululu.org/l55/ ) (значение по умолчанию: 55)
  • start_page - начальная страница скачивания (значение по умолчанию: 1)
    пример: tululu.org/l55/1/
  • end_page - конечная страница скачивания (значение по умолчанию: 1)
    пример: tululu.org/l55/20/
  • all_books - скачать ВСЕ книги выбранного жанра
  • dest_folder — путь к каталогу с результатами парсинга: картинкам, книгам, JSON. (значение по умолчанию: downloads)
  • skip_imgs — не скачивать картинки
  • skip_txt — не скачивать книги
  • json_path — указать свой путь к .json файлу с результатами (значение по умолчанию: jsons*)

Примеры запуска:

скачать книги жанра научная фантастика, первую страницу, в папку downloads

  1. python parse_tululu_category.py

скачать книги жанра детская фантастика, с 5-й по 7-ю страницу, в папку my_downloads, без обложек

  1. python parse_tululu_category.py --genre_id 17 --start_page 5 --end_page 7 --dest_folder my_downloads --skip_imgs

Цель проекта

Код написан в образовательных целях на онлайн-курсе для веб-разработчиков
dvmn.org.