Скрипт позволяет скачивать книги с сайта tululu.org в формате .txt с обложками и комментариями, а также формирует сайт для навигации по библиотеке.
- Предварительно должен быть установлен Python3.
- Для установки зависимостей:
$ pip install -r requirements.txt
Для запуска скрипта:
$ parse_tululu_category.py --start_page START_PAGE --end_page END_PAGE --dest_folder DEST_FOLDER --skip_imgs --skip_txt --json_path JSON_PATH
--start_page START_PAGE
- с какого номера страницы начинать скачивание (по умолчанию - 1);--end_page END_PAGE
- по какую страницу скачивать (по умолчанию - 10);--dest_folder DEST_FOLDER
— путь к каталогу с результатами парсинга: картинкам, книгам (по умолчанию - папкаmedia
в каталоге скрипта);--skip_imgs
— не скачивать картинки;--skip_txt
— не скачивать книги;--json_path JSON_PATH
— путь к каталогу с *.json файлом с результатами работы скрипта (по умолчанию - папкаmedia
в каталоге скрипта);
Предварительно необходимо скачать данные для библиотеки (см. предыдущий пункт).
$ parse_tululu_category.py --start_page START_PAGE --end_page END_PAGE
В папке pages
будут созданы страницы библиотеки. Открыв любую из страниц, вы сможете перемещаться по библиотеке и читать книги.
Код написан в образовательных целях для курса dvmn.org.