Skip to content

Extract specific words from an MDX dictionary and generate HTML, PDF, or JPG files with ease.

License

Notifications You must be signed in to change notification settings

VimWei/MdxScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

54 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MdxScraper

简介

一句话:根据指定词汇,从MDX字典提取内容并输出为HTML、PDF或JPG。

详情:MdxScraper 是在 MdxConverter 基础上升级改造:

  1. 提升词典兼容性:
    • 内置并升级mdict-query,支持多mdd的词典。
    • 兼容有或无CSS文件的词典。
    • 兼容html中img标签的多种写法。
    • 兼容支持png、jpg、jpeg、gif等常见图片格式。
    • 支持同一个页面多次重复引用同一图片的情形,如读音图标等。
  2. 提升跨平台兼容性:
    • 文件路径名,兼容跨平台的多种的写法。
    • wkhtmltopdf安装目录,兼容跨平台的多种情形。
  3. 重构程序,更加便捷、易用、强健和友好:
    • 采用配置文件方式,而非命令行参数,配合conda可以一键输出,更便捷。
    • 丰富配置选项,包括输入输出文件、词典文件、PDF排版、CSS等,更强大。
    • 输出信息增加程序状态、查询统计、输出地址、耗时等信息,体验更友好。
    • 备份原始词汇,并与输出文件放在一起,方便归档调阅,数据安全有保障。
    • 增加时间戳到输出文件名,方便归档查阅所有输出文件,文件管理更方便。

安装

  1. 安装以下第三方库

    • pip install imgkit
    • pip install pdfkit
    • pip install openpyxl
    • pip install chardet
    • pip install base64
    • pip install bs4
  2. 安装wkhtmltopdf

使用

  1. 配置参数:settings.py
  2. 运行程序:python MdxScraper.py

高级技巧

  • 上述“使用”中的第2条,在实际操作时,其实还挺麻烦的:
    1. 启动命令行:cmd 或 terminal等
    2. 查询conda环境:conda env list
    3. 激活conda环境:conda activate MdxScraper
    4. 输入命令:python MdxScraper.py
  • 为简化上述步骤,可使用以下高级技巧,只要双击一个快捷键即可完成。
    • 说明1: 本技巧非必须,是可选项。
    • 说明2: 本技巧适用Window平台,其他平台同理。
  1. 安装:使用miniconda配置独立的MdxScraper运行环境,避免其他程序干扰
    • 建立conda环境:conda create -n MdxScraper python
    • 进入conda环境:conda activate MdxScraper
    • 安装第三方库:同上“安装”章节
  2. 配置:在程序根目录下创建快捷键Conda MdxScraper.lnk
    • 右键/属性/目标/修订并填入:
    %windir%\System32\cmd.exe "/K" C:\Users\YOURNAME\miniconda3\Scripts\activate.bat C:\Users\YOURNAME\miniconda3\envs\MdxScraper & cd c:\Apps\MdxScraperLocal\ & MdxScraper.py
    
    • 修订内容:请根据您的电脑配置信息,更改上述miniconda和MdxScraper的相关目录
    • 目的:双击该快捷键即可一步到位——启动命令行/激活conda中的MdxScraper环境/执行程序MdxScraper.py
  3. 改进后的实际操作:
    • 配置参数:settings.py
    • 运行程序:双击快捷键Conda MdxScraper.lnk,完成

案例演示

  • 输入(支持txt、json和excel)

    • input\words_to_lookup.txt
    • input\words_to_lookup.json
    • input\words_to_lookup.xlsx
  • 输出(支持html、pdf和jpg)

    • html

About

Extract specific words from an MDX dictionary and generate HTML, PDF, or JPG files with ease.

Resources

License

Stars

Watchers

Forks

Packages

No packages published