一句话:根据指定词汇,从MDX字典提取内容并输出为HTML、PDF或JPG。
详情:MdxScraper 是在 MdxConverter 基础上升级改造:
- 提升词典兼容性:
- 内置并升级mdict-query,支持多mdd的词典。
- 兼容有或无CSS文件的词典。
- 兼容html中img标签的多种写法。
- 兼容支持png、jpg、jpeg、gif等常见图片格式。
- 支持同一个页面多次重复引用同一图片的情形,如读音图标等。
- 提升跨平台兼容性:
- 文件路径名,兼容跨平台的多种的写法。
- wkhtmltopdf安装目录,兼容跨平台的多种情形。
- 重构程序,更加便捷、易用、强健和友好:
- 采用配置文件方式,而非命令行参数,配合conda可以一键输出,更便捷。
- 丰富配置选项,包括输入输出文件、词典文件、PDF排版、CSS等,更强大。
- 输出信息增加程序状态、查询统计、输出地址、耗时等信息,体验更友好。
- 备份原始词汇,并与输出文件放在一起,方便归档调阅,数据安全有保障。
- 增加时间戳到输出文件名,方便归档查阅所有输出文件,文件管理更方便。
-
安装以下第三方库
- pip install imgkit
- pip install pdfkit
- pip install openpyxl
- pip install chardet
- pip install base64
- pip install bs4
-
安装wkhtmltopdf
- 配置参数:settings.py
- 运行程序:python MdxScraper.py
- 上述“使用”中的第2条,在实际操作时,其实还挺麻烦的:
- 启动命令行:cmd 或 terminal等
- 查询conda环境:conda env list
- 激活conda环境:conda activate MdxScraper
- 输入命令:python MdxScraper.py
- 为简化上述步骤,可使用以下高级技巧,只要双击一个快捷键即可完成。
- 说明1: 本技巧非必须,是可选项。
- 说明2: 本技巧适用Window平台,其他平台同理。
- 安装:使用miniconda配置独立的MdxScraper运行环境,避免其他程序干扰
- 建立conda环境:conda create -n MdxScraper python
- 进入conda环境:conda activate MdxScraper
- 安装第三方库:同上“安装”章节
- 配置:在程序根目录下创建快捷键Conda MdxScraper.lnk
- 右键/属性/目标/修订并填入:
%windir%\System32\cmd.exe "/K" C:\Users\YOURNAME\miniconda3\Scripts\activate.bat C:\Users\YOURNAME\miniconda3\envs\MdxScraper & cd c:\Apps\MdxScraperLocal\ & MdxScraper.py
- 修订内容:请根据您的电脑配置信息,更改上述miniconda和MdxScraper的相关目录
- 目的:双击该快捷键即可一步到位——启动命令行/激活conda中的MdxScraper环境/执行程序MdxScraper.py
- 改进后的实际操作:
- 配置参数:settings.py
- 运行程序:双击快捷键Conda MdxScraper.lnk,完成