余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

666,这个 PDF 库比其它工具好用 99 倍

xiyangw 2023-10-10 14:48 38 浏览 0 评论

将网页转换为pdf之前用过 wkhtmltopdf 这个工具,对应的 Python 库是 pdfkit,但是最终转换出来的效果总是不尽如意。

最近发现一个新的库 WeasyPrint , 经过一番测试效果非常不错,无论是从官方网站的介绍还是提供的文档,看得出作者应该是花了不少心思来做这件事。

最重要的是,安装简单,使用方便。不像pdfkit调用的都是 wkhtmltopdf 提供的指令,而 WeasyPrint 是一个原生的Python项目,所以特别适合做 Python 定制开发,当然,它也需要依赖其它第三方库。

安装

WeasyPrint 能在 Linux, macOS and Windows 多平台支持,因为WeasyPrint需要依赖 cairo, Pango 和 GDK-PixBuf ,所以这些软件需要独立安装,而 WeasyPrint 可以直接通过 pip 安装。

Mac

brew install python3 cairo pango gdk-pixbuf libffiWindow
Windows的安装要稍微麻烦些, 主要是安装 GTK+ 这个库,下载地址:https://github.com/tschoonj/GTK-for-Windows-Runtime-Environment-Installer/releases/download/2020-11-22/gtk3-runtime-3.24.23-2020-11-22-ts-win64.exe

安装WeasyPrint

Window

Windows的安装要稍微麻烦些, 主要是安装 GTK+ 这个库,下载地址:https://github.com/tschoonj/GTK-for-Windows-Runtime-Environment-Installer/releases/download/2020-11-22/gtk3-runtime-3.24.23-2020-11-22-ts-win64.exe

安装WeasyPrint

pip install WeasyPrint

不出意外的话,你现在就可以使用 WeasyPrint 这个工具了。执行 weasyprint 命令, 指定要转换的 url 地址和 pdf 文件名即可。

我们随便指定一个 URL 地址,这里以我的博客为例

weasyprint https://foofish.net/base64.html  base64.pdf

最后生成的效果图

这就完了吗?

肯定不是,如果只是单纯的转换一个网页,直接用浏览器的打印功能,然后另存为 PDF 就可以了。没必要绕个这么大的弯子来做这件事。

我们之所以用它来做 PDF 转换肯定是希望它能够为我们实现自动化、批量化、个性化的任务。

构建 HTML 对象

生成 PDF 文件前,首先需要构建一个 HTML 对象,HTML 对象可以通过 url 链接、文件路径,或者是 HTML 文档字符串指定

from weasyprint import HTML

HTML(filename='../foo.html')

HTML(url='http://weasyprint.org')

HTML(string='''
    <h1>The title</h1>
    <p>Content goes here
''')

生成 pdf 文件只需要调用 html 对象的 write_pdf 方法

一个最简单的例子:

from weasyprint import HTML
HTML('https://foofish.net/base64.html').write_pdf('base64.pdf')

在转换的时候,你还可以自定义样式

from weasyprint import HTML, CSS
HTML('https://foofish.net/base64.html').write_pdf('base64.pdf',
    stylesheets=[CSS(string='body { font-family: serif !important }')])

当然不仅可以生成PDF,也可以生成PNG图片, 只需要调用 html.write_png(“filename.png”)。

Document对象

此外,HTML 对象的 render 方法返回一个 document 对象,通过 document 对象可以拿到所有页码(page)数据,这样你就可以获取指定页的数据来生成 PDF 或者将多个 HTML 的 document 对象合并成一个 PDF 文件。

例如,将每页单独生成一张图片

html1 = HTML("https://foofish.net/base64.html")
document = html1.render()
for i, page in enumerate(document.pages):
    document.copy([page]).write_png('page_%s.png' % i)

例如:将两个链接整个生成一个PDF文件

html1 = HTML("https://foofish.net/base64.html")
html2 = HTML("https://foofish.net/python-wsgi.html")
pages = []
pages.extend(html1.render().pages)
pages.extend(html2.render().pages)
HTML(string="").render().copy(pages).write_pdf("foofish.pdf")

相关推荐

“三次握手,四次挥手”你真的懂吗?

记得刚毕业找工作面试的时候,经常会被问到:你知道“3次握手,4次挥手”吗?这时候我会“胸有成竹”地“背诵”前期准备好的“答案”,第一次怎么怎么,第二次……答完就没有下文了,面试官貌似也没有深入下去的意...

面试官问:三次握手与四次挥手是怎么完成的?

作者|饶全成来源|码农桃花源记得刚毕业找工作面试的时候,经常会被问到:你知道“3次握手,4次挥手”吗?这时候我会“胸有成竹”地“背诵”前期准备好的“答案”,第一次怎么怎么,第二次……答完就没有...

三次握手和四次挥手的高阶面试题,建议收藏

昨天村长的讲解,真是一语点醒,这样的解释胜过死记硬背。但对于学习者,如果不能有直观感受,可能还是觉得不接地气,今天介绍两个工具,一个是网络抓包工具Wireshark,一个是linux命令tcpdum...

三次握手和四次挥手到底是个什么鬼东西

之前总有是有面试官喜欢问,你知道什么是三次握手么?什么是四次挥手么?为什么握手需要三次,挥手需要四次呢?今天我们就来详细的聊一下这个。1.什么是TCPTCP协议,简单称呼一下的话,那就是传输控制协议,...

加深理解TCP的三次握手与四次挥手

在了解三次握手和四次挥手之前,先要知道TCP报文内部包含了那些东西。熟悉了解TCP报文对日后学习网络和排除方面有很大的帮助,所以,今天为了加深对三次握手的理解,从新去认识TCP报文格式。TCP报文格式...

三次握手 与 四次挥手_三次握手四次挥手大白话

三次握手:①首先Client端发送连接请求报文②Server段接受连接后回复ACK报文,并为这次连接分配资源。③Client端接收到ACK报文后也向Server段发生ACK报文...

动画讲解TCP的3次握手,4次挥手,让你一次看明白

专注于Java领域优质技术,欢迎关注作者:老钱占小狼博客TCP三次握手和四次挥手的问题在面试中是最为常见的考点之一。很多读者都知道三次和四次,但是如果问深入一点,他们往往都无法作出准确回答。本篇尝试...

linux下实现免密传输文件或登录到其他服务器

使用scp传输文件到其他服务器的时候,提示需要输密码,如下:[root@18csetup]#scpLINUX.X64_180000_db_home.zip192.168.133.120:/u0...

Linux如何通过salt免密SCP传输上百台机的脚本?看chatGPT的回答

如何通过salt免密SCP传输上百台机的shell脚本”,下面是chatGPT给出的结果。scp批量免密脚本给出的详细shell脚本如下:#!/bin/bash#源文件路径和目标路径SRC_...

Linux/Mac scp命令上传文件_将hdfs上的文件下载到本地的命令是

语法scp[可选参数]file_sourcefile_target参数说明:-1:强制scp命令使用协议ssh1-2:强制scp命令使用协议ssh2-4:强制scp命令只使用IPv4寻...

Linux常用功能——文件远程传输_linux 远程传输文件

scp是securecopy的简写,是linux系统下基于ssh登陆进行安全的远程文件拷贝命令,用于在Linux下进行远程拷贝文件的命令。和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器...

使用 scp 命令定时拉取服务器备份文件

我们的服务器,每周五必须要做下备份,但总是忘记执行备份这件事情,或者是服务器备份做了,但没有做异地备份。所以通过定时任务自动备份,备份成功之后,在其它服务器上面通过定时任务scp命令自动拉取备份文...

windows下最轻便的FTP/SCP文件管理器

这次推荐的工具叫做winscp,这个工具如果是IT从业人员,又是做服务端相关工作的话,可能无人不知,如果是刚入门,推荐立马上手试试。如果看了觉得有用,欢迎收藏、点赞、关注。官方网站:https://w...

我不是网管 - Linux中使用SCP命令安全复制文件

SCP是linux发行版中的命令行工具,用于通过网络安全地跨系统复制文件和目录。SCP代表安全复制,因为它使用ssh协议复制文件。拷贝时,scp命令建立ssh连接到远程系统。换句话说...

WinSCP软件双系统(Win-Linux)文件传输教程

WinSCP软件是windows下的一款使用ssh协议的开源图形化SFTP客户端,也就是一个文件传输的软件,它有什么优点吗,咱们嵌入式开发中经常会将windows中的文件复制到linux系统当中,比较...

取消回复欢迎 发表评论: