白癜风诚信为民 http://m.39.net/news/a_5248708.html作者
若名
出品
AI科技大本营
如果经常跟数据表格打交道,那你应该体验过那种令人烦躁到抓狂的心情。但现在,学会下面将要介绍的一款工具的使用方法,相信我,它会让你在工作中简直不能更舒爽。
Excalibur,从古希腊语翻译过来就是“神剑”,它现在也是一种用于从PDF中提取表格数据的Web界面,使用Python3编写,由Camelot(Python库)提供支持,可以让任何人轻松地从PDF文件中提取表格数据。需要注意的是,Excalibur仅适用于基于文本的PDF文件,扫描文件不在此列。
Camelot和Excalibur的作者和维护者是来自新德里BharatiVidyapeeth工程学院的VinayakMehta,目前他正全职做这些项目。
Excalibur的四大特性
可移植文件格式
PDF文件定义了将字符放置在相对于页面左下角的x,y坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。
自动检测PDF中的表格数据
可移植文件格式不是为表格数据设计的。可悲的是,许多开放数据共享时都是PDF文件,但对其中的表格进行分析却是一件非常痛苦的事。简单的复制粘贴行不通,Excalibur通过自动检测PDF中的表格并让你通过Web界面将它们保存为CSV和Excel文件,这使PDF表格提取变得非常简单。
可动态调整表格提取规则
虽然有很多广泛用于PDF表格提取的开源和闭源工具,但他们输出的表格良莠不齐。Excalibur由Camelot提供支持,为用户提供附加设置以调整表格提取并获得最佳效果。相较而言,它的性能要好于其他开源工具和库。
数据完全可控且安全
你可以完全控制数据,因为所有文件存储和处理都在你自己的本地或远程计算机上进行。Excalibur还可以配置MySQL和Celery系统,以并行和分布式方式执行表格提取任务。默认情况下,任务按顺序执行。
快速上手指南
下载和安装