基于机器学习和众包技术的PDF结构解析研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:blueskyxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
全文阅读
PDF是一种常用的多平台文档储存格式,并广泛应用于电子文档的发行以及数字化信息的传播。随着PDF的不断普及,从其中提取相关的结构信息逐渐成为研究的热点,这些结构信息可作为文本提取、机器学习以及PDF重构等应用的重要数据来源。然而,作为一种固定的文本格式,PDF并不直接提供相关的结构信息,因此需要利用结构解析方法对PDF文件进行处理。本文以学术论文PDF结构作为研究对象,针对PDF全文结构提出了一整套的结构解析方案,主要工作如下:1.本文通过分析PDF文档的结构特点,提出将PDF全文结构划分成文本、图像、表格三类结构元素。针对每类结构的特征,本文提出基于Mask R-CNN模型的机器学习方法来解析PDF文档结构,该方法通过对PDF三类结构进行划分来构建相关数据集,并通过模型构建以及参数的优化调节来不断训练模型,进而完成PDF结构信息的解析与提取。2.针对机器学习方法直接得到的P DF结构信息块可能不准确或者不能解析的情况,本文进一步提出利用众包技术来对PDF结构进行自定义解析,设计并实现了PDF结构自定义解析的众包系统,并提出了PDF结构块自调节算法和结构块重排序算法,通过众包模式来完成人工纠错和手动调节,进一步弥补了机器学习方法解析PDF结构所带来的不足。3.针对众包模式可能带来的大量众包数据,本文还设计并实现了一个多数人的投票方案,提出了基于页面单元的投票算法、基于结构块的投票算法以及IOU-结构块算法,通过投票方案的设计筛选出大多数用户对于同一页PDF结构自定义解析的结果,从而得到更加精准的PDF结构解析数据。本文对上述方案设计了相关实验,结果表明,本文提出的机器学习方法可有效完成PDF的结构解析,通过众包模式和投票策略可进一步得到更准确的PDF结构信息。本文提出的解析方案有利于进一步挖掘PDF学术论文中的信息,同时也为PDF结构解析开拓了新的思路。
其他文献
互联网技术正在蓬勃发展,互联网规模也在日渐扩大,其产生的海量数据给正常的网络运维带来了巨大压力。要进行异常检测、异常根因分析、流量预测等网络运维任务需要拥有完整的监控数据。假设网络中节点数为9),那么进行一次全网测量的代价为(9)~2)。这样的代价对大规模网络运维来说不可接受。已有研究表明网络数据间存在低秩性。通过借助低秩性只需要测量部分节点数据就可以推测出未测量数据。这类使用“采样-填充”架构的
新时期旅游行业的发展要求从业人员具备深度学习的能力,深度学习同时也是中职旅游管理专业人才培养的重要要求。但是,中职旅游管理专业在专业课教学中存在重教轻学,重浅层学习要求,忽略深度学习要求等问题,导致学生学习掌握水平不高、学习能力不强,难以满足行业发展的需要,同时也会影响学生后续的职业发展。因此,有必要理性审视当前中职旅游管理专业课堂教学现状,理清存在问题,关注学生真实学习需求,提出教学优化建议,落
教育信息化发展不断深化,赋予教师教学能力新的内涵。2019年,教育部发布《关于实施全国中小学教师信息技术应用能力提升工程2.0的意见》,提出全面提升教师信息化教学能力,促进信息技术与教学深度融合。由于教学对象的特殊性以及信息技术对于特殊教学的重要作用,培智学校教师更需顺应教育信息化进程,积极进行信息化教学实践,在改善学生学习的同时,促进自身专业发展。但目前学界对于特教教师,尤其是培智学校教师信息化
在线学习平台的不断发展,为国内外众多学习者提供开放且灵活的学习体验。但在线学习中通常存在辍学率较高和学习效果不佳的问题。这推动了学习数据挖掘和分析的出现——致力于借助数据挖掘技术对学习者行为数据进行多维细粒度的分析,有效识别学习模式和学习动机,并进一步探究它们对学习效果的影响,提高成绩预测的准确率。已有的学习数据挖掘与分析方法主要存在三个问题:(1)缺乏对学习者付出-收获匹配度演化模式的了解。(2
伴随着对癌症不断的深入研究,人们越来越认识到突变在癌症演化过程中的重要性,其中对癌症的演化方向和程度有着决定性作用的驱动突变逐渐进入研究者的视野。驱动突变赋予肿瘤细胞选择优势以使细胞逃避人体免疫监控机制,从而在人体内大量分裂并逐步威胁到人体组织器官。随着人们对这种驱动机制的研究深入,逐步发现癌症细胞中突变在基因水平上的倾向分布呈现出在癌症基因上大量聚簇的现象,这种簇被叫做突变簇。同时由于肿瘤异质性
在大型数据中心内部,云网关设备作为数据中心流量的出入口,有着举足轻重的地位。随着互联网时代数据流量的快速增长,云网关需要提供越来越高的性能来承载快速增长的流量吞吐。而当前数据中心的云网关在面对这种快速增长的数据包处理需求和复杂的互联网流量环境时,不仅要满足高性能的包处理能力还需要保障租户的服务质量等级协议,往往无法做到服务质量和设备资源利用率的良好平衡。一方面,厂商为了保证服务质量必须为预期的峰值
在深度学习领域中自然语言处理具有重要的地位。随着深度学习在这一领域的研究和计算机硬件设备的不断进步,对于文本分类算法的优化也在不断进行。目前,用于自然语言处理的算法主要有CNN、RNN、CLSTM等一些经典的深度学习模型。虽然这些模型能够较好的处理常见的文本数据,但是对于bug report这类噪声较高的文本数据,常见的一些深度学习模型无法较好地完成工作。对于一个有详细信息的bug report,
林区侵蚀退化现象在我国南方红壤区域广泛发生,马尾松是我国南方红壤水土流失区生态恢复与重建工作中的先锋树种,但由于马尾松林植被结构单一,林下植被缺乏,加之雨期降雨集中,在严重的侵蚀作用下林区生态环境极易发生退化。目前,侵蚀退化林区的恢复工作受到了更多的关注,构建多样化、立体化的植被系统对于林区生态系统恢复至关重要。现有研究多集中于多种恢复模式对于减流减沙、提高土壤肥力的效果,而对于不同模式下土壤微生
现代网络通信技术飞速发展,网络信道上充斥着各种各样的媒体信息,数字图像在网络信道中和各类媒介平台上扮演着重要的角色。然而,快捷便利的网络通信也存在着信息安全的隐患,如何确保图像信息不被第三方所窃取成为备受人们关注的问题。目前,由于混沌具有复杂的动力学特征且与密码学具有天然的联系,混沌图像加密领域激发了诸多学者们的研究热情。大多数的加密算法使用的都是耗散混沌系统,含有吸引子,不能抗重构攻击,而与之相
“肠道假说”提出慢性心力衰竭环境下机体肠道形态结构发生改变,肠壁通透性增加,肠道屏障功能障碍,肠道微生物群以及代谢物紊乱,炎症反应促进心力衰竭的病理进展。肠道环境失调与心力衰竭的进展密切相关。故改善肠道生态环境有望成为心力衰竭新的治疗靶点。心力衰竭的中医药治疗源远流长,并且在改善肠道环境占据优势地位,文献表明,中医药可以从保护肠道屏障、调节微生物群的组成和代谢产物、抑制肠道慢性炎症反应方面改善肠道