网站首页 > 教育论文> 文章内容

一种绕过下载论文的思

※发布时间:2018-4-9 2:04:54   ※发布作者:habao   ※出自何处: 

  注:本文下面的内容仅讨论绕过思,作为技术交流之用。大家下载论文还是应该通过正规渠道,付费下载,尊重各位的劳动。图片和代码中涉及站点的内容均已打码。

  有时候要研究技术,我们也需要下载一些论文来看看的。一些论文站点,虽然提供预览功能,但是下载却是收费的。

  一方面它单篇论文的收费实在是挺贵的;另外一方面,我们可能更倾向于把论文批量下载到本地,等到有时间时慢慢读完。这该怎么办呢?

  可以清晰的看到,id=”pdf”的div下的每个子节点div对应着论文的每一页,而每一个子div中包含的img标签对应的图片则是每一页的内容。我们将img标签的src中的链接复制出来,粘贴在浏览器的新页签中,其实是可以看到本页论文内容,而右键“保存图片”是可以将此页论文保存到本地的。

  以上就是手动绕过下载论文的思。但是有的论文页数实在太多,手动逐个复制链接下载实在有些效率低下,所以我们可以写个脚本来提升效率。

  1.根据传入的关键字(keyword字段),模拟搜索请求;得到与该关键字相关的论文的标题以及url

  2.打开论文对应的url,此时的页面还不是真实的论文全文页面;定位到预览关键字段cid(在java:viewLogin.viewDl()方法中),发送请求,得到论文真实全文页面的对应的url

  3.由于论文预览采用了逐步加载的模式,即最初显示3页,然后随着滚动条的拖动再逐渐加载后续内容;所以使用selelium模拟滚动页面内容,判断是否有新页面被加载出来,直至页面内容不再发生变化为止

  4.此时基于第三部加载出的全部页面内容,提取img字段,逐个保存到本地;即对应着论文的每一页

  如果网络效果不是很好,可以适当将sleep时间延长。跑个脚本吃个饭回来,论文都下好了,还是很爽的。

  

相关阅读
  • 没有资料