一种绕过下载论文的思

　　注：本文下面的内容仅讨论绕过思，作为技术交流之用。大家下载论文还是应该通过正规渠道，付费下载，尊重各位的劳动。图片和代码中涉及站点的内容均已打码。

　　有时候要研究技术，我们也需要下载一些论文来看看的。一些论文站点，虽然提供预览功能，但是下载却是收费的。

　　一方面它单篇论文的收费实在是挺贵的；另外一方面，我们可能更倾向于把论文批量下载到本地，等到有时间时慢慢读完。这该怎么办呢？

　　可以清晰的看到，id=”pdf”的div下的每个子节点div对应着论文的每一页，而每一个子div中包含的img标签对应的图片则是每一页的内容。我们将img标签的src中的链接复制出来，粘贴在浏览器的新页签中，其实是可以看到本页论文内容，而右键“保存图片”是可以将此页论文保存到本地的。

　　以上就是手动绕过下载论文的思。但是有的论文页数实在太多，手动逐个复制链接下载实在有些效率低下，所以我们可以写个脚本来提升效率。

　　1.根据传入的关键字(keyword字段），模拟搜索请求；得到与该关键字相关的论文的标题以及url

　　2.打开论文对应的url，此时的页面还不是真实的论文全文页面；定位到预览关键字段cid（在java:viewLogin.viewDl(）方法中），发送请求，得到论文真实全文页面的对应的url

　　3.由于论文预览采用了逐步加载的模式，即最初显示3页，然后随着滚动条的拖动再逐渐加载后续内容；所以使用selelium模拟滚动页面内容，判断是否有新页面被加载出来，直至页面内容不再发生变化为止

　　4.此时基于第三部加载出的全部页面内容，提取img字段，逐个保存到本地；即对应着论文的每一页

　　如果网络效果不是很好，可以适当将sleep时间延长。跑个脚本吃个饭回来，论文都下好了，还是很爽的。

论文下载