发布时间:2024-12-19
浏览次数:0
一、前言
相信在这个知识共享的时代,大家一定都在网上下载过很多文件并保存下来以供日后学习。毕竟硬盘空间是比较有限的。说一下我们要做的项目,就是搜索盘搜里。然后下载资源。
2. 项目目标
搜索您想要的文件并下载它们。
三、项目准备
使用文本3进行开发,因为我们这次需要使用交互来完成操作,所以需要在文本3中下载一个插件来辅助开发。
四、项目实现
(1)打开盘搜,随意打开一个链接,如下图:
(2)然后你就可以看到如下图所示的画面。
(3)此时,该网页的地址为:
http://www.pansou.com/?q=成化十四年
从这里可以看出,是一个get请求。于是.get就启动了,我们实现了第一步,搜索。所以sublime text 插件下载,你可以编写这样的代码:
import requests
def down(content):
content=input('请输入要下载的文件名')
rep=requests.get('http://www.pansou.com/?q='+str(content))
rep.encoding='utf-8'
(4) 这样我们就得到了上一页的网页源代码。我们搜索相关关键词,发现没有找到:
(5)那么,这是怎么回事?原来这是因为ajax异步加载导致部分关键代码没有显示。这很难。换句话说,触及了我的知识盲点。
因为小编没学过前端,只知道ajax,怎么知道这个问题是怎么出现的以及如何解决。但不要害怕。好在小编有一个绝妙的绝招,那就是找接口。我找呀找,终于找到了。唉,所有的努力都得到了回报。如图所示:
(6)发现这是json格式的,我们现在可以读取了,如图:
(7)这并不容易。 json有很多陷阱,所以我决定使用字典。哈哈哈哈,适合自己的才是最香的。
找到这些东西之后,我们就可以将它们提取出来。这样,我们就提取出了第一页的所有结果。要提取第二页的结果,我们只需要将p的结果改为2即可。
最终结果如图:
(8)接下来,我们将加强程序,使其具有交互功能,供用户选择。
(9) 但我们了解到它们一般都是变量函数,所以真正可以使用的参数只有两个,q和p,所以:
这样就完成了指定页面的文件浏览。
下载也比较简单sublime text 插件下载,直接将链接复制到浏览器中即可,这样就完成了最简单的搜索引擎。
5. 总结
(1)不建议捕获过多的数据,容易造成服务器负载。只是简单地尝试一下。
(2)本文基于网络爬虫并利用爬虫库搭建了一个简单的搜索引擎。
(3)实施时总会出现各种问题。野心不要太大,志向也不要太低。只有勤奋工作,才能理解得更深刻。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码