各位python大神求教,如何用python识别网络视频是否播放完毕,并进入下一段视频
不会python。不过如果是学习通,智慧树这样的平台,可以使用浏览器插件。
怎样用python爬取网页
# coding=utf-8
import urllib
import re
# 百度贴吧网址:https://tieba.baidu.com/index.html
# 根据URL获取网页HTML内容
def getHtmlContent(url):
page = urllib.urlopen(url)
return page.read()
# 从HTML中解析出所有jpg的图片的URL
# 从HTML中jpg格式为img ... src = "xxx.jpg" width='''
def getJPGs(html):
# 解析jpg图片URL的正则表达式
jpgReg = re.compile(r'img.+?src="(.+?\.jpg)"')
# 解析出jpg的URL列表
jpgs = re.findall(jpgReg, html)
return jpgs
# 用图片url下载图片 并保存成制定文件名
def downloadJPG(imgUrl, fileName):
urllib.urlretrieve(imgUrl, fileName)
# 批量下载图片,默认保存到当前目录下
def batchDownloadJPGs(imgUrls, path='../'): # path='./'
# 给图片重命名
count = 1
for url in imgUrls:
downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))
print "下载图片第:", count, "张"
count += 1
# 封装:从百度贴吧网页下载图片
def download(url):
html = getHtmlContent(url)
jpgs = getJPGs(html)
batchDownloadJPGs(jpgs)
def main():
url = "http://www.meituba.com/dongman/"
download(url)
if __name__ == '__main__':
main()
如何用 Python 爬取需要登录的网站
最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作。它没有我想象中那么简单,因此我决定为它写一个辅助教程。
在本教程中,我们将从我们的bitbucket账户中爬取一个项目列表。
教程中的代码可以从我的 Github 中找到。
我们将会按照以下步骤进行:
提取登录需要的详细信息
执行站点登录
爬取所需要的数据
在本教程中,我使用了以下包(可以在 requirements.txt 中找到):
Python
requests
lxml
1
2
requests
lxml
步骤一:研究该网站
打开登录页面
进入以下页面 “bitbucket.org/account/signin”。你会看到如下图所示的页面(执行注销,以防你已经登录)
仔细研究那些我们需要提取的详细信息,以供登录之用
在这一部分,我们会创建一个字典来保存执行登录的详细信息:
1. 右击 “Username or email” 字段,选择“查看元素”。我们将使用 “name” 属性为 “username” 的输入框的值。“username”将会是 key 值,我们的用户名/电子邮箱就是对应的 value 值(在其他的网站上这些 key 值可能是 “email”,“ user_name”,“ login”,等等)。
2. 右击 “Password” 字段,选择“查看元素”。在脚本中我们需要使用 “name” 属性为 “password” 的输入框的值。“password” 将是字典的 key 值,我们输入的密码将是对应的 value 值(在其他网站key值可能是 “userpassword”,“loginpassword”,“pwd”,等等)。
3. 在源代码页面中,查找一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。“csrfmiddlewaretoken” 将是 key 值,而对应的 value 值将是这个隐藏的输入值(在其他网站上这个 value 值可能是一个名为 “csrftoken”,“ authenticationtoken” 的隐藏输入值)。列如:“Vy00PE3Ra6aISwKBrPn72SFml00IcUV8”。
最后我们将会得到一个类似这样的字典:
Python
payload = {
"username": "USER NAME",
"password": "PASSWORD",
"csrfmiddlewaretoken": "CSRF_TOKEN"
}
1
2
3
4
5
payload = {
"username": "USER NAME",
"password": "PASSWORD",
"csrfmiddlewaretoken": "CSRF_TOKEN"
}
请记住,这是这个网站的一个具体案例。虽然这个登录表单很简单,但其他网站可能需要我们检查浏览器的请求日志,并找到登录步骤中应该使用的相关的 key 值和 value 值。
如何利用python爬取网页内容
利用python爬取网页内容需要用scrapy(爬虫框架),但是很简单,就三步
定义item类
开发spider类
开发pipeline
想学习更深的爬虫,可以用《疯狂python讲义》
python能入侵网站吗
入侵python的网站并不比其他网站更容易。层层路由后面只开着个80端口,任何请求来了只返回一个静态页面。。。你说这种情况下咋入侵。
问题里面提到的接收到服务器数据直接print,我问下提主你的服务器端是咋整的。自己用套接字写的还是用的框架。print一个东西当然有效果了,如果没有效果加个断点看看。