博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
抓取猫眼部分信息
阅读量:6437 次
发布时间:2019-06-23

本文共 1090 字,大约阅读时间需要 3 分钟。

hot3.png

import requests import re import json from multiprocessing import Pool

def get_one_page(url): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', } res = requests.get(url,headers=header) if res.status_code == 200: return res.text else: return None

def parse_html(html): html.replace('\n','') pattern = ('<i class="board-index.*?">(.?)</i>.?<img data-src="(.?)".?</a>.?<a href.?>(.?)</a>.?<p class="star"(.?)</p>.?releasetime">(.?)</p>.?integer">(.?)</i>.?fraction">(.*?)</i>') items = re.findall(pattern,html,re.S) for item in items: yield { 'index':item[0], 'img':item[1], 'title':item[2], 'direct':item[4], 'time':item[5], 'pinfen':item[6]+item[7] }

def write_to_file(content): with open('1.txt','a',encoding='utf-8')as f: f.write(json.dumps(content,ensure_ascii=False)+'\n') f.close()

def main(offset): url = ' html = get_one_page(url) for item in parse_html(html): write_to_file(item)

if name == 'main': pool = Pool.map(main,[i*10 for i in range(10)])

转载于:https://my.oschina.net/u/2511906/blog/1932890

你可能感兴趣的文章
Tooltip表单验证的注册表单
查看>>
UWP开发中两种网络图片缓存方法
查看>>
超8千Star,火遍Github的Python反直觉案例集!
查看>>
【msdn wpf forum翻译】如何在wpf程序(程序激活时)中捕获所有的键盘输入,而不管哪个元素获得焦点?...
查看>>
全球首家!阿里云获GNTC2018 网络创新大奖 成唯一获奖云服务商
查看>>
Python简单HttpServer
查看>>
Java LinkedList工作原理及实现
查看>>
负载均衡SLB的基本使用
查看>>
Centos 7 x86 安装JDK
查看>>
微信小程序的组件用法与传统HTML5标签的区别
查看>>
Hangfire 使用笔记
查看>>
(C#)Windows Shell 外壳编程系列8 - 同后缀名不同图标?
查看>>
教你彻底学会c语言基础——文件操作
查看>>
如何使用免费控件将Word表格中的数据导入到Excel中
查看>>
seafile服务器配置
查看>>
HyperLedger Fabric 1.2 区块链应用场景(3.1)
查看>>
也谈谈初创公司的技术团队建设
查看>>
阿里云 APM 解决方案地图
查看>>
中国HBase技术社区第一届MeetUp-HBase2.0研讨圆桌会
查看>>
学渣的模块化之路——50行代码带你手写一个common.js规范
查看>>