V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  woshichuanqilz  ›  全部回复第 1 页 / 共 8 页
回复总数  158
1  2  3  4  5  6  7  8  
@eason1874 那怎么搞出来 gif 我 github 上如果放 raw gif 显示没问题
自己写了一个, 那个 60 那里是最大页数酌情修改

from selenium import webdriver
import datetime
import pandas as pd
import time

options = webdriver.ChromeOptions()
options.add_argument('--ignore-ssl-errors=yes')
options.add_argument('--ignore-certificate-errors')
options.add_argument("--disable-blink-features=AutomationControlled")
driver = webdriver.Chrome(options=options)

xpath_items = "//*[@class='CollectionDetailPageItem-innerContainer']"
xpath_title = ".//h2"
xpath_readAll = ".//button[text()='阅读全文']"
xpath_content = ".//div[@class='RichContent']"
xpath_content = ".//div[@class='RichContent-inner']"
xpath_next_page = "//button[text()='下一页']"

result_list = list()
count = 0
for i in range(1, 60):
driver.get("https://www.zhihu.com/collection/{收藏夹编号}?page={}".format(i))
time.sleep(3)
elems = driver.find_elements_by_xpath(xpath_items)
for item in elems:
count += 1
try:
title = item.find_element_by_xpath(xpath_title).text
item.find_element_by_xpath(xpath_readAll).click()
content = item.find_element_by_xpath(xpath_content).get_attribute('outerHTML')
result_list.append({'title': title, 'content': content})
except:
pass
df = pd.DataFrame(result_list)
df.to_excel('res.xlsx', index=False)


df = pd.DataFrame(result_list)
df.to_excel('res.xlsx', index=False)
input("please wait...")
@bickman 请教一下我的目的是少按一个键, 是哪里违背了 vim 的基本思想, 按你的说法你的 vimrc 里面的 key remap 好像都违背 vim 的基本思想了
@matrix67 这是找到地一个 i 字母没有进入 insert mode
@jdhao 就比如是定位当前坐标向右第一个, 定义第二个可以用 2fx 来做

我的意思是能不能对 f 这个功能做一个简单的扩展
我是一点没听过, 这个真不知道咋做老师发的课件里面例题没有差不多的, 200 块钱是知道大家时间都比较贵, 少了不好意思求助, 要是真的简单我就在找个教程看看。。。
行我先看看, 不行再说
拜托了, 钱大概就这么多了
谢谢 这个文件确实是错的了, 复制一个 libc-2.xx.so 就好了 谢谢
362 天前
回复了 woshichuanqilz 创建的主题 Python Chrome 如何快速获取 request header?
解决了谢谢各位的帮助, 主要参考的是 @Cleric 的思路, 我用了 pychrome

基本代码在这里比较粗糙

```
import pychrome
from urllib.parse import urlparse
import subprocess, signal
import os
import time


def killprocess(pname):
p = subprocess.Popen(['ps', '-A'], stdout=subprocess.PIPE)
out, err = p.communicate()
for line in out.splitlines():
pinfo = line.decode().lower()
if pname in pinfo:
pid = int(line.split(None, 1)[0])
os.kill(pid, signal.SIGKILL)

header = dict()
url = "https://www.dogedoge.com"
if not url.endswith('/'):
url += '/'
domain = urlparse(url).netloc
killprocess('chrome')
cmd = 'google-chrome-stable --remote-debugging-port=9222'
p = subprocess.Popen(cmd.split(), stdout=subprocess.PIPE)
time.sleep(3)

# 创建一个浏览器实例
browser = pychrome.Browser(url="http://127.0.0.1:9222")

# 新建一个页签
tab = browser.new_tab()


# 需要注册的回调函数
def request_will_be_sent(**kwargs):
if url == kwargs.get('request').get('url'):
header = kwargs.get('request').get('headers')
return


tab.Network.requestWillBeSent = request_will_be_sent

# 开始接收消息, requestWillBeSent 事件发生时被注册的回调函数也可以执行
tab.start()

# 调用方法
tab.Network.enable()

# 调用方法并设置超时时间
tab.Page.navigate(url=url, _timeout=5)
input()
# 等待页面加载
tab.wait(5)

# 停止处理事件, 停止从 chrome 接收消息
tab.stop()

# 关闭页签
browser.close_tab(tab)

```
2020-10-05 11:42:31 +08:00
回复了 woshichuanqilz 创建的主题 问与答 Python 二进制读文件 转换 float 失败
@lcdtyph Thanks 已感谢
2020-08-26 16:44:51 +08:00
回复了 woshichuanqilz 创建的主题 Linux Linux 命令行设置剪切板的问题
@secondwtq 正解,alias xclip='xclip -sel clipboard' xlicp 默认不是我们一般认为的剪切板
@Trim21 可以但是这个是是代理的问题吗
@gesse 两个方法用的信息基本是一样的 你说的指纹具体指的是什么这个例子能修改吗
@locoz
你好我用了 fiddler 抓包 但是 aiohttp 的请求在 fiddler 里面不显示。

requests 是正常的。

aiohttp 的抓取过程是有的 有页面保存下来
2020-07-28 14:26:11 +08:00
回复了 woshichuanqilz 创建的主题 Python 爬取亚马逊使用代理的问题
@ooh 什么意思
2020-07-28 14:25:56 +08:00
回复了 woshichuanqilz 创建的主题 Python 爬取亚马逊使用代理的问题
@zh1997 一个验证页面就是填验证码的页面
2020-07-28 14:25:30 +08:00
回复了 woshichuanqilz 创建的主题 Python 爬取亚马逊使用代理的问题
@gluttony 本地 IP 不加代理可以的
2020-07-21 10:25:46 +08:00
回复了 kexming250 创建的主题 问与答 实验楼的会员有人共享么,一个月 30,包年太贵了~~~
@ggggitfkbjg 你好想共享一下账号
@imn1

谢谢 按照你的思路弄出来了


[code]
import re
text = """
LTOPOALG: ### got the S1 jump, sline 36, ts 1594566036, mbox mt-000000001004
LTOPOALG: mt-000000001012 [0 0]: 2485 2485 [ 2485 2485 2485 2485 ] 2485 2485
LTOPOALG: mt-000000001016 [0 0]: 50758 50752 [ 50746 50740 50734 50728 ] 50722 50716
LTOPOALG: mt-000000001010 [0 0]: 3477 3477 [ 3477 3477 3477 3477 ] 3477 3477
LTOPOALG: mt-000000001011 [0 0]: 55265 55263 [ 55261 55259 55257 55255 ] 55253 55251
LTOPOALG: mt-000000001014 [0 0]: 555 555 [ 555 555 555 555 ] 555 555
LTOPOALG: mt-000000001013 [0 0]: 793 792 [ 791 790 789 788 ] 787 786
LTOPOALG: mt-000000001015 [0 0]: 2053 2053 [ 2053 2053 2053 2053 ] 2053 2053
LTOPOALG: mt-000000001009 [0 0]: 348 354 [ 360 366 372 378 ] 384 390
LTOPOALG: mt-000000001007 [0 0]: 99 99 [ 99 99 99 99 ] 99 99
LTOPOALG: mt-000000001002 [0 0]: 3442 3442 [ 3442 3442 3442 3442 ] 3442 3442
LTOPOALG: mt-000000001006 [0 0]: 152 152 [ 152 152 152 152 ] 152 152
LTOPOALG: mt-000000001018 [0 0]: 1382 1396 [ 1410 1424 1438 1452 ] 1466 1480
LTOPOALG: mt-000000001017 [0 0]: 6699 6681 [ 6663 6645 6627 6609 ] 6591 6573
LTOPOALG: mt-000000001004 [0 1]: 25831 25852 [ 25852 21595 5897 4851 ] 4847 4849
LTOPOALG: mt-000000001008 [0 0]: 89 89 [ 89 89 89 89 ] 89 89
LTOPOALG: bt-000000001001-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001005-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001003-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001020-1 [0 0]: 0 0 [ 0 0 0 0 ] 0 0
LTOPOALG: bt-000000001001-2 [0 0]: 3522 3522 [ 3522 3522 3522 3522 ] 3522 3522
LTOPOALG: bt-000000001005-2 [0 0]: 34861 34865 [ 34889 34845 18830 13368 ] 13376 13395
LTOPOALG: bt-000000001003-2 [0 0]: 302 306 [ 310 314 318 322 ] 326 330
LTOPOALG: bt-000000001020-2 [0 0]: 119 119 [ 119 119 119 119 ] 119 119
LTOPOALG: bt-000000001001-3 [0 0]: 55414 55412 [ 55410 55408 55406 55404 ] 55402 55400
LTOPOALG: bt-000000001020-3 [0 0]: 7339 7337 [ 7335 7333 7331 7329 ] 7327 7325
LTOPOALG: bt-000000001003-3 [0 0]: 2357 2357 [ 2357 2357 2357 2357 ] 2357 2357
LTOPOALG: bt-000000001005-3 [0 0]: 3684 3685 [ 3686 3687 3688 3689 ] 3690 3691
LTOPOALG: bt-000000001020-4 [0 0]: 956 958 [ 960 962 964 966 ] 968 970
LTOPOALG: bt-000000001001-4 [0 0]: 50406 50405 [ 50404 50403 50402 50401 ] 50400 50399
LTOPOALG: bt-000000001003-4 [0 0]: 403 403 [ 403 403 403 403 ] 403 403
LTOPOALG: bt-000000001005-4 [0 0]: 7499 7505 [ 7511 7517 7523 7529 ] 7535 7541
LTOPOALG: bt-000000001003-5 [0 0]: 817 816 [ 815 814 813 812 ] 811 810
LTOPOALG: bt-000000001020-5 [0 0]: 25925 25949 [ 25947 25955 6115 4841 ] 4835 4847
LTOPOALG: bt-000000001001-5 [0 0]: 2304 2304 [ 2304 2304 2304 2304 ] 2304 2304
LTOPOALG: bt-000000001005-5 [0 0]: 113987 -1 [ -1 -1 113612 113682 ] 113752 113822
LTOPOALG: **ltopo_alg_proc_s1_jump, got the SINGLE jump, sline 36, box 000000001004, father 000000000522
LTOPOALG: gen ev mt-000000001004
"""


regex = "LTOPOALG: ### .*?\n(?!LTOPOALG: mt)(?!LTOPOALG: bt)"
for i in re.findall(regex, text, re.M|re.DOTALL):
print('-' * 20)
print(i)

[/code]
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2246 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 82ms · UTC 13:45 · PVG 21:45 · LAX 06:45 · JFK 09:45
♥ Do have faith in what you're doing.