V2EX › YUX 的所有回复 › 第 44 页 / 共 79 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 40 41 42 43 44 45 46 47 48 49 ... 79

❮

❯

2016-06-14 23:41:43 +08:00

回复了 shenfu1991 创建的主题 › Linux › 如何实现离线下载

三楼正解

2016-06-14 21:40:43 +08:00

回复了 aias 创建的主题 › 问与答 › 纯静态页面部署，各位有什么好的方案推荐吗？

hostker.com
用 FTP 上传就能直接用了

2016-06-14 20:58:29 +08:00

回复了 notgod 创建的主题 › 剧集 › 你最喜欢的一部美剧是哪部? 跟我分享下

疑犯追踪

2016-06-14 20:21:27 +08:00

回复了 pengbo37877 创建的主题 › 推广 › 罗永浩曾经赞不绝口的一个阅读类 APP 续集内测了

yu.xiao.fr@gmail.com

2016-06-14 18:15:52 +08:00

回复了 laoni 创建的主题 › 程序员 › 晚上 10 点后有点时间。。想做点啥项目挣点奶粉钱。。。

@JiShuTui 找不到 ipinfo.net 的服务器 DNS 地址。

2016-06-14 16:17:16 +08:00

回复了 xsxsxszs 创建的主题 › 分享创造 › V 站第三方客户端 VeXplore 已上架

那些个喷子真讨厌本来就是爱买买不买滚的事情你们买一个用一下觉得被坑了再来喷的有点技术含量好不好

你们一个最让人心寒的是什么么

楼主做这个显然不是为了糊口是因为爱这个社区啊而现在看到社区养了一帮这种人要是我都后悔做这个 app 了

哎 T_T

2016-06-13 20:52:29 +08:00

回复了 omg21 创建的主题 › Python › 如何用正则或者 bs4 提取日期？

如五楼所说 re.findall("\d{4}-\d{2}-\d{2}",html_content) 就能拿到所有形如 yyyy-mm-dd 的日期

2016-06-13 20:47:33 +08:00

回复了 omg21 创建的主题 › Python › 如何用正则或者 bs4 提取日期？

意思是每个页面的 DOM 结构还不一样？其他页面还不是 li->span ？

最好是把每个页面的结构都看一下才好分析出共通的代码，但好像看题主的意思是只要提取每页形如 yyyy-mm-dd 的日期？拿着就没法 beautifulsoup 了直接上正则匹配。

2016-06-13 16:21:10 +08:00

回复了 practicer 创建的主题 › Python › python 多线程爬虫问题

@JhOOOn 还有知乎好像都想爬知乎也不知道爬完了做什么好像只有一个看知乎还有点意思

2016-06-13 16:19:01 +08:00

回复了 JiaFeiX 创建的主题 › Swift › Swift 和 iOS 快速入门公益免费课程 6 月线下班开课啦

希望每个月都有一次ꉂ ೭(˵¯̴͒ꇴ¯̴͒˵)౨”

2016-06-13 13:59:02 +08:00

回复了 practicer 创建的主题 › Python › python 多线程爬虫问题

@practicer requests futures 有 ThreadPoolExecutor 和 ProcessPoolExecutot 两个用法
用 max worker 直接控制频率多好

2016-06-13 07:01:44 +08:00

回复了 ericls 创建的主题 › 分享创造 › 初学 Elixir Phoenix 和 React, 写了个简陋的 Mailgun Web UI

@ericls 我还在用 flux

2016-06-13 06:34:15 +08:00

回复了 nonfu 创建的主题 › PHP › Laravel 5 岁了， Happy Birthday！

我用 python

2016-06-13 06:31:17 +08:00

回复了 ericls 创建的主题 › 分享创造 › 初学 Elixir Phoenix 和 React, 写了个简陋的 Mailgun Web UI

我也在学 React 也用 material ui

2016-06-13 03:46:05 +08:00

回复了 practicer 创建的主题 › Python › python 多线程爬虫问题

Python3.5 运行通过需要 BeautifulSoup 和 requests_futures
max_workers=20 这里根据你的需要你自己改一下
我只写到了 data = fetchBookInfo(books)这一步，怎么弄这些个数据就看你了

其实有用的只有一句话用 requests_futures
https://github.com/ross/requests-futures

2016-06-13 03:42:59 +08:00

回复了 practicer 创建的主题 › Python › python 多线程爬虫问题

from concurrent.futures import ThreadPoolExecutor
from requests_futures.sessions import FuturesSession
session = FuturesSession(executor=ThreadPoolExecutor(max_workers=20))
import requests
from bs4 import BeautifulSoup
import re

def fetchPages(first_page):
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
content = requests.get(first_page, headers=headers).text
soup = BeautifulSoup(content, "html.parser")
a_tags_final = soup.find("div", { "class" : "paginator" }).find_all("a")[-2].get("href")
page_max = int(re.findall("start=(.*)&",a_tags_final)[0])
pages = []
for k in range(0,page_max+20,20):
pages.append(first_page+"?start="+str(k))
return pages

def fetchBooks(pages):
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
books = []
for page in pages:
books.append(session.get(page, headers = headers))
def get_books_url(book):
soup = BeautifulSoup(book, "html.parser")
book_list = list(map(lambda li: li.find("div", { "class" : "info" }).find("h2").find("a").get("href"), soup.find_all("li", { "class" : "subject-item" })))
return book_list
books = list(map(lambda book: get_books_url(book.result().text), books))
books_url = []
for book in books:
books_url += book
return books_url

def fetchBookInfo(books):
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
books_info = []
for book in books:
books_info.append(session.get(book, headers = headers))
def get_books_data(book_info):
soup = BeautifulSoup(book_info, "html.parser")
info = soup.find("div", { "id" : "info" })
return info
book_data = list(map(lambda book: get_books_data(book.result().text), books_info))
return book_data

if __name__ == '__main__':
pages = fetchPages("https://book.douban.com/tag/%E7%BC%96%E7%A8%8B")
books = fetchBooks(pages)
data = fetchBookInfo(books)

2016-06-13 01:48:07 +08:00

回复了 Senevan 创建的主题 › JavaScript › 做个调查，大家写 js 写分号么

Linter 让写就写

2016-06-13 01:45:18 +08:00

回复了 xujialiang 创建的主题 › 云计算 › 大家美团云有遇到问题吗？

@xujialiang https://yux.io/2016/04/21/use-nginx-proxy-for-docker/
你需要 nginx-proxy

2016-06-12 19:54:10 +08:00

回复了 YUX 创建的主题 › 分享创造 › 163 音乐 version beta 3 完善 iframe 支持 HTTPS 方便在网站上引用求测

@freaks 是的

1 ... 40 41 42 43 44 45 46 47 48 49 ... 79

❮

❯