V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 43 页 / 共 128 页
回复总数  2555
1 ... 39  40  41  42  43  44  45  46  47  48 ... 128  
204 天前
回复了 lakie 创建的主题 京东 X 东的百 X 补贴不能开企业票是否合规?
这个……逻辑没问题啊

你阅读过相关规则么?请阅“参与条件”第三条和“注意事项”第一条
205 天前
回复了 iseki 创建的主题 问与答 我是不是买到山寨无花果了
@iseki #4
没啥推荐的,如果不是为了索赔道歉什么的,肯定是工商质检,相当于一个举报途径,至于他们做不做事就不是我能预料的了
205 天前
回复了 iseki 创建的主题 问与答 我是不是买到山寨无花果了
不送质检就举报反馈,基本上都会加 tag“恶意”
@aozhou #6
如果看到“数据分析”,你只想到“分析”、计算这些,那确实没什么关系
但数据分析首先要有数据,不能凭空创造,这个获取过程称为采样,采样是有专门《采样学》的,就是一大堆数据,哪些是包含有效信息的,哪些是只有无效信息的,要做筛选,说俗一点就是数据海选,试想一下,扔一堆 html 给分析人员会不会被骂死?当然是前置工作,没数据也无法分析
采样有多种途径,目前来说,网络采样是成本较低的一种

你要扩大思维,数据海选不一定就是“爬”外网,例如有个目录里面上亿个富文本,如何通过海选提取“有效数据”,如去掉广告,去掉无关的一些内容,保留主要的文章、对话、图片、表格……这些都是爬虫“爬后”的工作,总不会爬虫爬取结束后,一个字节都不动照搬显示吧?
再用上述例子,一亿个 html ,但分析部门要求只用五千万,至于为什么就不用纠结了,可能因为硬件所限,可能因为时间所限等等,一亿筛走一半,要说出个所以然,为什么那去掉的五千万是“没用的”,根据什么理论筛掉,随机么?这就是采样学要做的工作。分析部门中需要有人做这种粗活,分析师是不管这些的,如果分析过程发现样本“不合格”,是需要打回头重新采样的
爬虫确实风险很大,但爬虫技术则是一个长久技能
爬虫包含获取和分析,后者可以用到各种大数据方面(数据分析前置就是数据获取),举例子 X 也要分析自家的所有推文
前者则可以走向网络方面,当然需要分布式方面技能,如果仅仅是单机爬虫爬取,就算做得很好也会被淹没,因为懂的人太多
206 天前
回复了 ucyo 创建的主题 Windows win 上最佳安卓方案是哪个?
有模拟器开微信被封的先例
206 天前
回复了 Sigrdirfa 创建的主题 职场话题 公司不让用 IDEA!真的牛逼!
无论你个人的工具是否正版或者有否商业授权,只要证明该工具获得授权的主体并非贵司且用于开发,就能告贵司
除非贵司所有以此开发的产品的归属权都在你名下,贵司只是获得你授予的版权进行商业行为
207 天前
回复了 ghhccghk 创建的主题 Python 我想问一下 Python 下 str 转 int 格式怎么转
内置函数 int(string, base=10),base 为进制,默认十进制,所以可以直接写 int(string)

我好奇你都会改 python 程序,还用 ai 了,为何连这个内置函数都不知道,所以我现在完全搞不清上述是否就是你需要的答案
207 天前
回复了 nnegier 创建的主题 互联网 大一统的账号体系可能不太靠谱现在?
其实归根到底就是对事还是对人的管理思想
对事不对人,行为限制
对人不对事,封
从方便管理的角度,肯定对人不对事简单很多

以上包括且不仅是帐号问题
208 天前
回复了 trungdieu031 创建的主题 随想 再论通用人工智能(AGI)可行性
这两天让 3.5 搞得神经衰弱
给了个答案,里面有这句:……7*10**6 ,这样就不会超过一百万了……
208 天前
回复了 shortawn 创建的主题 V2EX 1000001
佩服,是怎么捕捉这个 id 的?机器发帖?
208 天前
回复了 v22x622 创建的主题 随想 如果有一天没有网络信号了怎么办?
@nuk #24
哈哈,没所谓,都是“粮食”,就看使用者如何看待
如果遇上灾难时代,我会听你的话把书都换成压缩饼干和矿泉水的,前面三年还真的腾了一些地方放食物,只不过不是书柜而已
看你做得多深吧,现在确实很多工具都带上了分析,一些无编程经验的人也能自行做数据分析了,但他们的业务理解力比程序员更强
不过业务建模(说的不是数学建模)就不是他们能做的,只是很多公司也不需要建模,所以纯数据分析岗位减少是趋势,需要跟业务内容更紧密结合
我有两个环境,里面的包几乎一样,主观区别就是我在要用一个 package ,暂时没有找到替代品,而它稍旧,依赖 numpy 需要教低版本,结果就是一连串的反应,opencv, numba ... 等等都要使用旧版适应,我只好另设一个环境
208 天前
回复了 v22x622 创建的主题 随想 如果有一天没有网络信号了怎么办?
说句老不死的话,现在的年轻人,都没经历过 24 小时停水停电
我么,很简单,有四个书柜塞满了
208 天前
回复了 random1221 创建的主题 问与答 你会经常和人争论吗?
能和我争起来的都是朋友,我不是他朋友的话,应该不出三句就骂我了,他不是我的朋友的话,我不会说第二句,第一句就看我忍不忍得住了
你真有趣,客套话也能当真
1 ... 39  40  41  42  43  44  45  46  47  48 ... 128  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   963 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 21:35 · PVG 05:35 · LAX 14:35 · JFK 17:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.