V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  encro  ›  全部回复第 120 页 / 共 156 页
回复总数  3103
1 ... 116  117  118  119  120  121  122  123  124  125 ... 156  
2020-02-21 16:00:40 +08:00
回复了 xFrank 创建的主题 PHP PHP 里面怎么可以在 index. PHP 里面获取到子路径?
一下点开了 http://xxx.com ,你猜看到什么了。。。


4 楼正确,不过最好看你用的什么框架,可能还需要加上$is_args, $args 等参数。
2020-02-21 15:57:24 +08:00
回复了 mawerss1 创建的主题 MySQL 请教一个 mysql 批量插入的问题
采用事务提交后,应该几秒钟可以插入几千条吧,你 modified_time 没有索引?

其实这个方案不好,因为 modified_time 可能存在同一秒有多条数据吧。

不知道你具体的需求场景是什么,脱离需求场景谈 SQL 优化很不靠谱。
2020-02-21 14:58:24 +08:00
回复了 mawerss1 创建的主题 MySQL 请教一个 mysql 批量插入的问题
一条一条插入,然后采用事务批量提交看看,性能也可以的。
2020-02-20 23:07:48 +08:00
回复了 0x0000000 创建的主题 问与答 大家下班回家后都有什么事情干?实在太无聊了
@kissazi2 本来打算给你点个感谢,结果留微信了。。。

对,
就是挖井。。。
2020-02-20 23:03:59 +08:00
回复了 l4ever 创建的主题 Python BeautifulSoup 找到的内容, 属性为什么是倒过来的?
三个方法:
1,print(s)改为 dir(s)
2,直接用 ipython 看一下
3,直接用 ide 调试看
2020-02-20 23:01:33 +08:00
回复了 MrhuangSTR 创建的主题 Python 各位大佬有什么好的办法解析网页中不规整的表格吗
原来是表格啊。
不太可能有通用的,因为表格就不规范。
你只能根据不同类型自己去写解析程序了。

提示下:
table 的 tr 下是 td,td 有两个属性,rowspan 和 colspan,它们的值就是分析表格的关键。但是对于这种不规则的,只能自己写程序,看有多少种类型,就微调下吧。
2020-02-20 22:51:53 +08:00
回复了 MrhuangSTR 创建的主题 Python 各位大佬有什么好的办法解析网页中不规整的表格吗
直接使用 xpath 或者 css 遍历,最简单网站了。
2020-02-20 22:49:24 +08:00
回复了 l4ever 创建的主题 Python BeautifulSoup 找到的内容, 属性为什么是倒过来的?
这个,只能看源码吧。
如果没有记错的话,反转不是直接利用原来文档,是重新生成了,要原来文档有一个双下划线的属性。
2020-02-20 22:43:20 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
@SlipStupig

曾经负责两个世界排名 1000 以内的社区,
每天发布内容条数十万以上吧,
识别联系方式过滤是最有效的,
逐渐优化后达到 95%以上。

既然是小公司,追求智能不一定划算,因为样本不够,且调试过程比你逐渐完善过滤机制代价更大。
当然如果是公司事少、不考虑成本、或者学习目的,那么肯定是可以的。
我文章中开源方案提到一个,我没有实际使用过,[使用 TensorLayer 训练一个垃圾文本分类器] https://github.com/pakrchen/text-antispam
2020-02-20 21:18:08 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
新鲜出炉的 BLOG 文章:
论坛和社区如何防止垃圾文章和评论: https://c4ys.com/archives/2058

包含:
通过关键词库识别 spam 内容
通过联系方式特征识别 spam 内容
通过用户身份识别 spam 内容
通过操作特征识别 spam 内容
识别后的处理
开源方案
商业方案
2020-02-20 19:47:44 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
要自动发现垃圾信息,不用机器学习,简单分词即可:
1,比如将所有历史垃圾内容进行分词,抽取特征词库(其实也可以人工建立和导入网络上的词库);
2,对发布的内容进行分词,如果发现特征词超过一定数量,且存在疑似联系方式的的(这点很重要,因为都会留联系方式,而识别联系方式很简单,甚至有这一点你分词可以不做),直接进入待审核,用户账号进入禁言状态;

但是必须还需要提高作案成本,比如:
1,防止自动发帖工具(验证码,手机注册);
2,防止人工发垃圾帖( IP 黑名单,手机号黑名单);
2020-02-20 19:32:24 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
重要的是你连自己要防的是对象人还是机器都没有确定。

假设对方是人,如果你不提高注册门槛,根本没法用机器的方式防住,

贴吧,V2 很多论坛都有人工复审
2020-02-20 19:26:54 +08:00
回复了 SlipStupig 创建的主题 程序员 被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?
比如参考 v2,注册后需要一天才能发信息;
比如参考恩山,需要邀请或者花钱才能注册;

33 楼的可以根据实际情况,找到办法解决。
2020-02-18 13:39:41 +08:00
回复了 RealGM 创建的主题 程序员 V 友们谁会开发社区团购小程序请留言哈!
长沙有一个专门做团购的,
前几年开发了几十个,
去年底只剩几家了,
少于三万是不太可能做出能用的东西的。
2020-02-18 13:35:34 +08:00
回复了 erwa 创建的主题 程序员 你职业发展最『失意』的时候,是怎么破茧重生的?
除了努力提高自己跳出恶向循环走向正向循环,
还有其他办法吗?
2020-02-17 10:22:34 +08:00
回复了 doraos 创建的主题 Linux 什么版本的 Linux 更适合新手
fedora
2020-02-14 20:29:10 +08:00
回复了 station 创建的主题 NGINX 连不上 PHP -fpm 还是怎么回事 ?
@station

php-fpm.conf 还有一个 access log 默认是不开启的

php_flag[display_errors] = on
php_admin_value[error_log] = /var/log/php-fpm/www-error.log
php_admin_flag[log_errors] = on


access.log string
Access log 文件。 默认值:不设置

access.format string
access log 的格式。 默认值: "%R - %u %t \"%m %r\" %s"

access.log = log/$pool.access.log
#每一个请求的访问日志,默认是关闭的。
access.format = "%R - %u %t \"%m %r%Q%q\" %s %f %{mili}d %{kilo}M %C%%"
#设定访问日志的格式。

[php-fpm 配置详解]( https://juejin.im/entry/5870bc8961ff4b005c3c47ec)
2020-02-14 18:26:40 +08:00
回复了 station 创建的主题 NGINX 连不上 PHP -fpm 还是怎么回事 ?
500 应用程序错误,
你开启 fpm 的 access log 看下。
开启 php.ini 的 display_error=ON,error_reporting=E_ALL

将 index.php 改为 <?php echo 'hello';exit; 测试

如果不是很会环境配置的话,建议用宝塔吧。
1 ... 116  117  118  119  120  121  122  123  124  125 ... 156  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4387 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 58ms · UTC 01:06 · PVG 09:06 · LAX 18:06 · JFK 21:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.