V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  jahan  ›  全部回复第 3 页 / 共 11 页
回复总数  210
1  2  3  4  5  6  7  8  9  10 ... 11  
2018-03-13 15:27:29 +08:00
回复了 jahan 创建的主题 程序员 有没有这种工具?可以监控文件夹的变化并传输新的文件?
试一下,看看能不能把目录结构也同步下来
2018-03-13 15:20:59 +08:00
回复了 jahan 创建的主题 程序员 有没有这种工具?可以监控文件夹的变化并传输新的文件?
貌似是全亮备份?我这个文件夹只需要备份某时刻或者部署之后的增量即可。
2018-03-13 14:01:51 +08:00
回复了 jahan 创建的主题 程序员 有没有这种工具?可以监控文件夹的变化并传输新的文件?
传输呢? ftp ?
2018-03-13 12:52:50 +08:00
回复了 jahan 创建的主题 程序员 有没有这种工具?可以监控文件夹的变化并传输新的文件?
有没有不这么明显的……能够服务级的?
2018-03-13 12:51:07 +08:00
回复了 jahan 创建的主题 程序员 有没有这种工具?可以监控文件夹的变化并传输新的文件?
是台局域网的 win 没法 fq
elasticsearch 可以不?
https://www.elastic.co/guide/en/elasticsearch/reference/current/removal-of-types.html
这里讲 6.0 和以后的版本都不支持多个 mapping,文档给出了这么一个解决方案。
PUT twitter
{
"mappings": {
"_doc": {
"properties": {
"type": { "type": "keyword" },
"name": { "type": "text" },
"user_name": { "type": "keyword" },
"email": { "type": "keyword" },
"content": { "type": "text" },
"tweeted_at": { "type": "date" }
}
}
}
}

PUT twitter/_doc/user-kimchy
{
"type": "user",
"name": "Shay Banon",
"user_name": "kimchy",
"email": "[email protected]"
}

PUT twitter/_doc/tweet-1
{
"type": "tweet",
"user_name": "kimchy",
"tweeted_at": "2017-10-24T09:00:00Z",
"content": "Types are going away"
}

GET twitter/_search
{
"query": {
"bool": {
"must": {
"match": {
"user_name": "kimchy"
}
},
"filter": {
"match": {
"type": "tweet"
}
}
}
}
}

我的理解是这个把所有的字段混在一起,并不区分 mapping (传统意义上的表)或设置了一个虚拟的 mapping,然后在填充的时候确定 type。单个的例子容易实现,put 就可以了。我从 filebeat-》 logstash-〉 es 就有些理解不了了,加载 template 的时候,还是免不了出 mapping 下的 type 不能多余一个的错误。
做了一个模版是这样的,打算手工加载,
{
"index_patterns": ["tes*"],
"settings" : {
"index" : {
"number_of_shards" : 3,
"number_of_replicas" : 2
}
},

"mappings" : {
"t_df_dfxx" : {
"properties" : {
"ydaxj" : { "type" : "text" },
"nbddh" : { "type" : "text" },
"ajrds" : { "type" : "text" },

}
},

"t_kd_grdfd" : {
"properties" : {
"kk" : { "type" : "text" },
"zjdd" : { "type" : "text" },
"yxjdf" : { "type" : "text" },

}
}
}
}
查了文档,看的十分困惑,有的说这个不支持多个 type,说 7.0 就完全支持。有的例子就完全一样,说 6.0 支持这种写法。
查到并且用 curl xdelete 给删除了,然后重新建 test index,get test/_mapping 神奇的 mapping 又出现了。
我做错了什么?
{"error":{"root_cause":[{"type":"illegal_argument_exception","reason":"Rejecting mapping update to [tYGi6U7cTsO_0YXJvN_W2g] as the final mapping would have more than 1 type: [t_gx_jgxx, t_kh_grjcxx]"}],"type":"illegal_argument_exception","reason":"Rejecting mapping update to [tYGi6U7cTsO_0YXJvN_W2g] as the final mapping would have more than 1 type: [t_gx_jgxx, t_kh_grjcxx]"},"status":400}
6.2 的 elasticsearch
2018-03-05 14:49:58 +08:00
回复了 jahan 创建的主题 程序员 有没有可能在内网利用开源工具建一个类似百度的搜索引擎?
@simapple 网站都不在本地,应该需要一个爬虫吧
2018-03-05 14:20:43 +08:00
回复了 jahan 创建的主题 程序员 有没有可能在内网利用开源工具建一个类似百度的搜索引擎?
所搜特定的 10 几个网站。想做一个只针对这 10 几个网站的小型的百度。
2018-03-05 14:06:37 +08:00
回复了 jahan 创建的主题 程序员 有没有可能在内网利用开源工具建一个类似百度的搜索引擎?
@linyinma 不懂这个机制,所以弄了一个类似百度。就是想建一个整套的平台,不知道要做那些?或者有没有全开源的工具。
2018-03-05 11:19:12 +08:00
回复了 jahan 创建的主题 程序员 有没有可能在内网利用开源工具建一个类似百度的搜索引擎?
刚查了一个雅虎的 Vespa。solr 和 vespa 是不是都没有爬虫呢?
2018-02-26 08:52:49 +08:00
回复了 jahan 创建的主题 Elasticsearch Elasticsearch 建立 mapping 的困惑,请高手指教。
@Morriaty 不过这个也是不错的办法。免去了建立 mapping 的麻烦?
2018-02-26 08:44:07 +08:00
回复了 jahan 创建的主题 Elasticsearch Elasticsearch 建立 mapping 的困惑,请高手指教。
@twm 比较懒,而且这个应该有个轮子吧。而且如果有了这么一个轮子,效率能提升很多。
@ligyxy
@Morriaty Logstash-input-jdbc 是用来从数据库导入的吧( This plugin was created as a way to ingest data in any database with a JDBC interface into Logstash. ),这个方法倒是特别适合已经有数据库的。不过我这里想着脱裤文件不入库直接进入 es。不知道还有没有。
@Beebird 这个模板很好用,很想知道如果有一个建表语句,怎么对应出这样的模板,现在我是手敲。。。。非常 low。有没有一个工具,可以把 sql 语句的 create table 语句贴入或导入,然后根据一些配置,直接输出 mapping 呢?我分析的是脱裤文件,可能和大家分析的日志还不太一样。


感谢大家指点。发现很多都是处理英文的,我需要处理的文本基本上都是中文,中文英混杂,数字串,金额,字母等。
2018-02-19 17:39:33 +08:00
回复了 jahan 创建的主题 Elasticsearch 外行问一下, elasticsearch+kinda 可以做多复杂的大数据分析?
使用 filebeat 来收集表进入 logstash,然后 logstash 送给 elastisearch。 疑问 1.如果不用 filebeat 或者 logstash 来收集,现在我是通过建立 index,mapping 后,进行手工的数据导入( python 将||分割的 txt 转成 mapping 的 json );假若重新部署一个新的环境,如果想要使用 filebeat 和 logstash 的话,是不是在都不需要在 elasticsearch 上建立 mapping ?只需要建立一个 index,告知 filebeat 和 logstash 数据流送到哪个 index 即可( filebeat 需要建立 templalte )?非常疑惑使用 filebeat 和 logstash 后要不要在 elasticsearch 上建立 mapping。

疑问 2。根据 create table 语句建立 mapping,有没有特别简单的办法?不用写手写或者 python 程序,就能迅速把 mapping 的 json 根据 create table 语句弄出来?有具体例子就最好了。

疑问 3。配置文件,f,l,e 都是通过配置文件来设置的,有点糊涂到底需要配置哪些文件来使用呢?看 filebeat.yul,logstash 下面建立自己的 myself.conf,还没有能整体上了解。这里就回到了疑问 1,如何在 filebeat 上建立 mapping,是 template ?

疑问 4,filebeat 在官方文档里面只是一个 log ship,不进行 parsing,那么就是不会将每一个数据文件里面的 line 变成 json ?
然后疑问就是 template.json 配置来干嘛呢? logstash 对数据进行 gork 操作,分割符号是 0001 的控制符怎么表示呢?

raw 数据文本怎么通过 f,l 进入 e 绕的有点晕了。
2018-02-18 20:55:19 +08:00
回复了 jahan 创建的主题 Elasticsearch 外行问一下, elasticsearch+kinda 可以做多复杂的大数据分析?
@knktc 感谢提示。
当时也不是知道在玄学知乎上看到说 es 不能很好的保持数据。
还有一篇文章比较 elk 和 hadoop 的文章说了,数据量不大随便用哪个,数据量大,自己就能体会到。简直太玄学。
后期会尝试包装一下,因为要兼顾两类用户使用。

目前配置了最新的 6.2 平台,算是刚刚入门这个。
2018-02-18 20:18:40 +08:00
回复了 jahan 创建的主题 Elasticsearch 外行问一下, elasticsearch+kinda 可以做多复杂的大数据分析?
@knktc 感谢回复。
想搭建一个既能存储,有能方便有现成的轮子方便分析的平台。就搭建了一个 elk 的系统。
当然我的数据都是结构化的数据(固定分隔符),不是日志、也不是杂乱文本。不过定期会有数据进来。然后快要搭建好了问了自己一个问题,这个 elk 够用吗?


主要的目的就是想搭建一个能够适合不懂 sql 的人使用或者很精通 sql 和 r,python 等工具的人来挖掘一点有价值的信息,存储数据也是一部分(貌似 es 不能很好的保持数据?)也不知道上述目的用 elk 这样好不好,请大家多指教。
1  2  3  4  5  6  7  8  9  10 ... 11  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2841 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 13:48 · PVG 21:48 · LAX 05:48 · JFK 08:48
Developed with CodeLauncher
♥ Do have faith in what you're doing.