|
非官方佳禮國內版網友統計 - 更新:每月排行榜#10
[复制链接]
|
|
发表于 2-5-2018 05:46 PM
|
显示全部楼层
nsda 发表于 2-5-2018 09:01 AM
阿鏢叔的數據很適合玩分析,因為他有常年累積來的4000帖,較少Bias,不會因為某一天跟人吵架而導致某些時間的數據飆升
不過我還是覺得這張圖可以再improve,可能其中幾天他都在星期六中午跟人大開戰,這裡是看 ...
就只能每個月分開來看了,我知道很費神不過我也想不到其他方法了
對了,我想問你,我開的那些投票帖,有沒有辦法挖出第一張票投的是哪一個選項(我不需要知道是誰投的),第二張票投的是哪一個選項...........以此類推?
還有,我也想看看我這个賬號 (華沙論賤)和另一個帳號 q(O_O)p 的發帖頻率統計圖,謝謝
|
|
|
|
|
|
|
|
发表于 2-5-2018 05:50 PM
来自手机
|
显示全部楼层
nsda 发表于 2-5-2018 03:47 PM
這裡不支持行動黨都被自動歸類為馬華狗啦,我上屆還支持民聯的,現在也無可幸免,馬華會員證都可以當字典了
世界杯期間,大家都是足球專家,但是未必個個都有賭球
我個人的看法就是大選期間大爆發的未必都是 ...
回你这贴的那人是广发马华会员证其中一人,搞不好你你有收过他的马华卡。 |
|
|
|
|
|
|
|
发表于 2-5-2018 05:56 PM
|
显示全部楼层
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 06:02 PM
|
显示全部楼层
華沙論賤 发表于 2-5-2018 05:46 PM
就只能每個月分開來看了,我知道很費神不過我也想不到其他方法了
對了,我想問你,我開的那些投票帖,有沒有辦法挖出第一張票投的是哪一個選項(我不需要知道是誰投的),第二張票投的是哪一個選項........... ...
應該沒辦法,可能網管才有辦法拿到投票的events,我們看到的應該只是aggregated的數據,除非寫個script 每分鐘monitor著投票帖,舊帖就沒辦法了
有辦法的,晚點才弄,等下一次更新數據時才一次過貼上
|
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 06:05 PM
|
显示全部楼层
如果有時間,如果這個帖還沒被版主刪帖,可能會弄JowY建議的回帖分析,到時比較容易看到誰被誰發過馬華卡
|
|
|
|
|
|
|
|
发表于 2-5-2018 06:05 PM
|
显示全部楼层
nsda 发表于 2-5-2018 10:02 AM
應該沒辦法,可能網管才有辦法拿到投票的events,我們看到的應該只是aggregated的數據,除非寫個script 每分鐘monitor著投票帖,舊帖就沒辦法了
有辦法的,晚點才弄,等下一次更新數據時才一次過貼上
這樣啊,好吧,我嘗試問下網管
|
|
|
|
|
|
|
|
发表于 2-5-2018 06:09 PM
来自手机
|
显示全部楼层
nsda 发表于 2-5-2018 06:05 PM
如果有時間,如果這個帖還沒被版主刪帖,可能會弄JowY建議的回帖分析,到時比較容易看到誰被誰發過馬華卡
哈哈,你有时间才弄吧,心里有小期待,不过别耽误正事。
|
|
|
|
|
|
|
|
发表于 2-5-2018 06:35 PM
|
显示全部楼层
楼主可以查一查 洗零 跟 jellyfish_8 是不是同样的人。据我所知,它们的口气和风格都相同的。
|
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 06:52 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 2-5-2018 09:04 PM
|
显示全部楼层
nsda 发表于 2-5-2018 12:36 AM
很好的建議!
可以做到的,不過存回帖需要很大的空間,我用的ec2 t2 micro 是不夠用的,要自己加個 harddisk ,再做些 processing 吧
怎麼說用其他方法存起來?現在都是存在 Csv ,幾十 mb 的檔案,會比較直 ...
我只說說,調侃 華沙 兄把鳥啦
因爲我只會 csv 不會 database,如果你一次教埋,就一次過學了 scrapy 和 database 咯,哈哈哈
|
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 09:45 PM
|
显示全部楼层
因為我之前剛開始時有想過的,只是時間有限,就從容易的開始玩起,其實整個結果對我來說是沒有什麼意義的,只是找個topic給自己玩,過程才是我學習的重點
scrapy配合database其實是多了一個dependency,2000頁的國內版主題大概有170萬個帖子,也就是說會有170萬個INSERT,當中要考慮到種種可能會有的failures,所以可能的話存進csv或json反而可以睡得好一點。當然,時間足夠的話你可以catch完全部可能性。一些情況是需要database的,比如你的apps有大量的logs,每天幾TB的,存進file system的話拿出來時就有點吃力,通常會存進elasticsearch配合logstash,kibana
不過你有興趣的話可以另外膠流
|
|
|
|
|
|
|
|
发表于 2-5-2018 10:11 PM
|
显示全部楼层
nsda 发表于 2-5-2018 01:45 PM
因為我之前剛開始時有想過的,只是時間有限,就從容易的開始玩起,其實整個結果對我來說是沒有什麼意義的,只是找個topic給自己玩,過程才是我學習的重點
scrapy配合database其實是多了一個dependency,2000頁的 ...
你在這裡挖到這麽多大數據,可以賣給 Cambridge Analytica,然後它們會幫 Jib Gor 再贏一次大選
|
|
|
|
|
|
|
|
发表于 2-5-2018 10:44 PM
|
显示全部楼层
感觉python比java舒服好多
|
|
|
|
|
|
|
|
发表于 2-5-2018 10:47 PM
|
显示全部楼层
我现在做setup database,然后用tableau connect database, localytics 是做什么的丫, visualization for mobile吗
|
|
|
|
|
|
|
|
发表于 2-5-2018 10:48 PM
|
显示全部楼层
nsda 发表于 2-5-2018 09:45 PM
因為我之前剛開始時有想過的,只是時間有限,就從容易的開始玩起,其實整個結果對我來說是沒有什麼意義的,只是找個topic給自己玩,過程才是我學習的重點
scrapy配合database其實是多了一個dependency,2000頁的 ...
csv max row 不是1m多吗 还是你distribute
|
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 10:49 PM
|
显示全部楼层
那三兩天爬得完的數據不值錢的,學佳禮打廣告賺國陣的錢才好 |
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 10:53 PM
|
显示全部楼层
你說的max row應該是software的limit,應該是指Microsoft Excel吧?
csv全名是comma-separated values,只是一個text file,limit應該是根據你的os / file system,所以幾十m也不應該是問題的,我通常用vi/cat/head/less來讀寫csv,沒有limit的問題...
|
|
|
|
|
|
|
|
楼主 |
发表于 2-5-2018 10:57 PM
|
显示全部楼层
佳禮果然多高人。。
對,可以是visualization for mobiles apps,也可以跟tableau一樣做BI
不過海量的數據都是儲存在aws,再用tableau來做dashboard/visualization
|
|
|
|
|
|
|
|
发表于 4-5-2018 10:15 PM
|
显示全部楼层
nsda 发表于 2-5-2018 10:57 PM
佳禮果然多高人。。
對,可以是visualization for mobiles apps,也可以跟tableau一樣做BI
不過海量的數據都是儲存在aws,再用tableau來做dashboard/visualization
mysql server而已 因为department不是IT background的 如果hadoop或者spark 那些我可能玩完了tableau不是可以design给mobile device吗 还是localytics能自动fit?
|
|
|
|
|
|
|
|
楼主 |
发表于 5-5-2018 12:33 AM
|
显示全部楼层
sadly 发表于 4-5-2018 10:15 PM
mysql server而已 因为department不是IT background的 如果hadoop或者spark 那些我可能玩完了tableau不是可以design给mobile device吗 还是localytics能自动fit?
對,比較mobile apps friendly
BI Team就比較多在Tableau,而且他們看到的數據一定要是anonymized data,所以我們的Tableau connect去的source都是已經anonymized了的
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|