超淺談巨量資料 @ 沒什麼，看一下而已

巨量資料，又稱大數據、海量資料"BIG DATA"，一般來講我們在記錄一些訊息時，講求精確、錯誤率越低越好，在過去礙於電腦運算及儲存問題，資料必須求精確，得出來的結果的誤差才不會天差地遠；

就如同在做實驗時，小數點少了幾位數，結論出來的數值可能與常理相去甚遠。

現在，隨著電腦處理及儲存空間的增加，我們可以收集更多資料進行分析判斷，可是全世界的資料如此的多如此的雜亂，再也無法一一彙整成井然有序的資料，更別提一一校驗準確度了。

那這樣巨量資料有甚麼價值可言?

巨量資料雜亂、眾多即是它的優點；雖然他不可能達到極為精確的結果，也不可能拿來當作火箭的數據，但是我們可以藉由資料量極多的優勢看出未來的趨勢。

2008年雷曼公司宣告破產之際，MIT在短時間內收集50萬筆產品價格資訊，推測出通貨緊縮的危機，但是官方傳統的彙整資料卻是要多等2個月才出爐

簡單的模型與凌亂但是為數眾多的參考資料所組合的預測精準度會大於精確的模型與少數精準的資料 (Google 翻譯)

在社群網站等地方，利用語意分析，歸納出社會動向以及討論事物；也成功的預測熱門事物為何

為何我們需要巨量資料的其中一個原因是

能夠提供決策者成功地在短時間內"預測未來"

我們不需要太多詳細情形也不需要原因，能夠搶先一步成功決策可以說是一大優勢

尤其在企業管理上更能顯示出巨量資料的價值與形影

不精確的結果雖然會降低資料精準的價值，但是也讓我們無限制地收集資料，也使我們可以判斷未來走勢的基準點以及遮掩不精確的缺失。

我們在這裡並沒有仔細探究巨量資料的內涵以及操作手法，反倒是利用他的"不精確"的精神收刮大量資料達到預測未來極短期天氣的實力

根據官方開放資料收集全台各地雨量站、觀測站以及雷達資訊等林林總總、洋洋灑灑，若是典型夏季氣候一小時可累積3萬筆資料、一天可累積90萬筆資料、一個星期可累積到600萬筆資料以上

根據一小時的3萬筆資料可以推算出雲層走向、速度、雨勢規模、下雨機率甚至是下雨時間

這些衍生資料足以判斷目標地點是否會下雨，精確度可達100平方公尺，可供短時間(30min~1hr)內使用者決策

巨量資料不講求發生結果的來龍去脈，而是以眾多的"果"去推測下一個發生的"果"

gary741

沒什麼，看一下而已

gary741 發表在痞客邦留言(1) 人氣()

E-mail轉寄

沒什麼，看一下而已