2008年8月11日 星期一

Nightware in PetaByte age

小薑雜談:PB 的挑戰 - Engadget 癮科技
PB 時代的第一大挑戰是什麼?就是資料的過濾。就算人類已經有產生 PB 級資料量的能力,但事實是我們並沒有把這些資料全部有效地存取的技術。因此選擇哪些資料更有價值,就成為了很重要的課題。之前就有提過的大型強子碰撞器,事實上因為是在觀測為時非常短的現象,因此每秒大約要拍下十億張的照片,才能確保不漏掉什麼重要的事情。如果全部的資料都要保留的話,每秒鐘就必須儲存 10PB 左右的資料 -- 也就是說每秒鐘會塞滿 10,000 顆 1TB 容量的硬碟。這是一個靠現有技術絕對不可能辦到的事情,所以必須靠硬體和軟體的過濾,找出每秒大約 100 個值得關注的事。即使如此,一年仍將產生約 15PB 的資料,或 15,000 顆 1TB 的硬碟,藏在這些資料裡頭的,有黑洞、異次元、平行宇宙,還有兩三個諾貝爾獎吧?

第二個挑戰,是資料的分析。分析和過濾不一樣,過濾是試圖減少資料量,但分析卻是變出更多的資料來。一個例子是選舉結果的預測 -- 一個仔細想想並沒有意義,但無論候選人、選舉人還是媒體都樂此不疲的遊戲。美國在 2004 年時,候選人 Howard Dean 收集了 100GB 的資料來分析,當時被認為是一個很恐怖的大資料庫。今年的總統選舉,Catalist 公司收集了一個 15TB 的超大資料庫,詳細分析每個人的性別、婚姻、年齡、種族、收入等各種資料,並且從中獲得判斷一個人會投給共和黨還是民主黨的重要資訊。依照同樣的比例增加下去,下一次美國總統選舉時的資料量和分析結果肯定會達到數 PB 之譜,屆時對資料探勘、分析所需的運算資源的要求會非常可怕,或許非要用 Cloud Computing 的方式才能運算的地步。嘿嘿,或許到時候預測系統都比你自已清楚你會投給誰...

第三個挑戰,是資料的呈現。這是一個比較抽象的關念,舉個例子來說好了,目前的數位相機解析度都高達 10mp 或更多,但一般人用的螢幕就算是最常見的高檔螢幕解析度(1920x1200)事實上才 2.3mp 而已。那多的那些資料不就可惜了?Wikipedia 現在就有點這種感覺,很多很好的文章和內容因為不容易取得,很難發揮它應有的真正價值。

第四個挑戰,是資料的傳輸。之前在網路上看過一個很有趣的問題:將 1PB 的資料從美國西岸送到台灣,是用傳輸的快,還是用帆船把整個伺服器運過去快?一點簡單的數學告訴我們,要在合理的時間範圍內把資料傳完...就假設三個月好了。要在三個月內把 1PB 的資料傳完,傳輸送率要大約 1Gb/s 才行。這個數字不是特別的不可能(學術單位間常常有這麼大量資料來往),但絕對不是一般民眾能負擔得起的。以目前的技術來說,如果你要傳 1PB 的超高畫質*嗶*片給在美國的朋友的話,絕對是用海運的比較快...

最後,第五個挑戰,是資料的搜尋。拜 Google 大神所賜,這或許是我們最不須要要擔心的一環了。但 Google 的強大也僅限於公開的網路而已,自已電腦上的檔案要能分類清楚依然是很困難的一件事。Windows Vista 本來想要加入的 WinFS 檔案系統和隨之而來的關連式檔案架構似乎帶來了一線曙光,但最後我們還是被卡在樹狀結構的 NTFS 裡。當個人電腦資料量也到 1PB 的時候,嗯,真難想像到時候會是個怎麼樣的惡夢。

沒有留言: