2009年3月30日 星期一

[技術]HADOOP

就如同電腦技術起飛時,大量資料衍生出一批資料庫公司,網路環境下資料量動則以T計算,自然需要新的儲存方式和運作技巧,GOOGLE提出的MAPREDUCE與BIGTABLE就是其中主要項目,操作著簡易語言,在數以萬計廉價電腦上,快速分析大量資料,提取出隱含其中統計現象.只是以前資料庫公司例如ORACLE等都是獨立公司,現今資料都集中在GOOGLE手中,會覺得這是網路公司專屬技術.目前看起來AMAZON EC2與CLOUDERA的推廣會逐漸改變這個生態,而其中最主要基礎就是HADOOP.他的檔案系統NDFS(HDFS)是延伸於GOOGLE GFS,主從式MAPREDUCE與GOOGLE論文如初一轍,應用控制語言Pig更與GOOGLE相近.資料庫型態HBASE也與BIGTABLE一模一樣.

這個架構的特性就是為了處理超級大量資料以及找出資料內隱含現象,如果不是因為這兩個項目,其實不需要改變資料庫習慣.目前可以看到比較具體有參考價值的是

  1. SAMT http://www.cs.cmu.edu/~zollmann/samt/ 翻譯系統
  2. 分析SPAM規則 http://www.wretch.cc/blog/taiwanydn/20944815
  3. textmap http://www.textmap.com/ http://www.cs.sunysb.edu/~mbautin/publications.html
  4. Web-Scale Named Entity Recognition 超級棒棒棒論文,分析HTML找出新項目
  5. 地理資訊http://elanso.com/ArticleModule/SYKAGTVwRRSEODJ2QcJ2ONIi.html

雖然無法看到這些應用的程式碼,但是仍然有許多小巧HADOOP應用,資料結構有mahout,redpoll,結構式控制有NUTCH,都可以學到很多東西.

我不太能預測HADOOP的未來,主要是HADOOP架構太偏向網路應用了,而台灣部份網路行為資料都集中在已經有此架構的YAHOO,其他公司太小,應該用不到,相反的中國大陸資料量大,很有發展空間.幾個特別的地方

  1. EMAIL SPAM, 這是很特殊領域, 目前趨勢和 http://www.cellopoint.com/ 有在徵人
  2. 優必達, 這家公司也有徵人,不過感覺和宇匯很像^_^
  3. 教育單位,工研院和資策會和國家高速電腦中心都有徵人,電腦中心還有提供課程和RPM
  4. HINET應該很需要
  5. 有可能有類似CLOUDERA教育蓷廣機構,只是若侷限在網路應用會很難生存吧

自己和HADOOP最有關就是NUTCH,NUTCH真的是很棒的應用,未來可能利用ASSOCIATION找出項目和項目關聯性,或是搭配FACT EXTRACT找出描述,不過如同前面所說,資料量不大時,完全不需要啦^_^

一些RESOURCE:

  1. 還沒看,好像有用http://code.google.com/p/ibiodiversity
  2. 簡單應用 http://www.scribd.com/doc/7435173/Estimating-Language-Models-Using-Hadoop-and-Hbase
  3. MANUAL http://trac.nchc.org.tw/cloud/wiki/MR_manual
  4. http://coderplay.javaeye.com/ 很不錯ㄡ , http://blog.ring.idv.tw/ 這是台灣人
  5. http://www.hadoop.org.cn/ 有些中文文件可看 相對的是http://www.hadoop.tw/
  6. http://www.allthingsdistributed.com/ 名子就是allthingsdistributed,酷,AMAZON技術長

沒有留言:

張貼留言