先從概念上來(lái)說(shuō),大數(shù)據(jù)是什么?其實(shí)數(shù)據(jù)處理從人類誕生時(shí)期就有了,古人結(jié)繩記事就是基本的統(tǒng)計(jì),統(tǒng)計(jì)自己吃了幾頓飯打了幾次獵等等;再往近說(shuō),皇帝每晚翻嬪妃的牌子也是數(shù)據(jù)處理,在翻牌子之前,要從一大堆牌子里分析“方便”、“熱度高”、“新鮮度”等指標(biāo);更近的說(shuō),數(shù)據(jù)倉(cāng)庫(kù)早在大數(shù)據(jù)這個(gè)詞出現(xiàn)前就已經(jīng)成熟發(fā)展了好幾十年了。所以說(shuō),大數(shù)據(jù)并不新鮮,只是某些技術(shù)如Hadoop、MR、Storm、Spark發(fā)展到一定階段,順應(yīng)這些技術(shù)炒出來(lái)的概念,但是這些概念都基于一個(gè)基本的理念“開源”,這個(gè)理念是之前任何階段都沒有過,可以節(jié)省費(fèi)用提高效率,所以大家才都往這個(gè)行業(yè)里扔火柴(話說(shuō)現(xiàn)在很多人跟風(fēng)亂吵,個(gè)人認(rèn)為也不是壞事)。
誤區(qū)一:只有搞大數(shù)據(jù)技術(shù)開發(fā)的,才是真正“圈內(nèi)人”。
筆者曾經(jīng)參加過若干會(huì)議,70%是偏技術(shù)的,在場(chǎng)的都是國(guó)內(nèi)各個(gè)數(shù)據(jù)相關(guān)項(xiàng)目經(jīng)理和技術(shù)帶頭人,大家討論的話題都是在升級(jí)CDH版本的時(shí)候有什么問題,在處理Hive作業(yè)的時(shí)候哪種方式更好,在Storm、Kafka匹配時(shí)如何效率更高,在Spark應(yīng)用時(shí)內(nèi)存如何釋放這些問題。參會(huì)者都一個(gè)態(tài)度:不懂大數(shù)據(jù)技術(shù)的人沒資格評(píng)論大數(shù)據(jù),您要不懂Hadoop 2.0中的資源配置,不懂Spark在內(nèi)存的駐留時(shí)間調(diào)優(yōu),不懂Kafka采集就別參加這個(gè)會(huì)!對(duì)了,最近Google完全拋棄MR只用Dataflow了,您懂嗎?
在這里我想說(shuō),技術(shù)的進(jìn)步都是由業(yè)務(wù)驅(qū)動(dòng)的,某寶去了IOE才能叫大數(shù)據(jù)嗎,我作為一個(gè)聾啞人按摩師用結(jié)繩記事完成了對(duì)于不同體型的人,用什么按摩手法進(jìn)行全流程治療,就不叫大數(shù)據(jù)分析了嗎?技術(shù)發(fā)展到什么程度,只有一小部分是由科學(xué)家追求極致的精神驅(qū)動(dòng),大部分原因是因?yàn)闃I(yè)務(wù)發(fā)展到一定程度,要求技術(shù)必須做出進(jìn)步才能達(dá)成目標(biāo)的。