所謂海量數(shù)據(jù)處理,無非就是基于海量數(shù)據(jù)上的存儲(chǔ)、處理、操作。何謂海量,就是數(shù)據(jù)量太大,所以導(dǎo)致要么是無法在較短時(shí)間內(nèi)迅速解決,要么是數(shù)據(jù)太大,導(dǎo)致無法一次性裝入內(nèi)存。
那解決辦法呢?
針對(duì)時(shí)間: 我們可以采用巧妙的算法搭配合適的數(shù)據(jù)結(jié)構(gòu),如Bloom filter/Hash/bit-map/堆/數(shù)據(jù)庫(kù)或倒排索引/trie樹;
針對(duì)空間: 無非就一個(gè)辦法: 大而化小,分而治之(hash映射);
集群|分布式: 通俗點(diǎn)來講,單機(jī)就是處理裝載數(shù)據(jù)的機(jī)器有限(只要考慮cpu,內(nèi)存,硬盤的數(shù)據(jù)交互); 而集群適合分布式處理,并行計(jì)算(更多考慮節(jié)點(diǎn)和節(jié)點(diǎn)間的數(shù)據(jù)交互)。