網(wǎng)上有很多關(guān)于賣pos機(jī)用戶數(shù)據(jù),數(shù)據(jù)倉庫的前世今生的知識(shí),也有很多人為大家解答關(guān)于賣pos機(jī)用戶數(shù)據(jù)的問題,今天pos機(jī)之家(m.afbey.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來看下吧!
本文目錄一覽:
賣pos機(jī)用戶數(shù)據(jù)
數(shù)據(jù)倉庫的內(nèi)容非常多,每一個(gè)子模塊拎出來都能講很久。這里沒法講太多細(xì)節(jié),大致思考了三個(gè)備選議題:
數(shù)據(jù)倉庫的前世今生數(shù)據(jù)倉庫體系知識(shí)介紹數(shù)倉開發(fā)者的路在何方?既然是第一次分享,感覺還是跟大家普及下數(shù)倉的歷史比較好,最終選了今天的這個(gè)話題,主要是給大家做個(gè)科普。
“前世今生”,拆解下來,我會(huì)從起源、發(fā)展、變化、展望四部分來給大家做個(gè)介紹。
數(shù)倉的起源,主要介紹下數(shù)據(jù)倉庫概念誕生的大背景、大環(huán)境,數(shù)倉解決了實(shí)際場景中的什么問題,以及數(shù)倉的定義。
數(shù)倉的發(fā)展,我們主要介紹下數(shù)據(jù)倉庫在我們國內(nèi)的發(fā)展歷程、在主要行業(yè)內(nèi)的應(yīng)用、我自己經(jīng)歷過的一些場景,以及當(dāng)時(shí)產(chǎn)生的跟數(shù)據(jù)倉庫相關(guān)的幾個(gè)概念。
數(shù)倉的變化,隨著大數(shù)據(jù)時(shí)代的到來,人們對數(shù)據(jù)資產(chǎn)更加重視,數(shù)據(jù)賦能業(yè)務(wù)能做的事情其實(shí)是更多了。那么傳統(tǒng)數(shù)倉向大數(shù)據(jù)倉庫的演變,對數(shù)倉人的基礎(chǔ)能力要求有哪些變化呢?我會(huì)在第三部分給大家做個(gè)介紹。
目前為止,我們大致處在大數(shù)據(jù)倉庫的階段,并且已經(jīng)有很多人在不斷的做著新的嘗試,第四部分我會(huì)基于我所看到的,跟大家共同探討下數(shù)倉未來的演進(jìn)方向。
做為科技進(jìn)步的受益者,大家知道第一臺(tái)計(jì)算機(jī)是什么時(shí)候發(fā)明的嗎?
1946 年 2 月 14 日,誕生于美國的賓夕法尼亞大學(xué)。這臺(tái)計(jì)算機(jī)重達(dá) 30 噸,占地 160 平方米,耗電174 千瓦,耗資 45 萬美元,但每秒只能運(yùn)行 5000 次加法運(yùn)算。
第一代商用計(jì)算機(jī),是 1951 年由雷明頓蘭德公司(現(xiàn) Unisys )發(fā)售的,當(dāng)時(shí)被美國人口普查部門用于人口普查。
但是當(dāng)時(shí)的計(jì)算機(jī)太過笨重,成本高昂,且硬件損耗極大,比如里邊的發(fā)光管,沒幾分鐘就要燒壞一個(gè)。所以 1960 年,開發(fā)出來了第一款小型機(jī),后續(xù)隨著技術(shù)進(jìn)步單臺(tái)價(jià)格急劇下降,但性能卻急劇上升。當(dāng)年P(guān)C 機(jī)的升級(jí)速度——壓根用不著像現(xiàn)在一樣,通過軟件降級(jí)舊手機(jī)的頻逼你升級(jí),當(dāng)時(shí)電腦各方面參數(shù)都是每 18 個(gè)月翻一番;或者說,每三年,新出的機(jī)器每個(gè)方面都是你的舊機(jī)器性能的 4 倍,六年 16 倍。當(dāng)然,最近幾年更新?lián)Q代速度已經(jīng)開始降下來了。
講到這里了,那么有沒有人想過這樣一個(gè)問題:什么是信息化?
百度百科的解釋:
信息化是指培養(yǎng)、發(fā)展以計(jì)算機(jī)為主的智能化工具為代表的新生產(chǎn)力,并使之造福于社會(huì)的歷史過程。
通俗點(diǎn)講,就是以計(jì)算機(jī)網(wǎng)絡(luò)為依托,將線下的各種依賴人力腦力的業(yè)務(wù)流程,使用軟件工具實(shí)現(xiàn),達(dá)到大幅度提高效率、節(jié)省人工的目的。
隨著計(jì)算機(jī)科學(xué)的快速發(fā)展,使信息化的落地逐漸成為可能。
一條線是數(shù)據(jù)庫技術(shù)的誕生發(fā)展與逐漸成熟。另一條線是各種 ERP、CRM、辦公自動(dòng)化、財(cái)務(wù)系統(tǒng)、供應(yīng)鏈等軟件解決方案的完善推廣,數(shù)據(jù)庫技術(shù)發(fā)展和各種軟件產(chǎn)品推動(dòng),共同促使信息化進(jìn)程不斷的深入。
數(shù)據(jù)庫技術(shù),經(jīng)過幾年的三大數(shù)據(jù)模型(層次模型、網(wǎng)狀模型、關(guān)系模型)角逐后,隨著 SQL 語言的誕生使關(guān)系模型最終勝出,最終誕生了強(qiáng)大的 DB2、Oracle、SQLServer 等關(guān)系型數(shù)據(jù)庫。。
這里簡單提一下,IBM 最早的層次模型數(shù)據(jù) IMS,全稱是信息管理系統(tǒng)(Information Management System),所以數(shù)據(jù)庫的誕生就是為了更方便的管理使用信息的 。
另外,說到信息化的普及,各種相關(guān)軟件供應(yīng)商也功不可沒。SAP 當(dāng)然還是世界第一的位置,當(dāng)時(shí)的世界五百強(qiáng)公司 80% 都使用了他們的 ERP,也就是企業(yè)資源管理產(chǎn)品,Oracle 當(dāng)時(shí)很牛吧,他們一開始自研但好像不怎么樣,最終還是買了 SAP 的產(chǎn)品。
SAP 直到 1994 年才引進(jìn)中國,首先做的是自身產(chǎn)品的翻譯工作,后來跟埃森哲、IBM 等咨詢公司合作,快速打開了國內(nèi)市場,同時(shí)也推進(jìn)了國內(nèi)的信息化進(jìn)程。相關(guān)國內(nèi)廠商起步稍晚,直到現(xiàn)在市場份額也小到可以忽略不計(jì),08 年的統(tǒng)計(jì) SAP 和 Oracle 都是百億級(jí)年收入,用友是一兩億吧好像是。
那時(shí)候國內(nèi)的有才華的人也都更傾向于進(jìn)外企,沒辦法那時(shí)候人家確實(shí)強(qiáng)、福利待遇也很好。
那時(shí)候的設(shè)備也基本上清一色進(jìn)口:IBM 的小型機(jī)、Oracle/IBM/TD 的數(shù)據(jù)庫、EMC 的存儲(chǔ)設(shè)備。
信息化開展過程中,各種軟件工具存儲(chǔ)下來的數(shù)據(jù),真實(shí)反應(yīng)了業(yè)務(wù)開展過程中的各種信息,雖然會(huì)存在一些噪音或者缺失,人們還是開始嘗試從留存數(shù)據(jù)中尋找各種有用信息,用來了解業(yè)務(wù)現(xiàn)狀、分析潛在問題與機(jī)會(huì)、預(yù)測未來發(fā)展路徑等等。
了解現(xiàn)狀。主要是通過各種運(yùn)營分析報(bào)表以及對應(yīng)的圖標(biāo)展示,報(bào)表主要是各種維度下的日周月季年匯總,圖標(biāo)主要是占比分析、同比環(huán)比分析等。
輔助決策。經(jīng)典案例就是“啤酒尿布的故事”。上世紀(jì) 90 年代(大概 1993-1995 年之間吧),沃爾瑪嘗試將 Aprior 算法引入到 POS 機(jī)數(shù)據(jù)分析中(實(shí)際上是一種商品的關(guān)聯(lián)分析算法),當(dāng)時(shí)發(fā)現(xiàn)跟尿布一起購買最多的商品竟然是啤酒,最后經(jīng)過進(jìn)一步市場調(diào)研發(fā)現(xiàn),美國的太太們經(jīng)常叮囑她們的丈夫下班后為小孩買尿布,而丈夫在買完尿布后又隨手帶回了他們喜歡的啤酒。后來,沃爾瑪把尿布與啤酒放到相鄰的貨架上從而實(shí)現(xiàn)了啤酒與尿布銷量的雙雙增長。
預(yù)測未來。通過對現(xiàn)有數(shù)據(jù)的分析挖掘,有時(shí)候是可以預(yù)測出通過改變某個(gè)變量后對結(jié)果的影響的。比如通過對商品價(jià)格的調(diào)整,會(huì)引起銷量的變化,最終通過合理的定價(jià)達(dá)到利潤或銷售額最大化的目的。這上邊我還列了一個(gè)我剛畢業(yè)時(shí)候做過的一個(gè)案例:廢水經(jīng)過污水處理廠處理后最終都會(huì)流到附近的某條河里,污水處理廠的出口會(huì)有水質(zhì)檢測設(shè)備,每條河流上也會(huì)有若干個(gè)水質(zhì)檢測站,因?yàn)樗|(zhì)的自然凈化因素,距離檢測站點(diǎn)越遠(yuǎn)對水質(zhì)檢測結(jié)果的影響越小。當(dāng)時(shí)我們通過一個(gè)數(shù)學(xué)模型去預(yù)測想要保證某個(gè)檢測站點(diǎn)主要污染物含量達(dá)標(biāo),結(jié)合其上游臨近的若干個(gè)污水處理廠的距離,反推各個(gè)污水處理廠出口需保證的水質(zhì)標(biāo)準(zhǔn)。
看了上邊的介紹我們了解到,合理的數(shù)據(jù)應(yīng)用,是能夠給業(yè)務(wù)提供非常多的支撐作用的。但是隨著數(shù)據(jù)的深度使用,人們逐漸發(fā)現(xiàn)了一些問題,一句話描述就是:現(xiàn)有的數(shù)據(jù)存儲(chǔ)模式不好用了。
總結(jié)下來,主要有四類問題:
影響業(yè)務(wù)。大批量長時(shí)間跨度的數(shù)據(jù)運(yùn)算、復(fù)雜的分析挖掘,往往會(huì)占用很多的計(jì)算資源,數(shù)據(jù)混亂。業(yè)務(wù)邏輯的變化,造成不同時(shí)間段的數(shù)據(jù)含義內(nèi)容都會(huì)有差別,更要命的是沒有人會(huì)告訴你這些。數(shù)據(jù)缺失。業(yè)務(wù)庫基于性能和硬件成本考慮,都會(huì)把歷史數(shù)據(jù)歸檔并轉(zhuǎn)移到更廉價(jià)的存儲(chǔ)設(shè)備去。數(shù)據(jù)孤島。數(shù)據(jù)是業(yè)務(wù)開展過程中各個(gè)系統(tǒng)軟件產(chǎn)生并存儲(chǔ)下來的,系統(tǒng)軟件直接往往存在隔離,同時(shí)由于缺少統(tǒng)一規(guī)劃,同一主數(shù)據(jù)在不同系統(tǒng)內(nèi)的定義描述編碼都不一致。大家可以腦補(bǔ)下阿里的 ID-Mapping ,其實(shí)是一個(gè)道理。接下來,我們本次分享的主角終于出場了!
事實(shí)上,在上世紀(jì) 70 年代已經(jīng)有人提出來需要單獨(dú)構(gòu)建數(shù)據(jù)分析系統(tǒng)了,但是局限于技術(shù)發(fā)展一直無法落地(大家可以往前翻到第 4 頁 PPT,那時(shí)候的關(guān)系型數(shù)據(jù)還處于啟蒙階段。),直到后來 1991 年“數(shù)據(jù)倉庫之父”正式確立了數(shù)據(jù)倉庫基本概念,但直到那時(shí)候數(shù)據(jù)倉庫理論依然不太成熟。
數(shù)據(jù)倉庫的概念確立以后,有關(guān)數(shù)據(jù)倉庫的實(shí)施方法、實(shí)施路徑和架構(gòu)等引發(fā)了諸多爭議。
第一階段:直接構(gòu)建數(shù)據(jù)倉庫。1994 年前后,實(shí)施數(shù)據(jù)倉庫的公司大都以失敗告終(采用規(guī)范化的方式直接構(gòu)建數(shù)據(jù)倉庫,對數(shù)倉構(gòu)建者的能力要求過高,Inmon 老爺子當(dāng)時(shí)有 30 年數(shù)據(jù)從業(yè)經(jīng)驗(yàn)了,他行其他人能行嗎?)。
第二階段:直接構(gòu)建數(shù)據(jù)集市。由于數(shù)據(jù)集市僅僅是數(shù)據(jù)倉庫的某一部分,實(shí)施難度大大降低,并且能夠滿足公司內(nèi)部部分業(yè)務(wù)部門的迫切需求,在初期獲得了較大成功。但隨著數(shù)據(jù)集市的不斷增多,這種架構(gòu)的缺陷也逐漸顯現(xiàn):公司內(nèi)部獨(dú)立建設(shè)的數(shù)據(jù)集市由于遵循不同的標(biāo)準(zhǔn)和建設(shè)原則,導(dǎo)致多個(gè)數(shù)據(jù)集市的數(shù)據(jù)混亂和不一致。
第三階段:靈者為先,兩種建模思想的融合。解決問題的方法只能是回歸到數(shù)據(jù)倉庫最初的基本建設(shè)原則上來。1998 年,Inmon 提出了新的 BI 架構(gòu) CIF(Corporation Information Factory,企業(yè)信息工廠),新架構(gòu)在不同架構(gòu)層次上采用不同的構(gòu)件來滿足不同的業(yè)務(wù)需求。
大家看下右邊這個(gè)架構(gòu)圖,展示的是 Inmon 1998 年提出的《企業(yè)信息工廠》。
來自多個(gè)不同數(shù)據(jù)源的數(shù)據(jù),經(jīng) ETL 抽取清洗轉(zhuǎn)換后,將原子粒度數(shù)據(jù)以一種規(guī)范化的格式集成進(jìn)企業(yè)數(shù)據(jù)倉庫中,直接對外提供數(shù)據(jù)服務(wù)。同時(shí)基于不同需求再往上構(gòu)建數(shù)據(jù)集市,以部門級(jí)分析多維格式存儲(chǔ)。
這里有兩個(gè)重要的基礎(chǔ)概念,大家可以多多理解下:
數(shù)倉的定義:
面向主題。主要是給數(shù)據(jù)分類方便理解和管理。集成。匯總多個(gè)源端系統(tǒng)數(shù)據(jù)甚至是異構(gòu)數(shù)據(jù)源,到一個(gè)統(tǒng)一的相互兼容的數(shù)據(jù)存儲(chǔ)內(nèi),使后續(xù)的分析關(guān)聯(lián)更加容易。相對穩(wěn)定。對數(shù)據(jù)的操作大多是 Insert,很少有 Update、Delete。反應(yīng)歷史變化。存儲(chǔ)大量的歷史數(shù)據(jù),保留歷史所有數(shù)據(jù)的狀態(tài),進(jìn)而找出企業(yè)經(jīng)營管理中的規(guī)律。我覺得這里應(yīng)該包含兩個(gè)層面:業(yè)務(wù)的歷史變化規(guī)律、維度數(shù)據(jù)的歷史變化。用于支持管理決策。這是構(gòu)建數(shù)倉的目的。但是發(fā)展到現(xiàn)在,數(shù)倉已經(jīng)在別的很多地方開始發(fā)揮作用了。三范式:經(jīng)典的關(guān)系數(shù)據(jù)模型規(guī)范理論
屬性不可拆分。保證列的原子性。例如不能把學(xué)生的的學(xué)號(hào)、名稱、班級(jí)號(hào)都塞在一個(gè)字段里面每個(gè)屬性有且僅依賴于主鍵(主鍵的定義:能夠唯一確定一條數(shù)據(jù)的列或列組合)。屬性不能傳遞依賴于主鍵。如果有就分表。例如行政區(qū)劃的省市縣三層劃分必須建三張表,省市的名稱不能放到區(qū)縣的那張表里(當(dāng)然這種情況下,維度建模通常是反三范式的)。范式建模理論是在數(shù)倉建設(shè)實(shí)踐中演變出來的,因?yàn)橹苯訕?gòu)建數(shù)據(jù)倉庫和直接構(gòu)建數(shù)據(jù)集市都會(huì)存在一些問題。
大家請看上圖,原始數(shù)據(jù)通過 ETL ,轉(zhuǎn)換成維度指標(biāo)的形式,以原子粒度存入維度數(shù)據(jù)倉庫,在此之上匯總成數(shù)據(jù)集市(數(shù)倉的主題區(qū)域)。為了保證數(shù)據(jù)集市間的兼容性,在數(shù)據(jù)集市之上抽離出來一套標(biāo)準(zhǔn),就是總線架構(gòu)。
這里也有兩個(gè)重要的基礎(chǔ)概念:
總線架構(gòu):類似于主數(shù)據(jù)管理,就是把維度和指標(biāo)單獨(dú)抽離出來集中管理,各個(gè)數(shù)據(jù)集市只有使用權(quán)。
一致性維度:集中管理維度以及維度屬性。保證相同的維度在不同數(shù)據(jù)集市間的一致性。
一致性事實(shí):集中管理指標(biāo)的定義、單位、計(jì)算方法等。保證統(tǒng)一指標(biāo)在不同數(shù)據(jù)集市間的含義是相同的。
維度建模過程:事實(shí)上是單張表的構(gòu)建過程。一張表只說一件事情。但根據(jù)此方法建完所有表之后,對于維度完全相同的表是否需要合并,得根據(jù)實(shí)際情況來定,比如業(yè)務(wù)相近的就可以合起來。
到這里,我們基本上把數(shù)倉概念誕生的歷史背景、發(fā)揮的價(jià)值、怎么構(gòu)建數(shù)據(jù)倉庫大致講完了。隨著歷史進(jìn)程推進(jìn)到上世紀(jì)九十年代中期,我們國內(nèi)終于是參與進(jìn)來了。
接下來,我繼續(xù)給大家介紹下數(shù)據(jù)倉庫引入我們國內(nèi)后的發(fā)展?fàn)顩r。
請看上邊這頁 PPT,我入行的時(shí)候,傳統(tǒng)數(shù)倉在國內(nèi)其實(shí)已經(jīng)非常成熟了。但當(dāng)時(shí)有數(shù)倉需求的企業(yè)并不多,因?yàn)榇蠖鄶?shù) 2B 的中小公司不需要啊,他們數(shù)據(jù)量也不大,最多也就出幾張實(shí)時(shí)的業(yè)務(wù)報(bào)表,直連業(yè)務(wù)系統(tǒng)反而更合適些。
當(dāng)時(shí)的數(shù)倉開發(fā)甚至大多數(shù)的數(shù)據(jù)從業(yè)者,基本都在電信、銀行、保險(xiǎn)行業(yè),以及大型央企民企。同時(shí)以電信、銀行居多。
傳統(tǒng)數(shù)倉,從技術(shù)棧上大致分為三類:數(shù)據(jù)庫+ETL工具+BI工具。并且都被國外企業(yè)所壟斷,上圖中我雖然列了 Kettle 這個(gè)開源軟件,但當(dāng)時(shí)它的市場份額可以忽略不計(jì)。
由于數(shù)倉的技術(shù)棧,基本被外國企業(yè)把控,市場競爭中,外企也是通殺國內(nèi)企業(yè)的。
請看上邊這張 PPT,從左到右,軟硬件提供商+解決方案提供商+外包公司,這些都是傳統(tǒng)數(shù)倉的主要參與者。大概場景是這樣的:解決方案提供商拿著外企的一眾產(chǎn)品簡單包裝以后,在國內(nèi)接項(xiàng)目,然后帶著一大堆外包公司做實(shí)施。當(dāng)然上邊的分界也不是特別明顯,華為也提供硬件、TD 也會(huì)做實(shí)施。
再往細(xì)分的話,華為亞信在電信行業(yè)做的比較出名,TD 主要是金融行業(yè),IBM 埃森哲等咨詢公司在大型央企民企做的比較多。當(dāng)然軟通當(dāng)時(shí)也有保險(xiǎn)事業(yè)部也會(huì)直接接一些項(xiàng)目,文思這兩年好像銀行項(xiàng)目接了很多,這兩年群里有人瘋狂招人的。雖然近些年大家吐槽外包的很多,但當(dāng)時(shí)確實(shí)也養(yǎng)活了不少數(shù)倉從業(yè)者,因?yàn)榈谝坏诙蓐?duì)畢竟能容納的人也有限,不去外包公司也沒別的選擇了。數(shù)倉項(xiàng)目通常也都是長期做的,所以也沒有現(xiàn)在說的這么差。
相信很多人都對數(shù)倉有所了解,那么大家有沒有仔細(xì)想過,什么是數(shù)倉?數(shù)倉的邊界在哪里?
數(shù)據(jù)管理大體可以分為四部分:集成、計(jì)算、存儲(chǔ)、應(yīng)用。狹義的數(shù)倉只包含集成計(jì)算和存儲(chǔ)。但是沒有上層應(yīng)用的數(shù)倉根本毫無意義,所以數(shù)據(jù)應(yīng)用對數(shù)倉來說也是至關(guān)重要的。
基于以上的原因,我們在談項(xiàng)目的時(shí)候通常會(huì)提一些高大上的概念,比如我們要建設(shè)一個(gè)企業(yè)級(jí)的數(shù)據(jù)中心,我們要搭建一個(gè)數(shù)據(jù)平臺(tái)等等,其實(shí)實(shí)質(zhì)上都是:數(shù)據(jù)倉庫+上層應(yīng)用。
數(shù)據(jù)中心:就是把散落在組織各個(gè)地方的數(shù)集起來統(tǒng)一存儲(chǔ)、分發(fā)、應(yīng)用。
運(yùn)營分析系統(tǒng):是在數(shù)據(jù)中心的基礎(chǔ)之上,根據(jù)業(yè)務(wù)需要做一些運(yùn)營分析報(bào)表,直接服務(wù)于各個(gè)業(yè)務(wù)部門。
數(shù)據(jù)平臺(tái):這個(gè)概念更大,在數(shù)據(jù)中心的基礎(chǔ)之上,考慮引入外部數(shù)據(jù)?;跀?shù)據(jù)平臺(tái)開放各種內(nèi)外部賬戶,所有用戶都可以基于該平臺(tái)做數(shù)據(jù)交換或者數(shù)據(jù)買賣。
數(shù)據(jù)中臺(tái):是最近幾年提出的概念,已數(shù)據(jù)倉庫和大數(shù)據(jù)技術(shù)平臺(tái)為底座,以能力復(fù)用為目標(biāo)構(gòu)建。
伴隨大數(shù)據(jù)時(shí)代的到來,帶來了數(shù)據(jù)技術(shù)架構(gòu)的重大變革,同時(shí)賦予分析挖掘更大的能力。
比如華爾街根據(jù)民眾情緒拋售股票、谷歌根據(jù)網(wǎng)民搜索關(guān)鍵詞的變化提前預(yù)測流感。
這個(gè)時(shí)候人們的思維方式已經(jīng)開始慢慢發(fā)生變化了,同時(shí)數(shù)據(jù)倉庫已經(jīng)不僅僅局限于之前的分析挖掘了,數(shù)據(jù)開始更直接的參與到業(yè)務(wù)活動(dòng)中來了。
互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算,帶來了新的業(yè)務(wù)形態(tài)、新的開發(fā)氛圍。所有互聯(lián)網(wǎng)企業(yè)都開始認(rèn)識(shí)到數(shù)據(jù)的重要價(jià)值,都開始構(gòu)建自己的數(shù)倉或者數(shù)據(jù)集市了。
上邊這頁 PPT 提到的零散內(nèi)容,相信互聯(lián)網(wǎng)從業(yè)者都深有體會(huì)吧?
大數(shù)據(jù)時(shí)代,數(shù)據(jù)倉庫相關(guān)技能反而更重要了。
數(shù)倉技能重要性提高的同時(shí),對數(shù)倉從業(yè)者的能力要求,應(yīng)該也是更高了。除了需要熟悉數(shù)倉理論、熟悉業(yè)務(wù)外,還需要足夠的開發(fā)功底,而且大數(shù)據(jù)組件太多了,根本學(xué)不過來。
我是從傳統(tǒng)數(shù)倉轉(zhuǎn)型過來了,之前基本沒寫過代碼,轉(zhuǎn)型大數(shù)據(jù)一開始根本沒有方向,甚至到后來我還學(xué)習(xí)了兩周的 Spring。
不過現(xiàn)在回頭看看,這才是最優(yōu)的學(xué)習(xí)路線:
通過 Hive 先入大數(shù)據(jù)的門,這個(gè)沒啥難度,都是 SQL 嘛。學(xué)習(xí) Hadoop、Hive、Spark 等的基本原理,同時(shí)多多實(shí)踐。惡補(bǔ) Java 基礎(chǔ),多敲代碼。同時(shí)可以看看 Hadoop、Hive 源碼(網(wǎng)上源碼講解的太多了)。大數(shù)據(jù)計(jì)算組件看的差不多了,可以再學(xué)學(xué)大數(shù)據(jù)存儲(chǔ)組件,主要是一些 OLTP 組件,比如 CK 等等。離線計(jì)算掌握差不多了,可以再學(xué)習(xí)下流式計(jì)算,直接上手 Flink 就好了。數(shù)倉轉(zhuǎn)大數(shù)據(jù)的一點(diǎn)心得:
大數(shù)據(jù)組件千萬別貪多,抓住幾個(gè)主流的學(xué)透就好了。開發(fā)能力很重要,但不用啥都學(xué),掌握 JavaSE 足夠了?;颈P是數(shù)據(jù)倉庫,一定要絕對精通。面試時(shí)候開發(fā)相關(guān)不一定會(huì)問,但數(shù)倉絕對少不了。最后,大家有沒有想過,數(shù)據(jù)倉庫的未來會(huì)是哪里呢?
只要數(shù)據(jù)還有價(jià)值,那么數(shù)倉就不會(huì)消亡,只會(huì)不斷進(jìn)化。
數(shù)倉背后的這一套數(shù)據(jù)管理和應(yīng)用的方法論,以及數(shù)倉從業(yè)者的數(shù)據(jù)思維,必將使其終身受益。
實(shí)時(shí)數(shù)倉,離我們已經(jīng)很近了,甚至很多企業(yè)已經(jīng)在做了,但是想要完全替代離線數(shù)倉,還是有很多路要走的,比如數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)的更新插入問題、不可加累積數(shù)據(jù)的計(jì)算問題等。
批流一體方面,目前 Flink、Spark 都實(shí)現(xiàn)了公用一套計(jì)算框架。但是公用一套存儲(chǔ)還不太成熟,公用一套代碼還沒有實(shí)現(xiàn)。
數(shù)據(jù)湖概念,已經(jīng)提出好多年了,雖然阿里華為也在吹,但目前市面上還沒有出來真正意義上的方案。用網(wǎng)友的話說就是:我看好數(shù)據(jù)湖的未來,但不看好它的現(xiàn)在。
就像我 PPT 上總結(jié)的,數(shù)據(jù)湖還有很多問題沒有解決。就算以后數(shù)據(jù)湖普及了,那么核心數(shù)據(jù)還是要進(jìn)數(shù)據(jù)倉庫的。因?yàn)閿?shù)據(jù)湖里數(shù)據(jù)準(zhǔn)確性很難保證,同時(shí)查詢性能、對計(jì)算資源的消耗,數(shù)據(jù)倉庫也是完敗數(shù)據(jù)湖的。
以上就是關(guān)于賣pos機(jī)用戶數(shù)據(jù),數(shù)據(jù)倉庫的前世今生的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于賣pos機(jī)用戶數(shù)據(jù)的知識(shí),希望能夠幫助到大家!
![](/style/images/zhouzong.jpg)