中文久久,精品伦精品一区二区三区视频,美国AV一区二区三区,国产免费小视频

意見(jiàn)箱
恒創(chuàng)運(yùn)營(yíng)部門將仔細(xì)參閱您的意見(jiàn)和建議,必要時(shí)將通過(guò)預(yù)留郵箱與您保持聯(lián)絡(luò)。感謝您的支持!
意見(jiàn)/建議
提交建議

什么是數(shù)據(jù)湖屋?

來(lái)源:佚名 編輯:佚名
2025-03-24 15:00:18

數(shù)據(jù)湖屋是一種數(shù)據(jù)管理范式,將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖功能結(jié)合到統(tǒng)一平臺(tái),用于優(yōu)化結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。雖然數(shù)據(jù)倉(cāng)庫(kù)長(zhǎng)期以來(lái)一直是存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的答案,但近幾十年來(lái)數(shù)據(jù)的爆炸式增長(zhǎng)導(dǎo)致數(shù)據(jù)湖存儲(chǔ)了大量獨(dú)特和非結(jié)構(gòu)化數(shù)據(jù)類型。直到最近,領(lǐng)先的數(shù)據(jù)庫(kù)軟件和存儲(chǔ)管理公司才開(kāi)始開(kāi)發(fā)和銷售最新的混合解決方案,用于管理組織擁有的數(shù)據(jù)。

數(shù)據(jù)管道的演變:從倉(cāng)庫(kù)到數(shù)據(jù)湖

數(shù)據(jù)湖的發(fā)展源于企業(yè)組織和數(shù)據(jù)中心管理不斷增加的數(shù)據(jù)量和不同類型數(shù)據(jù)方式的演變。

在了解數(shù)據(jù)湖之前,組織必須首先熟悉其前身:數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖。

什么是數(shù)據(jù)倉(cāng)庫(kù)?

自 20 世紀(jì) 80 年代以來(lái),數(shù)據(jù)倉(cāng)庫(kù)一直是專門用于存儲(chǔ)用于報(bào)告和商業(yè)智能(BI) 的結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)庫(kù)。標(biāo)準(zhǔn)數(shù)據(jù)倉(cāng)庫(kù)接收通過(guò)提取、轉(zhuǎn)換和加載(ETL) 軟件過(guò)濾的外部和運(yùn)營(yíng)數(shù)據(jù),該軟件可高效地將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換并存儲(chǔ)在相同數(shù)據(jù)格式的存儲(chǔ)庫(kù)中。

什么是數(shù)據(jù)湖?

大約十年前,Pentaho 首席技術(shù)官 James Dixon 創(chuàng)造了“數(shù)據(jù)湖”一詞來(lái)描述以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫(kù)。與存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)不同,數(shù)據(jù)湖包含各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)和類型。

雖然數(shù)據(jù)湖在許多企業(yè)用例中越來(lái)越受歡迎,但它最適合用于數(shù)據(jù)科學(xué)應(yīng)用程序的驗(yàn)證。相比之下,其他數(shù)據(jù)湖內(nèi)容則通過(guò) ETL 解決方案?jìng)鬏?,以用于?shù)據(jù)倉(cāng)庫(kù)或?qū)崟r(shí)數(shù)據(jù)庫(kù)。

數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的問(wèn)題

數(shù)據(jù)倉(cāng)庫(kù)問(wèn)題:僵化和專有

由于數(shù)據(jù)倉(cāng)庫(kù)遵循嚴(yán)格的專有格式,因此它們無(wú)法支持新舊數(shù)據(jù)類型的混合,包括視頻、音頻、流媒體和深度學(xué)習(xí)模型,如人工智能 ( AI ) 和機(jī)器學(xué)習(xí) ( ML )。

這種無(wú)法管理非結(jié)構(gòu)化數(shù)據(jù)的情況迫使企業(yè)組織提取和存儲(chǔ)多余的數(shù)據(jù),以形成數(shù)據(jù)湖。

數(shù)據(jù)湖問(wèn)題:瘋狂且不可靠

盡管數(shù)據(jù)湖提供非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),但它卻以不可靠的數(shù)據(jù)沼澤而聞名。相對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的預(yù)期效率,數(shù)據(jù)湖往往表現(xiàn)不佳,難以支持 BI 應(yīng)用程序。

同時(shí)使用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖:重復(fù)

自數(shù)據(jù)湖出現(xiàn)以來(lái),組織一直試圖通過(guò)兩個(gè)不同的系統(tǒng)和團(tuán)隊(duì)來(lái)利用倉(cāng)庫(kù)和數(shù)據(jù)湖的功能。傳統(tǒng)的 IT 專業(yè)人員和數(shù)據(jù)庫(kù)管理員管理倉(cāng)庫(kù),而數(shù)據(jù)科學(xué)家則專注于利用數(shù)據(jù)湖的潛力。

對(duì)于組織來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的共存通常會(huì)導(dǎo)致數(shù)據(jù)重復(fù)、流程重復(fù)和成本增加。數(shù)據(jù)管理員解決這些問(wèn)題的最新范例是數(shù)據(jù)湖屋。

什么是數(shù)據(jù)湖屋?

數(shù)據(jù)湖屋包含數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的組件,為管理員提供用于 BI、數(shù)據(jù)科學(xué)、深度學(xué)習(xí)和流分析的單一數(shù)據(jù)存儲(chǔ)。借助數(shù)據(jù)湖屋,管理員可以使用類似于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)管理的界面和數(shù)據(jù)治理來(lái)管理各種原始數(shù)據(jù)。

數(shù)據(jù)湖普遍接受的功能包括:

  • 所有數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)都存儲(chǔ)在一個(gè)存儲(chǔ)庫(kù)中
  • 端到端流式傳輸,提供來(lái)自數(shù)據(jù)存儲(chǔ)庫(kù)的實(shí)時(shí)洞察
  • 管理員可直接訪問(wèn)數(shù)據(jù)并執(zhí)行讀寫操作
  • 分離計(jì)算和存儲(chǔ),實(shí)現(xiàn)可擴(kuò)展性和多用途
  • 建立數(shù)據(jù)治理的架構(gòu)支持
  • 索引和數(shù)據(jù)壓縮以提高查詢速度
  • 原子性、并發(fā)性、隔離性和持久性 (ACID) 事務(wù)支持

通過(guò)將多個(gè)系統(tǒng)(數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖)整合到數(shù)據(jù)湖中,組織可以簡(jiǎn)化模式和數(shù)據(jù)治理的管理,并減少冗余、重復(fù)流程和管理成本。與云時(shí)代的數(shù)據(jù)湖一樣,數(shù)據(jù)湖提供低成本存儲(chǔ)和廣泛的可擴(kuò)展性。

Databricks 的信息圖展示了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)湖屋之間的差異。

Data Lakehouse:兩全其美

數(shù)據(jù)湖屋為組織的數(shù)據(jù)管理利益相關(guān)者之間的協(xié)作提供了橋梁。盡管這是一個(gè)較新的概念,但人們對(duì)管理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一解決方案的希望仍然存在。在這個(gè)新興市場(chǎng)中,幾家知名供應(yīng)商正在構(gòu)建他們的數(shù)據(jù)湖屋功能。

本網(wǎng)站發(fā)布或轉(zhuǎn)載的文章均來(lái)自網(wǎng)絡(luò),其原創(chuàng)性以及文中表達(dá)的觀點(diǎn)和判斷不代表本網(wǎng)站。
上一篇: 我們喜歡專用云服務(wù)器的5個(gè)理由 下一篇: 什么是基礎(chǔ)設(shè)施即服務(wù) (IaaS)?簡(jiǎn)化的入門指南