數(shù)據(jù)剖析更靈活、更快捷,火山引擎DataLeap動態(tài)探查全面升級
近期,火山引擎DataLeap上線“動態(tài)探查”能力,為用戶提供全局數(shù)據(jù)視角、完善的抽樣策略,提高數(shù)據(jù)探查的靈活度以及響應(yīng)速率。
傳統(tǒng)的數(shù)據(jù)探查是基于庫表的全量探查,由后端引擎執(zhí)行,通過自動化檢查數(shù)據(jù)成分、關(guān)系、格式等,以報告形式展示探查后列的統(tǒng)計分布結(jié)果,避免數(shù)據(jù)質(zhì)量導致項目開發(fā)、上線出現(xiàn)問題,主要應(yīng)用于元數(shù)據(jù)管理、數(shù)據(jù)研發(fā)、數(shù)倉開發(fā)以及數(shù)據(jù)治理等環(huán)節(jié),滿足使用者對數(shù)據(jù)質(zhì)量初探的需求。
但在數(shù)據(jù)量級大、用戶需要探查數(shù)據(jù)明細或需要數(shù)據(jù)預(yù)處理操作時,由于傳統(tǒng)的數(shù)據(jù)探查要對全量表進行檢測,導致無法實時產(chǎn)出報告、等待時間變長,靈活度低,且無法跟蹤數(shù)據(jù)明細。
【資料圖】
針對上述痛點,火山引擎DataLeap在傳統(tǒng)數(shù)據(jù)探查基礎(chǔ)能力上,進一步增強了動態(tài)探查能力。其特點在于:
● 基于大數(shù)據(jù)預(yù)覽探查,支持對數(shù)據(jù)進行函數(shù)級別預(yù)處理。
● 數(shù)據(jù)探查結(jié)果秒級更新、實時響應(yīng)。
● 與數(shù)據(jù)監(jiān)控聯(lián)動,有效打通數(shù)據(jù)探查到質(zhì)量分析閉環(huán)。
據(jù)介紹,DataLeap動態(tài)探查的對象是抽樣數(shù)據(jù),支持連續(xù)抽樣(按照默認順序連續(xù)抽樣前x條數(shù)據(jù))、過濾抽樣(使用where過濾語句過濾)、隨機抽樣(隨機抽樣x條數(shù)據(jù))3種模式,用戶可對數(shù)據(jù)進行預(yù)處理,實時、動態(tài)獲得統(tǒng)計分布結(jié)果,具備靈活度高、實效性強的特點。
火山引擎DataLeap動態(tài)探查使用流程
除此之外,DataLeap動態(tài)探查具備對探查結(jié)果基礎(chǔ)分析能力,包含列刪除、過濾、排序等。用戶對探查結(jié)果的每一次操作都會被記作一次操作,多次操作串聯(lián)成操作棧,DataLeap支持用戶自由修改或刪減操作棧里的步驟,并實時查看最新結(jié)果。
火山引擎DataLeap動態(tài)探查操作棧
火山引擎DataLeap數(shù)據(jù)探查報告
目前,DataLeap動態(tài)探查可以應(yīng)用在以下三個場景中:
● 場景1:用于分析型探查場景,用戶可利用hive基本函數(shù),如get_json_object,將列進行數(shù)據(jù)提取。
● 場景2:與探查報告打通,用戶點擊探查報告中的統(tǒng)計值,即可跳轉(zhuǎn)到數(shù)據(jù)表格,并應(yīng)用具體行過濾函數(shù)。
● 場景3:用于數(shù)據(jù)過濾后的探查場景,用戶通過過濾和分組條件進行寫條件探查,例如校驗status=0時current_price為0的占比。
DataLeap是火山引擎數(shù)智平臺旗下產(chǎn)品,提供數(shù)據(jù)集成、開發(fā)、運維、治理、資產(chǎn)、安全等能力,幫助用戶提升數(shù)據(jù)研發(fā)效率、降低管理成本,加速推動企業(yè)的數(shù)字化轉(zhuǎn)型,目前已經(jīng)應(yīng)用于泛互聯(lián)網(wǎng)、制造、新零售、汽車等領(lǐng)域。(作者:姚元宇)
關(guān)鍵詞:
2023-05-10 18:52:57
2023-05-10 18:46:20
2023-05-10 18:25:51
2023-05-10 18:03:01
2023-05-10 17:59:49
2023-05-10 17:57:40
2023-05-10 17:50:00
2023-05-10 17:49:15
2023-05-10 17:48:17
2023-05-10 17:46:36
2023-05-10 17:46:28
2023-05-10 17:46:13
2023-05-10 17:41:00
2023-05-10 17:40:00
2023-05-10 17:35:09
2023-05-10 16:56:04
2023-05-10 16:51:30
2023-05-10 16:48:45
2023-05-10 16:46:08
2023-05-10 16:44:47
2023-05-10 16:35:57
2023-05-10 16:32:54
2023-05-10 16:12:44
2023-05-10 15:35:07
2023-05-10 15:16:26
2023-05-10 15:11:30
2023-05-10 14:56:06
2023-05-10 14:52:20
2023-05-10 14:51:06
2023-05-10 14:45:33
2023-05-10 14:43:17
2023-05-10 14:43:16
2023-05-10 14:38:08
2023-05-10 13:53:52
2023-05-10 13:38:57
2023-05-10 13:09:13
2023-05-10 12:58:34
2023-05-10 12:50:46
2023-05-10 12:49:46
2023-05-10 12:49:31
2023-05-10 12:47:57
2023-05-10 12:39:03
2023-05-10 12:38:20
2023-05-10 12:37:11
2023-05-10 12:36:07
2023-05-10 12:36:05
2023-05-10 12:35:29
2023-05-10 12:09:26
2023-05-10 11:58:04
2023-05-10 11:51:00
2023-05-10 11:50:39
2023-05-10 11:41:54
2023-05-10 11:41:35
2023-05-10 11:37:16
2023-05-10 11:15:48
2023-05-10 11:13:53
2023-05-10 11:07:13
2023-05-10 10:59:07
2023-05-10 10:54:40
2023-05-10 10:48:04
2023-05-10 10:44:30
2023-05-10 10:43:44
2023-05-10 10:40:17
2023-05-10 10:30:58
2023-05-10 10:18:02
2023-05-10 09:52:04
2023-05-10 09:37:47
2023-05-10 09:25:01
2023-05-10 09:02:51
2023-05-10 08:59:24
2023-05-10 08:59:06
2023-05-10 08:48:08
2023-05-10 08:46:29
2023-05-10 08:39:52
2023-05-10 08:37:31
2023-05-10 08:35:36
2023-05-10 08:34:08
2023-05-10 08:17:18
2023-05-10 07:55:43
2023-05-10 07:20:20
2023-05-10 06:51:11
2023-05-10 06:51:03
2023-05-10 06:50:55
2023-05-10 06:47:24
2023-05-10 06:44:36
2023-05-10 06:31:24
2023-05-10 05:55:19
2023-05-10 04:12:50
2023-05-10 01:52:08
2023-05-09 23:11:52
2023-05-09 22:35:09
2023-05-09 22:11:39
2023-05-09 21:14:46
2023-05-09 20:54:42
2023-05-09 20:52:39
2023-05-09 20:13:29
2023-05-09 19:58:46
2023-05-09 19:57:41
2023-05-09 19:56:39
2023-05-09 19:52:17
相關(guān)新聞