spark on hive 優化?

問答 ? gogo55ok ? 于 2020-01-18 10:50:10 ? 最后回復由 青牛 2020-02-10 22:23:18 ? 128 閱讀

有沒有spark sql大神, 想問問一些問題,我們現在的系統是一個類似于大數據BI的產品,架構是spark on hive + hadoop, 主要丟進spark里面的查詢有兩類,一種是OLAP查詢,如

select * from table where [] group by[] 這種形式的,這種的平均延遲在2s,另一種是用來所left join的,就是用于業務數據建模的,主要是以下這種,

create table stored as parquet as select A.id, B.id1, C.id2 from A left join B on A.id = B.id join C on B.id = C.id, 這種查詢由于源表的數據量大部分都在千萬級別,數據量大多在幾百MB到2GB上,這種查詢在spark on hive的架構上總感覺力不從心,現在這種查詢的平均查詢在20~50s,有一些特例或者數據傾斜的情況,還會持續個10幾分鐘都有。所以有一些問題想問問你這邊有沒有可以解決的方案:

  1. 我們現在這種查詢的延遲是合理的么?

  2. 如果我們想盡量減少第二種查詢也就是創建表的延遲,怎么去優化?

  3. 我們的機器是64G mem以及24core的機器,感覺性能還可以,現階段我們的業務感覺瓶頸在磁盤還有CPU上,主要在磁盤。一旦涌入大量的第二類請求,還會大大影響第一類查詢,現在用緩存的方式去頂住,但是不是一個長遠的方法,請問還有更好的辦法么?

先提前謝謝了,任何建議都是我們需要的,謝謝

成為第一個點贊的人吧 :bowtie:
回復數量: 1
  • 青牛 國內首批大數據從業者,就職于金山,擔任大數據團隊核心研發工程師
    ? 2020-02-10 22:23:18

    我感覺你這速度應該還可以,你自己應該已經調了內容了,不然千萬級的表你都跑不動,數據傾斜那個可以先用hive處理一波,把傾斜數據刨除,然后spark算不傾斜的數據,傾斜的數據用隨機數方式解決

暫無評論~~
  • 請注意單詞拼寫,以及中英文排版,參考此頁
  • 支持 Markdown 格式, **粗體**、~~刪除線~~、`單行代碼`, 更多語法請見這里 Markdown 語法
  • 支持表情,可用Emoji的自動補全, 在輸入的時候只需要 ":" 就可以自動提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上傳圖片, 支持拖拽和剪切板黏貼上傳, 格式限制 - jpg, png, gif,教程
  • 發布框支持本地存儲功能,會在內容變更時保存,「提交」按鈕點擊時清空
Ctrl+Enter
所罗门王的宝矿在线客服 招财宝理财平台 一肖中特 闲来贵州捉鸡麻将 安徽快3怎么预测号码查询 3d条件预测 007即时比分网 日本av女优快播下载 幸运飞艇历史开奖结果筛选 捕鱼王 快乐8奇偶下载 南宁麻将基本规则图片 泳坛夺金481 幸运飞艇冠军计划 吉林十一选五的走势 单机捕鱼无限金币随意修改 九游大厅透视挂免费下载