spark中使用groupByKey進行分組排序的示例代碼

2023-05-23 12:35:48 來源：腳本之家

任務需求：已知RDD[(query:String, item_id:String, imp:Int, clk:Int)]，要求找到每個query對應的點擊最多的前2個item_id，即：按照query分組，并按照clk降序排序，每組取前兩個。

(相關資料圖)

例如：

（連衣裙，1234, 22, 13）

（牛仔褲，2768, 34, 7）

（連衣裙，1673，45, 9）

（襯衣，3468， 67, 12）

（牛仔褲，2754, 68， 20）

（連衣裙，1976，93, 29）

希望得到：

（連衣裙，1976，93, 29）

（連衣裙，1234, 22, 13）

（牛仔褲，2754, 68， 20）

（牛仔褲，2768, 34, 7）

（襯衣，3468， 67, 12）

先看一個錯誤的版本：

val list = List(("連衣裙",1234, 22, 13),("牛仔褲",2768, 34, 7),("連衣裙",1673,45, 9)
    ,("襯衣",3468,67, 12),("牛仔褲",2754, 68, 20),("連衣裙",1976,93, 29))
val rdd = ss.sparkContext.parallelize(list)
 
val topItem_set= rdd.map(ele => (ele._1, (ele._2, ele._3, ele._4))).groupByKey()
  .map(line => {
        val topItem = line._2.toArray.sortBy(_._3)(Ordering[Int].reverse).take(2)
        topItem.mkString(",")
        topItem.map(x => {(line._1, x._1, x._2, x._3)})
  })
topItem_set.foreach(println)
println()
topItem_set.map(_.mkString).foreach(println)

我們把query作為key，其余放到一起，groupByKey后（map之前），類型為：RDD[(String, Iterable[(String, Int, Int)])]，根據(jù)query分組再map，line._2.toArray把Iterable轉為Array，sortBy(_._3)是按最后一個Int即clk排序，(Ordering[Int].reverse)表示從大到?。╯ortBy默認從小到大，注意這里的sortBy是Array的成員函數(shù)而不是rdd的sortBy，用法比較不同），take(2)是取前2個，然后返回（query, item_id）。跑一下上面的過程。

[Lscala.Tuple4;@2b672e4
[Lscala.Tuple4;@52e50126
[Lscala.Tuple4;@1362b124
 
(連衣裙,1976,93,29)(連衣裙,1234,22,13)
(襯衣,3468,67,12)
(牛仔褲,2754,68,20)(牛仔褲,2768,34,7)

上面3行是直接打印跟預期稍有差別，同一個key下的top兩個元素是作為一個整體，但已經(jīng)很接近目標，如果希望拆分，需要使用flatMap:

val topItem_set= rdd.map(ele => (ele._1, (ele._2, ele._3, ele._4))).groupByKey()
  .flatMap(line => {
        val topItem = line._2.toArray.sortBy(_._3)(Ordering[Int].reverse).take(2)
        topItem.mkString(",")
        topItem.map(x => {(line._1, x._1, x._2, x._3)})
  })

為什么呢？GroupByKey后，類型為RDD[(String, Iterable[(String, Int, Int)])]，如果用map，那每一個key對應的一個Iterable變量，相當于一條數(shù)據(jù)，map后的結果自然還是一條。但flatMap，相當于map+flat操作，這才是我們真正的需要的形式。

任務進階：要求找到每個query對應的點擊最多的前2個item_id，當點擊一樣時，選曝光最少的，即：按照query分組，并優(yōu)先按照clk降序排序，其次按照imp升序排序，每組取前兩個。

例如：

（連衣裙，1234, 22, 13）

（牛仔褲，2768, 34, 7）

（連衣裙，1673，45, 9）

（襯衣，3468， 67, 12）

（牛仔褲，2754, 68， 20）

（連衣裙，1976，93, 29）

（牛仔褲，1232, 20， 7）

希望得到：

（連衣裙，1976，93, 29）

（連衣裙，1234, 22, 13）

（牛仔褲，2754, 68， 20）

（牛仔褲，1232, 20, 7）

（襯衣，2768, 34, 7）

注意，上面樣本中牛仔褲有兩個樣本的點擊都是7，但標紅的樣本曝光數(shù)是更小，所以應該入選top2，直接上代碼吧：

val list2 = List(("連衣裙",1234, 22, 13),("牛仔褲",2768, 34, 7),("連衣裙",1673,45, 9)
    ,("襯衣",3468,67, 12),("牛仔褲",2754, 68, 20),("連衣裙",1976,93, 29),("牛仔褲",1232, 20, 7))
    val rdd2 = ss.sparkContext.parallelize(list2)
    rdd2.foreach(println)
    val topItem_set= rdd2.map(ele => (ele._1, (ele._2, ele._3, ele._4))).groupByKey()
      .flatMap(line => {
        val topItem = line._2.toArray.sortBy(x => (x._3, x._2))(Ordering.Tuple2(Ordering[Int].reverse, Ordering[Int])).take(2)
        topItem.map(x => {(line._1, x._1, x._2, x._3)})
      })
    topItem_set.foreach(println)

sortBy可以根據(jù)需要增加排序維度，參數(shù)按優(yōu)先級排列，這個在日常使用較多。

到此這篇關于spark中使用groupByKey進行分組排序的文章就介紹到這了,更多相關spark使用groupByKey分組排序內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

標簽：

沙場并肩礪兵共赴和平使命

中國參演官兵駕乘裝甲輸送車向目標地域行進。巴基斯坦參演官兵開展戰(zhàn)術演練。蒙古國參演官兵進行警戒巡...

2021-09-18
南部戰(zhàn)區(qū)陸軍某旅開展巡回心理服務

“請大家閉上眼睛，把注意力從頭頂‘漫游’到眉頭……”8月底，南部戰(zhàn)區(qū)陸軍某旅駐島某海防連課室內，官...

2021-09-18
《軍營理論熱點怎么看·2021》走進基層

9月15日上午，解放軍新聞傳播中心出版社舉行贈書活動，向陸軍第83集團軍某旅“紅一連”官兵贈送由中央軍...

2021-09-18
王毅會見印度外長蘇杰生

新華社杜尚別9月17日電當?shù)貢r間2021年9月16日，國務委員兼外長王毅在杜尚別應約會見印度外長蘇杰生。...

2021-09-18
人民網(wǎng)評：國務院第八次大督查為何屢上“熱搜”？

辦房本要找“黃牛”、應急管理部門涉嫌搞壟斷、行業(yè)協(xié)會以辦理車輛登記上牌備案之名借機收費斂財、中小...

2021-09-18
王毅出席中俄巴伊四國阿富汗問題非正式會議

新華社杜尚別9月16日電當?shù)貢r間2021年9月16日，國務委員兼外長王毅在杜尚別同俄羅斯外長拉夫羅夫、巴...

2021-09-18
民政部：“十四五”期間將健全基本養(yǎng)老服務體系

人民網(wǎng)北京9月17日電（記者溫璐、宋子節(jié)）今日，國務院新聞辦就扎實做好民政在全面小康中的兜底夯基工...

2021-09-18
第十三屆中韓媒體高層對話舉辦

9月15日，由中國國務院新聞辦公室和韓國文化體育觀光部指導，中國外文局和21世紀韓中交流協(xié)會共同主辦的...

2021-09-18
中國美國商會總裁畢艾倫：大多數(shù)會員公司在全球戰(zhàn)略中會優(yōu)先考慮中國市場

人民網(wǎng)杭州9月17日電（記者孫博洋）9月16日至17日，中國質量（杭州）大會在浙江杭州舉行。在16日舉行...

2021-09-18
注意！國慶假期首日火車票今日開售

人民網(wǎng)北京9月17日電（記者王連香）據(jù)中國國家鐵路集團消息，今日，十一黃金周火車票正式開售，車票預...

2021-09-18
盧鐵忠：核能助力“雙碳”目標清潔賦能美好未來

9月16日，清華五道口“碳中和經(jīng)濟”論壇召開。中國核電黨委書記、董事長盧鐵忠作為核能企業(yè)代表受邀視頻...

2021-09-18
以學術出版助力國際傳播

會議現(xiàn)場。人民網(wǎng)訊 9月14日，在第28屆北京國際書展開幕之際，由中國社會科學出版社主辦的“新形勢下學...

2021-09-18
人民財評：為什么寵物用品及服務會價格不菲？

如今，鐘愛養(yǎng)寵物的人越來越多。對于很多人來說，寵物不僅是陪伴身邊活潑可愛的小動物，更是生活中很重...

2021-09-18
8月份全國網(wǎng)約車訂單數(shù)達64321.5萬環(huán)比下降17.2%

人民網(wǎng)北京9月17日電（記者王連香）據(jù)交通運輸部消息，全國網(wǎng)約車監(jiān)管信息交互平臺統(tǒng)計，截至2021年8...

2021-09-18
海關總署公布《國家“十四五”口岸發(fā)展規(guī)劃》

新聞發(fā)布會現(xiàn)場。海關總署供圖人民網(wǎng)北京9月17日電（記者栗翹楚）9月16日，海關總署舉行新聞發(fā)布會，...

2021-09-18
海關總署：“十四五”時期將重點推進“五型”口岸建設

北侖海關查驗關員正操作智檢機器人對集裝箱開展放射性排查。海關總署供圖繁忙的上海自貿試驗區(qū)洋山海關...

2021-09-18
林忠欽院士：做強創(chuàng)新鏈構建制度鏈突破制造業(yè)產業(yè)鏈質量升級困境

人民網(wǎng)杭州9月17日電（記者孫博洋）9月16日至17日，中國質量（杭州）大會在浙江杭州舉行。在16日舉行...

2021-09-18

世界上最柔软的人_视频一区视频二区制服丝袜_婬荡乱婬91成人网站_亚洲国产综合人成综合网站_日韩精品无码去免费专区

spark中使用groupByKey進行分組排序的示例代碼

為您推薦

新聞快訊