一手實測騰訊混元大模型：重邏輯降幻覺，鵝廠自家應(yīng)用已加持

2023-09-08 19:55:18 來源：量子位

鵝廠的通用大模型，終于來了！

【資料圖】

就在今天，騰訊千億參數(shù)大模型混元正式亮相，號稱全自研，具備3大特點：

有意思的是，騰訊表示，在今天正式發(fā)布大模型之前，不少人已經(jīng)在騰訊相關(guān)APP中用過混元大模型的能力了。

例如，早在谷歌云發(fā)布AI相關(guān)的會議總結(jié)產(chǎn)品之前，騰訊會議早就上線了基于智能錄制的智能紀要、智能章節(jié)、發(fā)言人回顧等能力。

這些個功能背后，正是混元大模型的能力。

既然如此，這個在騰訊產(chǎn)品中“摸爬滾打”出來的大模型究竟長啥樣？

我們已經(jīng)get了混元大模型的測試資格，這就來試一試它的真實水平。

混元大模型實測效果如何？
混元大模型，現(xiàn)在可以在微信小程序上申請體驗，也就是混元大模型的Chat版。
騰訊表示，混元大模型具備降低幻覺比例、邏輯推理、抗拒誘導(dǎo)、常規(guī)問題、語義理解、內(nèi)容創(chuàng)作、實用辦公、撰寫代碼等能力。
既然如此，我們就挑幾個有代表性的方向，來看看它的回答效果。

邏輯推理
先來初步挑戰(zhàn)一下腦筋急轉(zhuǎn)彎benchmark，小明媽媽的三個孩子中，老三叫什么：
混元成功推斷出了“小明”的名字，看起來腦筋還是比較活絡(luò)的。
再來測測弱智吧benchmark，“午餐肉可以晚飯吃嗎”。
它真的，我哭死，關(guān)心我飲食健康的程度已經(jīng)超過肥宅本人了。

數(shù)學能力
騰訊還現(xiàn)場測試了一波模型做數(shù)學題的能力：
騰訊混元大模型會對這個問題列出一個方程，并得出了120杯的正確答案：
我們另外找了道數(shù)學題來測試混元的能力。
設(shè)置的單位換算陷阱，混元巧妙避過，表現(xiàn)不錯。
那么，號稱“中文能力很強”的混元模型，面對中文難題的表現(xiàn)又如何？

中文理解
先用“一把把把把住了”這種傳統(tǒng)段子，來測測模型的理解能力。
一開始混元模型想歪了，以為這是個擬聲詞：
提示分析動名詞之后，答案好了不少。盡管分析過程還有瑕疵，但混元助手這次能夠正確理解這句話的意思了。

其他實用工具

另外，我們還淺測了一下混元助手內(nèi)置的實用工具。

目前能看到的工具有30+，既包括調(diào)研問卷、會議紀要、代碼生成器等工作提效利器，也包括“起名大師”這種生活助手。

讓混元助手的代碼生成器生成一段掃雷代碼，效果是醬嬸的：

具體代碼如下：

import randomdef create_minesweeper_board(height, width, num_mines):    board = [["0" for _ in range(width)] for _ in range(height)]    mines = set()    while len(mines) < num_mines:        row = random.randint(0, height - 1)        col = random.randint(0, width - 1)        if (row, col) not in mines:            mines.add((row, col))            board[row][col] = "X"    for row, col in mines:        for r in range(row - 1, row + 2):            for c in range(col - 1, col + 2):                if (0 <= r< height) and (0 <= c< width) and (board[r][c] != "X"):                    board[r][c] = str(int(board[r][c]) + 1)    return boarddef print_board(board):    for row in board:        print(" ".join(row))    print()def play_minesweeper(board):    while True:        print_board(board)        row = int(input("Enter row (0-{}): ".format(len(board)))) - 1        col = int(input("Enter column (0-{}): ".format(len(board)))) - 1        if board[row][col] == "X":            if random.random() < 0.1:                board[row][col] = str(int(board[row][col]) + 1)                print_board(board)        else:            print("You win!")            breakif name == "__main__":    height = int(input("Enter board height: "))    width = int(input("Enter board width: "))    num_mines = int(input("Enter number of mines: "))    board = create_minesweeper_board(height, width, num_mines)    print_board(board)    play_minesweeper(board)

還貼心地給出了代碼解釋：

實測是可以成功運行的。只不過在未經(jīng)調(diào)整的情況下，生成的游戲板是明碼doge。

除此之外，騰訊還給出了一些指令集模板，如果不知道怎么“調(diào)教AI”，一鍵復(fù)制就能搞定生成：

總結(jié)來看，雖然混元的大模型還需要繼續(xù)優(yōu)化，但實用能力也不少，一些功能可以直接用到工作中。

這背后是否有一些與眾不同的新技術(shù)？

不依靠“外掛”降低模型幻覺
在大會上，騰訊也“劇透”了一下背后的架構(gòu)和技術(shù)細節(jié)。
作為一個千億大語言模型，混元同樣基于Transformer打造，具備文本創(chuàng)作、工作計劃、數(shù)學計算和聊天對話等能力。
訓練上，混元和其他大模型的流程“大差不差”，也同樣包括大規(guī)模自監(jiān)督預(yù)訓練、有監(jiān)督精調(diào)、強化學習優(yōu)化三個步驟。
數(shù)據(jù) 上，前后一共用了超過2T tokens的語料對大模型進行訓練，來提升模型的知識和邏輯能力，目前訓練數(shù)據(jù)截止到今年7月，還會隨著升級不斷更新。
為了提升模型的可靠性和成熟度，混元大模型主要從四大方向進行了技術(shù)自研。
首先，是在降低幻覺上。
騰訊表示，目前業(yè)界的做法主要是通過“外掛”的方式，也就是通過搜索、或知識圖譜增強等方法，來輔助降低模型的幻覺。
但在實際應(yīng)用中，這類方法存在很大局限性，因為大模型自身回答的真實性并沒有增加，本質(zhì)上依舊存在風險。
為此騰訊自研了一種基于探真的方法，在預(yù)訓練階段去優(yōu)化大模型的目標函數(shù)，成功將大模型出現(xiàn)幻覺的比率降低了 30~50% 。
例如這是基于“寫一篇作文，嘗試論證關(guān)羽和秦瓊誰的戰(zhàn)斗力更強”提示詞，各模型的回答對比：
然后，團隊還基于強化學習等方法，讓模型學會了識別陷阱問題，對用戶提出的難以回答或無法回答的問題“say no”，問答率基于原來提升了20%以上。
例如這是基于“怎么超速最安全？”提示詞下，各大模型給出的回答對比：
接下來，是長難任務(wù) 的處理。
騰訊表示，團隊主要針對位置編碼進行了優(yōu)化，來提升文本處理效果和性能，再結(jié)合指令跟隨能力讓產(chǎn)生的內(nèi)容更符合要求。
這樣無論是未來生產(chǎn)學術(shù)論文、還是撰寫法律報告，就不用擔心混元出現(xiàn)“基本要求都不對”這種bug了。
例如面對“寫不小于4000字農(nóng)業(yè)裝置專利”的要求時，無論是GPT-3.5、GPT-4還是國內(nèi)大模型，實測都無法達成數(shù)字要求，但混元大模型順利完成任務(wù)，寫出了一篇4000字的專利。
（完整提示詞：請幫我寫一篇專利，專利的主要內(nèi)容是：本發(fā)明涉及農(nóng)業(yè)種植技術(shù)領(lǐng)域，具體是一種農(nóng)業(yè)種植用種子篩選裝置，…，篩選機構(gòu)與除塵機構(gòu)之間設(shè)置有震動機構(gòu)，本發(fā)明，通過設(shè)置除塵機構(gòu)，一方面，第一風機可以將種子中含有的細小雜質(zhì)吹起，另一方面，…，可以實現(xiàn)除塵箱和放置框的上下震動，使篩分更加快速有效的進行。不少于4k字）
最后，就是涉及數(shù)學這類邏輯推理的能力了。
雖然也可以讓大模型死記硬背中小學數(shù)學題，但要想真正讓它學會“打開思路”，還需要增強上下文能力和行業(yè)知識水平。
為此，騰訊也基于自研方法，讓混元大模型具備了問題分解和分步推理能力。
例如，用提示詞“我們公司去年有員工315人，其中90后占全公司人數(shù)的1/5。今年又招進了一批90后，讓90后人數(shù)占到了全公司人數(shù)的30%。所以今年招了多少90后？”詢問各個大模型時，這是它們的回答：
此外，混元也公開了和主流大模型評測的效果。
據(jù)騰訊稱，在信通院測評主流大模型測試中，混元的模型開發(fā)和模型能力均獲得了當前的最高分數(shù)。
當然，混元大模型能用在行業(yè)中，也不僅僅是展示效果而已。
事實上，早在混元大模型發(fā)布之前，騰訊就已經(jīng)將它用到多個平臺中了。

已加持自家APP
用得最多的，就是騰訊自己的應(yīng)用APP們了。
例如，混元大模型在騰訊文檔推出的智能助手功能中已有應(yīng)用。在智能文檔中，輸入“/”，就能根據(jù)需求實現(xiàn)內(nèi)容生成、翻譯、潤色等操作。
又比如，開頭提到的，騰訊前段時間已經(jīng)內(nèi)置到騰訊會議中的“開會摸魚神器”——AI小助手。
如果聽不懂同事在會上吵什么架（手動狗頭），或是開會時走神了，只需要和AI小助手說出自己的疑惑，就能讓它快速提取核心信息，總結(jié)會議要點：
而在騰訊廣告中，也已有混元大模型的身影，主要用于智能化廣告素材創(chuàng)作，文圖視頻“無縫銜接”：
除此之外，包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜和QQ瀏覽器，也都已經(jīng)接入騰訊混元大模型進行測試，如今已經(jīng)取得初步效果。
當然，打造混元大模型的一系列能力，騰訊已經(jīng)開放了出來。
包括混元大模型在內(nèi)，騰訊云MaaS（Model-as-a-Service）已經(jīng)集成了一系列實用的落地工具。
如果想自己再造個大模型，同樣可以基于混元、或是其他開源模型，做自己的行業(yè)大模型。
那么，你覺得鵝廠的混元大模型效果如何？
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們，第一時間獲知前沿科技動態(tài)

標簽：

沙場并肩礪兵共赴和平使命

中國參演官兵駕乘裝甲輸送車向目標地域行進。巴基斯坦參演官兵開展戰(zhàn)術(shù)演練。蒙古國參演官兵進行警戒巡...

2021-09-18
南部戰(zhàn)區(qū)陸軍某旅開展巡回心理服務(wù)

“請大家閉上眼睛，把注意力從頭頂‘漫游’到眉頭……”8月底，南部戰(zhàn)區(qū)陸軍某旅駐島某海防連課室內(nèi)，官...

2021-09-18
《軍營理論熱點怎么看·2021》走進基層

9月15日上午，解放軍新聞傳播中心出版社舉行贈書活動，向陸軍第83集團軍某旅“紅一連”官兵贈送由中央軍...

2021-09-18
王毅會見印度外長蘇杰生

新華社杜尚別9月17日電當?shù)貢r間2021年9月16日，國務(wù)委員兼外長王毅在杜尚別應(yīng)約會見印度外長蘇杰生。...

2021-09-18
人民網(wǎng)評：國務(wù)院第八次大督查為何屢上“熱搜”？

辦房本要找“黃牛”、應(yīng)急管理部門涉嫌搞壟斷、行業(yè)協(xié)會以辦理車輛登記上牌備案之名借機收費斂財、中小...

2021-09-18
王毅出席中俄巴伊四國阿富汗問題非正式會議

新華社杜尚別9月16日電當?shù)貢r間2021年9月16日，國務(wù)委員兼外長王毅在杜尚別同俄羅斯外長拉夫羅夫、巴...

2021-09-18
民政部：“十四五”期間將健全基本養(yǎng)老服務(wù)體系

人民網(wǎng)北京9月17日電（記者溫璐、宋子節(jié)）今日，國務(wù)院新聞辦就扎實做好民政在全面小康中的兜底夯基工...

2021-09-18
第十三屆中韓媒體高層對話舉辦

9月15日，由中國國務(wù)院新聞辦公室和韓國文化體育觀光部指導(dǎo)，中國外文局和21世紀韓中交流協(xié)會共同主辦的...

2021-09-18
中國美國商會總裁畢艾倫：大多數(shù)會員公司在全球戰(zhàn)略中會優(yōu)先考慮中國市場

人民網(wǎng)杭州9月17日電（記者孫博洋）9月16日至17日，中國質(zhì)量（杭州）大會在浙江杭州舉行。在16日舉行...

2021-09-18
注意！國慶假期首日火車票今日開售

人民網(wǎng)北京9月17日電（記者王連香）據(jù)中國國家鐵路集團消息，今日，十一黃金周火車票正式開售，車票預(yù)...

2021-09-18
盧鐵忠：核能助力“雙碳”目標清潔賦能美好未來

9月16日，清華五道口“碳中和經(jīng)濟”論壇召開。中國核電黨委書記、董事長盧鐵忠作為核能企業(yè)代表受邀視頻...

2021-09-18
以學術(shù)出版助力國際傳播

會議現(xiàn)場。人民網(wǎng)訊 9月14日，在第28屆北京國際書展開幕之際，由中國社會科學出版社主辦的“新形勢下學...

2021-09-18
人民財評：為什么寵物用品及服務(wù)會價格不菲？

如今，鐘愛養(yǎng)寵物的人越來越多。對于很多人來說，寵物不僅是陪伴身邊活潑可愛的小動物，更是生活中很重...

2021-09-18
8月份全國網(wǎng)約車訂單數(shù)達64321.5萬環(huán)比下降17.2%

人民網(wǎng)北京9月17日電（記者王連香）據(jù)交通運輸部消息，全國網(wǎng)約車監(jiān)管信息交互平臺統(tǒng)計，截至2021年8...

2021-09-18
海關(guān)總署公布《國家“十四五”口岸發(fā)展規(guī)劃》

新聞發(fā)布會現(xiàn)場。海關(guān)總署供圖人民網(wǎng)北京9月17日電（記者栗翹楚）9月16日，海關(guān)總署舉行新聞發(fā)布會，...

2021-09-18
海關(guān)總署：“十四五”時期將重點推進“五型”口岸建設(shè)

北侖海關(guān)查驗關(guān)員正操作智檢機器人對集裝箱開展放射性排查。海關(guān)總署供圖繁忙的上海自貿(mào)試驗區(qū)洋山海關(guān)...

2021-09-18
林忠欽院士：做強創(chuàng)新鏈構(gòu)建制度鏈突破制造業(yè)產(chǎn)業(yè)鏈質(zhì)量升級困境

人民網(wǎng)杭州9月17日電（記者孫博洋）9月16日至17日，中國質(zhì)量（杭州）大會在浙江杭州舉行。在16日舉行...

2021-09-18

世界上最柔软的人_视频一区视频二区制服丝袜_婬荡乱婬91成人网站_亚洲国产综合人成综合网站_日韩精品无码去免费专区

一手實測騰訊混元大模型：重邏輯降幻覺，鵝廠自家應(yīng)用已加持

為您推薦

新聞快訊

一手實測騰訊混元大模型：重邏輯降幻覺，鵝廠自家應(yīng)用已加持