一区二区日本_久久久久久久国产精品_无码国模国产在线观看_久久99深爱久久99精品_亚洲一区二区三区四区五区午夜_日本在线观看一区二区

Skip to content

kwai/KwaiYii

Folders and files

NameName
Last commit message
Last commit date

Latest commit

?

History

38 Commits
?
?
?
?

Repository files navigation

「快意」大規模語言模型(KwaiYii)

簡介

????????「快意」大模型(KwaiYii) 是由快手AI團隊從零到一獨立自主研發的一系列大規模語言模型(Large Language Model,LLM),當前包含了多種參數規模的模型,并覆蓋了預訓練模型(KwaiYii-Base)、對話模型(KwaiYii-Chat)。這里面我們介紹13B規模的系列模型KwaiYii-13B,其主要特點包括:

  • KwaiYii-13B-Base預訓練模型具備優異的通用技術底座能力,在絕大部分權威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如,KwaiYii-13B-Base預訓練模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前處于同等模型規模的領先水平。
  • KwaiYii-13B-Chat對話模型具備出色的語言理解和生成能力,支持內容創作、信息咨詢、數學邏輯、代碼編寫、多輪對話等廣泛任務,人工評估結果表明KwaiYii-13B-Chat超過主流的開源模型,并在內容創作、信息咨詢和數學解題上接近ChatGPT(3.5)同等水平。

Benchmark評測效果

????????我們選取了行業中被廣泛認可的權威Benchmark進行評測,例如體現英文綜合能力的MMLU、體現中文綜合能力的C-Eval和CMMLU、體現中小學數學能力的GSM8K以及體現代碼能力的HumanEval,并與行業上的主流模型在上述Benchmark上匯報的指標結果進行比較。具體對比結果如下所示:

  • C-Eval是一個全面的中文基礎模型評測數據集,由清華大學、上海交通大學和愛丁堡大學合作構建,包含12342道單項選擇題,涵蓋數學、物理、化學、生物、歷史、政治、計算機等52個不同學科和四個難度級別,是最具影響力的中文綜合性考試評測集之一。其采用5-shot的方式進行評測。
Model 5-shot Average STEM Social
Sciences
Humanities Others
預訓練模型 KwaiYii-13B-Base 62.6 52.7 74.1 68.8 63.7
ChatGLM2-12B-Base 61.6 55.4 73.7 64.2 59.4
Qwen-7B 59.6 52.8 74.1 63.1 55.2
Baichuan-13B-Base 53.6 47 66.8 57.3 49.8
對話模型 ChatGLM2 71.1 64.4 81.6 73.7 71.3
GPT-4 68.7 67.1 77.6 64.5 67.8
KwaiYii-13B-Chat 59.0 49.9 69.2 63.9 61.0
ChatGLM2-12B-Chat 57.0 52.1 69.3 58.5 53.2
GPT-3.5 54.4 52.9 61.8 50.9 53.6
Baichuan-13B-Chat 51.5 43.7 64.6 56.2 49.2
  • MMLU由加州大學伯克利分校等知名高校共同打造,集合了科學、工程、數學、人文、社會科學等領域的57個科目,包含14079道單項選擇題,主要目標是對模型的英文跨學科專業能力進行深入測試。其內容廣泛,從初級水平一直涵蓋到高級專業水平,同樣采用5-shot方式進行評測。
Model 5-shot Average STEM Social
Sciences
Humanities Others


預訓練模型
KwaiYii-13B-Base 57.42 46.82 68.83 51.56 64.96
Qwen-7B 56.7 - - - -
ChatGLM2-12B-Base 56.18 48.18 65.13 52.58 60.93
Llama2-13B-Base 54.8 - - - -
Baichuan-13B-Base 51.6 41.6 60.9 47.4 58.5
Llama1-13B-Base 46.9 - - - -


對話模型
GPT-4 86.4 - - - -
GPT-3.5 70.0 - - - -
KwaiYii-13B-Chat 56.44 46.79 66.36 50.73 64.28
ChatGLM2-12B-Chat 52.13 47.00 61.00 46.10 56.05
Baichuan-13B-Chat 52.1 40.9 60.9 48.8 59.0
  • CMMLU是一個綜合性的中文評估基準,專門用于評估語言模型在中文語境下的知識和推理能力。CMMLU涵蓋了從基礎學科到高級專業水平的67個主題,包括:需要計算和推理的自然科學,需要知識的人文科學和社會科學,以及需要生活常識的中國駕駛規則等,共11582道單項選擇題。此外,CMMLU中的許多任務具有中國特色,可能在其他地區或語言中并不普遍適用,是一個完全中國化的中文測試基準。評測分別采用5-shot和0-shot的方式進行。
Model 5-shot 平均分 STEM 人文學科 社會科學 其他 中國特定
主題

預訓練模型
KwaiYii-13B-Base 61.73 46.54 69.22 64.49 65.09 63.10
Qwen-7B-Base 58.66 48.39 63.77 61.22 62.14 58.73
MiLM-6B 57.17 46.85 61.12 61.68 58.84 59.39
Baichuan-13B-Base 55.82 42.38 61.61 60.44 59.26 56.62
ChatGLM2-6B-Base 48.80 42.55 50.98 50.99 50.80 48.37
對話模型 GPT-4 70.95 65.23 72.11 72.06 74.79 66.12
KwaiYii-13B-Chat 59.97 47.33 65.85 62.19 62.23 61.00
Baichuan-13B-Chat 55.8 42.8 62.6 59.7 59.0 56.1
GPT-3.5 55.51 47.81 55.68 56.50 62.66 50.69
Model 0-shot 平均分 STEM 人文學科 社會科學 其他 中國特定
主題
預訓練模型 KwaiYii-13B-Base 61.22 46.82 69.35 63.42 64.02 63.26
MiLM-6B 60.37 48.88 63.49 66.20 62.14 62.07
Qwen-7B-Base 57.57 46.33 62.54 60.48 61.72 58.77
Baichuan-13B-Base 54.63 42.04 60.49 59.55 56.60 55.72
ChatGLM2-6B-Base 49.95 41.28 52.85 53.37 52.24 50.58
對話模型 GPT-4 68.90 63.16 69.19 70.26 73.16 63.47
KwaiYii-13B-Chat 60.41 46.15 66.49 63.25 62.68 61.94
GPT-3.5 53.22 44.80 53.61 54.22 59.95 49.74
  • GSM8K是由OpenAI構建的高中數學應用題數據集,包含8500道高質量的數據,主要目標是對模型的數學推理能力進行評測,其中測試集1319條數據,每個問題都需要2-8個步驟來解決,解決方案主要包括使用基本算術運算(+ ? × ÷)進行一系列的基本計算,以得到最終答案。其采用8-shot進行評測。
Model 8-shot GSM8K
預訓練模型 Qwen-7B-Base 51.6
KwaiYii-13B-Base 48.4
ChatGLM2-12B-Base 40.94
Llama2-13B-Base 28.7
Baichuan-13B-Base 22.44


對話模型
GPT-4 92.0
GPT-3.5 57.1
KwaiYii-13B-Chat 52.2
Qwen-7B-Chat 43.5
ChatGLM2-12B-Chat 38.13
  • HumanEval是OpenAI和Anthropic AI一起制作的代碼數據集,包含164個原創編程題,涉及語言理解、算法、數學和軟件面試幾種類型的題目。其采用0-shot的方式進行評測。
Model 0-shot HumanEval
@Pass1


預訓練模型
KwaiYii-13B-Base 40.8
Qwen-7B-Base 24.4
Llama2-13B-Base 18.3
Llama1-13B-Base 15.8


對話模型
GPT-4 67.0
GPT-3.5 48.1
KwaiYii-13B-Chat 43.3
Qwen-7B-Chat 24.4
Llama2-13B-Chat 15.85

????????從對比結果可以看出,KwaiYii-13B-Base及KwaiYii-13B-Chat模型在各榜單中均處于領先水平。在MMLU、CMMLU、C-Eval等體現綜合學科類的Benchmark上領先,說明KwiiYii-13B-Base預訓練模型在中英文雙語學科和行業領域的知識能力突出。在GSM8K數學評測集上及HumanEval編程測評集上的優異表現,則體現了模型較好的數理邏輯及代碼能力。

人工評測結果

????????Benchmark指標體現了語言模型的基礎理解能力,更直觀地,我們人工評估了模型在各類任務上遵循用戶指令的能力。我們構建了一個高質量評測集,包含了內容創作、信息咨詢、數學解題、邏輯推理、代碼能力和多輪對話共6個類別。其中內容創作包括文章寫作、翻譯、摘要總結等根據給定約束生成文本的任務,以及對實體/事件的觀點描述等;信息咨詢偏向信息獲取,如知識/常識咨詢,景點、電影和音樂推薦等;數學解題主要包含四則運算、應用題、方程等數學問題;邏輯推理主要包括事實推理、演繹推理和數據統計等;代碼能力包含代碼編寫、代碼調試、Bug分析;多輪對話則主要體現在一個Session中持續對話的上下文意圖理解和產生正確回復的能力。

????????為了直觀地比較待評測模型與ChatGPT的效果差異,對于評測集中的每個問題,我們都評測了其與ChatGPT的Good:Same:Bad(下文簡稱GSB,其中Good表示評測集中,待評測模型比ChatGPT表現更好的數量,Same則表示表現持平的數量,Bad則是待評測模型比ChatGPT表現更差的數量)結果。具體而言,我們將待評測模型與ChatGPT進行雙盲對比測試:對于每一個Query,我們隱藏模型信息,并打亂兩個模型的答案順序,然后分配給多名評測者,評測人員根據內容正確性、內容相關性、內容詳實性等維度進行打分,然后從“模型A好”、“模型B好”、“兩者一樣好”、“兩者都一般”以及“兩者一樣差”五個選項中進行選擇,最終再根據多名評測人員的GSB評測結果,按照規則擬合成該條數據的統一GSB結果。

????????我們對KwaiYii-13B-Chat模型以及同等參數規模的行業主流模型,均與ChatGPT(3.5)進行了對比和人工評估,其各自的得分如下圖所示。從人工評估的結果來看,KwaiYii-13B-Chat超過了同等規模的開源模型,并接近ChatGPT同等水平。在內容創作、信息咨詢、邏輯推理和數學解題上,基本與ChatGPT(3.5)效果相當。在多輪對話能力方面,KwaiYii-13B-Chat超過同等規模的開源模型,但與ChatGPT(3.5)仍有一定差距。注意:人工評估結果受到評測數據覆蓋面、標注主觀性等因素的影響,無法全面反映大語言模型的所有能力。

Image

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  
主站蜘蛛池模板: 午夜电影网址 | 日韩欧美高清dvd碟片 | 在线免费观看色 | 拍拍无遮挡人做人爱视频免费观看 | 狠狠骚| 亚洲一区二区国产 | 国产激情一区二区三区 | 91精品久久久久久久久久 | 中文字幕亚洲精品在线观看 | 午夜影院网站 | 国产玖玖| 亚洲精品久久久一区二区三区 | 午夜在线视频 | 中文字幕不卡一区 | 黄视频免费观看 | av中文在线观看 | 伊伊综合网 | 337p日本欧洲亚洲大胆精蜜臀 | 超碰人人爱 | 2021狠狠干 | 伊人伊人 | 日韩一区二区久久 | 男女羞羞视频在线 | 极品国产视频 | 亚洲欧美一区二区三区国产精品 | 久久一区二区视频 | 国产在线不卡 | 国产观看 | 日本久久久一区二区三区 | 国产91久久久久久久免费 | 日韩精品免费一区二区在线观看 | 精品免费视频 | 成人毛片视频在线播放 | 日韩精品一区二区三区在线播放 | 99视频在线播放 | 国产精品久久久久久久久免费相片 | 黄网在线观看 | 色桃网 | 精国产品一区二区三区四季综 | 午夜精品久久久久99蜜 | 久久久精品一区二区三区 |