一区二区日本_久久久久久久国产精品_无码国模国产在线观看_久久99深爱久久99精品_亚洲一区二区三区四区五区午夜_日本在线观看一区二区

「快意」大規模語言模型（KwaiYii）

簡介

????????「快意」大模型（KwaiYii）是由快手AI團隊從零到一獨立自主研發的一系列大規模語言模型（Large Language Model，LLM），當前包含了多種參數規模的模型，并覆蓋了預訓練模型（KwaiYii-Base)、對話模型（KwaiYii-Chat)。這里面我們介紹13B規模的系列模型KwaiYii-13B，其主要特點包括：

KwaiYii-13B-Base預訓練模型具備優異的通用技術底座能力，在絕大部分權威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如，KwaiYii-13B-Base預訓練模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前處于同等模型規模的領先水平。
KwaiYii-13B-Chat對話模型具備出色的語言理解和生成能力，支持內容創作、信息咨詢、數學邏輯、代碼編寫、多輪對話等廣泛任務，人工評估結果表明KwaiYii-13B-Chat超過主流的開源模型，并在內容創作、信息咨詢和數學解題上接近ChatGPT(3.5)同等水平。

Benchmark評測效果

????????我們選取了行業中被廣泛認可的權威Benchmark進行評測，例如體現英文綜合能力的MMLU、體現中文綜合能力的C-Eval和CMMLU、體現中小學數學能力的GSM8K以及體現代碼能力的HumanEval，并與行業上的主流模型在上述Benchmark上匯報的指標結果進行比較。具體對比結果如下所示：

C-Eval是一個全面的中文基礎模型評測數據集，由清華大學、上海交通大學和愛丁堡大學合作構建，包含12342道單項選擇題，涵蓋數學、物理、化學、生物、歷史、政治、計算機等52個不同學科和四個難度級別，是最具影響力的中文綜合性考試評測集之一。其采用5-shot的方式進行評測。

	Model 5-shot	Average	STEM	Social Sciences	Humanities	Others
預訓練模型	KwaiYii-13B-Base	62.6	52.7	74.1	68.8	63.7
	ChatGLM2-12B-Base	61.6	55.4	73.7	64.2	59.4
	Qwen-7B	59.6	52.8	74.1	63.1	55.2
	Baichuan-13B-Base	53.6	47	66.8	57.3	49.8
對話模型	ChatGLM2	71.1	64.4	81.6	73.7	71.3
	GPT-4	68.7	67.1	77.6	64.5	67.8
	KwaiYii-13B-Chat	59.0	49.9	69.2	63.9	61.0
	ChatGLM2-12B-Chat	57.0	52.1	69.3	58.5	53.2
	GPT-3.5	54.4	52.9	61.8	50.9	53.6
	Baichuan-13B-Chat	51.5	43.7	64.6	56.2	49.2

MMLU由加州大學伯克利分校等知名高校共同打造，集合了科學、工程、數學、人文、社會科學等領域的57個科目，包含14079道單項選擇題，主要目標是對模型的英文跨學科專業能力進行深入測試。其內容廣泛，從初級水平一直涵蓋到高級專業水平，同樣采用5-shot方式進行評測。

	Model 5-shot	Average	STEM	Social Sciences	Humanities	Others
預訓練模型	KwaiYii-13B-Base	57.42	46.82	68.83	51.56	64.96
	Qwen-7B	56.7	-	-	-	-
	ChatGLM2-12B-Base	56.18	48.18	65.13	52.58	60.93
	Llama2-13B-Base	54.8	-	-	-	-
	Baichuan-13B-Base	51.6	41.6	60.9	47.4	58.5
	Llama1-13B-Base	46.9	-	-	-	-
對話模型	GPT-4	86.4	-	-	-	-
	GPT-3.5	70.0	-	-	-	-
	KwaiYii-13B-Chat	56.44	46.79	66.36	50.73	64.28
	ChatGLM2-12B-Chat	52.13	47.00	61.00	46.10	56.05
	Baichuan-13B-Chat	52.1	40.9	60.9	48.8	59.0

CMMLU是一個綜合性的中文評估基準，專門用于評估語言模型在中文語境下的知識和推理能力。CMMLU涵蓋了從基礎學科到高級專業水平的67個主題，包括：需要計算和推理的自然科學，需要知識的人文科學和社會科學，以及需要生活常識的中國駕駛規則等，共11582道單項選擇題。此外，CMMLU中的許多任務具有中國特色，可能在其他地區或語言中并不普遍適用，是一個完全中國化的中文測試基準。評測分別采用5-shot和0-shot的方式進行。

	Model 5-shot	平均分	STEM	人文學科	社會科學	其他	中國特定主題
預訓練模型	KwaiYii-13B-Base	61.73	46.54	69.22	64.49	65.09	63.10
	Qwen-7B-Base	58.66	48.39	63.77	61.22	62.14	58.73
	MiLM-6B	57.17	46.85	61.12	61.68	58.84	59.39
	Baichuan-13B-Base	55.82	42.38	61.61	60.44	59.26	56.62
	ChatGLM2-6B-Base	48.80	42.55	50.98	50.99	50.80	48.37
對話模型	GPT-4	70.95	65.23	72.11	72.06	74.79	66.12
	KwaiYii-13B-Chat	59.97	47.33	65.85	62.19	62.23	61.00
	Baichuan-13B-Chat	55.8	42.8	62.6	59.7	59.0	56.1
	GPT-3.5	55.51	47.81	55.68	56.50	62.66	50.69

	Model 0-shot	平均分	STEM	人文學科	社會科學	其他	中國特定主題
預訓練模型	KwaiYii-13B-Base	61.22	46.82	69.35	63.42	64.02	63.26
	MiLM-6B	60.37	48.88	63.49	66.20	62.14	62.07
	Qwen-7B-Base	57.57	46.33	62.54	60.48	61.72	58.77
	Baichuan-13B-Base	54.63	42.04	60.49	59.55	56.60	55.72
	ChatGLM2-6B-Base	49.95	41.28	52.85	53.37	52.24	50.58
對話模型	GPT-4	68.90	63.16	69.19	70.26	73.16	63.47
	KwaiYii-13B-Chat	60.41	46.15	66.49	63.25	62.68	61.94
	GPT-3.5	53.22	44.80	53.61	54.22	59.95	49.74

GSM8K是由OpenAI構建的高中數學應用題數據集，包含8500道高質量的數據，主要目標是對模型的數學推理能力進行評測，其中測試集1319條數據，每個問題都需要2-8個步驟來解決，解決方案主要包括使用基本算術運算（+ ? × ÷）進行一系列的基本計算，以得到最終答案。其采用8-shot進行評測。

	Model 8-shot	GSM8K
預訓練模型	Qwen-7B-Base	51.6
	KwaiYii-13B-Base	48.4
	ChatGLM2-12B-Base	40.94
	Llama2-13B-Base	28.7
	Baichuan-13B-Base	22.44
對話模型	GPT-4	92.0
	GPT-3.5	57.1
	KwaiYii-13B-Chat	52.2
	Qwen-7B-Chat	43.5
	ChatGLM2-12B-Chat	38.13

HumanEval是OpenAI和Anthropic AI一起制作的代碼數據集，包含164個原創編程題，涉及語言理解、算法、數學和軟件面試幾種類型的題目。其采用0-shot的方式進行評測。

	Model 0-shot	HumanEval @Pass1
預訓練模型	KwaiYii-13B-Base	40.8
	Qwen-7B-Base	24.4
	Llama2-13B-Base	18.3
	Llama1-13B-Base	15.8
對話模型	GPT-4	67.0
	GPT-3.5	48.1
	KwaiYii-13B-Chat	43.3
	Qwen-7B-Chat	24.4
	Llama2-13B-Chat	15.85

????????從對比結果可以看出，KwaiYii-13B-Base及KwaiYii-13B-Chat模型在各榜單中均處于領先水平。在MMLU、CMMLU、C-Eval等體現綜合學科類的Benchmark上領先，說明KwiiYii-13B-Base預訓練模型在中英文雙語學科和行業領域的知識能力突出。在GSM8K數學評測集上及HumanEval編程測評集上的優異表現，則體現了模型較好的數理邏輯及代碼能力。

人工評測結果

????????Benchmark指標體現了語言模型的基礎理解能力，更直觀地，我們人工評估了模型在各類任務上遵循用戶指令的能力。我們構建了一個高質量評測集，包含了內容創作、信息咨詢、數學解題、邏輯推理、代碼能力和多輪對話共6個類別。其中內容創作包括文章寫作、翻譯、摘要總結等根據給定約束生成文本的任務，以及對實體/事件的觀點描述等；信息咨詢偏向信息獲取，如知識/常識咨詢，景點、電影和音樂推薦等；數學解題主要包含四則運算、應用題、方程等數學問題；邏輯推理主要包括事實推理、演繹推理和數據統計等；代碼能力包含代碼編寫、代碼調試、Bug分析；多輪對話則主要體現在一個Session中持續對話的上下文意圖理解和產生正確回復的能力。

????????為了直觀地比較待評測模型與ChatGPT的效果差異，對于評測集中的每個問題，我們都評測了其與ChatGPT的Good:Same:Bad（下文簡稱GSB，其中Good表示評測集中，待評測模型比ChatGPT表現更好的數量，Same則表示表現持平的數量，Bad則是待評測模型比ChatGPT表現更差的數量）結果。具體而言，我們將待評測模型與ChatGPT進行雙盲對比測試：對于每一個Query，我們隱藏模型信息，并打亂兩個模型的答案順序，然后分配給多名評測者，評測人員根據內容正確性、內容相關性、內容詳實性等維度進行打分，然后從“模型A好”、“模型B好”、“兩者一樣好”、“兩者都一般”以及“兩者一樣差”五個選項中進行選擇，最終再根據多名評測人員的GSB評測結果，按照規則擬合成該條數據的統一GSB結果。

????????我們對KwaiYii-13B-Chat模型以及同等參數規模的行業主流模型，均與ChatGPT(3.5)進行了對比和人工評估，其各自的得分如下圖所示。從人工評估的結果來看，KwaiYii-13B-Chat超過了同等規模的開源模型，并接近ChatGPT同等水平。在內容創作、信息咨詢、邏輯推理和數學解題上，基本與ChatGPT(3.5)效果相當。在多輪對話能力方面，KwaiYii-13B-Chat超過同等規模的開源模型，但與ChatGPT(3.5)仍有一定差距。注意：人工評估結果受到評測數據覆蓋面、標注主觀性等因素的影響，無法全面反映大語言模型的所有能力。

Name	Name	Last commit message	Last commit date
Latest commit ? History 38 Commits
README.md	README.md	?	?
image.png	image.png	?	?

一区二区日本_久久久久久久国产精品_无码国模国产在线观看_久久99深爱久久99精品_亚洲一区二区三区四区五区午夜_日本在线观看一区二区

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

「快意」大規模語言模型（KwaiYii）

簡介

Benchmark評測效果

人工評測結果

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 3

Uh oh!

一区二区日本_久久久久久久国产精品_无码国模国产在线观看_久久99深爱久久99精品_亚洲一区二区三区四区五区午夜_日本在线观看一区二区

kwai/KwaiYii

Folders and files

Latest commit

History

Repository files navigation

「快意」大規模語言模型（KwaiYii）

簡介

Benchmark評測效果

人工評測結果

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 3

Uh oh!

Packages