注:该文章目前仅针对LLM。

预备知识

​ LLM的处理流程:

  1. 输入数据,文本,表示成单词序列或字符序列;
  2. tokenizer,将文本进行分词,形成单词序列,然后根据词典映射成token序列,通常开源分词器如sentencepiece;
  3. Embedding,将token映射成一个实数向量;
  4. 位置编码 positional encoding;
  5. Transformer,三种LLM常用的架构,encoder-decoder,prefix-decoder,causal-decoder,后两个为decoder-only,如LLaMA和GPT均为decoder-only;
  6. 自回归生成 autoregressive 方式,即逐个生成输出序列中的每个token,解码过程中,每次生成一个token,使用前面已生成的内存作为上下文,来帮助预测下一个token
  7. 输出,生成的token通过输出层,通常是线性变换加上softmax,将每个位置的概率分布转为对应token的概率,根据概率,选择最高的token或者作为模型的预测结果。

国外知名LLM

公司 大模型 说明
OpenAI GPT系列,ChatGPT GPT-4支持Plugins,Code Interpreter
Microsoft Bing Chat 搜索增强吗,三种模式
Google PaLM,Bard,Gemini,Gemma Bard支持图片
Anthropic Claude Claude支持pdf等文件分析、总结和问答等
Meta LLaMA 最强开源大模型,随意商用
Amazon Titan
Bloomberg Bloomberg GPT
MosaicML MPT
Intel Aurora genAI
UC Berkeley Gorilla
Mistral Mistral 7B Mixtral 8×7B
阿拉伯联合酋长国研究机构TII Falcon 多语言

国内知名LLM

公司 大模型 说明
百度 文心一言 有APP
清华智谱 ChatGLM 有APP,开源小模型ChatGLM-6B和ChatGLM2-6B
百川智能 百川 开源小模型baichuan-7B和13B
上海AI实验室 书生 开源小模型书生·浦语,OpenMEDLab
科大讯飞 星火 有APP
深度求索 Deepseek
商汤科技 日日新
春田知韵(抖音) 豆包 开源多模态7B小模型BuboGPT
中科院自动化所 紫东·太初
阿里云 通义千问 开源小模型Qwen-7B
华为 盘古(小艺)
复旦 MOSS
腾讯 腾讯混元
小米 小米MI-LM(小爱) 只做端侧 6B
荣耀 MagicLM 只做端侧 7B
OPPO OPPO AndesGPT(小布)
vivo vivo BlueLM(小V)
理想汽车 MindGPT

公开Benchmark

  • MMLU(Massive Multitask Language Understanding):UC Berkeley发布,用于AI基础能力测试,类似于闭卷考试,旨在评估模型在预训练期间获得的语言知识。该benchmark模型涵盖美国教育体系下的数学物理、生化环材、人文社会、历史政治等领域的57个学科,难度从初级(小学)到高级专业水平(本科)MMLU既考验模型对知识的先验学习,也考验解决问题的后验能力。测试语言为英语。
  • CMMLU(MMLU in Chinese):一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。和MMLU类似,它涵盖了从国内九年制义务教育到大学高等教育体系下的67个主题,如文史哲、数理化、历史地理、法律、医学、心理学等学科。此外,CMMLU中还包括许多具有中国特定答案的任务,比如中国驾驶规则、社会基础法规等,因此是一个完全中国化的中文测试基准。
  • C-EVAL:更广的中文数据集,囊括了国内的注会法考、公考医师资格等标准考试,也包括了从中学到大学的所有中文主流科目知识。
  • superCLUE:2023年5月9日发布的中文通用大模型benchmark。旨在评估在当前通用大模型大力发展的情况下,中文大模型的效果情况,包括这些模型在不同任务中的效果、相较于国际代表性模型的发展程度,以及这些模型与人类的效果对比。superCLUE从三个维度评价模型的能力,即基础能力、专业能力和中文特性能力,其中专业能力涵盖了中学、大学与专业考试等多个领域,共50多项能力。