大模型调研-20240425
注:该文章目前仅针对LLM。
预备知识
LLM的处理流程:
- 输入数据,文本,表示成单词序列或字符序列;
- tokenizer,将文本进行分词,形成单词序列,然后根据词典映射成token序列,通常开源分词器如sentencepiece;
- Embedding,将token映射成一个实数向量;
- 位置编码 positional encoding;
- Transformer,三种LLM常用的架构,encoder-decoder,prefix-decoder,causal-decoder,后两个为decoder-only,如LLaMA和GPT均为decoder-only;
- 自回归生成 autoregressive 方式,即逐个生成输出序列中的每个token,解码过程中,每次生成一个token,使用前面已生成的内存作为上下文,来帮助预测下一个token
- 输出,生成的token通过输出层,通常是线性变换加上softmax,将每个位置的概率分布转为对应token的概率,根据概率,选择最高的token或者作为模型的预测结果。
国外知名LLM
公司 | 大模型 | 说明 |
---|---|---|
OpenAI | GPT系列,ChatGPT | GPT-4支持Plugins,Code Interpreter |
Microsoft | Bing Chat | 搜索增强吗,三种模式 |
PaLM,Bard,Gemini,Gemma | Bard支持图片 | |
Anthropic | Claude | Claude支持pdf等文件分析、总结和问答等 |
Meta | LLaMA | 最强开源大模型,随意商用 |
Amazon | Titan | |
Bloomberg | Bloomberg GPT | |
MosaicML | MPT | |
Intel | Aurora genAI | |
UC Berkeley | Gorilla | |
Mistral | Mistral 7B Mixtral 8×7B | |
阿拉伯联合酋长国研究机构TII | Falcon | 多语言 |
国内知名LLM
公司 | 大模型 | 说明 |
---|---|---|
百度 | 文心一言 | 有APP |
清华智谱 | ChatGLM | 有APP,开源小模型ChatGLM-6B和ChatGLM2-6B |
百川智能 | 百川 | 开源小模型baichuan-7B和13B |
上海AI实验室 | 书生 | 开源小模型书生·浦语,OpenMEDLab |
科大讯飞 | 星火 | 有APP |
深度求索 | Deepseek | |
商汤科技 | 日日新 | |
春田知韵(抖音) | 豆包 | 开源多模态7B小模型BuboGPT |
中科院自动化所 | 紫东·太初 | |
阿里云 | 通义千问 | 开源小模型Qwen-7B |
华为 | 盘古(小艺) | |
复旦 | MOSS | |
腾讯 | 腾讯混元 | |
小米 | 小米MI-LM(小爱) | 只做端侧 6B |
荣耀 | MagicLM | 只做端侧 7B |
OPPO | OPPO AndesGPT(小布) | |
vivo | vivo BlueLM(小V) | |
理想汽车 | MindGPT |
公开Benchmark
- MMLU(Massive Multitask Language Understanding):UC Berkeley发布,用于AI基础能力测试,类似于闭卷考试,旨在评估模型在预训练期间获得的语言知识。该benchmark模型涵盖美国教育体系下的数学物理、生化环材、人文社会、历史政治等领域的57个学科,难度从初级(小学)到高级专业水平(本科)MMLU既考验模型对知识的先验学习,也考验解决问题的后验能力。测试语言为英语。
- CMMLU(MMLU in Chinese):一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。和MMLU类似,它涵盖了从国内九年制义务教育到大学高等教育体系下的67个主题,如文史哲、数理化、历史地理、法律、医学、心理学等学科。此外,CMMLU中还包括许多具有中国特定答案的任务,比如中国驾驶规则、社会基础法规等,因此是一个完全中国化的中文测试基准。
- C-EVAL:更广的中文数据集,囊括了国内的注会法考、公考医师资格等标准考试,也包括了从中学到大学的所有中文主流科目知识。
- superCLUE:2023年5月9日发布的中文通用大模型benchmark。旨在评估在当前通用大模型大力发展的情况下,中文大模型的效果情况,包括这些模型在不同任务中的效果、相较于国际代表性模型的发展程度,以及这些模型与人类的效果对比。superCLUE从三个维度评价模型的能力,即基础能力、专业能力和中文特性能力,其中专业能力涵盖了中学、大学与专业考试等多个领域,共50多项能力。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 JrunDing!
评论