大模型调研-20240425
注:该文章目前仅针对LLM。
预备知识 LLM的处理流程:
输入数据,文本,表示成单词序列或字符序列;
tokenizer,将文本进行分词,形成单词序列,然后根据词典映射成token序列,通常开源分词器如sentencepiece;
Embedding,将token映射成一个实数向量;
位置编码 positional encoding;
Transformer,三种LLM常用的架构,encoder-decoder,prefix-decoder,causal-decoder,后两个为decoder-only,如LLaMA和GPT均为decoder-only;
自回归生成 autoreg ...
ICP多媒体数据传输
ICP上多媒体数据的传输问题,大致分两种:
一种是多媒体文件的直接传输,比如图像文件.jpg,.bpg,视频文件.mp4,.mkv,文本文件.txt和语音文件.mp3等。这种类型的传输比较简单,和图像传输一样,程序里规定一次传输的数据量,然后编码传输即可。
第二种是以直播形式进行的实时视频或者语音传输,这种方式也有两种解决思路。第一种是用程序编码数据然后传输,这种方式比较简单,只需要在python中调用API即可,问题在于比如对于视频传输,每一帧压缩后的数据量不同,那么在SDR上的数据帧很难定义(但也不是完全没办法),总之,这种方式不够灵活。第二种是用多媒体软件自带的推流功能,比如VL ...
SDR的架构及相关术语
外差和超外差 无线电发射机有两种主要架构——一种是从基带频率直接调制到射频频率(称为外差),而第二种超外差是通过两个调制阶段来实现这种转换:第一个是从基带到中频(IF),第二个是从中频到射频(RF)。
采样率的影响 SDR中数字处理元件可以实现的采样率,特别是无线电的ADC和DAC的采样率,决定了无线电的实现方式——特别是哪些部分可以实现数字,哪些部分需要模拟电路。这是因为数字处理只能在满足奈奎斯特准则的情况下使用,换句话说,当采样率大于信号中存在的最大频率分量的两倍时,根据用于传输信号的射频频带,有可能实现所有调制和解调的数字化,具体而言,如果满足下面条件:$$f_s>2f_{rf_ ...
FFMPEG基础
FFmpeg介绍 FFmpeg 是一个可以处理音视频的软件,功能非常强大,主要包括,编解码转换,封装格式转换,滤镜特效。同时也支持 各种网络协议,支持 RTMP ,RTSP,HLS 等高层协议的推拉流,也支持更底层一点的TCP/UDP 协议推拉流。
在多平台系统方面,FFmpeg 的兼容性也优势显著,FFmpeg 可以在 windows,Linux,Mac,ios,android 等等操作系统上运行。
因此,可以说 FFmpeg 是音视频领域的瑞士军刀。在多个公司都有使用,例如 Google 的 chrome 里面就使用了 FFmpeg 的库。还有 Youtube,F ...
SR图像数据集
DIV2K DIV2K 数据集源自 NTIRE2017 和 NTIRE2018 超分辨率挑战赛,是图像超分辨率中最流行使用的数据集之一。该数据集由 800 幅训练集图片,100 幅验证集图片和 未公开的100 幅测试集图片组成,每张图片具有 2K 分辨率。
DIV2K 数据集可以从其主页下载。
其中还有以bicubic和unknown方式x2 x4 x8降采样的图像。
Flickr2K 数据大小为20G HR: 2650 张 png ,包含人物、动物、风景 Flickr2K_LR_bicubic: X2、X3、X4,目前缺少 X8 2650 2K images ...