JrunDing

大模型调研-20240425

发表于2024-04-25|Foundation Model

注：该文章目前仅针对LLM。预备知识 LLM的处理流程：输入数据，文本，表示成单词序列或字符序列； tokenizer，将文本进行分词，形成单词序列，然后根据词典映射成token序列，通常开源分词器如sentencepiece； Embedding，将token映射成一个实数向量；位置编码 positional encoding； Transformer，三种LLM常用的架构，encoder-decoder，prefix-decoder，causal-decoder，后两个为decoder-only，如LLaMA和GPT均为decoder-only；自回归生成 autoreg ...

ICP多媒体数据传输

发表于2024-04-16|Communication

ICP上多媒体数据的传输问题，大致分两种：一种是多媒体文件的直接传输，比如图像文件.jpg，.bpg，视频文件.mp4，.mkv，文本文件.txt和语音文件.mp3等。这种类型的传输比较简单，和图像传输一样，程序里规定一次传输的数据量，然后编码传输即可。第二种是以直播形式进行的实时视频或者语音传输，这种方式也有两种解决思路。第一种是用程序编码数据然后传输，这种方式比较简单，只需要在python中调用API即可，问题在于比如对于视频传输，每一帧压缩后的数据量不同，那么在SDR上的数据帧很难定义（但也不是完全没办法），总之，这种方式不够灵活。第二种是用多媒体软件自带的推流功能，比如VL ...

SDR的架构及相关术语

发表于2024-04-16|Hardware

外差和超外差无线电发射机有两种主要架构——一种是从基带频率直接调制到射频频率（称为外差），而第二种超外差是通过两个调制阶段来实现这种转换：第一个是从基带到中频（IF），第二个是从中频到射频(RF)。采样率的影响 SDR中数字处理元件可以实现的采样率，特别是无线电的ADC和DAC的采样率，决定了无线电的实现方式——特别是哪些部分可以实现数字，哪些部分需要模拟电路。这是因为数字处理只能在满足奈奎斯特准则的情况下使用，换句话说，当采样率大于信号中存在的最大频率分量的两倍时，根据用于传输信号的射频频带，有可能实现所有调制和解调的数字化，具体而言，如果满足下面条件：$$f_s＞2f_{rf_ ...

FFMPEG基础

发表于2024-04-15|Computer Vision

FFmpeg介绍 FFmpeg 是一个可以处理音视频的软件，功能非常强大，主要包括，编解码转换，封装格式转换，滤镜特效。同时也支持各种网络协议，支持 RTMP ，RTSP，HLS 等高层协议的推拉流，也支持更底层一点的TCP/UDP 协议推拉流。在多平台系统方面，FFmpeg 的兼容性也优势显著，FFmpeg 可以在 windows，Linux，Mac，ios，android 等等操作系统上运行。因此，可以说 FFmpeg 是音视频领域的瑞士军刀。在多个公司都有使用，例如 Google 的 chrome 里面就使用了 FFmpeg 的库。还有 Youtube，F ...

SR图像数据集

发表于2024-04-14|Computer Vision

DIV2K DIV2K 数据集源自 NTIRE2017 和 NTIRE2018 超分辨率挑战赛，是图像超分辨率中最流行使用的数据集之一。该数据集由 800 幅训练集图片，100 幅验证集图片和未公开的100 幅测试集图片组成，每张图片具有 2K 分辨率。 DIV2K 数据集可以从其主页下载。其中还有以bicubic和unknown方式x2 x4 x8降采样的图像。 Flickr2K 数据大小为20G HR: 2650 张 png ，包含人物、动物、风景 Flickr2K_LR_bicubic： X2、X3、X4，目前缺少 X8 2650 2K images ...