Git LFS
Github不允许上传大于100 M的文件,解决方案是使用免费提供的LFS(large file storage)服务
Git LFS是 Github 开发的一个 Git 的扩展,用于实现 Git 对大文件的支持。它将你所标记的大文件保存至另外的仓库,而在主仓库仅保留其轻量级指针。那么在你检出版本时,根据指针的变化情况下更新对应的大文件.而不是在本地保存所有版本的大文件
官网下载安装Git LFS
打开git bash,执行git lfs install,看到updated git hooks和git LFS initialized表示安装完成
进入本地仓库目录,git lfs track "*.mp4"命令追踪大文件,即追踪所有mp4后缀的文件,会在仓库中生成.gitattributes文件,使用git lfs track查看目前文件追踪模式
之后正常add commit push即可
clone时使用git clone或git lfs clone均可
Jetson AGX Orin载板深度揭秘
Jetson AGX Orin:智能边缘计算的核心 NVIDIA 的 Jetson AGX Orin 可以说是“嵌入式 AI 超级计算机”的化身,它将高性能的计算能力和灵活的接口设计集成在一个紧凑的载板上,面向各种高计算需求的场景。现代智能设备不仅需要出色的计算性能,还需要满足对实时数据处理和多传感器输入的需求,而 Jetson AGX Orin 载板就是为此量身打造的。
这块载板的核心是一款功能强大的 SoC(片上系统),其中集成了 12 核 Cortex A78AE CPU 和 2048 核心的 Ampere GPU,另外还具备 64 个张量核心。这意味着它不仅能处理大规模并行任务,还可以进行深度学习模型的推理。无论是自动驾驶汽车需要实时识别道路上的行人、物体和标志,还是机器人在工厂中自主导航,这款 SoC 都能游刃有余地应对。它的计算能力不仅在速度上提升了数倍,同时在功耗和效率上也有出色的表现,非常适合嵌入式和边缘计算。
灵活的接口设计:支持各种外部传感器和设备 Jetson AGX Orin 的设计非常灵活,接口种类丰富,能够连接各种设备。载板的左侧接口模块中,特 ...
模拟和数字图像
模拟图传和数字图传在无人机图像传输中有显著区别,各自有不同的优劣,适用于不同的应用场景。以下是它们的主要差异:
模拟图传和数字图传差异对比传输方式
模拟图传:使用传统的模拟信号传输视频数据,通常基于模拟电视信号制式(如PAL或NTSC)。其传输过程中信号是连续的电压变化,直接代表画面的明暗和颜色信息。
数字图传:通过数字信号(如Wi-Fi、4G/5G或专用数字协议)传输,使用压缩编码(如H.264或H.265)来传输视频数据。传输的数据是二进制的,经过压缩和解压缩处理。
图像质量
模拟图传:图像质量一般较低,分辨率受到制式限制,通常为标准清晰度(SD)。视频图像可能会有噪点,特别是在信号不稳定的情况下。
数字图传:可以提供高清(HD)甚至4K画质,图像更加清晰细腻。同时数字图传可以减少噪点和信号干扰带来的影响,因此画质更加稳定。
延迟
模拟图传:由于不经过压缩编码处理,延迟极低,非常适合用于对延迟要求高的场景,例如竞速无人机。通常的延迟仅为几毫秒。
数字图传:数字图传需要进行数据压缩、解压缩,可能会产生一定的延迟。当前的技术可以将延迟降低到可接受的范围,但对于极低延 ...
过程控制和运动控制
个人理解,简单来说,因为被控对象、控制目标、应用场景不同。
顾名思义,过程控制控制过程,运动控制控制运动。
被控对象 运动控制是指针对物体的位置、速度和加速度进行精确控制的系统,通常用于控制机器人、数控机床、自动搬运系统等。它注重的是对运动轨迹的精确控制。
过程控制是指对连续流程进行控制的系统,涉及控制流体、温度、压力、化学反应等物理参数。这种控制通常应用于化工、石油、食品加工等领域中需要对连续流程进行实时调节的情况。
控制目标 一个需要快速响应,一个需要时间积累。准确来说是被控对象的不同,导致了很多的变化,比如反馈装置,传感器的使用等等。
运动控制:目标是实现高精度的动态控制,确保机械系统在快速变化的条件下仍能保持精确的运动轨迹。这通常需要复杂的算法和高性能的硬件来处理实时数据。
过程控制:目标是保持过程变量在给定值或范围内,通常采用反馈控制机制来减少扰动对生产过程的影响。例如,通过调节阀门来维持液体流量或温度。
应用场景 这个就不需要太多的言语,两种控制所涉及的应用场景,千差万别。
运动控制:广泛应用于机器人、自动化生产线、CNC机床 ...
摘要和总结
摘要的定义与作用 摘要是对论文的高度概括和浓缩。它应能独立于正文而清晰传达论文的核心信息。摘要中,研究背景、方法、结果和结论作为框架,每个部分都应简洁而准确,不偏不倚,避免主观语言。它不仅要介绍研究的基本信息,更需体现该研究的创新性和独特之处,为后文做出铺垫。
摘要承担的是“引导”和“概览”作用。对于读者而言,摘要是接触论文的第一部分,它需要在最短时间内引导读者明确该研究的主题和价值。同时,摘要也是论文在学术数据库和检索系统中的索引信息。一篇有效的摘要应突出其学术独特性,使读者产生继续深入的兴趣。尤其在领域高度重合的研究中,摘要更需体现独特的研究视角、创新方法或是突破性发现,以脱颖而出。
摘要的结构
背景:点明研究背景和研究动机,用简短的语言突出研究在领域内的必要性和创新点。
目的:简明介绍研究的具体目标,传达研究想解决的问题或挑战。
方法:概括所采用的研究方法或实验设计,保证读者在了解基本方法的同时避免冗余细节。
结果:清晰总结研究的主要发现或数据趋势,以证明研究价值。
结论:最后一两句话用于总结研究的核心贡献和影响力,为读者提供一个明确的认知。
摘要的特点
高度概括性: ...
模型权重文件
常见的权重文件格式(如 .bin、.safetensors、.pt 等)的保存和加载方法:
文件类型
保存方法
加载方法
描述
.bin
torch.save(model.state_dict(), ‘model.bin’)
state_dict = torch.load(‘model.bin’, map_location=’cpu’) model.load_state_dict(state_dict)
.bin 文件通常存储 state_dict,仅保存模型的权重。需要先加载 state_dict,然后用 model.load_state_dict 加载到模型。
.pt/.pth
torch.save(model.state_dict(), ‘model.pth’)
state_dict = torch.load(‘model.pth’, map_location=’cpu’) model.load_state_dict(state_dict)
.pt / .pth 文件是 PyTorch 中常见的保存权重格式, ...
Python的随机种子
在Python程序中,随机种子(seed)与伪随机数生成器(Pseudo-Random Number Generator, PRNG)有关。PRNG是一种算法,它使用一个初始值(即种子)来生成一系列看似随机的数字。这些数字实际上是确定性的,因为相同的种子将总是产生相同的数字序列。这在需要可重复性的情况下非常有用,比如在模拟、游戏或测试时。
在Python中,random模块提供了生成伪随机数的功能。你可以通过调用random.seed()函数来设置种子。如果你不显式地设置种子,random模块通常会使用系统时间或操作系统提供的随机源来初始化种子,这样每次运行程序时都会得到不同的随机数序列。
下面是一个简单的例子,展示如何设置和使用随机种子:
import random# 设置随机种子random.seed(42)# 生成一个随机整数print("Random number with seed 42:", random.randint(1, 100))# 重新设置相同的随机种子random.seed(42)# 再次生成一个随机整数print(&quo ...
计算机相关顶会
会议简称
会议全称
出版社
网址
AAAI
AAAI Conference on Artificial Intelligence
AAAI
链接
NeurIPS
Annual Conference on Neural Information Processing Systems
MIT Press
链接
ACL
Annual Meeting of the Association for Computational Linguistics
ACL
链接
CVPR
IEEE Conference on Computer Vision and Pattern Recognition
IEEE
链接
ICCV
IEEE International on Computer Vision and Pattern Recognition
IEEE
链接
ICML
International Conference on Machine Learning
ACM
链接
IJCAI
International Joint Conference on Artificial ...
图像检索数据集
数据是一切算法应用的基础,无论是监督学习需要标注好的数据进行训练,还是无监督学习需要对数据进行分析、考量,数据都是不可或缺的。一个任务或一项工程的大力度推进或发展离不开公开数据集的构建,重复的进行数据采集、标注是耗费人力和物力的,并且同一任务在不同数据集上的比较也是毫无意义的,所以公开数据集是十分重要的基础架构。
目前做CBIR用得比较多且流行的有下面几个:
手写数字图像库[MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges,这个库有共70,000张图片,每张图片的大小是28*28,共包含10类从数字0到9的手写字符图像,在图像检索里一般是直接使用它的灰度像素作为特征,特征维度为784维。
CIFAR-10 and CIFAR-100 datasets,这个数据库包含10类图像,每类6k,图像分辨率是32*32。另外还有一个CIFAR-100。如果嫌CIFAR-100小,还有一个更大的[Tiny Images Dataset,上面CIFAR-10和CIFAR-100都 ...
本地/服务器部署大语言模型
本博客以Llama3.2 的1B-Instruct版本为例,在远程服务器上部署模型(和在本地部署类似)。服务器为X86 Ubuntu系统
首先安装必要的环境如torch和transformers等
Llama3版本的模型权重和分词器需要申请,因此首先去HuggingFace的meta官方处申请使用模型,也可以直接下载第三方模型;
申请通过后,在“Files and versions”中下载模型文件.safetensor和配置文件.json到本地,这一步也可以直接通过git或代码中访问远程仓库下载,但需要远程服务器附魔;
文件下载完成后,本地打包上传至服务器目录/home/user/.cache/huggingface/hub/下;
写python脚本:
model_path = "/home/user/.cache/huggingface/hub/Llama3/" pipe = pipeline( "text-generation", model=model_path, torch_ ...