NLP入门
本文主要介绍自然语言处理(Natural Language Processing:NLP)中的一些最基础的概念,可以帮助读者在整体上感知这一领域,算是一篇入门博客。
词库	Vocabulary,表示所有词的集合。一般而言,经过one-hot encoding之后的向量的长度即为词库的大小。
语料库	Corpus,由词库里所有的词组成的句子,短语等语料信息,可以简单理解为一个/多个documents。
词向量	Word Vector,就是把一个Word表示成一个向量(vector),最常见的有one-hot encoding。
分布的假设	我们知道一个单词最原始的表达方式( ...
pprint
1. 引言pprint的英文全称Data pretty printer,顾名思义就是让显示结果更加直观漂亮。
print()和pprint()都是python的打印模块,功能基本一样,唯一的区别就是pprint()模块打印出来的数据结构更加完整,每行为一个数据结构,更加方便阅读打印输出结果。特别是对于特别长的数据打印,print()输出结果都在一行,不方便查看,而pprint()采用分行打印输出,所以对于数据结构比较复杂、数据长度较长的数据,适合采用pprint()打印方式。
在介绍完上述理论知识后,我们不妨来举个栗子吧!
2. 使用背景我们来看一个打印嵌套字典的例子,如下所示:
12345d ...
timm
1 什么是timm库?	timm 是 PyTorch Image Models 的缩写 is a collection of SOTA computer vision models, layers, utilities, optimizers, schedulers, data-loaders, augmentations and also training/validating scripts with ability to reproduce ImageNet training results.
	timm 库实现了最新的几乎所有的具有影响力的视觉模型,它不仅提供了模型的权重 ...
AP隔离
最近在学校使两台linux主机通过UDP通信,但发现无法发送UDP报文,互相也无法ping通,奇怪的是主机处于同一个局域网(校园网),且均没有开启防火墙,经过上网寻找解决方案发现是AP隔离的原因
	很多自己最装过无线路由器的都知道,AP隔离是一种路由模式。AP隔离指的是开启之后,各个连接的设备不能互相通讯,起到隔离的作用,来保障不同用户的安全
	AP隔离,英文术语:AP Isolation多见于无线通信方面,常见于路由器设置中。AP隔离非常类似有线网络的VLAN(虚拟局域网),将所有的无线客户端设备之间完全隔离,使客户端只能访问AP接入的固定网络。
	适用范围:该措施非常适合大型的会 ...
Python中的w3lib
目前在做的项目中遇到一个需求:将爬取到的大量网页中的文本提取出来。由于网页太多,无法逐个分析使用xpath表达式进行提取。使用正则表达式可以实现,但太麻烦。这里介绍一款专业处理这方面问题的包w3lib
w3lib简介	w3lib是一个Python包,实现了一下与web相关的功能:
从html片段中移除注释或者标签
从html片段中提取base url
对html串中的字符实体进行转义
将原始HTTP头转换为字典格式
构造HTTP的认证报头
将html页面转换成unicode编码格式
从urls中提取参数
	w3lib主要包括四个模块:
html模块:处理与html标签相关的问题
 ...




