aster笔记英文论文书写i汉字手写数据集wintarooe

定冠词The和不定冠词a/an的主要区别在于,如果一个名词是已经知道的(known)或者是特指的,需要用the,如the plan的言外之意在于作者和读者已经都知道plan是什么,而a plan则表明是一般泛指,提出一个plan,后面再详细表述。

用若干短句代替长难句:更容易被读者理解,每句话只需要表达一个简单的意思,千万不要贪多嚼不烂。

选择列表展示数据和内容:还有一种情况容易出现超长句子,那就是作者希望在一句话中提供太多的数据和内容

把一个句子中的核心内容放到前面说:中国人的思维模式是“因为...所以...”,句子中的后面是重点,而英语当中恰好相反。

为了表示强调,通常把最重要的部分放在句子开头

用which作为先行词(代词指代的名词或代词)的时候,一定要注意是否会引起缺乏特指、指代不明而引起的混淆:Incorrect: The Shijiazhuang south road underground bridge possesses the largest jacking force, which is built at 1978(10680t).Correct: Shijiazhuang south road underground bridge possesses the largest jacking force which is built at 1978(10680t).

Respectively放置于两组对应的短语末尾:用于之前已经提到顺序的两个或两个以上的人或物,表示他们之间“分别地”关系,如果之前给出的是两个列表,则respectively指两个列表之间元素一一对应的关系。

"In this paper"不能滥用:通常这个短语有两种用途:1.在Introduction和conclusion中用于强调文章内容; 2.在正文中,在讨论作者未做的工作之后(如他人论文和标准规范等)。某些情况可以用"in this study"代替。‘study’是作者做出的工作,‘paper’指的是读者正在读的这篇论文(在工作的基础上加工而成的)

句子的开头不要出现阿拉伯数字Incorrect: 12 parameters were selected for the experiment.Correct: Twelve parameters were selected for the experiment.Incorrect: All 3 studies concluded that the mean temperature should be 30°C.Correct: All three studies concluded that the mean temperature should be 30°C.数字最好只用于确切的试验数据,对于泛指的内容尽量不要用,尤其是尽量不要在一个句子中用太多数字。

许多文献都不主张在正文中用短的表达式代替文字Incorrect: If the power battery SOC > SOClo and the driving torque belongs to the middle load,…Correct: If the power battery SOC is greater than SOClo and the driving torque belongs to the middle load,…

关于figure 和 table 的缩写是 Fig. and Tbl。在文中使用全称figure或者简写fig,需要统一,不要二者都写,而且在句子开头不要使用缩写Incorrect: Figure.6, Figure6, Fig.6, Tbl10Correct: Figure 6, Fig. 6, Tbl. 10

变量,尤其是英文字母代表的变量,应该使用斜体表达

Such as表示for example,并且暗示:incomplete list will followetc.表示and so on,并且暗示 list is not completeIncorrect: Compared to traditional industry, Micro-electronic fabrication has three characteristics such as high complexity, high precision and high automation.Correct: Compared to traditional industry, Micro-electronic fabrication has three characteristics: high complexity, high precision and high automation.上面由于three characteristics都给出来了,因此不能用such as(是完整、确定的列举,such as 是列举有代表性的几个)

有些词汇单复数相同,因此不需要加“s”,如:

使用 ‘by this way’. Instead write ‘by doing this’, or ‘using this method’.句子不要以 ‘How to…’ 开头Incorrect: How to find the optimal parameter is the main objective.Correct: Determining how to find the optimal parameter is the main objective.

避免 obviously 的滥用国际文章中,不要写‘at home’, ‘abroad’, ‘here’, ‘our country’,因为读者大多不是中国人,写成 ‘in China’避免写‘that is to say’ and ‘namely’,尽量在一个句子里表达你的意思在句子的结尾避免用‘too

大模型新基准:BIG-BenchBIG bench由 204 项任务组成,任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。

Beyond the Imitation Game 基准(BIG-bench)的GitHub 资源库包括:

总结:看起来是整理了一些用于评估大模型的语言任务,并且实际对比测试了一些模型,得出了语言模型性能和模型规模之间的联系

对于深度学习来说,能同时处理文本图像任务其实已经不稀奇。不过过去常见的多模态学习方法,往往是单个输入就需要激活整个网络。谷歌这次提出的新方法,最大亮点就是首次在这一领域采用了稀疏化模型。

此次新提出的LIMoE,其实就是让MoE能同时处理图像文本。具体来看,就是让LIMoE进行对比学习。在利用大量图像-文本对训练时,网络内部的图像模型提取图像表示,文本模型提取文本表示。针对相同的图像-文本对,模型会拉近图像和文本表示的距离。反之,对于不同的图像-文本对,则会让相应的表示彼此远离。这样一来的直接好处,就是能实现零样本学习。比如一张图像的表示更接近文本“狗”的表示,那么它就会被归类为狗。这种思路可以扩展到数千种情况。

此次基于的模型是MoE(Mixture-of-Experts layer),它被称为专家混合模型。也就是在Transformer架构的基础上,加设了“专家层”。除了性能上的提升,使用稀疏化模型的好处还体现在降低计算成本上。因为“多专家”的模式意味着,尽管多设了很多子模型,模型容量显著增加,但是实际计算成本并没有明显变化。

DisplayPort连接线发光发热了——给Pico Neo 3 Link提供无损的高清画面。而Quest 2只能使用USB进行有线连接,此时传输的图像显然是会被压缩的。也就是说,在玩儿PC上的VR游戏时,Neo 3 Link的画质要比Quest 2好得多。

内容上,Neo 3 Link会略逊一筹。此外,Neo 3 Link也不支持手部追踪功能,好在商用的Pro版可以通过Ultraleap外部传感器搞定。即便如此,Neo 3 Link也能凭借着比低配更低的价格,以及和高配相同的参数,在性价比上扳回一城。想必在进军美国之后,Neo 3 Link也能凭借着这个优势,和Meta Quest 2打得有来有回。

训练思想非常简单,首先搭建好一个的预训练模型库,然后从模型库中取出若干个模型再接上分类头组成的新判别器,再跟初始GAN网络的判别器并联也就是说并联的判别器会跟原始判别器一起去训练,由于原始的判别器不够强,所以能一定程度上避免梯度消失,又因为新的判别器是用大数据集训练好的模型,其中蕴含的丰富特征也让GAN网络不至于在某个数据集上过拟合。

这篇文章的思路很直观,但是在实验中如何平衡新引入的GAN判别器Loss和原始判别器Loss是一个很难的抉择问题,因为在训练过程中,由于原始判别器Loss始终处于一个主导地位,很有可能模型直接摆烂完全不优化第二部分判别器的Loss,所以能把这种方法做work的才是真正的大佬呀。

Lazy regularization损失 是由损失函数和正则项组成,优化的时候也是同时优化这两项的,lazy regularization就是正则项可以减少优化的次数,比如每16个minibatch才优化一次正则项,这样可以减少计算量,同时对效果也没什么影响。

No Progressive growthStyleGAN使用的Progressive growth会有一些缺点,如下图,当人脸向左右偏转的时候,牙齿却没有偏转,即人脸的一些细节如牙齿、眼珠等位置比较固定,没有根据人脸偏转而变化,造成这种现象是因为采用了Progressive growth训练,Progressive growth是先训练低分辨率,等训练稳定后,再加入高一层的分辨率进行训练,训练稳定后再增加分辨率,即每一种分辨率都会去输出结果,这会导致输出频率较高的细节,如下图中的牙齿,而忽视了移动的变化。

主要工作:将目标检测看做是一个集合预测的问题,不同图片包含的预测框不同,将框看作集合的元素,任务就变成了预测给定图片所对应的集合

贡献:

优点:

缺点:

流程:

将元素为loss的cost matrix使用scipy提供的linear-sum-assingment就可以得到最优匹配 —— 哪一个工人完成哪项任务花费的成本最低,对应到这里就是100个预测框中哪几个对应ground-truth最优Encoder学全局信息,将物体分开,而Decoder更细致地区分物体的极值点,比如动物的尾巴跟蹄子。因此二者缺一不可

trick:

超轻量图像分类方案(PULC)集成了业界 4 大业界领先的优化策略:

ViT 模型

完全不使用CNN:直接应用于图像块序列 (sequences of image patches) 的纯 Transformer 可以很好地执行 图像分类 任务。当对大量数据进行预训练并迁移到多个中小型图像识别基准时 (ImageNet、CIFAR-100、VTAB 等),与 SOTA 的 CNN 相比,Vision Transformer (ViT) 可获得更优异的结果,同时仅需更少的训练资源。

尽量少的修改,仿照NLP方式使用Transformer:将图像拆分为块 (patch),并将这些图像块的线性嵌入序列作为 Transformer 的输入。图像块 image patches 的处理方式与 NLP 应用中的标记 tokens (单词 words) 相同

中型数据集上不如ResNet:Transformers 缺乏 CNN 固有的一些归纳偏置 (inductive biases),例如平移等效性和局部性 (translation equivariance and locality),因此在数据量不足的情况下训练时不能很好地泛化。

大规模数据集效果好:Vision Transformer (ViT) 在以足够的规模进行预训练并迁移到具有较少数据点的任务时获得了出色结果。

图像块嵌入:将一个图像(shape=\(H\times W\times C\))分割成N块\(P\times P\)的patches,其中\(N=HW/P^2\),即Transformer的输入长度,然后每块patch再flatten成向量,使用全连接层变换为D维,此时输入变为了\(N\times D\),相当于 NLP 中的 词嵌入 (Word Embeddings)

可学习的嵌入:类似于BERT中的[class] token,ViT引入了class token机制,因为ViT基于Transformer的Encoder,输出与输入等长,同样是N个向量,最终取哪一个输出向量作为分类向量就需要选择。这里在输入向量前插入一个可学习的class token,一共N+1个输入向量。这样就能取class token对应的输出向量作为分类向量。

位置嵌入:ViT 采用 标准可学习/训练的 1-D 位置编码嵌入,因为更高级的 2-D-aware 位置嵌入 (附录 D.4) 没有更显著的性能提升。在输入 Transformer 编码器之前直接 将图像块嵌入和位置嵌入按元素相加

微调:用比预训练时更高的图像分辨率进行微调通常更有益。当提供更高分辨率的图像时,需要保持图像块大小相同,此时会使有效序列长度更长。Vision Transformer 可处理任意序列长度 (取决于内存限制),但 预训练的位置嵌入可能不再有意义。因此,我们根据它们在原始图像中的位置,对预训练的位置嵌入执行 2D 插值。

Scalability:Transformer 的一个特色,当模型和数据量提升时,性能持续提升。在大数据下,ViT 可能会发挥更大的优势。预训练的数据量须达到 100M 时才能凸显 ViT 的优势,性能才能比肩CNN。

Alec Radford等人提出Contrastive Language-Image Pre-training (CLIP), 突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。CLIP模型或许会引导CV的发展走向大规模预训练,文本-图像打通的时代。

文本-图像对:图片以及对应的文本描述

模型结构:包括两个部分,即文本编码器(Text Encoder)和图像编码器(Image Encoder)。Text Encoder选择的是Text Transformer模型;Image Encoder选择了两种模型,一是基于CNN的ResNet(对比了不同层数的ResNet),二是基于Transformer的ViT。

CLIP在文本-图像对数据集上的训练过程:通过编码器将N个文本图像对编码为N个文本一维向量和N个图片一维向量,对应的作为正样本,共N个,不对应的为负样本,有\(N^2-N\)个。通过最大化正样本之间的余弦相似度,最小化负样本的余弦相似度来进行训练。

训练成果:通过大批量的文本-图像预训练后, CLIP可以先通过编码,计算输入的文本和图像的余弦相似度,来判断数据对的匹配程度。

zero-shot图像分类步骤:

在ImageNet-A数据集(分布漂移,即数据集中不同类别图像的数量分布不均衡)上,CLIP可以达到77.1%,而ResNet只有2.7%(基本属于瞎猜)。这证明了使用文本-图像做预训练的CLIP具备更强的鲁棒性。

Gartner在报告中指出:「在计算机视觉领域,腾讯的得分是3.53,在此次评分排名中位居全球第二。腾讯利用其在游戏、视觉和其他服务领域的广泛AI资源,不断来验证和完善其能力。腾讯还拥有强大的计算机视觉服务产品,包括视频服务(如面部识别、人体分析和情感分析)、图像处理和分析,以及OCR能力。」

依托腾讯优图实验室,通过AI与云的深度融合,腾讯云对外输出超过300+标准化AI原子能力和80+AI解决方案,覆盖行业超过30个大类,100个子类,为数十万家内外部客户提供AI技术服务和丰富的计算机视觉产品组合。此外,腾讯云计算机视觉能力也已经在工业、新能源汽车等实体经济场景加速落地。

在算法研究方面,优图的研究成果多次在人工智能国际权威比赛中创造了世界纪录。在学术研究方面,优图公开发表的论文涵盖ICCV,CVPR,ECCV等各类全球顶级会议,仅2022年即被全球顶级会议CVPR接收了30篇论文。

由日本学术振兴会赞助,立命馆大学:人狗语音转换

任务的输入是人声音频,输出是合成的狗叫音频。数据音源中,包含503段人类的声音,自收集了成年犬792段和幼崽288段叫声。论文采用音频合成领域经典的StarGAN和ACVAE作为benchmark,并设计了三个主观定性指标:输出音频和狗叫声的相似度,音频质量,声音清晰度;还有一个量化指标,角色偏差程度(character error rate, CER)用于评估模型的效果。目前为止,benchmark在测试中遥遥领先。

本质上是想把人类的话语声变换成接近狗叫,但又要保留语义信息,是一种他们自己提出来的新的语音转换任务,voice conversion (VC),他们将其称为human to non-human creature voice conversion (H2NH-VC) tasks。

做了一些比较实验,使用StarGAN-VC、ACVAE-VC跟梅尔倒谱系数(MCC)、梅尔频谱(melspec)的排列组合,以及FKN、成年狗叫、白噪声之间的对照。结果显示梅尔频谱有助于使输出贴近狗叫,但如何保留语义信息是一大挑战。

视觉领域中的最大模型ViT-G(1.8B)比NLP领域的最大模型(Megatron-Turing)小了近300倍,而Swin-v2大约3B目前模型训练范式:先在大规模数据集进行与训练(JFT-3B)然后通过微调迁移到下游任务中

训练大模型的主要挑战:

解决办法:

Transformer在图像领域两大挑战:

针对上述两个问题,提出了一种包含滑窗操作,具有层级设计的Swin Transformer。其中滑窗操作包括不重叠的local window,和重叠的cross-window。将注意力计算限制在一个窗口中,一方面能引入CNN卷积操作的局部性,另一方面能节省计算量。

Swin Transformer的整体架构

整个模型采取层次化的设计,一共包含4个Stage,每个stage都会缩小输入特征图的分辨率,像CNN一样逐层扩大感受野。

其中有几个地方处理方法与ViT不同:

Patch Embedding在输入进Block前,我们需要将图片切成一个个patch,然后嵌入向量。

Patch Merging该模块的作用是在每个Stage开始前做降采样,用于缩小分辨率,调整通道数 进而形成层次化的设计,同时也能节省一定运算量。

Window Partition/Reversewindow partition函数是用于对张量划分窗口,指定窗口大小。而window reverse函数则是对应的逆过程。这两个函数会在后面的Window Attention用到。

Window Attention这是这篇文章的关键。传统的Transformer都是基于全局来计算注意力的,因此计算复杂度十分高。而Swin Transformer则将注意力的计算限制在每个窗口内,进而减少了计算量。主要区别是在原始计算Attention的公式中的Q,K时加入了相对位置编码(不是在原始输入X中加入,X分解为QKV计算注意力时才加入)。后续实验有证明相对位置编码的加入提升了模型性能。

Attention Mask通过设置合理的mask,让Shifted Window Attention在与Window Attention相同的窗口个数下,达到等价的计算结果。

Transformer Block整体架构一个Stage包含的Block个数必须是偶数,因为需要交替包含一个含有Window Attention的Block和含有Shifted Window Attention的Block。结构见上图(b)

总结这篇文章创新点很棒,引入window这一个概念,将CNN的局部性引入,还能控制模型整体计算量。在Shift Window Attention部分,用一个mask和移位操作,很巧妙的实现计算等价。作者的代码也写得十分赏心悦目,推荐阅读!

关于相对位置编码relative_position_bias_table为一堆需要学习的bias法1:relative_position_index在table提取bias再加在atn上法2:直接把bias按顺序加在atn上拿一维位置关系举例, 1,2,3,4 四个位置,法1不管计算那个位置,编码始终是不变的。但是法2(相对位置编码),计算1位置的时候,四个位置编码idx是 1,2,3,4. 计算 2位置的时候,四个位置编码是0,1,2,3,同理3的时候是-1,0,1,2, 4的时候是-2,-1,0,1。就是计算当前位置的时候,前第N个位置对应的位置编码idx始终是 -N,后第N个位置对应的位置编码idx始终是N。只要两个位置相对关系不变,位置编码就不变。

一个好的图像转换模型应可以学习不同图像域间的映射,同时:1)生成图像多样化;2)在多个域上具有可扩展性。现有方法则无法很好同时解决上述问题。提出StarGAN v2Q和新的动物面孔数据集(AFHQ),一个可同时解决上述问题、并在基线上表现出明显改善效果的单一框架。在CelebAH和AFHQ上进行视觉质量、多样性和可扩展性方面验证其有效性。

domain表示一组图像,被分组的依据可以是视觉上具有某种属性/类别。而每幅图像有独特的外观,称为样式/风格style。例如,可根据人的性别设置图像域domain,在这种情况下,风格样式包括妆容类别、胡须和发型等。大概就是范围更大的可区分特征叫做域,范围小的叫做风格。

一个理想的图像转换模型应该考虑域内的多样化的风格。但设计和学习此类模型会变得很复杂,因为数据集中可能有大量的style和domain。

针对style的多样性,目前的方法(Pix2Pix模型解决了有Pair对数据的图像翻译问题;CycleGAN解决了Unpaired数据下的图像翻译问题。)大都仅考虑两个域之间的映射,例如K个域,这些方法需要训练K(K-1)生成器来处理每个域与每个域之间的转换,限制了它们的实际使用。为此,一些研究提出更具扩展性、统一的框架,StarGAN便是最早的模型之一,它使用一个生成器来学习所有可用域间的映射。生成器将域标签作为附加输入,并将图像转换到相应的域。但StarGAN仍然学习每个域的确定性映射(对于同一张输入的图片,由于输入跟one-hot标签都一样,因此结果也一样),不能学到数据分布多种模态的特性。

本文提出的StarGAN v2,是一种可扩展的方法,可跨多个域生成不同的图像。基于StarGAN,使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。为此,引入两个模块,一个映射网络mapping network和一个样式编码器stye encoder。映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。考虑到多个域,两个模块都具有多个输出分支,每个分支都提供特定域的样式码。最后,利用这些样式码,生成器将学习在多个域上合成各种图像。

生成器 Generator:将输入图像x转换到输出图像G(x, s),后者体现的是指定domain的风格码s,该码由映射网络F或样式编码器E提供。其中,使用的是自适应实例归一化(AdaIN)将s注入G。s被设计为表示特定域y的样式,这消除了向G提供y的必要性,并使G可以合成所有域的图像。

映射网络 Mapping network:给定一个隐向量z和一个域y,映射网络F生成样式码\(s=F_y(z)\)。 F由具有多个输出分支的MLP组成,可为所有可用域提供样式码。训练的时候随机采样Z中的样本z和随机采样域Y中的一张图片来使得该网络有效的学到所有域的风格表示,来产生多种样式码,因此可以实现多样性风格生成。

判别器 Discriminator:多任务分类器,有多个输出分支。每个分支\(D_y\)使用一个二进制分类确定图像x是域y的真实图像还是G生成的伪图像\(G(x,\;s)\)使用多个分类器是为了避免笼统地判断生成地是否真实,因为我们要的是生成地图片在特定域上地真实,而不是随便地真实,优化更加具体了。

本文贡献:

要想让G拥有学习多个领域转换的能力,本文对生成网络G和判别网络D做如下改动:

多训练集进行训练:在多数据集下训练StarGAN存在一个问题,那就是数据集之间的类别可能是不相交的,但内容可能是相交的。比如CelebA数据集合RaFD数据集,前者拥有很多肤色,年龄之类的类别,而后者拥有的是表情的类别。但前者的图像很多也是有表情的,这就导致前一类的图像在后一类的标记是不可知的。为了解决这个问题,在模型输入中加入了Mask,即如果来源于数据集B,那么将数据集A中的标记全部设为0。

THE END
0.what?日本男性最喜欢VR体验:居然不是“VR啪啪啪”?近日,日本为了分析大家入手VR眼镜的主要用途,于是他们进行了一场不怀好意的“最受欢迎VR体验调查”,答案让小编大跌眼镜啊! 考虑到VR的主要用户群体,记者随机抽取了20到30岁之间的日本男性进行采访调查,看看男生们最期待什么样的VR内容(妹子用户再次被无情的忽略)。只不过最终的结果并没有让记者们如愿以偿,最jvzquC41yy}/cun4354og}4pgyy0j}rn146286>147742@3jvor