AddressCLIP
IAL(Image Address Localization)图像地址定位
用来预测图像拍摄的可读文本地址,传统方法:通过预测地理坐标(图像地理定位技术+地理标签数据库)并查询为可读地址来实现。
Image geo-localization technology= visual place recognition(视觉地点识别) = a image retrieval(检索) problem
Image geo-localization technology:
深度学习模型提取图像特征(aggregation or pooling layer),之后在地理标签数据库中进行检索(additional re-ranking phase+powerful pre-trained backbones to extract features……)
缺点:ambiguity(歧义)+开销
结论:(图像-GPS-地址)
AddressCLIP end to end framework:
- 图像文本对齐(图像与地址 场景标题)
- 图像地理匹配(图像特征和空间距离)
什么是contrastive learning(对比学习)
什么是manifold learning(流行学习)
流形是一种可以在局部区域用低维欧几里得空间坐标描述的空间。(如地球表面是一个二维流形)
流形假设:高维数据实际上分布在一个低维度的流形上。通过识别和学习这个流形,可以降维并特征提取
原理:
- 邻域定义:确定数据点之间的局部邻域关系,通常通过距离度量(如欧氏距离)来定义每个数据点的邻居。
- 图结构构建:基于邻域关系构建一个图,节点代表数据点,边代表数据点之间的相似性或邻近性。
- 保持结构:通过优化某种目标函数,使得在低维空间中,数据点之间的关系(如距离或相邻关系)尽可能地保留与高维空间中的一致。
- 映射计算:求解映射函数,将高维数据点映射到低维空间。
相关算法:PCA LLE Isomap. t-SNE Laplacian Eigenmaps
- To do
Transfer Learning in Vision-Language Models.
三个关键技术:Transformer+contrastive learning+expansive web-scale training datasets
应用于下游的任务: full fine-tuning + linear probing +prompt learning
-
Prompt learning:输入中引入少量可训练的提示标记
-
zero-shot learning capabilities:模型在没有见过特定任务或类别的情况下进行推理的能力。
- full fine-tuning:预训练模型的所有参数进行调整。通常是为了适应特定任务的数据分布
- linear probing:仅对预训练模型的最后一层或几层进行微调,通过训练一个简单的线性分类器来适应新任务。
AddressCLIP framework
semantic:语义的
基于的模型:
CLIP(vision-language model)(classification-based ,not retrieval-based):将地球划分为不相交的区域,每个区域用语言描述图像。
流程:

流程:
Image-Text Alignment
要求:地址信息有限,因此text为地址信息+额外描述,同时额外描述仅用于训练
Loss: $$ 令特征向量为V,地址矩阵为T^A,地址加额外描述的caption 矩阵为T^C\ 那么分别计算L_{addr}和L_{caption} $$
Image-Geo Matching:
要求:地理上接近的图像在特征空间中紧密相邻。地理上相远的图像在特征空间中分布分散。
方法:流形学习。
公式:
-
\[ 归一化:D_{ij}^{U}=||\hat U_i-\hat U_j||,(Manhattan\ distance)\\s.t.,\hat U_i = U_i-min(U_i)/max(U_i)-min(U_i) \]
空间距离矩阵归一化到(0,1)的范围
曼哈顿距离: $$ dis=|x_i-x_j|+|y_i-y_j| $$
2.计算特征相似度矩阵 $$ D_{ij}^V = V_i V_j/||V_i|| * ||V_j|| $$ 其中V是特征空间中的嵌入向量(高维映射到低维的向量表示) 3.计算损失函数: $$ L_{geo}=\frac1{N^2}\sum_{i=1}^N\sum_{i=1}^N(D_{ij}^V-D_{ij}^U)^2 $$ 大概理解:不是很懂这个损失函数,讲道理是不是应该换成exp的相关函数,当然V的计算也没有给出 $$ \exp ({-\alpha}D^U) $$
目标损失函数
loss就是前三个所求loss的加权均值
所以说优点:
通过大模型预测图像的语义文本地址,避免了检索庞大的数据库和坐标(图像转化为坐标需要检索数据库做参考)。数据集的贡献。新的方法.方便未来人机交互
datasets
每个地址对应多个图像,然后引入语义地址,按7:2:1随机分为训练集,数据库集和查询集
experiment
- 指标:SA:街道级准确率
SSA:子街道级准确率
第一选择和前五选择覆盖率
VLP Boosting Transferability
VLP(视觉-语言预训练)
what is the transferability of multimodal adversarial examples?
一种对抗性攻击生成的样本在不同模型之间保持其欺骗效果的能力。
clean image
SGA攻击
一种类似PGD的迭代攻击: $$ v'{i+1} = v'_i + \alpha \cdot \text{sign} \left( \frac{\nabla_v \sum{j=1}^{M} J(F_I(v'{ij}), F_T(t))}{|\nabla_v \sum{j=1}^{M} J(F_I(v'_{ij}), F_T(t))|} \right) $$ enhance the transferability from 6.14% to 17.81%
相当于迭代的这个图像向量v_i和之前的每一次迭代得到的向量v_j,(j from 1 to i-1)求出loss,最后求和之后算这个求和函数关于向量v的梯度
缺点:较少的考虑clean image,从而出现过拟合
work goals
broaden the diversity of adversarial examples
aim for perturbations(扰动) guided by textual information that induce(诱发) v ′ i to deviate(偏离) significantly from the associated text t.
Additionally, in the text modality, our objective is to identify adversarial perturbations that simultaneously deviate from the intersection region rather than only adversarial images, thereby reducing overfitting the surrogate model and enhancing the effectiveness of black-box attacks.
Diversification(diversity) along the Intersection Region
goals:增强对抗样本多样性

在 \(v_i v_{i-1} v\)形成的三角形中进行采样,计为\(e={e_1,e_2,....,e_n}\),并把每个e用\(v_i v_{i-1} v\)三个基底表示,之后计算如下的梯度扰动: $$ p_k = \alpha \cdot \text{sign} \left( \frac{\nabla_e J(F_I(e_k), F_T(t))}{|\nabla_e J(F_I(e_k), F_T(t))|} \right) $$ 得到扰动集合P。这个意思是看看每个三角形的随机几个点的坡度
Text-guided Augmentation Selection(文本引导的增强选择)
公式:
arg,就是反的意思。意思是对于每一次迭代的向量v,选择出让损失函数最大化的梯度扰动p,并把m赋值为p的下标。这个的意思是要在v旁边找到一个更高的’山峰‘。
之后将SGA方法进行一些小的改动,用采样点e来代替v