2025年3月总结与展望

2025年3月31日,星期一,晴天☀️,第56篇博客。

3月的最后一周,难受

3月最后一周非常难受,因为这周一整个周都没好天气,天气忽冷和热的给我整的很不适应,一周也没打球训练。。。

花粉过敏一直流鼻涕、打喷嚏,难受死我了。在北京的第一个春天,没想到会花粉过敏😢

上周一周为了跑实验、设计实验代码,熬夜/不按时吃饭、暴饮暴食又把胃口搞坏了

总之,3月的最后一周过的很衰。。。

但是,总体来看3月还是很充实的,这个月小论文在按部就班进行思路描述、代码设计、进行实验,过程很艰辛,bug很多,但是边干边学还是收获了很多很多。争取在清明节前把实验的测试评估结果跑出来,后续就剩下讲故事了,加油搞!

先做成一坨屎,然后再优化!

这个月干了啥

🏀干球干球!

这个月篮球技术有长进,每天打球的时间比跑步还要多,感觉把大学四年落下的比赛都补回来了。科苑杯要开始了,顺利入选学院大名单,好好训练,随时准备上场比赛。

这个月增重了,主要还是最后一周难受没怎么活动;不过确实上肢比以前结实了。4月我要减脂!!

整理了Lisbon&Copenhagen团队系列文章

Image Caption Generation base on Retrieval-Agumented

这篇文章是该团队首次提出使用给定input image和从数据库检索得到的captions融合去生成input image的caption,而不是仅仅单独依靠图像本身去生成其caption。

使用预训练的Vision&Language编码器联合编码输入图像和检索得到的相似图片的captions,之后再通过交叉注意力将编码器输出作为输入进而输入到解码器中,实现image caption的生成。

SMALLCAP通过在训练和推理过程中使用检索到的相关描述来增强生成能力。具体来说,对于输入图像,模型会从数据存储库中检索k个相关的描述,并将这些描述作为提示输入到解码器中。解码器根据图像特征和检索到的描述生成最终的图像描述。

LMCAP提出了一种image-blind few-shot多语言图像描述生成模型,通过结合多语言CLIP检索的相似图像描述与XGLM语言模型的提示生成。

跨模态检索实践

  1. 首先将COCO2017(30G)数据集中的113287张图像与Caption作为训练集,使用CLIP-ResNet50×4模型进行对比学习训练和体征提取。CLIP vision对图像进行嵌入编码,CLIP text对图片对应的caption进行嵌入编码。

  2. 之后将训练完成后的Caption向量通过FAISS构建合适的索引存储在向量数据库中(qdrant/chromedb你自己选择,方便即可)或者以hdf5文件保存。

  3. 接着用户会输入一张新的图片(query,不在COCO训练集中),将图片使用CLIP进行编码embedding后,与向量数据库中的caption嵌入进行相似度比较,得到与input image embedding相似度最高的前五个caption。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
# 1.处理元数据
import json
from pycocotools.coco import COCO
from pathlib import Path

def process_metadata():
# 路径配置
data_root = Path("/auto-tmp/coco2017")
ann_path = data_root / "annotations/captions_train2017.json"
output_path = data_root / "processed/metadata.json"

# 创建输出目录
output_path.parent.mkdir(parents=True, exist_ok=True)

# 加载COCO标注
coco = COCO(ann_path)

# 构建元数据
metadata = []
for img_id in coco.getImgIds():
anns = coco.loadAnns(coco.getAnnIds(imgIds=img_id))
img_path = data_root / f"train2017/{img_id:012d}.jpg"

for ann in anns:
metadata.append({
"id": ann["id"],
"image_path": str(img_path),
"caption": ann["caption"]
})

# 保存元数据
with open(output_path, "w") as f:
json.dump(metadata, f, indent=2)

process_metadata()

# 2.特征提取
import torch
import clip
import numpy as np
from tqdm import tqdm
from PIL import Image

class CLIPFeatureExtractor:
def __init__(self):
self.device = "cuda" if torch.cuda.is_available() else "cpu"
self.model, self.preprocess = clip.load("RN50x4", device=self.device)
self.model.eval()

def _batch_processor(self, data, batch_size, process_fn):
"""通用批处理工具"""
results = []
for i in tqdm(range(0, len(data), batch_size)):
batch = data[i:i+batch_size]
results.append(process_fn(batch))
return np.concatenate(results)

def extract_image_features(self):
"""提取图像特征"""
# 加载元数据
with open("/auto-tmp/coco2017/processed/metadata.json") as f:
metadata = json.load(f)

# 获取唯一图像路径
unique_images = list({item["image_path"]: item for item in metadata}.values())

def process_batch(batch):
images = []
for item in batch:
img = Image.open(item["image_path"]).convert("RGB")
images.append(self.preprocess(img))

with torch.no_grad(), torch.cuda.amp.autocast():
tensor = torch.stack(images).to(self.device)
features = self.model.encode_image(tensor)
features /= features.norm(dim=-1, keepdim=True)
return features.cpu().numpy().astype("float32")

# 批处理参数(根据4090显存优化)
batch_size = 512
features = self._batch_processor(unique_images, batch_size, process_batch)
np.save("/auto-tmp/coco2017/processed/image_features.npy", features)

def extract_text_features(self):
"""提取文本特征"""
with open("/auto-tmp/coco2017/processed/metadata.json") as f:
metadata = json.load(f)

def process_batch(batch):
texts = [item["caption"] for item in batch]
with torch.no_grad():
inputs = clip.tokenize(texts, truncate=True).to(self.device)
features = self.model.encode_text(inputs)
features /= features.norm(dim=-1, keepdim=True)
return features.cpu().numpy().astype("float32")

# 文本处理批次可以更大
batch_size = 2048
features = self._batch_processor(metadata, batch_size, process_batch)
np.save("/auto-tmp/coco2017/processed/text_features.npy", features)

# 执行特征提取
extractor = CLIPFeatureExtractor()
extractor.extract_image_features()
extractor.extract_text_features()

# 3.索引构建
import faiss
import numpy as np

class VectorIndexer:
def __init__(self):
self.res = faiss.StandardGpuResources()

def build_index(self):
# 加载特征数据
text_features = np.load("/auto-tmp/coco2017/processed/text_features.npy")

# 归一化处理
faiss.normalize_L2(text_features)

# 创建GPU索引
dim = text_features.shape[1]
index = faiss.IndexFlatIP(dim)
gpu_index = faiss.index_cpu_to_gpu(self.res, 0, index)

# 分块添加数据(优化显存使用)
chunk_size = 50000
for i in range(0, len(text_features), chunk_size):
gpu_index.add(text_features[i:i+chunk_size])

# 保存索引
cpu_index = faiss.index_gpu_to_cpu(gpu_index)
faiss.write_index(cpu_index, "/auto-tmp/coco2017/processed/faiss_index.index")

# 构建索引
indexer = VectorIndexer()
indexer.build_index()

# 4.检索系统实现
class ImageCaptionRetriever:
def __init__(self):
# 硬件配置
self.device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载模型
self.model, self.preprocess = clip.load("RN50x4", device=self.device)

# 加载索引
self.index = faiss.read_index("/auto-tmp/coco2017/processed/faiss_index.index")

# 加载元数据
with open("/auto-tmp/coco2017/processed/metadata.json") as f:
self.metadata = json.load(f)

def _format_output(self, captions):
"""按照模板格式化输出"""
base_template = """I am an intelligent image captioning bot.
Similar images have the following captions:
{captions}"""

caption_list = "\n".join([f"<{caption}>" for caption in captions])
return base_template.format(captions=caption_list)

def retrieve(self, image_path, top_k=5):
# 图像预处理
image = Image.open(image_path).convert("RGB")
tensor = self.preprocess(image).unsqueeze(0).to(self.device)

# 特征提取
with torch.no_grad(), torch.cuda.amp.autocast():
features = self.model.encode_image(tensor)
features /= features.norm(dim=-1, keepdim=True)

# GPU加速检索
gpu_index = faiss.index_cpu_to_gpu(faiss.StandardGpuResources(), 0, self.index)

# 执行搜索
_, indices = gpu_index.search(features.cpu().numpy().astype("float32"), top_k)

# 获取原始caption
results = [self.metadata[idx]["caption"] for idx in indices[0]]
return self._format_output(results)

# 使用示例
retriever = ImageCaptionRetriever()
output = retriever.retrieve("/path/to/query_image.jpg")
print(output)

认知觉醒与认知驱动

周岭老师的两本书:认知觉醒、认知驱动,常读常新~

读的越多,发现才能越来越把多本书的精华关联到一起。直到现在,才后知后觉地能把《穷查理宝典》、《纳瓦尔宝典》、《干法》通过《认知觉醒》关联起来。

想要得到一样东西,最好的方法就是让自己配得上它。财富、爱情、事业亦如此。

人间4月天,我要🌸

4月要TMD早点睡了,虽然现在越来越能熬,但是熬夜是真不如早睡早起(早会早起更适合我),争取利用清明节调整作息规律。

4月要好好养胃,绝对不能饮食不规律了,按时吃饭。

4月天气好了,比赛也会变多,注意别冒傻气,比赛千万注意别受伤

4月继续拼,好好工作,继续读书,读论文、调整实验代码,着手小论文的工作。


2025年3月总结与展望
http://example.com/2025/03/31/2025年3月总结与展望/
作者
Munger Yang
发布于
2025年3月31日
许可协议