训练在16张NVIDIA A100 GPU上进行,每张GPU配备80GB内存。在推理阶段,所有答案生成都使用确定性贪婪解码,确保结果的可重现性和可比较性。对于伪问答生成,团队选择使用核采样技术来为每个视觉输入生成多样化的问答对。
Note: You may need 80GB GPU memory to run this script with deepseek-vl2-small and even larger for deepseek-vl2.