目前的CLIP模型在处理这种情况时表现不一。它可能无法区分“有猫”和“没有猫”的细微差别,因为它们的文本特征在向量空间里离得很近。同时,它也可能因为“a photo of a cat”和“an image showing a feline ...