dandelin
/

vilt-b32-finetuned-vqa

Visual Question Answering

Model card Files Files and versions

Upload app.py

#13

by Neryvert - opened Jan 15, 2025

base: refs/heads/main

←

from: refs/pr/13

Discussion Files changed

Files changed (1) hide show

app.py +20 -0

app.py ADDED Viewed

	@@ -0,0 +1,20 @@

+from transformers import ViltProcessor, ViltForQuestionAnswering
+import requests
+from PIL import Image
+# prepare image + question
+url = "http://images.cocodataset.org/val2017/000000039769.jpg"
+image = Image.open(requests.get(url, stream=True).raw)
+text = "How many cats are there?"
+processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+# prepare inputs
+encoding = processor(image, text, return_tensors="pt")
+# forward pass
+outputs = model(**encoding)
+logits = outputs.logits
+idx = logits.argmax(-1).item()
+print("Predicted answer:", model.config.id2label[idx])