Spaces:

ipvikas
/

ImageProcessing

Runtime error

App Files Files Community

ipvikas commited on Jan 12, 2023

Commit

44766f9

1 Parent(s): f5bd615

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -19

app.py CHANGED Viewed

@@ -3,13 +3,11 @@ import gradio as gr
 from PIL import Image
 import requests
 from transformers import ViTFeatureExtractor
 feature_extractor = ViTFeatureExtractor()
 # or, to load one that corresponds to a checkpoint on the hub:
 feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch16-224")
 from transformers import VisionEncoderDecoderModel
 # initialize a vit-bert from a pretrained ViT and a pretrained BERT model. Note that the cross-attention layers will be randomly initialized
 model = VisionEncoderDecoderModel.from_encoder_decoder_pretrained(
@@ -28,15 +26,6 @@ tokenizer = AutoTokenizer.from_pretrained(repo_name)
 model = VisionEncoderDecoderModel.from_pretrained(repo_name)
 def get_quote(image):
-    #image = Image.open(image_1).raw
-    #image = Image.open(image_1)
-    #url = "http://images.cocodataset.org/val2017/000000039769.jpg"
-    #with Image.open(requests.get(url, stream=True).raw) as image:
-    #image.save("cats.png")
     ##############
     pixel_values = feature_extractor(image, return_tensors="pt").pixel_values
@@ -47,18 +36,12 @@ def get_quote(image):
     # decode into text
     preds = tokenizer.batch_decode(generated_ids[0], skip_special_tokens=True)
     preds = [pred.strip() for pred in preds]
-    #print(preds)
     return preds
 #1: Text to Speech
-#import gradio as gr
-title = "Image to text generation"
-demo = gr.Interface(fn=get_quote, inputs=gr.inputs.Image(type="pil"), outputs=['text'],title = title, description = "Import an image file and get text from it" ,cache_examples=False, enable_queue=True).launch()
-#inputs = "image"
-#inputs=gr.inputs.Image(type="pil")
 if __name__ == "__main__":
     demo.launch(debug=True, cache_examples=True)

 from PIL import Image
 import requests
 from transformers import ViTFeatureExtractor
 feature_extractor = ViTFeatureExtractor()
 # or, to load one that corresponds to a checkpoint on the hub:
 feature_extractor = ViTFeatureExtractor.from_pretrained("google/vit-base-patch16-224")
 from transformers import VisionEncoderDecoderModel
 # initialize a vit-bert from a pretrained ViT and a pretrained BERT model. Note that the cross-attention layers will be randomly initialized
 model = VisionEncoderDecoderModel.from_encoder_decoder_pretrained(
 model = VisionEncoderDecoderModel.from_pretrained(repo_name)
 def get_quote(image):
     ##############
     pixel_values = feature_extractor(image, return_tensors="pt").pixel_values
     # decode into text
     preds = tokenizer.batch_decode(generated_ids[0], skip_special_tokens=True)
     preds = [pred.strip() for pred in preds]
     return preds
 #1: Text to Speech
+title = "Get a sentence with items, present in the image"
+demo = gr.Interface(fn=get_quote, inputs=gr.inputs.Image(type="pil"), outputs=['text'],title = title, description = "Upload an image file and get text from it" ,cache_examples=False, enable_queue=True).launch()
 if __name__ == "__main__":
     demo.launch(debug=True, cache_examples=True)