Spaces:

yuhueng
/

SinglishTest

Sleeping

yuhueng commited on Dec 4, 2025

Commit

9127d81

verified ·

1 Parent(s): 12a9af4

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import spaces
+import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+MODEL_ID = "meta-llama/Llama-3.2-1B-Instruct"  # replace with your model
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.float16,
+    device_map="cuda"
+)
+@spaces.GPU(duration=120)
+def inference(prompt: str, max_tokens: int = 256) -> str:
+    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=max_tokens,
+        do_sample=True,
+        temperature=0.7,
+        pad_token_id=tokenizer.eos_token_id
+    )
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+demo = gr.Interface(
+    fn=inference,
+    inputs=[
+        gr.Textbox(label="prompt"),
+        gr.Number(value=256, label="max_tokens")
+    ],
+    outputs=gr.Textbox(label="response"),
+    api_name="inference"  # explicit endpoint name: /inference
+)
+demo.launch()