Spaces:

Madras1
/

APILARGE

Running on Zero

App Files Files Community

Madras1 commited on 10 days ago

Commit

c605755

verified ·

1 Parent(s): 828879d

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -14

app.py CHANGED Viewed

@@ -4,44 +4,44 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 # --- CONFIGURAÇÃO DOS TITÃS ---
-# Berta: Aqui só entra peso pesado. Nada abaixo de 70B!
 MODEL_ID = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
-print(f"🏗️ Berta: Preparando o hangar para o Titã {MODEL_ID}...")
-# Variáveis Globais
 model = None
 tokenizer = None
 def load_titan():
     global model, tokenizer
     if model is None:
-        print(f"🔥 Berta: Acordando o gigante... (Isso pode levar uns segundos)")
         try:
             # Carregando Tokenizer
             tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
             # Carregando Modelo GPTQ
-            # Berta: disable_exllama=False é mais rápido, mas se der erro no ZeroGPU, mude para True.
             model = AutoModelForCausalLM.from_pretrained(
                 MODEL_ID,
                 device_map="auto",
                 trust_remote_code=True,
-                torch_dtype=torch.float16 # GPTQ geralmente opera melhor casting para fp16
             )
-            print("✅ O Titã Qwen 72B está online e operante, meu príncipe!")
         except Exception as e:
             print(f"❌ Erro catastrófico ao carregar o Titã: {e}")
             raise e
     return model, tokenizer
 # --- FUNÇÃO DE GERAÇÃO (ZEROGPU) ---
-# Aumentei a duração para 120s, modelos gigantes pensam mais devagar e geram códigos longos
 @spaces.GPU(duration=120)
 def generate(message, history, system_prompt, temperature, max_tokens):
     model, tokenizer = load_titan()
-    # Construindo o histórico no formato que o Qwen gosta
     messages = []
     if system_prompt:
         messages.append({"role": "system", "content": system_prompt})
@@ -60,7 +60,7 @@ def generate(message, history, system_prompt, temperature, max_tokens):
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    # Parâmetros de Geração para Gigantes
     outputs = model.generate(
         **inputs,
         max_new_tokens=max_tokens,
@@ -68,14 +68,15 @@ def generate(message, history, system_prompt, temperature, max_tokens):
         do_sample=True,
         top_p=0.95,
         top_k=40,
-        repetition_penalty=1.1 # Importante para modelos grandes não entrarem em loop
     )
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response
 # --- INTERFACE ---
-with gr.Blocks(theme=gr.themes.Soft(primary_hue="purple")) as demo:
     gr.Markdown("# 🏛️ Templo dos Gigantes (Qwen 72B API)")
     gr.Markdown(f"### Atendendo: Gabriel | Modelo Ativo: `{MODEL_ID}` (H200 Powered)")
@@ -94,6 +95,4 @@ with gr.Blocks(theme=gr.themes.Soft(primary_hue="purple")) as demo:
     )
 if __name__ == "__main__":
-    # Carregamento inicial (opcional, mas bom para aquecer)
-    # load_titan()
     demo.launch()

 from transformers import AutoModelForCausalLM, AutoTokenizer
 # --- CONFIGURAÇÃO DOS TITÃS ---
+# Berta: Usando a versão GPTQ-Int4 para caber confortavelmente e rodar rápido
 MODEL_ID = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
+print(f"🏗️ Berta: Iniciando protocolos para o Titã {MODEL_ID}...")
+# Variáveis Globais (Cache)
 model = None
 tokenizer = None
 def load_titan():
     global model, tokenizer
     if model is None:
+        print(f"🔥 Berta: Acordando o gigante na H200... (Isso pode levar uns segundos)")
         try:
             # Carregando Tokenizer
             tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
             # Carregando Modelo GPTQ
+            # device_map="auto" vai distribuir os 41GB de VRAM necessários automaticamente
             model = AutoModelForCausalLM.from_pretrained(
                 MODEL_ID,
                 device_map="auto",
                 trust_remote_code=True,
+                torch_dtype=torch.float16
             )
+            print("✅ O Titã Qwen 72B está online e operante, Gabriel!")
         except Exception as e:
             print(f"❌ Erro catastrófico ao carregar o Titã: {e}")
             raise e
     return model, tokenizer
 # --- FUNÇÃO DE GERAÇÃO (ZEROGPU) ---
+# Duration=120s garante que respostas longas e complexas não sejam cortadas
 @spaces.GPU(duration=120)
 def generate(message, history, system_prompt, temperature, max_tokens):
     model, tokenizer = load_titan()
+    # Construindo o histórico no formato ChatML que o Qwen adora
     messages = []
     if system_prompt:
         messages.append({"role": "system", "content": system_prompt})
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
+    # Parâmetros de Geração Otimizados
     outputs = model.generate(
         **inputs,
         max_new_tokens=max_tokens,
         do_sample=True,
         top_p=0.95,
         top_k=40,
+        repetition_penalty=1.1 # Evita loops em respostas longas
     )
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response
 # --- INTERFACE ---
+# Berta: Usando gr.Blocks() limpo para evitar conflitos de versão
+with gr.Blocks() as demo:
     gr.Markdown("# 🏛️ Templo dos Gigantes (Qwen 72B API)")
     gr.Markdown(f"### Atendendo: Gabriel | Modelo Ativo: `{MODEL_ID}` (H200 Powered)")
     )
 if __name__ == "__main__":
     demo.launch()