Spaces:

lapa-llm
/

lapa

Running on Zero

App Files Files Community

JustQuiteMadMax commited on Sep 14

Commit

27ebbf9

verified ·

1 Parent(s): fba7f09

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +15 -3

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import spaces
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from kernels import get_kernel
 #vllm_flash_attn3 = get_kernel("kernels-community/vllm-flash-attn3")
@@ -18,7 +19,11 @@ from kernels import get_kernel
 #torch._dynamo.config.disable = True
 MODEL_ID = "le-llm/lapa-v0.1-reasoning-only-32768"
 def load_model():
     """Lazy-load model & tokenizer (for zeroGPU)."""
@@ -28,7 +33,7 @@ def load_model():
         MODEL_ID,
         dtype=torch.bfloat16,  # if device == "cuda" else torch.float32,
         device_map="auto",  # if device == "cuda" else None,
-        attn_implementation="flash_attention_2",# "kernels-community/vllm-flash-attn3", #  #
     )  # .cuda()
     print(f"Selected device:", device)
     return model, tokenizer, device
@@ -54,12 +59,13 @@ def append_example_message(x: gr.SelectData, history):
 @spaces.GPU
 def bot(
-    history: list[dict[str, str]],
     # max_tokens,
     # temperature,
     # top_p,
 ):
     # [{"role": "system", "content": system_message}] +
     # Build conversation
     max_tokens = 4096
@@ -103,6 +109,9 @@ def bot(
         history[-1]["content"] += new_text
         yield history
 # --- drop-in UI compatible with older Gradio versions ---
 import os, tempfile, time
@@ -130,6 +139,9 @@ def _clear_chat():
     return "", []
 with gr.Blocks(theme=THEME, css=CSS, fill_height=True) as demo:
     # Header (no gr.Box to avoid version issues)
     gr.HTML(
         """

 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+from analytics import AnalyticsLogger
 from kernels import get_kernel
 #vllm_flash_attn3 = get_kernel("kernels-community/vllm-flash-attn3")
 #torch._dynamo.config.disable = True
 MODEL_ID = "le-llm/lapa-v0.1-reasoning-only-32768"
+logger = AnalyticsLogger()
+def _begin_analytics_session():
+    # Called once per client on app load
+    _ = logger.start_session(MODEL_ID)
 def load_model():
     """Lazy-load model & tokenizer (for zeroGPU)."""
         MODEL_ID,
         dtype=torch.bfloat16,  # if device == "cuda" else torch.float32,
         device_map="auto",  # if device == "cuda" else None,
+        attn_implementation="flash_attention_2",# "kernels-community/vllm-flash-attn3", #  #
     )  # .cuda()
     print(f"Selected device:", device)
     return model, tokenizer, device
 @spaces.GPU
 def bot(
+    history: list[dict[str, str]]
     # max_tokens,
     # temperature,
     # top_p,
 ):
+    user_message = history[-1]["content"]
+    print('User message:', user_message)
     # [{"role": "system", "content": system_message}] +
     # Build conversation
     max_tokens = 4096
         history[-1]["content"] += new_text
         yield history
+    assistant_message = history[-1]["content"]
+    logger.log_interaction(user=user_message, answer=assistant_message)
 # --- drop-in UI compatible with older Gradio versions ---
 import os, tempfile, time
     return "", []
 with gr.Blocks(theme=THEME, css=CSS, fill_height=True) as demo:
+    demo.load(fn=_begin_analytics_session, inputs=None, outputs=None)
     # Header (no gr.Box to avoid version issues)
     gr.HTML(
         """