YAML Metadata Warning: The pipeline tag "text2text-generation" is not in the official list: text-classification, token-classification, table-question-answering, question-answering, zero-shot-classification, translation, summarization, feature-extraction, text-generation, fill-mask, sentence-similarity, text-to-speech, text-to-audio, automatic-speech-recognition, audio-to-audio, audio-classification, audio-text-to-text, voice-activity-detection, depth-estimation, image-classification, object-detection, image-segmentation, text-to-image, image-to-text, image-to-image, image-to-video, unconditional-image-generation, video-classification, reinforcement-learning, robotics, tabular-classification, tabular-regression, tabular-to-text, table-to-text, multiple-choice, text-ranking, text-retrieval, time-series-forecasting, text-to-video, image-text-to-text, image-text-to-image, image-text-to-video, visual-question-answering, document-question-answering, zero-shot-image-classification, graph-ml, mask-generation, zero-shot-object-detection, text-to-3d, image-to-3d, image-feature-extraction, video-text-to-text, keypoint-detection, visual-document-retrieval, any-to-any, video-to-video, other

Model Card for TeenCode Translator BARTpho

Hệ thống AI chuẩn hóa ngôn ngữ mạng xã hội (Teencode GenZ) sang Tiếng Việt tiêu chuẩn, bảo lưu trọn vẹn cảm xúc, biểu tượng và ngữ nghĩa gốc.

Model Details

Model Description

Đây là mô hình Seq2Seq được tinh chỉnh (fine-tuned) từ kiến trúc BARTpho. Mô hình được thiết kế đặc biệt để xử lý dữ liệu bình luận (comments) trên nền tảng TikTok và các đoạn chat GenZ. Điểm khác biệt của mô hình là khả năng dịch chuẩn xác các từ lóng phức tạp mà vẫn tuân thủ nghiêm ngặt các quy tắc bảo lưu ngoại ngữ, dấu câu, emoji và từ ngữ nhạy cảm gốc.

  • Developed by: Lớp phó học tập (6GN1)
  • Model type: Text-to-Text Generation (Seq2Seq Transformer)
  • Language(s) (NLP): Tiếng Việt (vi) / Teencode
  • License: MIT
  • Finetuned from model: BARTpho

Model Sources

  • Repository: Đang cập nhật (GitHub Link)
  • Demo: Tích hợp sẵn giao diện Gradio Real-time Translation.

Uses

Direct Use

Mô hình được sử dụng trực tiếp để:

  • Chuẩn hóa văn bản Teencode (VD: khum, j, đc, ntn, htrc).
  • Tiền xử lý dữ liệu (Data Preprocessing) cho các bài toán NLP Tiếng Việt khác (Phân tích cảm xúc, Phân loại văn bản).
  • Khôi phục văn bản viết tắt trên mạng xã hội thành văn bản hành chính/báo chí có thể đọc hiểu.

Out-of-Scope Use

  • Mô hình không hỗ trợ dịch thuật đa ngôn ngữ (VD: Anh sang Việt).
  • Không phải là mô hình đàm thoại (Chatbot/LLM) để hỏi đáp kiến thức.
  • Sẽ gặp hiện tượng ảo giác (hallucination) nếu nhồi nguyên một đoạn văn dài hơn 64 token mà không băm nhỏ (chunking) theo dấu câu.

Bias, Risks, and Limitations

CẢNH BÁO VỀ KIỂM DUYỆT TỪ NGỮ: Để đảm bảo tính nguyên bản của dữ liệu ngôn ngữ tự nhiên, mô hình được huấn luyện với quy tắc Tuyệt đối không kiểm duyệt từ chửi thề, lóng thô tục (VD: vcl, duma, vl...). Người dùng ứng dụng (Downstream Use) cần tự xây dựng bộ lọc từ ngữ (Profanity Filter) nếu triển khai cho môi trường học đường hoặc trẻ em.

Recommendations

Nên sử dụng mô hình kết hợp với bộ lọc hậu xử lý (Post-processing Pipeline) để xử lý linh hoạt đại từ nhân xưng, ví dụ: tự động đổi "tôi" thành "tao" nếu trong câu xuất hiện chữ "mày" để đảm bảo tính tự nhiên trong văn hóa giao tiếp Tiếng Việt.

How to Get Started with the Model

Sử dụng đoạn code dưới đây để gọi mô hình qua thư viện transformers:

from transformers import pipeline

translator = pipeline(
    "text2text-generation", 
    model="Tên-Tài-Khoản-Của-Bạn/TeenCode-Translator-BARTpho"
)

# Text đầu vào (chứa teencode, emoji và lóng)
text = "mai ik cf k duma t thik m vcl =))"

# Chạy inference
result = translator(text, max_length=64, num_beams=5, early_stopping=True)

print(result[0]['generated_text'])
# Output: "mai đi cà phê không duma tôi thích mày vcl =))"

Training Details

Training Data

Dữ liệu huấn luyện được thu thập từ các bình luận thực tế trên TikTok Việt Nam. Tập dữ liệu đã trải qua quá trình lọc nhiễu bằng thuật toán Cross-Entropy Loss:

  • Loại bỏ dữ liệu rác/sai nhãn (Loss > 12.0).
  • Tập trung vào tập "Golden Dataset" chứa các ca Teencode khó (1.0 < Loss < 2.0).
  • Bổ sung dữ liệu nhân tạo (Active Learning) cho các cụm từ mô hình thường dịch sai (cf, hnao, hsy, htrc).

Training Procedure

Mô hình được huấn luyện qua 2 giai đoạn:

  1. Phase 1 (Full Fine-tune): Huấn luyện trên toàn bộ tập dữ liệu gốc.
  2. Phase 2 (Hard Examples Fine-tune): Huấn luyện tập trung vào các câu khó với Learning Rate thấp để tránh Catastrophic Forgetting.

Training Hyperparameters

  • Training regime: fp16
  • Learning Rate: 2e-5 phase 2 & 5e-5 phase 1
  • Batch Size: 64 (Train & Eval)
  • Gradient Accumulation Steps: 1
  • Epochs: 5
  • Optimizer: AdamW
  • Weight Decay: 0.01

Evaluation

Testing Data, Factors & Metrics

Testing Data

Tập kiểm thử (Test set) chiếm 10% tổng số dữ liệu Golden Dataset, được tách biệt ngẫu nhiên trước khi đưa vào huấn luyện Phase 2.

Metrics

Sử dụng Cross-Entropy Loss (Eval Loss) để đánh giá khả năng mô hình hóa ngôn ngữ.

Results

  • Checkpoint: 464
  • Eval Loss: ~0.200
  • Grad Norm: Ổn định ở mức 1.3 - 3.4.
  • Tốc độ Inference: ~512 samples/second trên RTX 4060 Ti.

Summary

Mức Loss hội tụ ở 0.2 chứng minh mô hình không bị Overfitting mà đã thực sự nắm bắt được quy luật chuyển đổi ngữ nghĩa phức tạp của Teencode.

Technical Specifications

Compute Infrastructure

  • Hardware: 1x NVIDIA GeForce RTX 4060 Ti (16GB VRAM)
  • Software: PyTorch, Hugging Face Transformers, Datasets.
Downloads last month
52
Safetensors
Model size
0.4B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support