Spaces:

taekooktea
/

kooktaeeee

Sleeping

App Files Files Community

taekooktea commited on Oct 2

Commit

f54eedc

verified ·

1 Parent(s): 63b9d67

Update utils.py

Browse files

Files changed (1) hide show

utils.py +16 -22

utils.py CHANGED Viewed

@@ -2,32 +2,28 @@ from transformers import AutoTokenizer
 from optimum.onnxruntime import ORTModelForCausalLM, ORTOptions
 from config import MODEL_NAME, MAX_NEW_TOKENS, TEMPERATURE, MAX_INPUT_LENGTH
-# 模型加载：CPU专属极速配置（INT8量化+内存优化，无无效计算）
 options = ORTOptions(
-    enable_int8=True,  # 核心：INT8量化，CPU计算量减半
-    enable_dynamic_quantization=True,  # 动态量化，适配不同输入长度
-    enable_cpu_mem_optimization=True,  # 新增：优化CPU内存分配，避免卡顿
-    enable_flash_attention=False,  # 关键：CPU不支持FlashAttention，关闭省检测耗时
-    enable_sequential_execution=True  # 适配CPU单核心/低核心，避免线程切换浪费
 )
-# 加载ONNX模型（明确指定CPU，跳过设备检测）
 model = ORTModelForCausalLM.from_pretrained(
     MODEL_NAME,
     from_transformers=True,
     ort_options=options,
-    device_map="cpu",  # 锁定CPU，避免资源分配耗时
-    trust_remote_code=True  # 兼容Phi-3-mini的ONNX格式，避免加载报错
 )
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_NAME,
     trust_remote_code=True,
-    padding_side="left"  # 优化批量推理时的padding效率
 )
-# 推理函数（和模型配置对齐，无多余计算）
 def generate_response(input_texts):
-    # 输入处理：精简token，避免冗余
     inputs = tokenizer(
         input_texts,
         return_tensors="pt",
@@ -36,18 +32,16 @@ def generate_response(input_texts):
         max_length=MAX_INPUT_LENGTH,
         add_special_tokens=True
     )
-    # 生成逻辑：极速模式（单beam+早停，无随机采样）
     outputs = model.generate(
         **inputs,
         max_new_tokens=MAX_NEW_TOKENS,
         temperature=TEMPERATURE,
-        do_sample=False,  # 关闭随机采样，减少CPU计算
-        num_beams=1,      # 单beam搜索，比多beam快50%+
-        early_stopping=True,  # 遇到终止符即停，不做无用功
-        use_cache=True,   # 启用缓存，复用前序计算结果
-        pad_token_id=tokenizer.eos_token_id  # 统一pad与终止符，避免警告
     )
-    # 输出解码：跳过特殊token，快速返回
-    return tokenizer.batch_decode(outputs, skip_special_tokens=True)

 from optimum.onnxruntime import ORTModelForCausalLM, ORTOptions
 from config import MODEL_NAME, MAX_NEW_TOKENS, TEMPERATURE, MAX_INPUT_LENGTH
 options = ORTOptions(
+    enable_int8=True,
+    enable_dynamic_quantization=True,
+    enable_cpu_mem_optimization=True,
+    enable_flash_attention=False,
+    enable_sequential_execution=True
 )
 model = ORTModelForCausalLM.from_pretrained(
     MODEL_NAME,
     from_transformers=True,
     ort_options=options,
+    device_map="cpu",
+    trust_remote_code=True
 )
 tokenizer = AutoTokenizer.from_pretrained(
     MODEL_NAME,
     trust_remote_code=True,
+    padding_side="left"
 )
 def generate_response(input_texts):
     inputs = tokenizer(
         input_texts,
         return_tensors="pt",
         max_length=MAX_INPUT_LENGTH,
         add_special_tokens=True
     )
     outputs = model.generate(
         **inputs,
         max_new_tokens=MAX_NEW_TOKENS,
         temperature=TEMPERATURE,
+        do_sample=False,
+        num_beams=1,
+        early_stopping=True,
+        use_cache=True,
+        pad_token_id=tokenizer.eos_token_id
     )
+    return tokenizer.batch_decode(outputs, skip_special_tokens=True)
+__all__ = ["generate_response", "tokenizer"]