pluralchat

Sleeping

nsarrazin commited on Feb 7

Commit

cf63293

unverified ·

1 Parent(s): baaed81

feat(chart): use inference proxy (#1688)

* feat(chart): use inference proxy

* fix: also use `HF_API_ROOT` for embedding endpoints

Files changed (2) hide show

chart/env/prod.yaml CHANGED Viewed

@@ -159,7 +159,7 @@ envVars:
         "endpoints": [
           {
             "type": "openai",
-            "baseURL": "https://api-inference.huggingface.co/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B/v1"
           }
         ]
       },
@@ -193,7 +193,7 @@ envVars:
         "endpoints": [
           {
             "type": "openai",
-            "baseURL": "https://api-inference.huggingface.co/models/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF/v1"
           }
         ]
       },
@@ -261,7 +261,7 @@ envVars:
         "endpoints": [
           {
             "type": "openai",
-            "baseURL": "https://api-inference.huggingface.co/models/Qwen/Qwen2.5-Coder-32B-Instruct/v1"
           }
         ]
       },
@@ -280,7 +280,7 @@ envVars:
         "endpoints": [
           {
             "type": "openai",
-            "baseURL": "https://api-inference.huggingface.co/models/meta-llama/Llama-3.2-11B-Vision-Instruct/v1",
             "multimodal": {
               "image": {
                 "maxSizeInMB": 10,
@@ -597,7 +597,7 @@ envVars:
     ]
   HF_ORG_ADMIN: '644171cfbd0c97265298aa99'
   HF_ORG_EARLY_ACCESS: '5e67bd5b1009063689407478'
 infisical:
   enabled: true
   env: "prod-us-east-1"

         "endpoints": [
           {
             "type": "openai",
+            "baseURL": "https://proxy.serverless.api-inference.huggingface.tech/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B/v1"
           }
         ]
       },
         "endpoints": [
           {
             "type": "openai",
+            "baseURL": "https://proxy.serverless.api-inference.huggingface.tech/models/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF/v1"
           }
         ]
       },
         "endpoints": [
           {
             "type": "openai",
+            "baseURL": "https://proxy.serverless.api-inference.huggingface.tech/models/Qwen/Qwen2.5-Coder-32B-Instruct/v1"
           }
         ]
       },
         "endpoints": [
           {
             "type": "openai",
+            "baseURL": "https://proxy.serverless.api-inference.huggingface.tech/models/meta-llama/Llama-3.2-11B-Vision-Instruct/v1",
             "multimodal": {
               "image": {
                 "maxSizeInMB": 10,
     ]
   HF_ORG_ADMIN: '644171cfbd0c97265298aa99'
   HF_ORG_EARLY_ACCESS: '5e67bd5b1009063689407478'
+  HF_API_ROOT: 'https://proxy.serverless.api-inference.huggingface.tech/models'
 infisical:
   enabled: true
   env: "prod-us-east-1"

src/lib/server/embeddingEndpoints/hfApi/embeddingHfApi.ts CHANGED Viewed

@@ -18,7 +18,7 @@ export async function embeddingEndpointHfApi(
 	input: z.input<typeof embeddingEndpointHfApiSchema>
 ): Promise<EmbeddingEndpoint> {
 	const { model, authorization } = embeddingEndpointHfApiSchema.parse(input);
-	const url = "https://api-inference.huggingface.co/models/" + model.id;
 	return async ({ inputs }) => {
 		const batchesInputs = chunk(inputs, 128);

 	input: z.input<typeof embeddingEndpointHfApiSchema>
 ): Promise<EmbeddingEndpoint> {
 	const { model, authorization } = embeddingEndpointHfApiSchema.parse(input);
+	const url = `${env.HF_API_ROOT}/${model.id}`;
 	return async ({ inputs }) => {
 		const batchesInputs = chunk(inputs, 128);