Spaces:

opencompass
/

MultiPLE-Evaluator

Paused

App Files Files Community

dongsheng commited on Mar 31

Commit

142f54f

verified ·

1 Parent(s): 0c517c7

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -13

app.py CHANGED Viewed

@@ -155,8 +155,7 @@ def evaluate(input_data):
                 item = future_to_item[future]
                 try:
                     result = future.result()
-                    item.update(result)
-                    results.append(item)
                 except Exception as e:
                     item.update({"status": "Exception", "error": str(e)})
                     results.append(item)
@@ -180,26 +179,39 @@ def evaluate_single_case(input_data):
         # Use a retry mechanism for all languages for better reliability
         max_retries = 2  # One retry for all languages
-        results = []
         for comp in completions:
             code = input_data.get('prompt') + comp + '\n' + input_data.get('tests')
-            # Try up to max_retries + 1 times for all test cases
-            for attempt in range(max_retries + 1):
                 result = evaluate_code(code, language)
                 # If success or last attempt, return/record the result
-                if result["status"] == "OK" or attempt == max_retries:
-                    if result["status"] == "OK":
-                        return result
-                    results.append(result)
                     break
                 # For retries, briefly wait to allow resources to stabilize
                 time.sleep(0.3)
-        return results[0]
     except Exception as e:
         return {"status": "Exception", "error": str(e)}

                 item = future_to_item[future]
                 try:
                     result = future.result()
+                    results.append(result)
                 except Exception as e:
                     item.update({"status": "Exception", "error": str(e)})
                     results.append(item)
         # Use a retry mechanism for all languages for better reliability
         max_retries = 2  # One retry for all languages
+        status_list, stderr_list = [], []
         for comp in completions:
             code = input_data.get('prompt') + comp + '\n' + input_data.get('tests')
+            # Try up to max_retries times for all test cases
+            for attempt in range(max_retries):
                 result = evaluate_code(code, language)
                 # If success or last attempt, return/record the result
+                if result["status"] == "OK":
                     break
                 # For retries, briefly wait to allow resources to stabilize
                 time.sleep(0.3)
+            status_list.append(result["status"])
+            stderr_list.append(result["stderr"])
+        processed_completions = input_data.pop('processed_completions', [])
+        completions = input_data.pop('completions', [])
+        meta_data = [
+            {
+                'processed_completion': p_comp,
+                'completion': comp,
+                'status': status,
+                'stderr': stderr
+            }
+            for p_comp, comp, status, stderr in zip(processed_completions, completions, status_list, stderr_list)
+        ]
+        input_data['meta_data'] = meta_data
+        return input_data
     except Exception as e:
         return {"status": "Exception", "error": str(e)}