refactor: group evaluation results by set ID to support multi-set processing and update test assertions

boyangsvl · boyangsvl · commit 0b5f4bf9e85a · 2026-04-08T18:17:22.000-07:00
Change-Id: Ifdc28f07307ee65c87a2d1967aebb6074d72f90d
diff --git a/src/google/adk/evaluation/local_eval_service.py b/src/google/adk/evaluation/local_eval_service.py
@@ -215,23 +215,24 @@ async def run_evaluation(inference_result):
         for inference_result in evaluate_request.inference_results
     ]
 
-    eval_case_results = []
-    app_name = None
-    eval_set_id = None
+    results_by_set = {}
 
     for evaluation_task in asyncio.as_completed(evaluation_tasks):
       inference_result, eval_case_result = await evaluation_task
-      eval_case_results.append(eval_case_result)
-      app_name = inference_result.app_name
-      eval_set_id = inference_result.eval_set_id
+      results_by_set.setdefault(inference_result.eval_set_id, []).append(
+          (inference_result.app_name, eval_case_result)
+      )
       yield eval_case_result
 
-    if self._eval_set_results_manager and eval_case_results:
-      self._eval_set_results_manager.save_eval_set_result(
-          app_name=app_name,
-          eval_set_id=eval_set_id,
-          eval_case_results=eval_case_results,
-      )
+    if self._eval_set_results_manager:
+      for eval_set_id, results in results_by_set.items():
+        app_name = results[0][0]
+        cases = [r[1] for r in results]
+        self._eval_set_results_manager.save_eval_set_result(
+            app_name=app_name,
+            eval_set_id=eval_set_id,
+            eval_case_results=cases,
+        )
 
   async def _evaluate_single_inference_result(
       self, inference_result: InferenceResult, evaluate_config: EvaluateConfig
diff --git a/tests/unittests/cli/utils/test_cli_tools_click.py b/tests/unittests/cli/utils/test_cli_tools_click.py
@@ -1297,7 +1297,7 @@ def test_cli_eval_with_eval_set_id(
   eval_set_results = eval_set_results_manager.list_eval_set_results(
       app_name=app_name
   )
-  assert len(eval_set_results) == 2
+  assert len(eval_set_results) == 1
 
 
 def test_cli_create_eval_set(tmp_path: Path):

Original file line number	Diff line number	Diff line change
`@@ -1297,7 +1297,7 @@ def test_cli_eval_with_eval_set_id(`
`1297`	`1297`	`eval_set_results = eval_set_results_manager.list_eval_set_results(`
`1298`	`1298`	`app_name=app_name`
`1299`	`1299`	`)`
`1300`		`- assert len(eval_set_results) == 2`
	`1300`	`+ assert len(eval_set_results) == 1`
`1301`	`1301`
`1302`	`1302`
`1303`	`1303`	`def test_cli_create_eval_set(tmp_path: Path):`