update: change location of judge summary

tmickleydoyle · tmickleydoyle · commit 6d002ca5c216 · 2025-10-29T20:27:00.000-04:00
diff --git a/.github/workflows/benchmark-reusable.yml b/.github/workflows/benchmark-reusable.yml
@@ -140,6 +140,22 @@ jobs:
               exit 1
             fi
 
+      - name: Generate Judges Summary for this Evaluation
+        env:
+          OPENCODE_API_KEY: ${{ secrets.OPENCODE_API_KEY }}
+          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
+          BENCHMARK_EVAL: ${{ matrix.eval }}
+        run: |
+          set -euo pipefail
+          echo ""
+          echo "═══════════════════════════════════════════════════════"
+          echo "JUDGE CONSISTENCY ANALYSIS"
+          echo "Evaluation: ${BENCHMARK_EVAL}"
+          echo "═══════════════════════════════════════════════════════"
+          echo ""
+          bun run scripts/judges-summary.ts benchmark.json --ai-summary || true
+          echo ""
+
       - name: Prepare artifact name
         id: artifact
         env:
@@ -181,27 +197,6 @@ jobs:
         with:
           path: benchmarks
 
-      - name: Generate Judges Summaries per Evaluation
-        env:
-          OPENCODE_API_KEY: ${{ secrets.OPENCODE_API_KEY }}
-          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
-        run: |
-          set -euo pipefail
-          echo "═══════════════════════════════════════════════════════"
-          echo "JUDGE CONSISTENCY ANALYSIS PER EVALUATION"
-          echo "═══════════════════════════════════════════════════════"
-
-          # Find all benchmark JSON files
-          for benchmark_file in benchmarks/*/*.json; do
-            if [ -f "$benchmark_file" ]; then
-              echo ""
-              echo "Analyzing: $benchmark_file"
-              echo "───────────────────────────────────────────────────────"
-              bun run scripts/judges-summary.ts "$benchmark_file" --ai-summary || true
-              echo ""
-            fi
-          done
-
       - name: Merge benchmark exports
         run: bun run scripts/merge-benchmark-exports.ts benchmarks merged-benchmark.json