sync

Frank · Frank · commit f23dbb5c9acd · 2025-12-27T01:02:44.000-05:00
diff --git a/.github/workflows/run-benchmark.yml b/.github/workflows/run-benchmark.yml
@@ -21,13 +21,20 @@ jobs:
     runs-on: ubuntu-latest
     outputs:
       tasks: ${{ steps.split.outputs.tasks }}
+      model_safe: ${{ steps.sanitize.outputs.model_safe }}
     steps:
       - name: Split tasks into matrix
         id: split
         run: |
           TASKS_JSON=$(echo "${{ inputs.tasks }}" | tr ',' '\n' | sed 's/^[[:space:]]*//;s/[[:space:]]*$//' | jq -R -s -c 'split("\n") | map(select(length > 0))')
           echo "tasks=$TASKS_JSON" >> $GITHUB_OUTPUT
 
+      - name: Sanitize model name for artifacts
+        id: sanitize
+        run: |
+          MODEL_SAFE=$(echo "${{ inputs.model }}" | sed 's/\//-/g')
+          echo "model_safe=${MODEL_SAFE}" >> $GITHUB_OUTPUT
+
   benchmark:
     needs: prepare
     runs-on: ubuntu-latest
@@ -51,31 +58,21 @@ jobs:
       - name: Install OpenCode CLI
         run: bun add -g opencode-ai
 
-      - name: Print benchmark config
-        env:
-          MODEL: ${{ inputs.model }}
-          TASK: ${{ matrix.task }}
-          RUN: ${{ matrix.run }}
-        run: |
-          echo "Model: ${MODEL}"
-          echo "Task: ${TASK}"
-          echo "Run: ${RUN}"
-
       - name: Run benchmark
         env:
           OPENCODE_API_KEY: ${{ secrets.OPENCODE_API_KEY }}
           DEBUG: true
           TASK: ${{ matrix.task }}
           MODEL: ${{ inputs.model }}
           AGENT: ${{ inputs.agent }}
-          RESULT_PATH: result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run${{ matrix.run }}.json
+          RESULT_PATH: result-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}-run${{ matrix.run }}.json
         run: bun github/run.ts
 
       - name: Upload benchmark results
         uses: actions/upload-artifact@v4
         with:
-          name: result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run${{ matrix.run }}
-          path: result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run${{ matrix.run }}.json
+          name: result-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}-run${{ matrix.run }}
+          path: result-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}-run${{ matrix.run }}.json
 
   summarize-runs:
     needs: [prepare, benchmark]
@@ -95,35 +92,24 @@ jobs:
       - name: Install dependencies
         run: bun install
 
-      - name: Download run 1 results
+      - name: Download all run results
         uses: actions/download-artifact@v4
         with:
-          name: result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run1
-          path: results
-
-      - name: Download run 2 results
-        uses: actions/download-artifact@v4
-        with:
-          name: result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run2
-          path: results
-
-      - name: Download run 3 results
-        uses: actions/download-artifact@v4
-        with:
-          name: result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run3
+          pattern: result-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}-run*
           path: results
 
       - name: Summarize runs
-        env:
-          RESULT_PATHS: results/result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run1.json,results/result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run2.json,results/result-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}-run3.json
-          RUNS_SUMMARY_PATH: runs-summary-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}.json
-        run: bun github/summarize-runs.ts
+        run: |
+          RESULT_PATHS=$(find results -name 'result-*.json' | sort | tr '\n' ',' | sed 's/,$//')
+          export RESULT_PATHS
+          export RUNS_SUMMARY_PATH=runs-summary-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}.json
+          bun github/summarize-runs.ts
 
       - name: Upload runs summary
         uses: actions/upload-artifact@v4
         with:
-          name: runs-summary-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}
-          path: runs-summary-${{ matrix.task }}-${{ inputs.model }}-${{ inputs.agent }}.json
+          name: runs-summary-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}
+          path: runs-summary-${{ inputs.agent }}-${{ needs.prepare.outputs.model_safe }}-${{ matrix.task }}.json
 
   summarize-tasks:
     needs: summarize-runs
diff --git a/github/run.ts b/github/run.ts
@@ -2,12 +2,11 @@
 import { writeFile } from "node:fs/promises";
 import { Logger } from "../src/util/logger.js";
 import { Eval } from "../src/eval.js";
-import { sanitizeFilename } from "../src/util/fs.js";
 
 const task = process.env.TASK!;
 const model = process.env.MODEL!;
 const agent = process.env.AGENT!;
-const resultPath = sanitizeFilename(process.env.RESULT_PATH!);
+const resultPath = process.env.RESULT_PATH!;
 
 // Run eval
 const result = await Eval.run(agent, model, task, {
diff --git a/github/summarize-runs.ts b/github/summarize-runs.ts
@@ -1,14 +1,13 @@
 #!/usr/bin/env bun
 import { readFile, writeFile } from "node:fs/promises";
 import { Summarizer } from "../src/summarizer.js";
-import { sanitizeFilename } from "../src/util/fs.js";
 
 const resultPaths = process.env.RESULT_PATHS!;
-const runsSummaryPath = sanitizeFilename(process.env.RUNS_SUMMARY_PATH!);
+const runsSummaryPath = process.env.RUNS_SUMMARY_PATH!;
 
 const results = await Promise.all(
   resultPaths.split(",").map(async (resultPath) => {
-    const result = await readFile(sanitizeFilename(resultPath), "utf8");
+    const result = await readFile(resultPath, "utf8");
     return JSON.parse(result);
   }),
 );
diff --git a/github/summarize-tasks.ts b/github/summarize-tasks.ts
@@ -1,17 +1,13 @@
 #!/usr/bin/env bun
 import { readFile, writeFile } from "node:fs/promises";
 import { Summarizer } from "../src/summarizer.js";
-import { sanitizeFilename } from "../src/util/fs.js";
 
 const runsSummaryPaths = process.env.RUNS_SUMMARY_PATHS!;
-const tasksSummaryPath = sanitizeFilename(process.env.TASKS_SUMMARY_PATH!);
+const tasksSummaryPath = process.env.TASKS_SUMMARY_PATH!;
 
 const runsSummaries = await Promise.all(
   runsSummaryPaths.split(",").map(async (runsSummaryPath) => {
-    const runsSummary = await readFile(
-      sanitizeFilename(runsSummaryPath),
-      "utf8",
-    );
+    const runsSummary = await readFile(runsSummaryPath, "utf8");
     return JSON.parse(runsSummary);
   }),
 );
diff --git a/src/util/fs.ts b/src/util/fs.ts
@@ -9,7 +9,3 @@ export async function fileExists(path: string) {
     return false;
   }
 }
-
-export function sanitizeFilename(filename: string) {
-  return filename.replace(/[/]/g, "-");
-}

Original file line number	Diff line number	Diff line change
`@@ -9,7 +9,3 @@ export async function fileExists(path: string) {`
`9`	`9`	`return false;`
`10`	`10`	`}`
`11`	`11`	`}`
`12`		`-`
`13`		`-export function sanitizeFilename(filename: string) {`
`14`		`- return filename.replace(/[/]/g, "-");`
`15`		`-}`