Agent Evals

Evaluation framework for AI coding agents (Claude Code, Codex, OpenCode). Runs Markdown test scenarios, judges results automatically, compares tool integration methods (MCP vs CLI vs mcpc).

Built on Apify — runs as a serverless Actor in Docker.

Actors

Agent Evals Runner — runs one scenario with one agent, returns structured verdicts + metrics + trajectory. See its README for quickstart, scenario format, checkpoint syntax, and output reference.

Project structure

shared/src/          Shared library (types, parsers, judge, agent adapters, OTel)
actors/runner/       Apify Actor — the eval runner
scenarios/           21 ready-to-use test scenarios
examples/            9 example input JSON files
docs/                Architecture decisions, research, build log

Docs

Runner README — quickstart, scenario format, checkpoint syntax, output reference
How we built it — 7-day build timeline
Architecture decisions — why standalone Docker, TypeScript, markdown scenarios
Implementation plan — original phased plan with user stories

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
.actor		.actor
.github/workflows		.github/workflows
actors/runner		actors/runner
docs		docs
examples		examples
scenarios		scenarios
shared		shared
spikes		spikes
test		test
.actorignore		.actorignore
.dockerignore		.dockerignore
.editorconfig		.editorconfig
.gitignore		.gitignore
.npmrc		.npmrc
.prettierignore		.prettierignore
.prettierrc		.prettierrc
AGENTS.md		AGENTS.md
CLAUDE.md		CLAUDE.md
Dockerfile		Dockerfile
PROJECT.md		PROJECT.md
README.md		README.md
package-lock.json		package-lock.json
package.json		package.json
tsconfig.base.json		tsconfig.base.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Agent Evals

Actors

Project structure

Docs

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Agent Evals

Actors

Project structure

Docs

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages