chore: mover tareas 06-07 a completed y añadir tareas 08-09

Mueve las tareas completadas (06-añadir-claude-p, 07-logs-mejorados) al directorio completed/. Añade nuevas tareas pendientes: 08-knowledge_por_agente y 09-command_system. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-03-06 23:02:50 +00:00
parent 6eb8ea829f
commit 515c26d56d
4 changed files with 306 additions and 1 deletions
@@ -0,0 +1,317 @@
+# Plan: Claude Code (`claude -p`) como proveedor LLM de la shell
+
+## Objetivo
+
+Que `claude -p` sea un backend LLM más dentro de `shell/llm/`, al mismo nivel que la API HTTP de Anthropic u otros proveedores. Los agentes no saben si su "modelo" es una llamada REST o un subproceso de Claude Code — simplemente envían un `CompletionRequest` y reciben un `CompletionResult`.
+
+## Estado: Completado
+
+---
+
+## Casos de uso
+
+- Configurar un agente con `model: claude-code` y que todas sus respuestas pasen por `claude -p`
+- Un agente usa Claude Code como modelo principal, obteniendo capacidades agenticas (bash, file I/O, git) gratis sin implementarlas en nuestra shell
+- Agentes que necesitan razonar sobre un repo completo delegan al modelo `claude-code` que ya tiene contexto del worktree
+- Migrar agentes entre proveedores cambiando solo el campo `model` en YAML
+- Combinar modelos: un agente usa `sonnet` para respuestas rápidas y `claude-code` para tareas que requieren ejecución
+
+---
+
+## Diseño
+
+### Config YAML — el agente simplemente elige su modelo
+
+```yaml
+agents:
+  - name: "dev-bot"
+    model: "claude-code"          # ← usa claude -p como backend LLM
+    model_config:
+      binary: "claude"            # path al binario (default: "claude")
+      max_turns: 10               # turnos agenticos internos de claude -p
+      timeout: "5m"
+      allowed_tools:              # tools que claude -p puede usar internamente
+        - "bash"
+        - "read_file"
+        - "write_file"
+        - "git"
+      working_dir: "{{worktree}}"
+      system_prompt_file: "prompts/dev-bot-system.md"
+
+  - name: "chat-bot"
+    model: "sonnet"               # ← usa API HTTP normal
+    model_config:
+      api_key_env: "ANTHROPIC_API_KEY"
+```
+
+El campo `model` determina qué proveedor de `shell/llm/` se instancia. La `model_config` es específica de cada proveedor.
+
+---
+
+### Interfaz pura (core) — sin cambios
+
+La interfaz del core no cambia. El contrato ya existe:
+
+```go
+// core/llm/types.go — esto ya existe o debería existir
+
+type CompletionRequest struct {
+    SystemPrompt string
+    Messages     []Message
+    Temperature  float64
+    MaxTokens    int
+}
+
+type CompletionResult struct {
+    Content     string
+    TokensUsed  TokenUsage
+    FinishReason string        // "stop", "max_turns", "timeout", "error"
+    Metadata     map[string]string
+}
+
+type TokenUsage struct {
+    Input  int
+    Output int
+}
+```
+
+El core solo conoce esta interfaz. No sabe si detrás hay HTTP, un subproceso o una paloma mensajera.
+
+---
+
+### Shell — interfaz `Provider` y registro de proveedores
+
+```go
+// shell/llm/provider.go
+
+type Provider interface {
+    Complete(ctx context.Context, req core.CompletionRequest) (core.CompletionResult, error)
+    Close() error
+}
+
+// Registry mapea nombres de modelo a constructores de Provider
+type Registry struct {
+    factories map[string]Factory
+}
+
+type Factory func(cfg map[string]any, logger *slog.Logger) (Provider, error)
+
+func (r *Registry) Register(name string, f Factory)
+func (r *Registry) Build(name string, cfg map[string]any, logger *slog.Logger) (Provider, error)
+```
+
+---
+
+### Shell — proveedor HTTP (el que ya existe o existiría)
+
+```go
+// shell/llm/anthropic/provider.go
+
+type AnthropicProvider struct {
+    client  *http.Client
+    apiKey  string
+    model   string    // "claude-sonnet-4-20250514", etc.
+    baseURL string
+}
+
+func NewAnthropicProvider(cfg map[string]any, logger *slog.Logger) (llm.Provider, error)
+
+func (p *AnthropicProvider) Complete(ctx context.Context, req core.CompletionRequest) (core.CompletionResult, error) {
+    // Construir JSON → POST /v1/messages → parsear respuesta
+}
+```
+
+---
+
+### Shell — proveedor Claude Code (el nuevo)
+
+```go
+// shell/llm/claudecode/provider.go
+
+type ClaudeCodeProvider struct {
+    binary       string
+    maxTurns     int
+    timeout      time.Duration
+    allowedTools []string
+    workingDir   string
+    systemPrompt string          // contenido leído del archivo en construcción
+    logger       *slog.Logger
+}
+
+func NewClaudeCodeProvider(cfg map[string]any, logger *slog.Logger) (llm.Provider, error)
+
+func (p *ClaudeCodeProvider) Complete(ctx context.Context, req core.CompletionRequest) (core.CompletionResult, error) {
+    // 1. Construir el prompt final: system prompt del provider + messages del request
+    // 2. Armar los args de claude -p
+    // 3. Ejecutar subproceso
+    // 4. Parsear JSON de salida
+    // 5. Mapear a CompletionResult
+}
+```
+
+#### Construcción del comando (interno del provider)
+
+```go
+func (p *ClaudeCodeProvider) buildArgs() []string {
+    args := []string{"-p", "--output-format", "json"}
+
+    if p.maxTurns > 0 {
+        args = append(args, "--max-turns", strconv.Itoa(p.maxTurns))
+    }
+    if len(p.allowedTools) > 0 {
+        args = append(args, "--allowedTools", strings.Join(p.allowedTools, ","))
+    }
+    if p.systemPrompt != "" {
+        args = append(args, "--system-prompt", p.systemPrompt)
+    }
+    return args
+}
+
+func (p *ClaudeCodeProvider) Complete(ctx context.Context, req core.CompletionRequest) (core.CompletionResult, error) {
+    ctx, cancel := context.WithTimeout(ctx, p.timeout)
+    defer cancel()
+
+    // Aplanar messages a un solo prompt para stdin
+    prompt := flattenMessages(req.Messages)
+
+    cmd := exec.CommandContext(ctx, p.binary, p.buildArgs()...)
+    cmd.Dir = p.workingDir
+    cmd.Stdin = strings.NewReader(prompt)
+
+    var stdout, stderr bytes.Buffer
+    cmd.Stdout = &stdout
+    cmd.Stderr = &stderr
+
+    err := cmd.Run()
+
+    return p.parseOutput(stdout.Bytes(), stderr.Bytes(), err)
+}
+```
+
+#### Parseo de la salida JSON
+
+```go
+// claude -p --output-format json devuelve JSON lines con cada mensaje
+// El último bloque con role:"assistant" contiene la respuesta final
+
+type claudeOutputMessage struct {
+    Role    string `json:"role"`
+    Content string `json:"content"`
+    // ... campos adicionales del formato JSON de claude
+}
+
+func (p *ClaudeCodeProvider) parseOutput(stdout, stderr []byte, execErr error) (core.CompletionResult, error) {
+    // Parsear JSON lines, extraer último mensaje assistant
+    // Mapear exit code a FinishReason
+    // Extraer token usage si está disponible
+}
+```
+
+---
+
+### Registro en el arranque
+
+```go
+// shell/llm/registry_defaults.go
+
+func NewDefaultRegistry() *Registry {
+    r := &Registry{factories: make(map[string]Factory)}
+
+    r.Register("sonnet", anthropic.NewAnthropicProvider)
+    r.Register("haiku", anthropic.NewAnthropicProvider)
+    r.Register("opus", anthropic.NewAnthropicProvider)
+    r.Register("claude-code", claudecode.NewClaudeCodeProvider)  // ← nuevo
+
+    return r
+}
+```
+
+### Instanciación en el runtime del agente
+
+```go
+// agents/runtime.go
+
+func (a *Agent) init(registry *llm.Registry) error {
+    provider, err := registry.Build(a.cfg.Model, a.cfg.ModelConfig, a.logger)
+    if err != nil {
+        return fmt.Errorf("building LLM provider %q: %w", a.cfg.Model, err)
+    }
+    a.llm = provider
+    return nil
+}
+
+// Después, cuando el agente necesita razonar:
+func (a *Agent) handleMessage(ctx context.Context, msg Message) (string, error) {
+    req := core.CompletionRequest{
+        SystemPrompt: a.systemPrompt,
+        Messages:     a.buildMessages(msg),
+    }
+    result, err := a.llm.Complete(ctx, req)  // ← no sabe si es HTTP o subproceso
+    if err != nil {
+        return "", err
+    }
+    return result.Content, nil
+}
+```
+
+---
+
+## Diferencia clave vs. modelo HTTP
+
+| Aspecto | Proveedor HTTP (`sonnet`) | Proveedor Claude Code (`claude-code`) |
+|---|---|---|
+| Transporte | HTTP a `api.anthropic.com` | Subproceso local `claude -p` |
+| Auth | API key | Session de Claude Code (login previo) |
+| Capacidades extra | Solo texto in/out | Agentic: bash, files, git dentro de `claude -p` |
+| Latencia | Baja por request | Mayor (startup del proceso + múltiples turnos internos) |
+| Costo | Por tokens via API | Por tokens via Claude Code (misma cuenta) |
+| Estado | Stateless | Puede mantener sesión (`--session-id`) |
+| Working dir | N/A | El worktree del agente |
+
+---
+
+## Flatten de mensajes para `claude -p`
+
+`claude -p` recibe el prompt por stdin como texto plano. Hay que aplanar el historial:
+
+```go
+func flattenMessages(msgs []core.Message) string {
+    var b strings.Builder
+    for _, m := range msgs {
+        switch m.Role {
+        case "user":
+            fmt.Fprintf(&b, "User: %s\n\n", m.Content)
+        case "assistant":
+            fmt.Fprintf(&b, "Assistant: %s\n\n", m.Content)
+        }
+    }
+    return b.String()
+}
+```
+
+Alternativa para conversaciones largas: usar `--session-id` y enviar solo el último mensaje.
+
+---
+
+## Archivos a crear/modificar
+
+- `core/llm/types.go` — revisar que `CompletionRequest`/`CompletionResult` estén completos
+- `shell/llm/provider.go` — interfaz `Provider`, `Registry`, `Factory`
+- `shell/llm/anthropic/provider.go` — proveedor HTTP (refactorizar si ya existe)
+- **`shell/llm/claudecode/provider.go`** — proveedor Claude Code (nuevo)
+- `shell/llm/claudecode/parser.go` — parseo de JSON output de `claude -p`
+- `shell/llm/registry_defaults.go` — registro de proveedores disponibles
+- `agents/runtime.go` — usar `Registry.Build()` para instanciar el provider del agente
+- `internal/config/schema.go` — validar `model_config` según el `model` elegido
+
+---
+
+## Notas
+
+- **Fase 1**: Provider básico — stdin/stdout, sin sesiones, timeout simple
+- **Fase 2**: Soporte de `--session-id` para conversaciones con estado (el agente mantiene el session ID entre interacciones)
+- **Fase 3**: Streaming — `claude -p --output-format stream-json` para respuestas parciales en tiempo real a la sala Matrix
+- **Fase 4**: Pool de procesos — reutilizar sesiones de Claude Code para reducir latencia de startup
+- El agente no necesita implementar tools propios para bash/git/files si usa `claude-code` como modelo — Claude Code ya los tiene
+- Respetar `ctx` de shutdown: matar el subproceso con `cmd.Process.Kill()` si el contexto se cancela
+- El `working_dir` debería ser el worktree del agente para que Claude Code tenga contexto del repo
@@ -0,0 +1,284 @@
+# Tarea: Implementar Sistema de Logging Estructurado para Agentes
+
+## Contexto del Proyecto
+
+Estamos construyendo un sistema multi-agente en Go con las siguientes características arquitectónicas:
+
+- **Separación pure core / impure shell**: el core retorna decisiones como datos, el shell las ejecuta e interactúa con el mundo exterior.
+- **Monorepo en Go** con módulos separados.
+- **Comunicación inter-agente via Matrix** (mautrix-go) como bus de mensajes.
+- **Múltiples agentes** con identidades independientes (cada uno con su propio contexto Git, etc.).
+- **Integración con múltiples LLM providers** (Anthropic, OpenAI-compatible, Ollama) via abstracción unificada.
+
+El logging vive en el **impure shell** — nunca en el core.
+
+## Objetivo
+
+Crear un paquete `pkg/logger` (o `internal/logger`) que provea logging estructurado en formato JSONL, optimizado para ser consumido tanto por humanos como por agentes LLM. Los logs deben ser fácilmente parseables, consultables por fecha/agente, y auto-gestionados (rotación, limpieza).
+
+## Requisitos Funcionales
+
+### 1. Formato de Salida: JSONL
+
+Cada línea de log es un objeto JSON independiente con los siguientes campos obligatorios:
+
+```json
+{
+  "time": "2026-03-06T10:00:00.000Z",
+  "level": "INFO",
+  "msg": "agent action completed",
+  "agent_id": "researcher-01",
+  "trace_id": "abc123",
+  "component": "shell"
+}
+```
+
+Campos opcionales según contexto:
+
+```json
+{
+  "action": "web_search",
+  "duration_ms": 342,
+  "tokens_used": 1500,
+  "result": "success",
+  "error_type": "timeout",
+  "reason": "user requested summary of recent papers",
+  "metadata": {}
+}
+```
+
+El campo `reason` es especialmente importante: cuando otro agente lee el log, necesita saber *por qué* se tomó una decisión, no solo *qué* se hizo.
+
+### 2. Segmentación de Archivos
+
+Estructura de directorios por agente y por día:
+
+```
+/var/log/agents/
+├── orchestrator/
+│   ├── 2026-03-04.jsonl
+│   ├── 2026-03-05.jsonl
+│   └── 2026-03-06.jsonl
+├── researcher-01/
+│   ├── 2026-03-05.jsonl
+│   └── 2026-03-06.jsonl
+└── coder-01/
+    └── 2026-03-06.jsonl
+```
+
+Reglas:
+- Un archivo JSONL por agente por día.
+- Si un archivo excede un tamaño máximo configurable (default: 50MB), se rota añadiendo un sufijo incremental: `2026-03-06.jsonl` → `2026-03-06.1.jsonl`.
+- Nombres de archivo siempre en formato `YYYY-MM-DD.jsonl`.
+
+### 3. Rotación y Limpieza
+
+- **Retención configurable** (default: 7 días).
+- **Goroutine de limpieza** que corre periódicamente (default: cada 24h) y elimina archivos que excedan la retención.
+- **Compresión opcional** de archivos rotados (gzip).
+- La limpieza debe ser segura para ejecución concurrente.
+
+### 4. API del Logger
+
+```go
+// Config para crear un logger de agente
+type LoggerConfig struct {
+    BaseDir      string        // directorio raíz de logs (default: "/var/log/agents")
+    AgentID      string        // identificador único del agente
+    MaxSizeMB    int64         // tamaño máximo por archivo (default: 50)
+    MaxAgeDays   int           // días de retención (default: 7)
+    Compress     bool          // comprimir archivos rotados (default: true)
+    CleanupInterval time.Duration // intervalo de limpieza (default: 24h)
+    Level        slog.Level    // nivel mínimo de log (default: slog.LevelInfo)
+}
+
+// Factory function
+func NewAgentLogger(cfg LoggerConfig) (*slog.Logger, func(), error)
+// Retorna:
+//   - *slog.Logger: logger configurado con slog
+//   - func(): función de cleanup para llamar en shutdown (cierra archivos, detiene goroutine de limpieza)
+//   - error: si no se puede crear el directorio o el archivo inicial
+
+// Uso esperado:
+logger, cleanup, err := logger.NewAgentLogger(logger.LoggerConfig{
+    AgentID: "researcher-01",
+})
+defer cleanup()
+
+logger.InfoContext(ctx, "executing decision",
+    "action", decision.Action,
+    "reason", decision.Reason,
+    "trace_id", traceIDFromCtx(ctx),
+    "tokens_used", 1500,
+)
+```
+
+### 5. Writer Personalizado
+
+Implementar un `io.Writer` que maneje la rotación diaria con fallback por tamaño:
+
+```go
+type DailyRotatingWriter struct {
+    baseDir    string
+    agentID    string
+    maxSizeMB  int64
+    compress   bool
+    
+    mu         sync.Mutex
+    current    *os.File
+    written    int64
+    currentDay string
+    suffix     int  // para rotación por tamaño dentro del mismo día
+}
+
+// Debe implementar io.Writer
+func (w *DailyRotatingWriter) Write(p []byte) (n int, err error)
+
+// Cierre limpio
+func (w *DailyRotatingWriter) Close() error
+```
+
+Lógica de `Write`:
+1. Adquirir lock.
+2. Verificar si el día cambió (`time.Now().Format("2006-01-02")` vs `w.currentDay`).
+3. Si cambió el día: cerrar archivo actual, comprimir si `compress=true`, abrir nuevo archivo del día, resetear `written` y `suffix`.
+4. Si `written > maxSizeMB * 1024 * 1024`: incrementar `suffix`, abrir nuevo archivo (`2026-03-06.1.jsonl`), resetear `written`.
+5. Escribir `p` al archivo actual.
+6. Incrementar `written`.
+
+### 6. Helpers para Consulta por LLMs
+
+Proveer funciones utilitarias para que los agentes puedan consultar logs:
+
+```go
+// Leer logs de un agente en un rango de fechas
+func ReadLogs(baseDir, agentID string, from, to time.Time) ([]json.RawMessage, error)
+
+// Leer logs de un agente para un día específico
+func ReadDayLogs(baseDir, agentID string, date time.Time) ([]json.RawMessage, error)
+
+// Buscar logs que contengan un campo con un valor específico
+func SearchLogs(baseDir, agentID string, field, value string, from, to time.Time) ([]json.RawMessage, error)
+
+// Listar agentes disponibles (subdirectorios)
+func ListAgents(baseDir string) ([]string, error)
+
+// Listar fechas disponibles para un agente
+func ListDates(baseDir, agentID string) ([]time.Time, error)
+```
+
+Estas funciones permiten que un agente LLM solicite logs con interfaces simples. El agente orquestador puede usar `SearchLogs` para buscar errores, o `ReadDayLogs` para obtener contexto de lo que hizo otro agente ayer.
+
+## Requisitos No Funcionales
+
+- **Stdlib primero**: usar `log/slog` como base. No dependencias externas excepto lo estrictamente necesario (si lumberjack simplifica, se puede usar, pero la implementación custom del `DailyRotatingWriter` es preferida).
+- **Thread-safe**: múltiples goroutines escribirán al mismo logger.
+- **Mínimo overhead**: el logging no debe impactar significativamente el rendimiento del agente. Escribir en buffer si es necesario.
+- **Consistencia de campos**: usar los mismos nombres de campo siempre. Definir constantes para campos estándar:
+
+```go
+const (
+    FieldAgentID    = "agent_id"
+    FieldTraceID    = "trace_id"
+    FieldAction     = "action"
+    FieldReason     = "reason"
+    FieldDurationMS = "duration_ms"
+    FieldTokensUsed = "tokens_used"
+    FieldResult     = "result"
+    FieldErrorType  = "error_type"
+    FieldComponent  = "component"
+)
+```
+
+- **Testeable**: incluir tests unitarios para:
+  - Rotación por día.
+  - Rotación por tamaño dentro del mismo día.
+  - Limpieza de archivos viejos.
+  - Formato de salida JSONL correcto.
+  - Concurrencia (múltiples writers simultáneos).
+  - Funciones de consulta (`ReadLogs`, `SearchLogs`).
+
+## Estructura de Archivos Esperada
+
+```
+pkg/logger/
+├── logger.go          // NewAgentLogger, LoggerConfig, constantes de campos
+├── writer.go          // DailyRotatingWriter implementation
+├── cleanup.go         // Goroutine de limpieza y compresión
+├── query.go           // ReadLogs, SearchLogs, ListAgents, ListDates
+├── logger_test.go     // Tests del logger y formato
+├── writer_test.go     // Tests de rotación
+├── cleanup_test.go    // Tests de limpieza
+└── query_test.go      // Tests de consulta
+```
+
+## Restricciones
+
+- Go 1.21+ (para `log/slog` nativo).
+- Sin CGO.
+- Sin dependencias externas (stdlib pura). Si consideras que alguna dependencia aporta valor significativo, justifícala explícitamente.
+- El logger debe poder funcionar tanto escribiendo a archivos como a stdout (para desarrollo/debugging), configurable via `LoggerConfig`.
+- Todos los timestamps en UTC.
+
+## Ejemplo de Integración
+
+Así se vería el uso del logger dentro del shell de un agente:
+
+```go
+package main
+
+import (
+    "context"
+    "log/slog"
+    "myproject/pkg/logger"
+)
+
+func main() {
+    log, cleanup, err := logger.NewAgentLogger(logger.LoggerConfig{
+        AgentID:  "researcher-01",
+        BaseDir:  "/var/log/agents",
+        Level:    slog.LevelInfo,
+        Compress: true,
+    })
+    if err != nil {
+        panic(err)
+    }
+    defer cleanup()
+
+    ctx := context.Background()
+    ctx = logger.WithTraceID(ctx, "trace-abc-123")
+
+    // El core retorna una decisión pura
+    decision := core.Decide(input)
+
+    // El shell loguea y ejecuta
+    log.InfoContext(ctx, "executing decision",
+        logger.FieldAction, decision.Action,
+        logger.FieldReason, decision.Reason,
+        logger.FieldComponent, "shell",
+    )
+
+    result, err := shell.Execute(ctx, decision)
+    if err != nil {
+        log.ErrorContext(ctx, "decision execution failed",
+            logger.FieldAction, decision.Action,
+            logger.FieldErrorType, categorizeError(err),
+            "error", err.Error(),
+        )
+        return
+    }
+
+    log.InfoContext(ctx, "decision executed successfully",
+        logger.FieldAction, decision.Action,
+        logger.FieldResult, "success",
+        logger.FieldDurationMS, result.DurationMS,
+        logger.FieldTokensUsed, result.TokensUsed,
+    )
+}
+```
+
+## Notas Adicionales
+
+- El `trace_id` permite correlacionar un flujo completo a través de múltiples agentes. Si el orchestrator inicia una tarea y delega al researcher, ambos usan el mismo `trace_id`.
+- Considerar un helper `WithTraceID(ctx, id)` / `TraceIDFromCtx(ctx)` usando `context.Value`.
+- El campo `reason` captura la intención detrás de la acción. Un LLM que lee "reason: user requested summary of recent AI papers" entiende el contexto sin necesidad de reconstruirlo desde mensajes anteriores.