feat(cpp/core): añadir sql_parse pure

2026-04-28 23:51:23 +02:00
parent b2d7b29e00
commit dd3f73905f
4 changed files with 298 additions and 1 deletions
@@ -21,8 +21,9 @@ add_imgui_app(primitives_gallery
    ${CMAKE_SOURCE_DIR}/functions/core/text_editor.cpp
    ${CMAKE_SOURCE_DIR}/functions/core/file_watcher.cpp
    ${CMAKE_SOURCE_DIR}/vendor/imgui_text_edit/TextEditor.cpp
-    # sql_workbench (issue 0032)
+    # sql_workbench (issue 0032) + sql_parse pure (issue 0045)
    ${CMAKE_SOURCE_DIR}/functions/core/sql_workbench.cpp
+    ${CMAKE_SOURCE_DIR}/functions/core/sql_parse.cpp
    # Core primitives demoed (tokens vive en fn_framework)
    ${CMAKE_SOURCE_DIR}/functions/core/fullscreen_window.cpp
    ${CMAKE_SOURCE_DIR}/functions/core/page_header.cpp
@@ -0,0 +1,172 @@
+#include "core/sql_parse.h"
+
+#include <cctype>
+#include <string>
+
+namespace fn_ui {
+
+namespace {
+
+// Devuelve la version uppercase ASCII del primer token (delimitado por
+// whitespace) de `s`, asumiendo que `s` empieza ya en el token.
+std::string first_token_upper(const std::string& s, size_t start) {
+    std::string out;
+    while (start < s.size()) {
+        unsigned char c = static_cast<unsigned char>(s[start]);
+        if (std::isspace(c)) break;
+        if (!std::isalpha(c)) break; // keywords son solo letras
+        out.push_back(static_cast<char>(std::toupper(c)));
+        ++start;
+    }
+    return out;
+}
+
+// Devuelve el indice del primer caracter "real" (no whitespace, no comentario)
+// a partir de `i`. Avanza saltando -- ... \n y /* ... */.
+size_t skip_ws_and_comments(const std::string& s, size_t i) {
+    while (i < s.size()) {
+        unsigned char c = static_cast<unsigned char>(s[i]);
+        if (std::isspace(c)) { ++i; continue; }
+        if (c == '-' && i + 1 < s.size() && s[i + 1] == '-') {
+            // line comment hasta \n
+            i += 2;
+            while (i < s.size() && s[i] != '\n') ++i;
+            continue;
+        }
+        if (c == '/' && i + 1 < s.size() && s[i + 1] == '*') {
+            // block comment hasta */
+            i += 2;
+            while (i + 1 < s.size() && !(s[i] == '*' && s[i + 1] == '/')) ++i;
+            if (i + 1 < s.size()) i += 2;
+            else i = s.size();
+            continue;
+        }
+        break;
+    }
+    return i;
+}
+
+std::string trim(const std::string& s) {
+    size_t a = 0, b = s.size();
+    while (a < b && std::isspace(static_cast<unsigned char>(s[a]))) ++a;
+    while (b > a && std::isspace(static_cast<unsigned char>(s[b - 1]))) --b;
+    return s.substr(a, b - a);
+}
+
+} // namespace
+
+SqlStmtKind sql_classify(const std::string& stmt) {
+    size_t i = skip_ws_and_comments(stmt, 0);
+    if (i >= stmt.size()) return SqlStmtKind::Unknown;
+    std::string head = first_token_upper(stmt, i);
+    if (head == "SELECT" || head == "WITH") return SqlStmtKind::Select;
+    if (head == "INSERT")                   return SqlStmtKind::Insert;
+    if (head == "UPDATE")                   return SqlStmtKind::Update;
+    if (head == "DELETE")                   return SqlStmtKind::Delete;
+    if (head == "CREATE")                   return SqlStmtKind::Create;
+    if (head == "DROP")                     return SqlStmtKind::Drop;
+    if (head == "ALTER")                    return SqlStmtKind::Alter;
+    if (head == "PRAGMA")                   return SqlStmtKind::Pragma;
+    if (head == "EXPLAIN")                  return SqlStmtKind::Explain;
+    return SqlStmtKind::Unknown;
+}
+
+std::vector<SqlStatement> sql_parse(const std::string& input) {
+    std::vector<SqlStatement> out;
+
+    enum class Mode { Normal, LineComment, BlockComment, SingleStr, DoubleStr, BackTick };
+    Mode m = Mode::Normal;
+
+    size_t stmt_start = 0;
+    int    cur_line   = 1;
+    int    stmt_line  = 1;
+    bool   stmt_has_content = false;
+
+    auto flush = [&](size_t end) {
+        std::string raw = input.substr(stmt_start, end - stmt_start);
+        std::string t   = trim(raw);
+        if (!t.empty()) {
+            SqlStatement s;
+            s.text = t;
+            s.kind = sql_classify(t);
+            s.line = stmt_line;
+            out.push_back(std::move(s));
+        }
+    };
+
+    for (size_t i = 0; i < input.size(); ++i) {
+        char c = input[i];
+        char n = (i + 1 < input.size()) ? input[i + 1] : '\0';
+        if (c == '\n') ++cur_line;
+
+        switch (m) {
+        case Mode::Normal:
+            if (!stmt_has_content && !std::isspace(static_cast<unsigned char>(c))) {
+                // marca inicio "real" de un statement (despues de skip ws/comments)
+                stmt_line = cur_line;
+                stmt_has_content = true;
+            }
+            if (c == '-' && n == '-') {
+                m = Mode::LineComment;
+                ++i;
+                if (n == '\n') ++cur_line; // (no aplica, n es '-')
+            } else if (c == '/' && n == '*') {
+                m = Mode::BlockComment;
+                ++i;
+            } else if (c == '\'') {
+                m = Mode::SingleStr;
+            } else if (c == '"') {
+                m = Mode::DoubleStr;
+            } else if (c == '`') {
+                m = Mode::BackTick;
+            } else if (c == ';') {
+                flush(i);
+                stmt_start = i + 1;
+                stmt_has_content = false;
+            }
+            break;
+
+        case Mode::LineComment:
+            if (c == '\n') m = Mode::Normal;
+            break;
+
+        case Mode::BlockComment:
+            if (c == '*' && n == '/') {
+                m = Mode::Normal;
+                ++i;
+            }
+            break;
+
+        case Mode::SingleStr:
+            if (c == '\'') {
+                // SQL escapa '' como literal, sigue dentro de la cadena.
+                if (n == '\'') { ++i; }
+                else m = Mode::Normal;
+            }
+            break;
+
+        case Mode::DoubleStr:
+            if (c == '"') {
+                if (n == '"') { ++i; }
+                else m = Mode::Normal;
+            }
+            break;
+
+        case Mode::BackTick:
+            if (c == '`') {
+                if (n == '`') { ++i; }
+                else m = Mode::Normal;
+            }
+            break;
+        }
+    }
+
+    // ultimo statement sin ';' final
+    if (stmt_start < input.size()) {
+        flush(input.size());
+    }
+
+    return out;
+}
+
+} // namespace fn_ui
@@ -0,0 +1,48 @@
+#pragma once
+
+// sql_parse — tokenizer y clasificador de statements SQL (logica pura).
+//
+// Separa una cadena multi-statement por ';' (fuera de strings y comentarios)
+// y clasifica cada statement por su keyword inicial. No ejecuta nada — esta
+// funcion es 100% pura: misma entrada, misma salida.
+//
+// Uso tipico:
+//
+//   auto stmts = fn_ui::sql_parse("SELECT 1; INSERT INTO t VALUES (2);");
+//   for (auto& s : stmts) {
+//       switch (s.kind) { ... }
+//   }
+
+#include <string>
+#include <vector>
+
+namespace fn_ui {
+
+enum class SqlStmtKind {
+    Unknown,
+    Select,
+    Insert,
+    Update,
+    Delete,
+    Create,
+    Drop,
+    Alter,
+    Pragma,
+    Explain,
+};
+
+struct SqlStatement {
+    SqlStmtKind kind  = SqlStmtKind::Unknown;
+    std::string text;          // texto trimeado (sin ';' final)
+    int         line  = 1;     // linea de inicio en el input (1-based)
+};
+
+// Tokeniza SQL multi-statement. Salta cadenas '...' "..." `...` y comentarios
+// -- linea y /* bloque */. Devuelve los statements no vacios.
+std::vector<SqlStatement> sql_parse(const std::string& input);
+
+// Clasifica un statement individual por su keyword inicial (case-insensitive,
+// despues de saltar whitespace y comentarios iniciales).
+SqlStmtKind sql_classify(const std::string& stmt);
+
+} // namespace fn_ui
@@ -0,0 +1,76 @@
+---
+name: sql_parse
+kind: function
+lang: cpp
+domain: core
+version: "1.0.0"
+purity: pure
+signature: "std::vector<fn_ui::SqlStatement> fn_ui::sql_parse(const std::string& input); fn_ui::SqlStmtKind fn_ui::sql_classify(const std::string& stmt)"
+description: "Tokenizer y clasificador puro de SQL multi-statement. Separa por ';' fuera de strings ('...', \"...\", `...`) y comentarios (-- linea, /* bloque */), trimea, y clasifica cada statement por su keyword inicial (SELECT, INSERT, UPDATE, DELETE, CREATE, DROP, ALTER, PRAGMA, EXPLAIN, WITH→Select)."
+tags: [sql, parser, tokenizer, pure, sqlite]
+uses_functions: []
+uses_types: []
+returns: []
+returns_optional: false
+error_type: ""
+imports: []
+tested: true
+tests: ["sql_parse classifies common statements", "sql_parse handles strings and comments", "sql_parse trims and ignores empty"]
+test_file_path: "cpp/tests/test_sql_parse.cpp"
+file_path: "cpp/functions/core/sql_parse.cpp"
+params:
+  - name: input
+    desc: "Texto SQL completo, posiblemente multi-statement, con ';' opcional al final"
+  - name: stmt
+    desc: "(sql_classify) Un solo statement ya separado, sin ';' final"
+output: "sql_parse: vector con un SqlStatement por statement no vacio (kind, text trimeado, line 1-based de inicio en el input). sql_classify: SqlStmtKind segun la primera keyword del statement."
+---
+
+# sql_parse
+
+Logica pura para entender un script SQL antes de pasarlo al motor: separar
+statements y clasificarlos. Sin estado, sin I/O, sin SQLite. Reutilizable
+desde `sql_workbench` y desde cualquier app/CLI que necesite distinguir
+SELECT de DDL para mostrar info al usuario o decidir como ejecutar.
+
+## API
+
+```cpp
+namespace fn_ui {
+
+enum class SqlStmtKind {
+    Unknown, Select, Insert, Update, Delete, Create, Drop, Alter, Pragma, Explain
+};
+
+struct SqlStatement {
+    SqlStmtKind kind;
+    std::string text;       // texto trimeado
+    int         line;       // linea de inicio en el input (1-based)
+};
+
+std::vector<SqlStatement> sql_parse(const std::string& input);
+SqlStmtKind                sql_classify(const std::string& stmt);
+
+}
+```
+
+## Reglas del tokenizer
+
+- Strings: `'...'`, `"..."` y `` `...` `` se saltan enteras. Soporta el escape
+  SQL estandar de doblar la quote (`'don''t'`, `"a""b"`).
+- Comentarios: `-- linea` hasta `\n` y `/* bloque */`.
+- El separador `;` solo divide cuando aparece en modo Normal (fuera de
+  strings/comments).
+- Statements vacios (`;;`, `;  ;`) se descartan tras trimear.
+- Si el ultimo statement no termina en `;`, se incluye igualmente.
+
+## Clasificacion
+
+`sql_classify` mira la primera palabra alfabetica despues de saltar whitespace
+y comentarios. `WITH` se clasifica como `Select` porque es la forma comun de
+iniciar CTEs que devuelven filas.
+
+## Por que pura
+
+No abre conexiones, no toca SQLite, no consulta el reloj. Misma entrada → misma
+salida. Esto permite testearla sin depender de un fixture de DB.