feat: Implement text manager API and database connection

- Added `text_manager.py` to handle the creation of text libraries via FastAPI.
- Introduced database connection management in `conexion.py` using PostgreSQL credentials from environment variables.
- Created abstract base class `EmbedderABC` in `Base_Embedder.py` for embedding models.
- Developed `OpenAIEmbedder` class to generate embeddings using OpenAI's API.
- Implemented `OpenAIEmbedderModel` and repository pattern for managing OpenAI embedders in `Openai_embedder_mmr.py`.
- Established `Biblioteca` class for managing text libraries and their associated notes in `biblioteca.py`.
- Created SQLAlchemy models and mappers for `Biblioteca` and `Nota` in `biblioteca_mmr.py` and `notas_biblioteca_mmr.py`.
- Added functionality for dynamic table generation for notes associated with libraries.
- Included comprehensive methods for adding, retrieving, and managing notes and libraries in their respective repositories.
This commit is contained in:
2025-05-10 17:52:43 +02:00
parent c646bc1fef
commit c47b9474f4
27 changed files with 844 additions and 44 deletions
View File
+51
View File
@@ -0,0 +1,51 @@
from src.Security.GenerarIDs import GeneradorIDUnico
from src.Llms.Embedders.Base_Embedder import EmbedderABC # Asegúrate de que esta ruta sea correcta
from typing import List, Optional
from src.ConexionSql.Base_conexion import ConexionBase
from sqlalchemy import MetaData # Asegúrate de importar esto
from src.TextManager.notas_biblioteca_mmr import generar_tabla_nota_para_biblioteca # Ajusta si es necesario
class Biblioteca:
def __init__(
self,
nombre: str,
descripcion: str = "",
id: Optional[str] = None,
embedder: Optional[EmbedderABC] = None,
vector_dim: Optional[int] = None
):
"""
Clase que representa una biblioteca de notas de texto.
:param nombre: Nombre de la biblioteca.
:param descripcion: Breve descripción de la biblioteca.
:param id: ID único opcional. Si no se proporciona, se genera automáticamente.
:param embedder: Objeto que implementa EmbedderABC para generar el vector del nombre.
:param vector_dim: Dimensión del vector si no se proporciona un embedder.
"""
self.id = id if id is not None else GeneradorIDUnico("BBLI").generar()
self.nombre = nombre
self.descripcion = descripcion
self.embedder = embedder
if self.embedder is not None:
self.vector_dim = self.embedder.dimension_number()
elif vector_dim is not None:
self.vector_dim = vector_dim
else:
raise ValueError("Debes proporcionar un 'embedder' o un 'vector_dim' explícito.")
def generar_modelo_notas(self, conexion: ConexionBase):
"""
Genera dinámicamente un modelo de notas asociado a esta biblioteca y lo crea en la base de datos.
:param conexion: Objeto de conexión a la base de datos.
:return: Clase del modelo SQLAlchemy correspondiente a las notas.
"""
nombre_tabla = f"biblio_{self.nombre}"
metadata = MetaData()
engine = conexion.get_engine()
tabla, NotaModel = generar_tabla_nota_para_biblioteca(nombre_tabla, self.vector_dim, metadata)
metadata.create_all(engine)
return NotaModel
+96
View File
@@ -0,0 +1,96 @@
import os
import base64
from dotenv import load_dotenv
from sqlalchemy import Column, String, Integer
from src.ConexionSql.Base_conexion import ConexionBase
from src.base import Base
from src.Security.Encriptar import Encriptar_fernet
from src.Security.GenerarIDs import GeneradorIDUnico
from src.Llms.Embedders.Base_Embedder import EmbedderABC
from src.TextManager.biblioteca import Biblioteca # Suponiendo que defines la clase lógica Biblioteca aquí
# ----------------------
# Cargar clave maestra
# ----------------------
from entrypoint import ENV_PATH
load_dotenv(ENV_PATH)
pssword = os.getenv('MASTER_PASSWORD')
if pssword is None:
raise ValueError("MASTER_PASSWORD no está definida en el archivo .env")
# ----------------------
# MODELO (SQLAlchemy)
# ----------------------
class BibliotecaModel(Base):
__tablename__ = "bibliotecas"
id = Column(String, primary_key=True)
nombre = Column(String, nullable=False)
descripcion = Column(String, default="")
vector_dim = Column(Integer, nullable=False)
embedder_info = Column(String, nullable=True) # Se puede guardar nombre de clase o config encriptada
# ----------------------
# MAPPER
# ----------------------
class BibliotecaMapper:
@staticmethod
def to_dict(obj: Biblioteca) -> dict:
embedder_info = type(obj.embedder).__name__ if obj.embedder else None
return {
"id": obj.id,
"nombre": obj.nombre,
"descripcion": obj.descripcion,
"vector_dim": obj.vector_dim,
"embedder_info": embedder_info # sin codificar ni encriptar
}
@staticmethod
def from_dict(data: dict) -> Biblioteca:
return Biblioteca(
id=data["id"],
nombre=data["nombre"],
descripcion=data["descripcion"],
vector_dim=data["vector_dim"],
embedder=None # Mantienes la lógica actual de no restaurarlo automáticamente
)
@staticmethod
def from_model(model: BibliotecaModel) -> Biblioteca:
return Biblioteca(
id=model.id,
nombre=model.nombre,
descripcion=model.descripcion,
vector_dim=model.vector_dim,
embedder=None # Se puede cargar manualmente si es necesario
)
# ----------------------
# REPO
# ----------------------
class BibliotecaRepo:
def __init__(self, conexion: ConexionBase):
self.session = conexion.get_session()
def add(self, biblioteca: Biblioteca) -> str:
data = BibliotecaMapper.to_dict(biblioteca)
model = BibliotecaModel(**data)
self.session.add(model)
self.session.commit()
return model.id
def get_all(self) -> list[Biblioteca]:
models = self.session.query(BibliotecaModel).all()
return [BibliotecaMapper.from_model(m) for m in models]
def get_by_nombre(self, nombre: str) -> Biblioteca | None:
model = self.session.query(BibliotecaModel).filter_by(nombre=nombre).first()
return BibliotecaMapper.from_model(model) if model else None
def get_by_id(self, id_: str) -> Biblioteca | None:
model = self.session.get(BibliotecaModel, id_)
return BibliotecaMapper.from_model(model) if model else None
+41
View File
@@ -0,0 +1,41 @@
from src.Security.GenerarIDs import GeneradorIDUnico
from typing import List
class Nota:
def __init__(
self,
titulo: str,
tags: List[str] = None,
conexiones: List[str] = None,
texto: str = "",
vector: List[float] = None,
resumen: str = "",
vector_resumen: List[float] = None,
id: str = None
):
"""
Clase que representa una nota de texto con estructura semántica.
:param titulo: Título de la nota.
:param tags: Lista de etiquetas asociadas.
:param conexiones: Lista de identificadores relacionados.
:param vector: Embedding vectorial de la nota.
:param resumen: Texto resumen de la nota.
:param vector_resumen: Embedding del resumen.
:param id: Identificador único (si no se proporciona, se genera automáticamente).
"""
self.id = id if id is not None else GeneradorIDUnico("NOTA").generar()
self.titulo = titulo
self.tags = tags if tags is not None else []
self.conexiones = conexiones if conexiones is not None else []
self.texto = texto
self.vector = vector
self.resumen = resumen
self.vector_resumen = vector_resumen
def __repr__(self):
return (
f"<Nota id={self.id}, titulo='{self.titulo}', tags={len(self.tags)}, "
f"conexiones={len(self.conexiones)}, vector_dim={len(self.vector)}, "
f"resumen_len={len(self.resumen)}, vector_resumen_dim={len(self.vector_resumen)}>"
)
+107
View File
@@ -0,0 +1,107 @@
import os
from dotenv import load_dotenv
from sqlalchemy import Column, String, Table, MetaData
from pgvector.sqlalchemy import Vector
from sqlalchemy.orm import registry, Session
from src.TextManager.nota import Nota
from src.ConexionSql.Base_conexion import ConexionBase
# ----------------------
# Cargar .env
# ----------------------
from entrypoint import ENV_PATH
load_dotenv(ENV_PATH)
# ----------------------
# REGISTRO DINÁMICO PARA TABLAS
# ----------------------
mapper_registry = registry()
# ----------------------
# FUNCIONES AUXILIARES
# ----------------------
def generar_tabla_nota_para_biblioteca(biblioteca_nombre: str, vector_dim: int, metadata: MetaData):
nombre_tabla = biblioteca_nombre.lower().replace(" ", "_")
tabla = Table(
nombre_tabla,
metadata,
Column("id", String, primary_key=True),
Column("titulo", String, nullable=False),
Column("tags", String),
Column("conexiones", String),
Column("texto", String),
Column("resumen", String),
Column("vector", Vector(vector_dim), nullable=False),
Column("vector_resumen", Vector(vector_dim), nullable=True), # AHORA ES OPCIONAL
)
class NotaModel:
def __init__(self, nota: Nota):
self.id = nota.id
self.titulo = nota.titulo
self.tags = ",".join(nota.tags)
self.conexiones = ",".join(nota.conexiones)
self.texto = nota.texto
self.resumen = nota.resumen
self.vector = nota.vector
self.vector_resumen = getattr(nota, "vector_resumen", None) # AHORA ES OPCIONAL
mapper_registry.map_imperatively(NotaModel, tabla)
return tabla, NotaModel
# ----------------------
# MAPPER
# ----------------------
class NotaMapper:
@staticmethod
def to_dict(nota: Nota) -> dict:
return {
"id": nota.id,
"titulo": nota.titulo,
"tags": ",".join(nota.tags),
"conexiones": ",".join(nota.conexiones),
"texto": nota.texto,
"resumen": nota.resumen,
"vector": nota.vector,
"vector_resumen": nota.vector_resumen
}
@staticmethod
def from_model(model) -> Nota:
return Nota(
id=model.id,
titulo=model.titulo,
tags=model.tags.split(",") if model.tags else [],
conexiones=model.conexiones.split(",") if model.conexiones else [],
texto=model.texto,
resumen=model.resumen,
vector=list(model.vector),
vector_resumen=list(model.vector_resumen) if model.vector_resumen is not None else None
)
# ----------------------
# REPO
# ----------------------
class NotaRepo:
def __init__(self, session: Session, modelo_nota):
self.session = session
self.ModeloNota = modelo_nota
def add(self, nota: Nota) -> str:
model = self.ModeloNota(nota)
self.session.add(model)
self.session.commit()
return model.id
def get_by_id(self, id_: str) -> Nota | None:
model = self.session.get(self.ModeloNota, id_)
return NotaMapper.from_model(model) if model else None
def get_all(self) -> list[Nota]:
models = self.session.query(self.ModeloNota).all()
return [NotaMapper.from_model(m) for m in models]