This repository has been archived on 2025-11-27. You can view files and clone it. You cannot open issues or pull requests or push a commit.
Files
Crawler_pages/crawler_db_model.py
T

46 lines
1.7 KiB
Python

from sqlalchemy import create_engine, Column, Integer, String, Text, DateTime, Boolean
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
from datetime import datetime
from dotenv import load_dotenv
import os
Base = declarative_base()
class WebsPorVisitar(Base):
__tablename__ = 'webs_por_visitar'
id = Column(Integer, primary_key=True, autoincrement=True)
url = Column(String(2048), unique=True, nullable=False)
agregado_en = Column(DateTime, default=datetime.utcnow, nullable=False)
prioridad = Column(Integer, default=1, nullable=False) # Prioridad para rastrear
class WebsVisitadas(Base):
__tablename__ = 'webs_visitadas'
id = Column(Integer, primary_key=True, autoincrement=True)
url = Column(String(2048), unique=True, nullable=False)
dominio = Column(String(255), nullable=False)
titulo = Column(String(255), nullable=True)
resumen = Column(Text, nullable=True)
ip = Column(String(45), nullable=True) # IPv4 o IPv6
fecha_creacion = Column(DateTime, default=datetime.utcnow, nullable=False)
codigo_http = Column(Integer, nullable=True) # Código de respuesta HTTP
contenido_hash = Column(String(64), nullable=True) # Hash del contenido para detectar cambios
es_dinamico = Column(Boolean, default=False) # Si es una página generada dinámicamente
# Cargar variables de entorno desde el archivo .env
load_dotenv()
# Obtener la URL de la base de datos desde las variables de entorno
database_url = os.getenv('DATABASE_URL')
# Crear el motor de base de datos y las tablas
engine = create_engine(database_url)
Base.metadata.create_all(engine)
# Crear una sesión
Session = sessionmaker(bind=engine)
session = Session()