fn_registry/python/functions/datascience/align_relations_to_entities.md at dabc945eda8487ab835fff745e01f26ed393501e

Files

T

egutierrez dabc945eda feat: extraccion masiva footprint_aurgi (41 funcs + 4 types + stack Docker geo)

Extrae al registry funciones del proyecto interno footprint_aurgi:
- core (6): slugify_ascii, normalize_for_join, cp_provincia_es, infer_provincia_from_cp, safe_read_csv_fallback, csv_to_parquet_duckdb
- geo puras (7): haversine_km, point_in_ring, point_in_polygon, point_in_polygons_bbox, polygon_bbox, extent_with_padding, distance_bucket
- geo I/O (4): load_geojson_polygons, load_boundary_gdf, add_basemap_osm, add_basemap_with_timeout
- valhalla client (4): valhalla_route, valhalla_isochrone, valhalla_isochrones_async, valhalla_matrix_1_to_n
- datascience stats (7): trimmed_mean, geometric_mean, detect_distribution_type, best_central_tendency, summary_stats, kde_density_levels, alpha_shape_concave_hull
- datascience fuzzy (3): fuzzy_merge_adaptive (rapidfuzz), words_to_dataset, remove_words_from_column
- datascience viz (2): plot_kde_2d, plot_heatmap_log
- infra (4): compress_pdf_ghostscript, render_table_page_pdfpages, add_header_logo, osm2pgsql_ingest
- pipelines (4): setup_geo_stack_docker, compute_centers_reachability, generate_isochrones_by_zone, count_points_per_zone
- types geo (4): LonLat, BBox, IsochroneRequest, Centro

Incluye:
- apps/footprint_geo_stack/ (PostGIS + Martin + Valhalla via docker-compose)
- 131/132 tests pasan (1 skip esperado: osm2pgsql en PATH)
- Issue tracker dev/issues/0052-footprint-aurgi-extraction.md
- Atribucion uniforme: source_repo internal:footprint_aurgi, source_license internal-aurgi
- Build con 9 agentes en paralelo (8 wave 1 + 1 wave 2 pipelines)

Tambien commitea trabajo previo no commiteado: aggregate_extraction_results, chunk_with_overlap, clean_pdf_text, merge_entity_aliases, extract_graph_gliner2, extract_relations_mrebel, extract_triples_spacy_es, gliner2/mrebel/marianmt/rebel/spacy_es load_model, parse_rebel_output, translate_es_to_en, issue 0050/0051.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-04 23:35:22 +02:00

3.2 KiB

Raw Blame History

name, kind, lang, domain, version, purity, signature, description, tags, uses_functions, uses_types, returns, returns_optional, error_type, imports, params, output, tested, tests, test_file_path, file_path, notes

name

kind

lang

domain

version

purity

signature

description

tags

uses_functions

uses_types

returns

returns_optional

error_type

imports

params

output

tested

tests

test_file_path

file_path

notes

align_relations_to_entities

function

datascience

1.0.0

pure

def align_relations_to_entities(triplets: list[dict], entity_names: list[str]) -> list[dict]

Filtra y alinea triplets REBEL/mREBEL a nombres canonicos de entidades. Para cada triplet, resuelve head y tail contra entity_names con match exacto case-insensitive o substring (gana el nombre mas largo). Descarta triplets donde algun lado no resuelve o head==tail.

rebel

mrebel

relation-extraction

nlp

align

knowledge-graph

datascience

python

false

name	desc
triplets	lista de dicts producida por parse_rebel_output, con claves head, head_type, type, tail, tail_type

name	desc
entity_names	nombres canonicos de entidades conocidas contra los que alinear (ej. [e.name for e in entities])

lista de dicts con claves from (str), kind (str), to (str), head_type (str), tail_type (str). from/to son valores tomados verbatim de entity_names.

true

match exacto case-insensitive resuelve correctamente

substring entity en span del head

substring span dentro del nombre de entidad

gana el nombre de entidad mas largo en ambiguedad

triplet sin match se descarta

triplet con head == tail se descarta (self-loop)

python/functions/datascience/tests/test_align_relations_to_entities.py

python/functions/datascience/align_relations_to_entities.py

Funcion pura. Compone con parse_rebel_output: el output de parse_rebel_output entra como triplets, y entity_names viene de [e.name for e in entities] del contexto de extraccion. Estrategia de matching: 1. Exacto case-insensitive (O(1) via dict) 2. Substring bidireccional: entity in span O span in entity (itera por longitud DESC) Esto cubre casos como mREBEL emitiendo "esta en Bilbao" cuando la entidad es "Bilbao", o "Banco Santander S.A." cuando la entidad canonizada es "Banco Santander".

Ejemplo

from python.functions.datascience.parse_rebel_output import parse_rebel_output
from python.functions.datascience.align_relations_to_entities import align_relations_to_entities

decoded = "tp_XX<triplet> Pablo Isla <per> Inditex <org> employer"
triplets = parse_rebel_output(decoded)

entities = ["Pablo Isla", "Inditex", "A Coruna"]
aligned = align_relations_to_entities(triplets, entities)
# [{'from': 'Pablo Isla', 'kind': 'employer', 'to': 'Inditex',
#   'head_type': 'per', 'tail_type': 'org'}]

Estrategia de matching

Exacto case-insensitive: "inditex" == "Inditex".
Substring bidireccional: la entidad esta contenida en el span del modelo, o el span del modelo esta contenido en el nombre de la entidad. Cuando varias entidades encajan, gana la mas larga (mas especifica).

Notas

No hace fuzzy matching (Levenshtein, etc.) — la precision sobre el recall es preferida en el contexto de grafos de conocimiento.
Para mejorar recall: normalizar entity_names antes de llamar (quitar siglas, tildes).
Los triplets con from == to (self-loops) se descartan siempre.

3.2 KiB Raw Blame History

Ejemplo

Estrategia de matching

Notas

3.2 KiB

Raw Blame History