345 lines
14 KiB
Python
345 lines
14 KiB
Python
"""
|
|
Script di importazione CSV → MySQL per NETGESCON.
|
|
- Configurazione letta da agent_config.json (stile .env di Laravel)
|
|
- Aggiornamento automatico schema tabelle
|
|
- Update solo se i dati cambiano (hash MD5)
|
|
- Logging dettagliato
|
|
- Gestione PK (chiavi primarie) opzionale
|
|
- Controllo relazioni tra tabelle chiave
|
|
- Generazione report struttura archivi
|
|
- Codice commentato e scalabile
|
|
|
|
Dipendenze:
|
|
pip install pandas mysql-connector-python
|
|
"""
|
|
|
|
import os
|
|
import json
|
|
import pandas as pd
|
|
import mysql.connector
|
|
import hashlib
|
|
import logging
|
|
|
|
# --- CONFIGURAZIONE ---
|
|
|
|
def load_config(config_path):
|
|
"""Carica la configurazione da agent_config.json"""
|
|
with open(config_path, encoding="utf-8") as f:
|
|
return json.load(f)
|
|
|
|
def get_mysql_connection(cfg):
|
|
"""Restituisce una connessione MySQL usando la config"""
|
|
return mysql.connector.connect(
|
|
host=cfg["MySQLHost"],
|
|
port=cfg["MySQLPort"],
|
|
user=cfg["MySQLUser"],
|
|
password=cfg["MySQLPassword"],
|
|
database=cfg["MySQLDatabase"]
|
|
)
|
|
|
|
# --- LOGGING ---
|
|
|
|
def setup_logging(log_dir, log_file):
|
|
"""Imposta il logging su file e console"""
|
|
os.makedirs(log_dir, exist_ok=True)
|
|
log_path = os.path.join(log_dir, log_file)
|
|
logging.basicConfig(
|
|
level=logging.INFO,
|
|
format="%(asctime)s [%(levelname)s] %(message)s",
|
|
handlers=[
|
|
logging.FileHandler(log_path, encoding="utf-8"),
|
|
logging.StreamHandler()
|
|
]
|
|
)
|
|
|
|
# --- UTILS ---
|
|
|
|
def infer_sql_type(val):
|
|
"""Inferisce il tipo SQL da un valore di esempio"""
|
|
try:
|
|
int(val)
|
|
return "INT"
|
|
except:
|
|
try:
|
|
float(val)
|
|
return "FLOAT"
|
|
except:
|
|
if isinstance(val, str) and len(val) > 255:
|
|
return "TEXT"
|
|
return "VARCHAR(255)"
|
|
|
|
def get_existing_columns(cursor, table):
|
|
"""Restituisce la lista delle colonne esistenti per una tabella"""
|
|
cursor.execute(f"SHOW COLUMNS FROM `{table}`")
|
|
return [row[0] for row in cursor.fetchall()]
|
|
|
|
def get_table_pk(table):
|
|
"""
|
|
Restituisce la chiave primaria per la tabella.
|
|
Puoi estendere questa funzione per mappare le PK delle tue tabelle.
|
|
"""
|
|
pk_map = {
|
|
"stabili": ["id_stabile"],
|
|
"fornitori": ["id_fornitore"],
|
|
"condomin": ["id_cond"],
|
|
"rate": ["id_rate"],
|
|
"incassi": ["ID_incasso"],
|
|
"emes_det": ["n_emissione", "anno_emissione", "n_ricevuta"], # esempio, personalizza secondo i tuoi dati
|
|
# ...aggiungi qui altre tabelle e le loro PK...
|
|
}
|
|
return pk_map.get(table.lower(), [])
|
|
|
|
def table_exists(cursor, table):
|
|
cursor.execute(f"SHOW TABLES LIKE '{table}'")
|
|
return cursor.fetchone() is not None
|
|
|
|
# --- IMPORTAZIONE ---
|
|
|
|
def create_or_update_table(cursor, table, df):
|
|
"""
|
|
Crea la tabella se non esiste, oppure aggiunge nuove colonne se necessario.
|
|
"""
|
|
columns = []
|
|
for col in df.columns:
|
|
sample_val = df[col].dropna().iloc[0] if not df[col].dropna().empty else ""
|
|
columns.append((col, infer_sql_type(sample_val)))
|
|
if not table_exists(cursor, table):
|
|
# Crea tabella con PK se definita
|
|
pk = get_table_pk(table)
|
|
fields = ", ".join([f"`{c}` {t}" for c, t in columns])
|
|
pk_sql = f", PRIMARY KEY ({', '.join([f'`{k}`' for k in pk])})" if pk else ""
|
|
sql = f"CREATE TABLE `{table.lower()}` ({fields}{pk_sql}) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4" # Nome tabella in minuscolo
|
|
cursor.execute(sql)
|
|
logging.info(f"Tabella '{table}' creata con colonne: {[c for c, _ in columns]}")
|
|
else:
|
|
# Aggiorna tabella se ci sono nuovi campi
|
|
existing = get_existing_columns(cursor, table)
|
|
for c, t in columns:
|
|
if c not in existing:
|
|
cursor.execute(f"ALTER TABLE `{table.lower()}` ADD COLUMN `{c}` {t}") # Nome tabella in minuscolo
|
|
logging.info(f"Tabella '{table}' aggiornata: aggiunta colonna '{c}' ({t})")
|
|
logging.info(f"Tabella '{table}' colonne esistenti: {existing}")
|
|
logging.info(f"Tabella '{table}' colonne CSV: {[c for c, _ in columns]}")
|
|
|
|
def import_csv_to_mysql(cfg, csv_path, table, conn, hash_dir):
|
|
print(f"[DEBUG] Import {csv_path} -> {table}")
|
|
try:
|
|
df = pd.read_csv(csv_path, dtype=str, encoding=cfg.get("CSVEncoding", "utf-8"))
|
|
df = df.fillna("")
|
|
df.columns = [col.strip() for col in df.columns] # Pulisce i nomi delle colonne
|
|
cursor = conn.cursor()
|
|
table_name_lower = table.lower() # Usa nome tabella normalizzato
|
|
create_or_update_table(cursor, table_name_lower, df)
|
|
pk = get_table_pk(table_name_lower) # Usa nome tabella normalizzato per PK
|
|
hash_file = os.path.join(hash_dir, f"{table}.md5")
|
|
file_hash = hashlib.md5(open(csv_path, "rb").read()).hexdigest()
|
|
if os.path.exists(hash_file):
|
|
with open(hash_file, "r") as f:
|
|
last_hash = f.read().strip()
|
|
if last_hash == file_hash:
|
|
logging.info(f"{table}: dati invariati, nessun update.")
|
|
# cursor.close() # Non chiudere il cursore qui, verrà chiuso alla fine o in caso di eccezione
|
|
return
|
|
# Inserimento/aggiornamento dati
|
|
cols = ", ".join([f"`{c}`" for c in df.columns])
|
|
vals = ", ".join(["%s"] * len(df.columns))
|
|
if pk:
|
|
# Update se PK esiste, altrimenti insert
|
|
update_sql = ", ".join([f"`{c}`=VALUES(`{c}`)" for c in df.columns if c not in pk])
|
|
sql = f"INSERT INTO `{table_name_lower}` ({cols}) VALUES ({vals}) ON DUPLICATE KEY UPDATE {update_sql}"
|
|
else:
|
|
sql = f"REPLACE INTO `{table_name_lower}` ({cols}) VALUES ({vals})"
|
|
for row in df.itertuples(index=False, name=None):
|
|
cursor.execute(sql, row)
|
|
conn.commit()
|
|
# Salva hash
|
|
os.makedirs(hash_dir, exist_ok=True)
|
|
with open(hash_file, "w", encoding="utf-8") as f:
|
|
f.write(file_hash)
|
|
logging.info(f"{table}: dati importati/aggiornati ({len(df)} righe).")
|
|
except Exception as e:
|
|
logging.error(f"Errore importazione {table} da {csv_path}: {e}")
|
|
finally:
|
|
cursor.close()
|
|
|
|
def scan_and_import(cfg):
|
|
print(">>> scan_and_import chiamata", flush=True)
|
|
print("=== INIZIO SCANSIONE ===")
|
|
input_dir = cfg["InputDirectory"]
|
|
print(f"[DEBUG] InputDirectory: {input_dir}")
|
|
hash_dir = cfg.get("HashDirectory", "./hash")
|
|
os.makedirs(hash_dir, exist_ok=True)
|
|
|
|
conn = get_mysql_connection(cfg)
|
|
archivio_report = []
|
|
csv_trovati_totale = []
|
|
|
|
for root, dirs, files in os.walk(input_dir):
|
|
print(f"[DEBUG] SCANSIONE CARTELLA: {root}", flush=True)
|
|
print(f"[DEBUG] Sottocartelle: {dirs}", flush=True)
|
|
print(f"[DEBUG] File trovati: {files}", flush=True)
|
|
csv_trovati_in_questa_cartella = []
|
|
for file in files:
|
|
print(f"[DEBUG] Analizzo file: {file}")
|
|
if file.lower().endswith(".csv"):
|
|
csv_path = os.path.join(root, file)
|
|
parent_folder = os.path.basename(os.path.dirname(csv_path))
|
|
table_name_original = f"{parent_folder}_{os.path.splitext(file)[0]}"
|
|
table_name_for_db = table_name_original.lower()
|
|
print(f"[DEBUG] CSV trovato: {csv_path} -> Tabella: {table_name_for_db}")
|
|
logging.info(f"Trovato CSV: {csv_path} -> Tabella DB: {table_name_for_db} (Originale: {table_name_original})")
|
|
csv_trovati_in_questa_cartella.append(file)
|
|
csv_trovati_totale.append(csv_path)
|
|
try:
|
|
df = pd.read_csv(csv_path, dtype=str, encoding=cfg.get("CSVEncoding", "utf-8"))
|
|
df.columns = [c.strip() for c in df.columns]
|
|
archivio_report.append({
|
|
"source": csv_path,
|
|
"table_original_name": table_name_original,
|
|
"table_db_name": table_name_for_db,
|
|
"fields": list(df.columns),
|
|
"rows": len(df)
|
|
})
|
|
except Exception as e:
|
|
logging.error(f"Errore lettura {csv_path} per report: {e}")
|
|
import_csv_to_mysql(cfg, csv_path, table_name_original, conn, hash_dir)
|
|
if csv_trovati_in_questa_cartella:
|
|
print(f"[DEBUG] CSV trovati in '{root}': {len(csv_trovati_in_questa_cartella)}")
|
|
else:
|
|
print(f"[DEBUG] Nessun CSV trovato in '{root}'.")
|
|
conn.close()
|
|
output_dir_report = cfg.get("OutputDirectory", ".")
|
|
os.makedirs(output_dir_report, exist_ok=True)
|
|
report_path = os.path.join(output_dir_report, "report_archivio.json")
|
|
try:
|
|
with open(report_path, "w", encoding="utf-8") as f:
|
|
json.dump(archivio_report, f, indent=2, ensure_ascii=False)
|
|
logging.info(f"Report struttura archivi generato in {report_path}")
|
|
except Exception as e:
|
|
logging.error(f"Errore durante il salvataggio del report {report_path}: {e}")
|
|
|
|
logging.info(f"Totale CSV analizzati per il report: {len(archivio_report)}")
|
|
print(f"\nTotale CSV trovati in tutte le cartelle: {len(csv_trovati_totale)}")
|
|
for f in csv_trovati_totale:
|
|
print(f" - {f}")
|
|
|
|
# --- CONTROLLO RELAZIONI ---
|
|
|
|
def check_relations(cfg):
|
|
"""
|
|
Controllo preliminare delle relazioni tra le tabelle chiave.
|
|
Stampa e logga eventuali anomalie (es. condomini senza stabile, rate senza condominio, incassi senza rate).
|
|
"""
|
|
try:
|
|
conn = get_mysql_connection(cfg)
|
|
cur = conn.cursor()
|
|
|
|
# 1. Condomini senza stabile associato
|
|
cur.execute("""
|
|
SELECT c.id_cond, c.cartella_condominio
|
|
FROM condomin c
|
|
LEFT JOIN stabili s ON c.cartella_condominio = s.nome_directory
|
|
WHERE s.nome_directory IS NULL
|
|
LIMIT 10
|
|
""")
|
|
orfani = cur.fetchall()
|
|
if orfani:
|
|
print("[ATTENZIONE] Condomini senza stabile associato:", orfani)
|
|
logging.warning(f"Condomini senza stabile associato: {orfani}")
|
|
else:
|
|
print("[OK] Tutti i condomini hanno uno stabile associato.")
|
|
logging.info("Tutti i condomini hanno uno stabile associato.")
|
|
|
|
# 2. Rate senza condominio associato
|
|
cur.execute("""
|
|
SELECT r.id_rate, r.cartella_condominio
|
|
FROM rate r
|
|
LEFT JOIN condomin c ON r.cartella_condominio = c.cartella_condominio
|
|
WHERE c.cartella_condominio IS NULL
|
|
LIMIT 10
|
|
""")
|
|
orfani = cur.fetchall()
|
|
if orfani:
|
|
print("[ATTENZIONE] Rate senza condominio associato:", orfani)
|
|
logging.warning(f"Rate senza condominio associato: {orfani}")
|
|
else:
|
|
print("[OK] Tutte le rate hanno un condominio associato.")
|
|
logging.info("Tutte le rate hanno un condominio associato.")
|
|
|
|
# 3. Incassi senza rata associata
|
|
cur.execute("""
|
|
SELECT i.ID_incasso, i.cartella_condominio, i.id_rate
|
|
FROM incassi i
|
|
LEFT JOIN rate r ON i.cartella_condominio = r.cartella_condominio AND i.id_rate = r.id_rate
|
|
WHERE r.id_rate IS NULL
|
|
LIMIT 10
|
|
""")
|
|
orfani = cur.fetchall()
|
|
if orfani:
|
|
print("[ATTENZIONE] Incassi senza rata associata:", orfani)
|
|
logging.warning(f"Incassi senza rata associata: {orfani}")
|
|
else:
|
|
print("[OK] Tutti gli incassi hanno una rata associata.")
|
|
logging.info("Tutti gli incassi hanno una rata associata.")
|
|
|
|
# 4. Fornitori senza stabile associato (se serve)
|
|
cur.execute("""
|
|
SELECT f.id_fornitore, f.cartella_condominio
|
|
FROM fornitori f
|
|
LEFT JOIN stabili s ON f.cartella_condominio = s.nome_directory
|
|
WHERE s.nome_directory IS NULL
|
|
LIMIT 10
|
|
""")
|
|
orfani = cur.fetchall()
|
|
if orfani:
|
|
print("[ATTENZIONE] Fornitori senza stabile associato:", orfani)
|
|
logging.warning(f"Fornitori senza stabile associato: {orfani}")
|
|
else:
|
|
print("[OK] Tutti i fornitori hanno uno stabile associato.")
|
|
logging.info("Tutti i fornitori hanno uno stabile associato.")
|
|
|
|
cur.close()
|
|
conn.close()
|
|
except Exception as e:
|
|
print("[ERRORE] Controllo relazioni:", e)
|
|
logging.error(f"Errore controllo relazioni: {e}")
|
|
|
|
# --- MAIN ---
|
|
|
|
if __name__ == "__main__":
|
|
print(">>> MAIN PARTITO", flush=True)
|
|
config_path = os.path.join(os.path.dirname(__file__), "agent_config.json")
|
|
cfg = load_config(config_path)
|
|
setup_logging(cfg["LogDirectory"], cfg.get("LogFile", "agent.log"))
|
|
logging.info("=== Avvio importazione batch NETGESCON ===")
|
|
print("CONFIG:", cfg, flush=True)
|
|
print("InputDirectory:", cfg["InputDirectory"], flush=True)
|
|
scan_and_import(cfg)
|
|
check_relations(cfg)
|
|
logging.info("=== Fine importazione batch NETGESCON ===")
|
|
|
|
# Elaborazione CSV "stabili" separatamente
|
|
try:
|
|
conn = get_mysql_connection(cfg)
|
|
cur = conn.cursor()
|
|
|
|
# Mappatura cartelle → ID stabili (da usare per gli altri CSV)
|
|
stabili_mapping = {}
|
|
cur.execute("SELECT id_stabile, nome_directory FROM stabili")
|
|
for id_stabile, nome_directory in cur.fetchall():
|
|
stabili_mapping[nome_directory] = id_stabile
|
|
|
|
# Elaborazione CSV in INPUT_ROOT (esclusi quelli già trattati)
|
|
INPUT_ROOT = cfg["InputDirectory"]
|
|
for root, _, files in os.walk(INPUT_ROOT):
|
|
for fname in files:
|
|
if fname.lower().endswith(".csv") and not fname.lower().startswith("stabili"):
|
|
csv_path = os.path.join(root, fname)
|
|
process_csv(csv_path, cur, stabili_mapping)
|
|
|
|
conn.commit()
|
|
except Exception as e:
|
|
logging.error(f"Errore durante l'elaborazione dei CSV: {e}")
|
|
finally:
|
|
cur.close()
|
|
conn.close() |