Formattare Tabelle in Spreadsheet

Gestione delle Tabelle

Marco Chiapello

Obiettivi

  • Descrivere le best practices per l’inserimento e la formattazione dei dati in spreadsheet
  • Applicare le best practices per organizzare variabili e osservazioni
  • Riconoscere e risolvere problemi comuni di formattazione

Perché è importante?

  • L’organizzazione dei dati è il fondamento del vostro progetto di ricerca
  • I computer interpretano i dati in modo letterale
  • Una buona formattazione iniziale facilita l’analisi futura
  • Permette la collaborazione e la riproducibilità

Il problema principale

Trattiamo gli spreadsheet come quaderni di laboratorio:

  • Note ai margini
  • Layout spaziale per trasmettere informazioni
  • Formattazione per dare significato ai dati

Gli umani capiscono, i computer no!

Principi “Tidy Data”

Le regole cardinali:

  1. Colonne = variabili
  2. Righe = osservazioni
  3. Una informazione per cella
  4. Non modificare mai i dati grezzi
  5. Esportare in formato text-based (CSV)

Dataset Portal Project

Dataset reale usato in 100+ pubblicazioni:

  • Osservazioni di piccoli mammiferi in Arizona
  • Studio degli effetti di roditori e formiche sulle piante
  • Progetto in corso da quasi 40 anni
  • 24 plots con manipolazioni sperimentali

Durante il corso useremo un subset semplificato di questo dataset per gli esercizi

Tracciare le modifiche

Buone pratiche:

  • Creare un nuovo file per i dati puliti
  • Tenere traccia di ogni passaggio in un file di testo
  • Mai modificare il dataset originale
  • Usare version control (es. Git)

Esercizio pratico

Scarica i dati:

Attività:

  1. Apri il file messy
  2. Identifica i problemi (tab 2013 e 2014)
  3. Discuti come pulire i dati
  4. Non modificare l’originale!

Errori comuni: Tabelle multiple

❌ Non create tabelle multiple in un foglio

Il computer vede ogni riga come un’osservazione unica e si confonde con associazioni false

✅ Una tabella per foglio, colonne coerenti

Errori comuni: Tab multipli

❌ Un tab per ogni giorno/condizione

Problemi:

  • Inconsistenze tra tab
  • Passaggio extra per combinare i dati
  • Difficile vedere le connessioni

✅ Aggiungere una colonna “data” o “condizione”

Errori comuni: Zeri mancanti

Differenza importante:

  • Zero = misurato, valore nullo
  • Cella vuota = non misurato, valore mancante (NULL)

❌ Lasciare celle vuote per gli zeri

✅ Scrivere sempre 0 quando il valore è zero

Errori comuni: Valori NULL

Valori problematici per dati mancanti:

❌ -999, 0, “N/A”, “missing”, “-”

Soluzioni consigliate:

✅ Celle vuote (migliore per la maggior parte dei software)

NA (per R)

Errori comuni: Formattazione

❌ Usare colori/grassetti per trasmettere informazioni

❌ Celle unite

❌ Righe vuote per separare sezioni

✅ Creare una nuova colonna con l’informazione codificata

Errori comuni: Commenti e unità

❌ Commenti nelle celle dati

❌ Unità nelle celle (es. “25 kg”)

✅ Colonna separata per commenti

✅ Unità nei nomi delle colonne (es. “peso_kg”)

Nomi dei campi

Buone pratiche:

✅ Descrittivi ma concisi

✅ Nessuno spazio (usare _)

✅ Nessun carattere speciale

✅ Non iniziare con numeri

✅ Includere unità (es. temp_C, peso_kg)

Esempi nomi campi

Buono Buona Alternativa Da evitare
Max_temp_C MaxTemp Maximum Temp (°C)
Precipitation_mm Precipitation precmm
Mean_year_growth MeanYearGrowth Mean growth/year
cell_type CellType Cell Type

Caratteri speciali

❌ Evitare:

  • A capo nelle celle
  • Virgolette “smart” (da Word)
  • Tab, caratteri verticali
  • Em-dash, caratteri speciali

✅ Trattare le celle come semplici form di testo

Metadata

Metadata = dati sui dati

❌ Non includere legenda/note nel file dati

✅ File separato (es. README.txt)

  • Descrizione variabili
  • Unità di misura
  • Come sono codificati valori NULL
  • Informazioni sulla raccolta dati

Recap: Le regole d’oro

  1. Mai modificare i dati grezzi
  2. Una tabella per foglio
  3. Colonne = variabili, Righe = osservazioni
  4. Una informazione per cella
  5. Usare valori NULL consistenti
  6. Nomi campi senza spazi o caratteri speciali
  7. Metadata in file separato
  8. Tracciare ogni modifica

Risorse

Riferimenti:

Dati per l’esercizio disponibili nella cartella data/