- Home
- Intelligenza Artificiale
- Big data e small data. Cosa so ...
Indice
- Strutturazione dei big data
- Raccolta e analisi
- Struttura dei dati e sensori IoT
- Veridicità
- Small data e analisi dei campioni
- Case history degli small data
- Big data e Healthcare
Negli ultimi anni, si è sentito sempre più spesso parlare di “big data” e “small data”. Ma che cosa significano realmente questi termini?
Partiamo dai big data che sono grandi quantità di dati che vengono raccolti e analizzati per estrarre informazioni utili. Questa mole informativa può provenire da molteplici fonti, dai social media ai sensori IoT (Internet of Things), ai siti web o database. Questi dati sono caratterizzati da una serie di “V” (e cioè Volume, Velocità, Varianza, Veridicità e Valore), che ne descrivono le caratteristiche principali.
Strutturazione dei big data
Il Volume si riferisce alla quantità di dati che vengono generati e raccolti, e che può essere a volte talmente elevata da rendere difficile la loro gestione. La Velocità indica la velocità appunto con cui questi dati vengono prodotti e raccolti. La Varianza invece definisce la diversità dei dati stessi, che possono essere strutturati, semistrutturati o non strutturati. La Veridicità indica la precisione e la qualità dei dati, che devono essere sempre accurati e affidabili. Infine, il Valore rappresenta l’importanza e l’utilità dei dati analizzati e raccolti che possono fornire informazioni utili per prendere decisioni o per migliorare determinati processi aziendali.
Raccolta e analisi
Il processo per la raccolta dei big data dipende dalle fonti da cui i dati vengono raccolti e dalle finalità per cui vengono utilizzati. Come prima cosa avremo una identificazione delle fonti da cui i dati possono essere stati raccolti. Potrà trattarsi quindi di fonti interne all’azienda stessa (sistemi di gestione dei dati) o esterne (social media, sensori IoT, siti web, transazioni finanziarie). Il tutto porterà ad una successiva raccolta che avverrà in modo automatico, attraverso l’uso di sensori o di strumenti software, o anche manualmente. Una volta identificati e raccolti, i dati devono essere poi stoccati in modo da poter essere utilizzati successivamente. In questo interverrà l’utilizzo di un database o di strumenti di archiviazione cloud.
Altro passo importante è quello della pulizia e della normalizzazione dei dati prima che vengano utilizzati. Questo vorrà dire rimuovere eventuali errori e uniformare il tutto in modo da rendere il lavoro compatibile con gli strumenti preposti per l’analisi. Questo processo mette in moto l’utilizzo di specifici algoritmi di machine learning che servono ad estrarre informazioni utili e a generare previsioni. L’ultima fase di questo processo consiste nell’interpretare i risultati ottenuti dall’analisi dei dati. Il che significa comprendere il significato dei dati e delle informazioni estratte, e utilizzarle per prendere decisioni focalizzate.
Struttura dei dati e sensori IoT
I sensori IoT (Internet of Things) sono uno dei principali fattori che hanno contribuito alla crescita esponenziale dei big data negli ultimi anni. La loro diffusione, sempre più ampia, ha generato una grande quantità di informazioni, spesso però di tipo non strutturato. Il loro utilizzo è una base molto importante per finalizzare una comprensione ottimale di determinati fenomeni, dando la possibilità di generare previsioni molto dettagliate. Per voler fare un esempio diremo che i dati raccolti da sensori IoT possono servire per monitorare le condizioni ambientali all’interno di una fabbrica o un magazzino. E ancora, per ottimizzare i processi di produzione, per gestire il consumo di energia o per migliorare la sicurezza sul lavoro.
La raccolta e la conseguente elaborazione di grandi quantità di informazioni generate dai sensori IoT richiedono anche l’uso di strumenti di analisi avanzati. Questi devono essere in grado di gestire dati in tempo reale e di rilevare eventuali anomalie. Inoltre, non dimentichiamo che è sempre necessario garantire la sicurezza e la protezione dei dati raccolti, per evitare eventuali rischi per la privacy o per la sicurezza delle stesse informazioni.
Veridicità
Benchè il processo di selezione e di analisi dei dati raccolti segua sempre un iter equilibrato, può comunque esserci la possibilità che venga messa in discussione la veridicità delle informazioni. E questo può accadere ad esempio se la raccolta stessa viene influenzata da fattori legati alla selezione dei campioni o al bias dell’osservatore, o se ci si trova di fronte ad una manipolazione. Va sempre posta grande attenzione all’analisi qualitativa dei dati sintetizzati. Che si tratti di analisi della natura insita nei dati stessi o che ci si trovi di fronte ad informazioni non strutturate, andrà sempre tenuto conto della metodologia giusta da utilizzare. Quindi si farà attenzione alla veridicità, alla riduzione del rumore nelle informazioni raccolte e alla tipologia di selezione del campione da cui vengono raccolti.
Small data e analisi dei campioni
Gli small data, invece, sono piccole quantità di dati che vengono raccolti e analizzati con l’obiettivo di ottenere informazioni utili. Si distinguono dai big data per il loro volume inferiore e per il fatto che vengono raccolti in modo più specifico e mirato. La loro raccolta avverrà quindi tramite sondaggi, focus group, interviste o attraverso l’analisi di un campione rappresentativo dei dati stessi. Mentre i big data sono utilizzati soprattutto in ambito aziendale, gli small data sono spesso presi in considerazione per prendere decisioni a livello individuale. La loro utilità si evince soprattutto quando si vuole analizzare un fenomeno specifico o comprendere meglio le esigenze o le preferenze dei consumatori.
Case history degli small data
Gli small data possono avere un grande ritorno attraverso il loro utilizzo rivolto all’ottimizzazione dei processi aziendali. Inoltre è possibile definirne una traccia di analisi per lo sviluppo di nuovi prodotti e servizi volti soprattutto a migliorare l’esperienza dei clienti. Starbucks ad esempio ha utilizzato gli small data per identificare gli ultimi trend dei clienti cercando di creare nuove proposte in grado di rispondere maggiormente alle loro esigenze. Raccogliendo continui feedback su ciò che veniva richiesto e ricercato attraverso l’esperienza diretta all’interno di una caffetteria, ha dato vita a nuovi prodotti come il “Cloud Macchiato”, un cappuccino al caffè servito con una schiuma al latte montata. Anche il The New York Times ha utilizzato gli small data per migliorare l’engagement dei lettori. Raccogliendo impressioni da parte dei lettori sui loro interessi e preferenze di lettura, ha poi utilizzato questi dati per sviluppare contenuti che rispondessero di più alle loro esigenze.
Big data e Healthcare
Il settore dell’Healthcare è uno dei campi in cui i big data stanno attuando una vera e propria rivoluzione. Soprattutto nel modo in cui vengono forniti i servizi sanitari e gestiti i dati dei pazienti. La loro adozione aiuta i professionisti sanitari a ottenere una comprensione più approfondita delle malattie, identificando le tendenze di salute della popolazione e a sviluppare nuovi trattamenti medici. Prima fra tutte c’è sicuramente l’identificazione delle tendenze di salute delle persone. Gli ultimi anni pandemici sono stati un termometro e un campo d’azione proprio in questo senso. Attualmente i dati raccolti da sensori, dispositivi medici o applicativi specifici sono fondamentali per monitorare le condizioni dei pazienti in tempo reale sottolineando eventuali segnali di allarme.
La stessa personalizzazione dei trattamenti medici porta ad una stesura anamnestica che risponda in maniera molto più dettagliata alle esigenze del paziente stesso, prevedendone la risposta magari ad un determinato farmaco. Questo rileva la possibilità di strutturare un piano di cura personalizzato aderente alla situazione. Una raccolta accurata e definita dei big data può essere fondamentale per l’identificazione di determinate inefficienze del sistema sanitario. Lì dove il rallentamento del sistema crea la sua falla ecco che l’analisi delle informazioni può risolvere ad esempio i tempi di attesa inutili o i punti critici del flusso di lavoro. I dati possono allora essere utilizzati per identificare le aree in cui è possibile migliorare l’efficienza riducendo di molto i costi.