In statistica e informatica, la locuzione inglese big data ("grandi [masse di] dati") o l'italiana megadati indica genericamente una raccolta di dati informatici così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o conoscenza. Il termine è utilizzato dunque in riferimento alla capacità (propria della scienza dei dati) di analizzare ovvero estrapolare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati (grazie a sofisticati metodi statistici e informatici di elaborazione), al fine di scoprire i legami tra fenomeni diversi (ad esempio correlazioni) e prevedere quelli futuri. I big data possono essere utilizzati per diversi scopi tra cui quello di misurare le prestazioni di un'organizzazione nonché di un processo aziendale.
2: Descrizione
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhC8KxaEoxsxwCvBOwrhMZmMZun3Slt6RKkWaO6Wh0735VYNUpxO99Lc9gyW1Y_yd4o7vUuDaD6tpUhCpY_OHMBjBXf9Iz_Q969fg69uU_Zeo1-zYvbTeOseFZSLUVLoBmSk6Pe8TuXeiYjRqBBCYUp62Xy6lNS6ENj11tLpcxM3u5tn48nIfgIUOvuew/s320/DARPA_Big_Data.jpg)
Illustrazione simbolico-artistica del flusso di una gran mole di dati digitali
Malgrado non esista una separazione rigorosa tra big data e altri dati (non classificabili come big), sono stati proposti diversi approcci per descriverne le peculiarità. Nel 2011 Teradata afferma che «Un sistema di big data eccede/sorpassa/supera i sistemi hardware e software comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva». Un'ulteriore proposta di caratterizzazione dei big data è stata data dal McKinsey Global Institute: «Un sistema di Big Data si riferisce a dataset la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare».
Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate, quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni che il sistema deve poter acquisire e gestire per secondo. Negli ultimi due anni c'è stato infatti un incremento del 90% dei dati prodotti nel mondo e le aziende potrebbero arrivare a produrre zettabyte di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.
Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet. Con i big data la mole dei dati è dell'ordine degli zettabyte, ovvero miliardi di terabyte, quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server. I Big data comportano anche l'interrelazione di dati provenienti da fonti potenzialmente eterogenee, cioè non soltanto i dati strutturati (come quelli provenienti dai database) ma anche non strutturati (immagini, email, dati GPS, informazioni derivanti dai social network, ecc.).
3: Definizione e caratteristiche
Le cosiddette 3V dei big data
Non esiste una soglia di riferimento prestabilita in termini di dimensione oltre la quale è lecito parlare di Big Data: in genere si parla di big data quando l'insieme di dati è talmente grande e complesso che richiede la definizione di nuovi strumenti e metodologie per estrapolare, gestire e processare informazioni entro un tempo ragionevole. Infatti, come enunciato dalla legge di Moore, l'evoluzione tecnologica permette la memorizzazione e la gestione di dataset di dimensioni continuamente crescenti[9]. In uno studio del 2001, l'analista Douglas Laney aveva definito il modello di crescita come tridimensionale (modello delle «3V]): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante esso sia stato successivamente esteso.
Nel primo modello di Douglas Laney, chiamato delle «3V», le tre parole chiave hanno il seguente significato:
Volume: si riferisce alla quantità di dati (strutturati o non strutturati) generati ogni secondo. Tali dati sono generati da sorgenti eterogenee, quali: sensori, log, eventi, email, social media e database tradizionali;
Varietà: si riferisce alla differente tipologia dei dati che vengono generati, accumulati ed utilizzati. Prima dell'epoca dei Big Data si prendevano in considerazione per le analisi principalmente dati strutturati; la loro manipolazione veniva eseguita mediante l'uso di database relazionali. Per avere analisi più accurate e più profonde, oggi è necessario prendere in considerazione anche:
a) dati non strutturati (ad esempio file di testo generati dalle macchine industriali o log di web server o dei firewall);
b) dati semi strutturati (ad esempio un atto notarile con frasi fisse e frasi variabili) oltre a quelli strutturati (ad esempio la tabella di un database);
Modello ITMI (Informazione, Tecnologia, Metodi, Impatto) sui big data
Con il tempo, sono state introdotte una quarta V, quella di veridicità, e poi una quinta, quella di Valore.
Veridicità: considerando la varietà dei dati sorgente (dati strutturati o non strutturati) e la velocità alla quale tali dati possono variare, è molto probabile che non si riesca a garantire la stessa qualità di dati in ingresso ai sistemi di analisi normalmente disponibile in processi di ETL tradizionali. È evidente che se i dati alla base delle analisi sono poco accurati, i risultati delle analisi non saranno migliori. Visto che su tali risultati possono essere basate delle decisioni, è fondamentale assegnare un indice di veridicità ai dati su cui si basano le analisi, in modo da avere una misura dell'affidabilità.
Valore: si riferisce alla capacità di trasformare i dati in valore. Un progetto Big Data necessita di investimenti, anche importanti, per la raccolta granulare dei dati e la loro analisi. Prima di avviare un'iniziativa è importante valutare e documentare quale sia il valore effettivo portato al business.
Con il passare del tempo, ulteriori caratteristiche si sono aggiunte al modello, quali ad esempio:
variabilità: questa caratteristica può essere un problema e si riferisce alla possibilità di inconsistenza dei dati;
complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire
Altri modelli concettuali, come il Modello ITMI (Informazione, Tecnologia, Metodi, Impatto), hanno cercato di rappresentare in maniera sintetica i vari aspetti che caratterizzano il fenomeno dei big data nella sua complessità, andando oltre le caratteristiche del dato, come avviene per i modelli basati sulle "V".
4: Crescita del volume dei dati
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhvD-ZEne9rN1k3znKfFNe_JJjz5-RsbBBwq-fhg9LbQ1htE57Td80gpGSfQvqXaT6Lc03I80rODAcAs-WVgT2OUEXwfiVHFqTytaGgTZCudOp4tG93extr2vn81iH67JO7_1yopJqn_u-Lqxeqtb9xMSw0ijL3l6khC8VMLbvqlK5XsvxKZ-IUyh_u5A/w522-h328/BigDataGrowth.png)
Crescita esponenziale dei dati nel tempo
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi2z8_hOP3xpHFhZhizyZA47V3qtYYHtsJD4Ynw54ykK8LElXGnkyjke4yyKlvT5M_VCthpNk-ll4AmNjffABXQ0LI3OYS--03ZEQqYRwuFUyfvM7xkG6LCaLYP3G0JP8zcMdUFFU3HGrmsw9izUfrdh1BIpAxM3clhm9D0SKLRRvg75l2Cv4PgsBUl1g/w542-h305/le-varie-unita-di-misura-digitali-a-confronto-con-lo-zettabyte.png)
I Big Data sono un argomento interessante per molte aziende, le quali negli ultimi anni hanno investito su questa tecnologia più di 15 miliardi di dollari, finanziando lo sviluppo di software per la gestione e l'analisi dei dati. Questo è accaduto perché le economie più forti sono molto motivate all'analisi di enormi quantità di dati: basti pensare che ci sono oltre 4,6 miliardi di smartphone attivi e circa 2 miliardi di persone hanno accesso a Internet. Dal 1986 ad oggi il volume dei dati in circolazione è aumentato in maniera esponenziale:
nel 1986 i dati erano 281 Petabyte;
nel 1993 i dati erano 471 PetaByte;
nel 2000 i dati erano 2,2 Exabyte;
nel 2007 i dati erano 65 ExaByte;
per il 2014 si era previsto uno scambio di oltre 650 ExaByte
5: Generazione e acquisizione
Oltre alla varietà dei formati e strutture, i Big Data presentano anche una varietà di fonti. I dati generati da queste spesso sono classificati in:
human generated: si trovano e derivano in particolare da piattaforme di social network (Facebook, LinkedIn), blogging (Blogger, Wordpress) e micro-blogging (Twitter, Tumblr), social news (Digg, Reddit), social bookmarking (Delicious, StumbleUpon), multimedia sharing (Instagram, Flickr, YouTube), le wiki (Wikipedia), i siti di domande e risposte (Yahoo Answers), i siti di recensioni (Yelp, TripAdvisor), i portali di e-commerce (eBay, Amazon), click stream da siti web ecc, generalmente gestiti tramite cookie.
machine generated: sono prodotti da sorgenti quali sensori GPS, IoT, RFID, centrali di monitoraggio di eventi meteorologici, strumenti scientifici, sistemi di High Frequency Trading dei mercati finanziari, dispositivi biomedicali ed altri.
business generated: si intendono tutti quei dati, human o machine generated, generati internamente ad un’azienda che registrano tutte le attività data-driven dei processi di business aziendali. Molti di essi sono dati storici, memorizzati staticamente in base di dati relazionali, che rappresentano pagamenti, ordini, dati di produzione, d'inventario, vendite e dati finanziari. La crescente produzione di questa tipologia di dati ha reso necessario l’utilizzo di tecnologie e strumenti di analisi in tempo reale affinché le aziende possano sfruttare a pieno il loro potenziale.
6: Modelli di analisi dei dati
In base agli strumenti e ai modelli utilizzati per l'analisi e la gestione dei dati è possibile distinguere quattro metodologie (o tipologie) di Big Data Analytics:
![](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEg5SHmdeku4urshs2qNjp-aMLi4W1OWbfIgxZXHWWBikrDahk3u9lKRaQZFUYeupAOx2ttIYAhhM4mC4T0BN9SSvecHhcCzJxe-wIf5AQTf5VdSXcUMEiBOv5JFfSBe5t2WFr8xNbzKdOg_z7yCJStuqYgxVMjzXITYyYGFU1S5CFqcP7uRUrNlDxL5Vw/w483-h278/Three_Phases_of_Analytics.png)
Analisi prescrittiva estesa oltre l'analisi predittiva specificando sia le azioni necessarie per raggiungere i risultati predetti, sia gli effetti correlati di ogni decisione
Analisi descrittiva, l’insieme di strumenti orientati a descrivere la situazione attuale e passata dei processi aziendali e/o aree funzionali. Tali strumenti permettono di accedere ai dati in maniera interattiva (inserendo ad esempio filtri o effettuando operazioni di drill-down) e di visualizzare in modo sintetico e grafico i principali indicatori di prestazione (la totalità delle grandi organizzazioni si serve questa tipologia);
Analisi predittiva, strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro (sono caratterizzati da tecniche matematiche quali regressione, proiezione (forecasting), modelli predittivi, ecc.);
Analisi prescrittiva, strumenti avanzati che, insieme all'analisi dei dati, sono capaci di proporre soluzioni operative/strategiche sulla base delle analisi svolte;
Automated Analytics, strumenti capaci di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.
1 LA SCUOLA INUTILE
![](https://blogger.googleusercontent.com/img/a/AVvXsEicIOeyl60Jq77JbMwDB_mrkhX3boe3roKDWrYyymdIOGi9e4iOLHpYZ-kwGWLJsaMO9Y74HSJISyvrzgMUWunScSDQpfcqb_65kZaWvaTyOU4EFzjL6xqLUaZVXRphrjClh6CL8lGdkJqk3Mcdsy8aON7TgCwEct3aiU0H9s8CsRAMLNKvwVVISbdo=w282-h203)
In queste 130 pagine sono raccolti e sistematizzati circa 80 post pubblicati sul blog LA VERITÀ PER FAVORE
(https://civicnessitalia.blogspot.com/)
sui temi della disoccupazione, della GIG Economy e della scuola. Oggi la disoccupazione giovanile è un tema cruciale della società e dell'economia. Fa da contraltare a ciò una nuova economia dei "lavoretti" provvisori a cui i giovani sono costretti e la cui dimensione, in continua crescita, ha finito per creare una sorta di economia parallela, legata in particolare al web, la cosiddetta GIG Economy. Ma quali sono le cause di tutto ciò? Una in particolare viene esaminata più a fondo: la crescente inadeguatezza del sistema formativo. Un mondo a sé stante, elefantiaco ed autoreferenziale, costosissimo e dannoso, praticamente irriformabile, che continua ad insegnare saperi obsoleti secondo una logica prenovecentesca che non permette la comprensione della realtà che ci circonda e che non fornisce conoscenze ed abilità utili per essere inseriti nel mondo del lavoro. Questa è la scuola inutile. Come può cambiare? Viene presentata la traccia di un radicale riforma, contenutistica e metodologica, in cui imparare e lavorare non sono più visti come termini in contrasto ed in successione, ma come due facce contemporanee della stessa medaglia.
2 NUOVI MODELLI DI SCUOLA
Nuovi modelli di scuola prosegue idealmente il discorso iniziato con La scuola inutile. Come allora si tratta della raccolta sistematizzata dei contenuti pubblicati in una serie di post sul blog LA VERITÀ PER FAVORE
(https://civicnessitalia.blogspot.com/). Il metodo, già sperimentato con successo, è quello di invertire i criteri di progettazione delle nuove didattiche. Oggi ogni riforma della scuola, parte dalla rielaborazione, con qualche aggiustamento più o meno consistente, dell'impianto formativo esistente.Viceversa, considerando questo sistema irriformabile, la partenza avviene dall'analisi della realtà extracolastica (il futuro è adesso) e degli enormi progressi dell'informatica e della robotica (amico robot). Su ciò vanno calibrate le nuove esigenze formative, le metodologie didattiche, i contenuti, le abilità, il reclutamento dei docenti, un continuo scambio tra scuola e lavoro. Quella a cui assistiamo è una nuova offerta formativa, temporalmente circoscritta e flessibile, modellata a fine percorso sulle opportunità occupazionali immediate dei soggetti.
3 I LIMITI DEL GLOBALE
I limiti del globale affronta le problematiche sorte a causa della globalizzazione, fenomeno di lungo corso, ma che negli ultimi 20 anni ha avuto un’accelerazione assai significativa, generando a cascata fenomeni socio-economici difficilmente controllabili. Raccoglie in maniera sistematica i post pubblicati sul blog LA VERITÀ PER FAVORE (https://civicnessitalia.blogspot.com/). Partendo dai diversi ambiti in cui essa si articola (la globalizzazione) esso ripercorre i vani sforzi degli organismi internazionali per porre rimedio alle disfunzioni più gravi (l’impotenza dell’ONU) fino all'ingovernabilità della situazione europea attuale (la crisi europea dei migranti) ed alle contraddizioni comunitarie (uscire dall'UE).
4 IL SISTEMA ITALIA
Il sistema Italia affronta le problematiche italiane degli ultimi 20 anni e la difficoltà delle soluzioni. Raccoglie in maniera sistematica i post pubblicati sul blog LA VERITÀ PER FAVORE
(https://civicnessitalia.blogspot.com/).
Partendo dai diversi ambiti sociali delle aree geografiche che compongono la nostra penisola (il sistema Italia), esso si addentra nell'analisi del poco soddisfacente status economico (un’economia drogata), tocca l’inadeguatezza della nostra classe dirigente a risolvere i problemi (una classe poco dirigente) e la forza di interdizione verso ogni semplificazione di gestione operata dai funzionari dell’Amministrazione Pubblica (burodittatura). Individua infine la strada di una possibile soluzione nello sforzo di ammodernamento digitale che è in atto (agenda digitale).
5 CARO MARIO TI SCRIVO
Caro Mario ti scrivo affronta le criticità italiane più recenti indicando tracce di soluzioni. Raccoglie in maniera sistematica i post pubblicati sul blog LA VERITÀ PER FAVORE(https://civicnessitalia.blogspot.com/).
Immagina di inviare una serie di lettere a chi ha responsabilità di governo cercando di dare una lettura non banale della realtà italiana (criticità), proponendo soluzioni precise ed articolate (proposte) e mettendole in relazione con le riforme messe in cantiere ma non ancora completate (promesse).
6 SOSTIENE NAT RUSSO
Sostiene Natrusso affronta sotto forma di metafora il luogocomunismo imperante spacciato sotto la categoria etica del politicamente corretto. Raccoglie in maniera sistematica i post pubblicati sul blog LA VERITÀ PER FAVORE
(https://civicnessitalia.blogspot.com/).
Sono toccati temi sociali (vi parlo di politica), ecologici (bufala verde non avrai il mio scalpo), transfrontalieri (import export) ed economici (pochi maledetti e subito). Ne esce uno spaccato anticonformista, vivace ed immediato della vis polemica che l’autore quotidianamente riversa nei suoi seguitissimi social.
7 NON MI ROMPERE I TABÙ
Non mi rompere i tabù raccoglie in maniera sistematica i post grafici pubblicati sul blog LA VERITÀ PER FAVORE
(https://civicnessitalia.blogspot.com/).
Attraverso l’uso di più tipi di grafica umoristica e paradossale (fumetto, solarizzazione, riproduzione caricaturale, ecc.) sono toccati temi artistici (aste televisive), sociali (dandy & milf), politici (non prendeteci per il Colao), giochi linguistici e nonsense (paradoxa). Ne esce uno spaccato anticonformista, vivace ed immediato della vis polemica che l’autore quotidianamente riversa nei suoi seguitissimi social.
8 CIVICNESS ITALIA
![](https://blogger.googleusercontent.com/img/a/AVvXsEilEZj6KDiNDAWQeL5ko1sA2RBwM_VIEmXbLScGh10f_gQRmUvuYFk5l793Q5H60VU-B7UYy92ZWqYMJ9qXShGoWynDBMvXgKAEcsC1VuhNnIhf-8uuPVEs1JlQJFUyGampYrNse_fY7yk7VdB36xS7T-VblLsYHLWvZv470Nj8S2QiiOnwY-Wc6RV9kw=w286-h212)
Il seguente volume raccoglie in maniera sistematica post apparsi su blog, interventi in conferenze pubbliche, seminari di studio, repliche ad articoli pubblicati su quotidiani, settimanali, mensili, ecc. In ognuno di essi si può notare come, ad ogni spunto polemico, segua sempre una pars construens in cui si illustra una proposta di riforma o almeno una traccia di soluzione di un problema. A differenza di quanto avvenuto in passato, in cui venivano sviluppate tematiche autoconcluse (La scuola inutile, Nuovi modelli di scuola, I limiti del globale, Il sistema Italia, Caro Mario ti scrivo, Sostiene Nat Russo, Non mi rompere i tabù) in questo caso tutti i differenti elementi convergono verso un unico target dinamico: la creazione di un soggetto politico plurale portatore di una volontà di cambiamento forte basata sulla Civicness. La Civicness, ossia il senso civico, pare essere la materia più rara (ma più necessaria) oggi in Italia. Prevale un diffuso senso di disimpegno, di menefreghismo, di “basto a me stesso”, di “se posso arraffo”, di “alla faccia degli altri”, di “io sono più furbo e ti frego”, di “dacci dentro con l’assalto alla diligenza”, di “ogni lasciata è persa”, di “ma che il fesso sono solo io?”. L’algoritmo sociale proposto per CIVICNESS va certamente limato ed approfondito, ma allo stato attuale, come ogni progetto open source che si rispetti, esso viene dato in affido alla comunità scientifica perché lo faccia proprio, lo implementi, lo migliori, ne verifichi i punti deboli e le carenze, ne segnali le sempre possibili contraddizioni. Si tratta comunque di un atto fondativo. Civicness Italia nasce oggi. Nat Russo Italia, Liguria, Savona, 1 Gennaio 2022