Cerca prodotto

Cerca

Briciole di pane



Big Data

Big data è il termine usato per descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore. Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet. Big data rappresenta anche l'interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network. Con i big data la mole dei dati è dell'ordine degli Zettabyte, ovvero miliardi di Terabyte. Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server. 

Definizione:
Si parla di Big Data quando si ha un dataset talmente grande da richiedere strumenti non convenzionali per estrapolare, gestire e processare informazioni entro un tempo ragionevole. Non esiste una dimensione di riferimento, ma questa cambia sempre, poiché le macchine sono sempre più veloci e i dataset sono sempre più grandi. Secondo uno studio del 2001, l'analista Doug Laney aveva definito il modello di crescita come tridimensionale (modello delle "3V"): con il passare del tempo aumentano volume (dei dati), velocità e varietà (dei dati). In molti casi questo modello è ancora valido, nonostante nel 2012 il modello sia stato esteso ad una quarta variabile, la veridicità. Vediamo queste caratteristiche nel dettaglio.

Caratteristiche:
Le caratteristiche principali dei Big Data sono le seguenti:

  • volume: rappresenta la dimensione effettiva del dataset; l'ampio volume di dati che è possibile raccogliere oggi potrebbe apparentemente rappresentare un problema. In realtà quello del volume dei Big Data è un falso problema, in quanto cloud e virtualizzazione aiutano nella gestione del grosso volume di dati disponibili, semplificando i processi di raccolta, immagazzinamento e accesso ai dati.
  • velocità: si riferisce alla velocità di generazione dei dati; si tende all'effettuare analisi dei dati in tempo reale o quasi;
  • varietà: riferita alle varie tipologie di dati, provenienti da fonti diverse (strutturate e non);

Il modello iniziale si fermava qui. Col tempo il modello si è esteso, andando ad aggiungere le seguenti caratteristiche:

  • variabilità: questa caratteristica può essere un problema e si riferisce alla possibilità di inconsistenza dei dati;
  • complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire; il compito più difficile è collegare le informazioni, ed ottenerne di interessanti.

Inoltre, alcune organizzazioni utilizzano una quarta V per indicare la "veridicità" dei dati, ossia la qualità dei dati intesa come il valore informativo che si riesce ad estrarre.
 

Differenze con Business Intelligence:
La crescente maturità del concetto dei big data mette in evidenza le differenze con la business intelligence, in materia di dati e del loro utilizzo:

  • business intelligence utilizza lastatistica descrittivacon dati ad alta densità di informazione per misurare cose, rilevare tendenze, ecc., cioè utilizza dataset limitati, dati puliti e modelli semplici;
  • big data utilizza lastatistica inferenzialee concetti di identificazione disistemi non lineari, per dedurre leggi (regressioni, relazioni non lineari, ed effetti causali) da grandi insiemi di datIe per rivelare i rapporti, le dipendenze, e effettuare previsioni di risultati e comportamenti,cioè utilizza dataset eterogenei (noncorrelatitra loro), dati raw e modelli predittivi complessi.
     

Analisi di Mercato:
I Big Data sono un argomento interessante per molte aziende, le quali negli ultimi anni hanno investito su questa idea più di 15 miliardi di Dollari, finanziando lo sviluppo di software per gestione dei dati e analisi. Questo è accaduto perché le economie più forti sono molto motivate all'analisi di enormi quantità di dati: basti pensare che ci sono oltre 4,6 miliardi di smartphone attivi e circa 2 miliardi di persone hanno accesso a Internet. Vediamo come il volume dei dati in circolazione si sia evoluto:

  • nel 1986 i dati erano 281 PetaBytes;
  • nel 1993 i dati erano 471 PetaBytes;
  • nel 2000 i dati erano 2,2 ExaBytes;
  • nel 2007 i dati erano 65 ExaBytes;
  • nel 2014 si prevede uno scambio di oltre 650 ExaBytes.


Modelli:
Come è stato detto in precedenza, il volume di dati dei Big Data e l'ampio uso di dati non strutturati non permette l'utilizzo dei tradizionali RDBMS, che non rendono possibile archiviazione e velocità di analisi. Gli operatori di mercato utilizzano piuttosto sistemi con elevata scalabilità e soluzioni basate sulla NoSQL.

Nell'ambito della business analytics nascono nuovi modelli di rappresentazione in grado di gestire tale mole di dati con elaborazioni in parallelo dei database. Architetture di elaborazione distribuita di grandi insiemi di dati sono offerte da MapReduce di Google e dalla controparte open source Apache Hadoop. Con questo sistema le applicazioni sono separate e distribuite con nodi in parallelo e quindi eseguite in parallelo (funzione map). I risultati vengono poi raccolti e restituiti (funzione reduce).

 

Tecnologie Utilizzate:
Oltre a modificare il metodo di approccio rispetto ai canonici dataset, per i Big Data è necessario sfruttare anche tecnologie particolari per poter processare in modo efficiente l'enorme ammontare di dati. Un report del 2011 di McKinsey suggerisce, tra le altre, le seguenti tecnologie:

  • Crowdsourcing
  • Fusione e integrazione dei dati
  • Algoritmi genetici
  • Machine Learning
  • Simulazione

Contattaci
 

Multimac Srl  -   800 593 293  -   info@multimac.it  -   P.Iva 01281830289  -   Company info  -   Privacy  -   Sitemap  -   Copyright © 2018. All rights reserved.

Login

Per poter acquistare i prodotti sul nostro sito è necessario accedere con la propria email e password.

Accedi

Password dimenticata?
Non possiedi i dati di accesso? Registrati

Chiudi