In precedenti articoli su questo blog, si è già accennato al movimento NoSQL (Not Only SQL) e ad una delle sue tecnologie, MongoDB:
Ebbene, da allora (pochi mesi), le tecnologie sono aumentate e l’interesse verso questo modello di dati è esploso, di pari passo alla tematica del Big Data che sta diventando molto di moda nell’ultimo periodo (molti ne parlano, ma chi davvero lo fa???).
Ecco le keywork che riassumono le peculiarità dei DB NoSQL:
- non-relational: le struttura di memorizzazione dei dati è differente dal modello relazionale. L’approccio a “schema rigido” dei db relazionali non permette di memorizzare dati fortemente dinamici. I db NoSQL sono “schemaless” e consentono di memorizzare “on the fly” attributi, anche senza averli definiti a priori
- distributed: la flessibilità nella clusterizzazione e nella replicazione dei dati permette di distribuire su più nodi lo storage (e il calcolo), in modo da realizzare potenti sistemi fault–tolerance
- open-source: alla base del movimento NoSQL vi è la filosofia “open-source”, fondamentale per contribuire ad accrescere le potenzialità delle sue tecnologie
- horizontally scalable: architetture enormemente scalabili, che consentono di memorizzare e gestire una grande quantità di informazioni
Al seguente link, trovate una lista aggiornata dei database NoSQL che rispettano i requisiti su citati: http://nosql-databases.org
Un whitepaper sulla tecnologia dei DB NoSQL l’ho trovato sul sito di CouchBase (un altro DB NoSql document-oriented): NoSQL Database Technology
E ancora, “10 cosa da sapere sui DB NoSQL”: 10 things you should know about NoSQL databases
Essi sono suddivisi nelle seguenti famiglie:
-
Wide Column Store / Column Families
-
Document Store
-
Key Value / Tuple Store
-
Graph Databases
-
Multimodel Databases
-
Object Databases
-
Grid & Cloud Database Solutions
-
XML Databases
-
Multidimensional Databases
-
Multivalue Database

Dal precedente grafico, si possono fare delle considerazioni. Un parametro di valutazione è l’operational complexity: la struttura di memorizzazione dei DB a grafo è particolarmente complessa e anche gli algoritmi che ne permettono la navigazione (traversal) sono i classici algoritmi di routing, di una certa complessità computazione. Ovvio che all’aumentare della complessità nella struttura dati, diminuisce la capacità di memorizzazione dei dati stessi (parametro size). La famiglia dei DB a grafo (graph databases), come NEO4J e OrientDB, dispone di routine di accesso ai dati particolarmente performanti, ma non possono trattare troppi dati – [per una introduzione ben fatta sui database a grafo, eccovi un buon riferimento: Graph Databases An Overview].
Al contrario, la famiglia dei DB a chiave-valore (key-value databases), come Redis, è particolarmente consigliata per memorizzare e gestire grosse quantità di dati. La famiglia dei DB a documenti (document databases), come MongoDB, si trovano in una posizione intermedia.
Un plauso va a due sviluppatori italiani che hanno sviluppato i più utilizzati DB NoSQL del momento:
Un sondaggio aperto agli utilizzatori (previa registrazione) sui vari DB (sia relazionali che non) e che vi permette di comparare le varie caratteristiche, lo trovate a questo link (potete inserire più colonne per confrontare più tecnologie tra loro): http://vschart.com/compare/mongodb/vs/redis-database
Ho cercato online una tesi di laurea in cui poter trovare un benchmark sui DB NoSQL e ho trovato quella ben fatta su Analisi delle performance dei database non relazionali: il caso di studio di MongoDB dell’Università di Padova, dove si compara MongoDB col db relazionale più diffuso, MySQL.
Eccovi un articolo di comparazione tra i principali DB delle famiglie elencate:
Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison
E ancora, un confronto tra alcuni DB NoSQL, dove Cassandra e HBase vincono sul throughput: A vendor-independent comparison of NoSQL databases: Cassandra, HBase, MongoDB, Riak.
