[BigData] ELK Stack: ElasticSearch + Logstash + Kibana

ELK Stack

Nel presente articolo riporto alcune informazioni rilevanti relative all’ ELK Stack, set di tecnologie open-source più diffuse e utilizzate per l’implementazione di una soluzione di Log Management, costituito dai seguenti prodotti:

  • ElasticSearch: server di ricerca basato su Lucene, e, dunque, con capacità “full-text”, e con supporto ad architetture distribuite e su larga scala. Le modalità di interazione e di interrogazione con la base dati proprietaria (su file system) avvengono attraverso interfaccia RESTful. Le informazioni sono memorizzate internamente come documenti JSON; Riferimento: https://www.elastic.co
  • LogStash: progetto Open Source scritto in JRuby, distribuito in formato JAR, la cui funzione principale è quella di fare il pipe di un qualsiasi evento, che può essere un log di sistema, una riga di testo, un tweet, ecc. Logstash può interfacciarsi con numerosi input, elaborarli, filtrarli e passarli ad un motore di ricerca o memorizzazione, come MongoDB, Redis, ElasticSearch e molto altro, configurando (attraverso un opportuno file di configurazione) la pipeline per l’acquisizione, il filtering e l’invio dei dati. L’integrazione con ElasticSearch è quella più potente e veloce per l’implementazione di una soluzione di log managementRiferimento: https://www.elastic.co/products/logstash
  • Kibana: è un tool che permette di visualizzare, grazie a strumenti di data analytics, le informazioni indicizzate ed acquisite da ElasticSearch o altri prodotti. Permette la rappresentazione delle informazioni in tempo reale, attraverso dashboard configurabili con vari tipi di widget (pie chart, istogrammi, grafici cartesiani, ecc.). Riferimento: https://www.elastic.co/products/kibana

La soluzione ELK Stack permette di implementare differenti modelli architetturali di alta scalabilità. Per maggiori dettagli su LogStash, vi consiglio il seguente riferimento: LogStask Book. Si riportano, di seguito, alcuni dei modelli di riferimento dell’ELK stack.

Modelli di riferimento: soluzioni con ELK Stack

Soluzione di base
La soluzione di base proposta da ELK Stack prevede la configurazione di una singola istanza di LogStash in modo da acquisire i dati non strutturati da differenti sorgenti. E’ possibile configurare più istanze di LogStash (Agent Shipper), in modo da acquisire i dati da datasource differenti ed indirizzare le informazioni strutturate (documenti JSON) ad un’unica istanza di ElasticSearch. Quest’ultimo effettua l’indicizzazione e la memorizzazione dei documenti JSON acquisiti.

ELKStack_SoluzioneBase

Tramite un file di configurazione è possibile far puntare l’istanza agent di LogStash ad uno o più datasource (SysLog Server, File System, DBMS, ecc.), grazie all’utilizzo di vari input plugin.

Inoltre, è possibile configurare le destinazioni, a cui inviare i documenti JSON degli eventi acquisiti, utilizzando vari output plugin. Il parsing e il filtering degli eventi acquisiti dai vari datasource può essere configurato grazie a filter plugin.

ELKStack_SoluzioneBase

Di seguito, si riporta un esempio di trasformazione di un evento di log in formato SysLog (formato non strutturato) in un documento JSON (formato strutturato):

SysLog Message:

Dec 17 16:00:35 joker systemd-logind[2113]: New session 31581 of user bob.

JSON Log Event:

{
  "host" : "joker.example.com",
  "priority" : 13,
  "timestamp" : "Dec 17 16:00:35",
  "logsource" : "joker.example.com",
  "program" : "bob",
  "pid" : "23262",
  "severity" : 5,
  "facility" : 1,
  "facility_label" : "user-level",
  "severity_label" : "Notice",
  "@timestamp" : "2012-12-17T16:00:35.000Z",
  "@version" : "1",
  "message" : "New session 31581 of user bob",
  "type" : "syslog"
}

Soluzione con coda di messaggi
Quando i dati inviati alla pipeline di LogStash eccedono l’abilità del cluster di ElasticSearch di poterli prendere in input, conviene utilizzare un message queue come buffer. Prevedendo un message queue nell’architettura si garantisce un livello di protezione per evitare la perdita dei dati. In questo modo si riesce ad evitare la congestione dell’istanza Indexer, la quale “scoda” i messaggi sulla coda uno alla volta e in maniera asincrona.

ELKStack_SoluzioneCodaJMS

Soluzione ad alta affidabilità
ELKStack_SoluzioneAltaAffidabilità

La soluzione su rappresentata è quella più completa dal punto di vista dell’alta affidabilità. Grazie ad un bilanciatore è possibile instradare differenti datasource verso una istanza agent di LogStash attiva ed inviare il messaggio di evento sul message queue. In pratica, ogni istanza agent di LogStash viene configurata su input multipli e l’architettura può essere scalata orizzontalmente. Pipeline separate incrementano, dunque, la reliability del sistema ed eliminano i single points of failure.

Modello per la memorizzazione degli eventi
Nella soluzione con l’ELK Stack, il prodotto ElasticSearch usa Apache Lucene per la creazione degli indici. Ogni indice è un namespace logico che permette di recuperare tutti gli eventi collezionati nella base dati NOSQL di ElasticSearch. Di default, LogStash invia il documento JSON sull’indice che ha nel nome il suffisso del giorno di acquisizione dell’evento, ad esempio: logstash-2015.11.31.

Questo tipo di memorizzazione potrebbe essere preso come riferimento per collezionare le informazioni in tabelle/indici creati su base temporale (ad esempio, mensilmente). In questo modo si potrebbero salvare tutti gli eventi su base temporale, evitando di caricare di troppi record una singola tabella. Tale scelta dipende anche dai tipi di correlazione che occorrerà fornire per la Log Analysis.

Volendo comparare il modello di memorizzazione di ElasticSearch con quello di un database relazionale si ha che:

  • Un index è una tabella
  • Un document è una riga della tabella
  • Un field è una colonna della tabella.

 

Per maggiori dettagli vi rimando ai tutorial su Mokabyte:

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


9 − quattro =