Announcement

Collapse
No announcement yet.

Vere Menzogne

Collapse
X
  • Filter
  • Time
  • Show
Clear All
new posts

  • Vere Menzogne

    Era una fredda, noiosa e barbosa mattina quando il nostro MarketingMan butto' un ticket sulla pila di ticket che stava gia' crescendo minuto per minuto, ed il fatto che i tre (non uno, non due ma ben TRE) tizi che avrebbero dovuto gestirsi le "richieste clienti" non lo facessero non aiutava.

    Dato che, sfortunatamente, io sedevo al tavolo vicino a MarketingMan, era normale per lui girarsi e domandare a ME direttamente per qualunque problema o dubbio che potesse aleggiare nel suo cervello, ragion percui io chiappai il ticket e cominciai a leggerlo.

    Era una richiesta abbastanza normale da parte di uno dei nostri clienti.

    $Sfortunato#218 aveva avuto una piccola catastrofe durante il week-end, quando il suo database server aveva esaurito tutto lo spazio su disco e si era poi suicidato, il nostro "stand-by" si era perso nel mezzo della campagna olandese su una bicicletta ed era stato incapace di reagire con prontezza, onde per cui il cliente aveva deciso di praticare un "escalazione" del problema chiamando tutti i numeri di cellulare che erano riusciti a trovare. Il risultato era stato sostanzialmente che tutto il "management" aveva cominciato a chiamarsi l'un con l'altro domandando interventi rapidi e risolutori e rapporti di stato ed aggiornamenti sulla situazione con frequenza di 2 secondi.

    Questo finche' non erano arrivati al mio di numero di telefono. Dato che mi trovavo praticamente a casa, mi sono loggato, ho dato un'occhiata al povero db server, zappato via una dozzina di vecchi backup, che erano ancora sul disco locale, liberando abbastanza spazio per consentire al db di ripartire. Dopo di che le cose erano tornate, piu' o meno, alla normalita'.

    Ovviamente $Sfortunato non era stato molto soddisfatto della "prestazione" ed aveva cominciato a chiedere dettagli di che cosa noi si monitorasse e come. E quello era il punto su cui MarketingMan voleva informazioni.

    Nel giro di 5 minuti avevo localizzato le informazioni richieste ed aggiornato il ticket, dopo di che' mi ero rimosso dalla "lista di gente a cui posso domandare ulteriori informazioni al riguardo" e quindi mi ero prontamente dimenticato dell'intera faccenda.

    Ma ogni cosa brutta ritorna indietro, ripetutamente se e' brutta davvero. Percui una settimana dopo (o giu' di li'), Marketing Man era tornato alla carica con altre domande. Nello specifico, quello che voleva sapere era come mai nessuno avesse notato che il disco del db server si stava riempiendo.

    MM - ...perche' noi siamo responsabili per il buon funzionamento del sistema e quindi dovremmo prestare attenzione a queste cose ed intervenire in modo che non diventino delle catastrofi.
    Io - Senti, prima di tutto, l'intero db e' passato dall'89% di disco usato al 100% nel giro di mezz'ora quando il backup ha cominciato a scaricare l'intero db sul disco, perche' ci sono 12 backup sul disco? Non lo so, probabilmente e' perche' volevano 12 backup sul disco locale e non era un problema quando hanno cominciato un anno fa, adesso il db e' cresciuto ma il disco no. Secondo, c'e' un tizio ogni giorno che dovrebbe tenere d'occhio queste cose ma evidentemente non lo ha fatto o non lo ha considerato un problema al venerdi'. Per ultimo: noi non controlliamo lo spazio su disco 24/7, solo durante l'orario d'ufficio. E se un disco diventa pieno molto spesso non c'e' molto che noi si possa fare, se non c'e' niente di ovvio che noi si possa eliminare l'unica e' domandare al cliente cosa vuole cancellare.
    MM - Si ma...
    Io - Se mi ricordo bene c'e' gia' una richiesta a $Sfortunato se vogliono aumentare lo spazio allocato di disco su diversi altri sistemi. Magari dovrebbero darsi una mossa?
    MM - ...Ok li chiamero'...


    Un paio di giorni dopo ricevo una notifica che c'e' un nuovo aggiornamento sul ticket di $Sfortunato.

    Il che mi lascia perplesso dato che mi ero rimosso dalla lista di 'aggiornamento' di quel ticket. Un rapido controllo mi dice che sono di nuovo nella lista per mano di MarketingMan.

    L'aggiornamento e' una domanda da parte di $Sfortunato riguardo cosa monitoriamo sul loro sistema e come.

    Dato che sembro essere l'unica persona nella lista di "notifiche" che abbia una mezza idea dei dettagli tecnici coinvolti, mi prendo il ticket e dopo un'occhiata a come la cosa e' configurata nel nostro monitor preparo una "overview" da spedirgli indietro.

    La risposta era piu' o meno una cosa del tipo:

    "Noi monitoriamo le vostre applicazioni (controllo di connessione su porta 80/443) per i servers X1, X2, X3, X4, X5, X6, X7 ed X8, controlliamo se la risposta dell'applicazioni contiene i "dati attesi" (che voi avete fornito) e controlliamo che il db server stia funzionando (il processo e' attivo), il numero di connessioni attive, l'attivita' di cpu e del disco e lo spazio disponibile in ram e disco.

    Ok, magari sono stato un pelo piu' tecnico, ma il succo e' quello.

    Dopo un altro paio di giorni ho ricevuto un altro aggiornamento, stavolta da MarketingMan, se potevo rispondere alla successiva domanda di $Sfortunato riguardo il livello di servizio e dei controlli.

    Nello specifico, volevano sapere se monitoravamo le partizioni in 24/7.

    Un paio di ore dopo, MarketingMan e' comparso ed e' venuto direttamente da me.

    MM - Ho visto stamani che $Sfortunato ha mandato un'altra risposta al suo ticket...
    Io - Si ho visto anche io ed ho anche gia' risposto.
    MM - Ah bene, domandavano se monitoriamo la roba 24/7 giusto? E...
    Io - No, non lo facciamo. Per diverse ragioni. Prima di tutto abbiamo troppi clienti con processi automatici notturni che possono, ed in effetti lo fanno, riempire il disco fino ad oltre il 95% e poi zappare via tutto, quindi, a meno che noi non si voglia mantenere una gigantesca lista di "speciali" o "escluso", e' meglio non farlo, questi sono solo controllati durante l'orario d'ufficio. O meglio DOVREBBERO esserlo se qualcuno si prendesse la briga di farlo.
    MM - No, quello non e' giusto... Puoi rispondere a $Sfortunato che noi monitoriamo tutto 24/7?
    Io - ... No quello non e' cio' che ho appena detto... E non ho nemmeno quello che ho gia' detto a $Sfortunato.
    MM - Si lo so, ma e' la risposta giusta da dare a loro dato che ho appena controllato sul contratto e' c'e' specificato che noi monitoriamo tutto 24/7.
    Io - Quindi la tua domanda non e' una domanda, tu mi stai chiedendo di darti la risposta che tu vuoi sentire?
    MM - Si, all'incirca.
    Io - Che e' anche una palla.
    MM - Be, il piano e' di passare a questo nuovo sistema di controllo durante l'anno e quando quello succedera' metteremo tutto in 24/7 by default. Quindi non e' proprio una palla. Lo e' ora.
    Io - ...giusto... sbagliato...


    Post-Mortem

    E' passato piu' di un anno da quell'incidente, non siamo MAI passati al "nuovo sistema di monitoring" e la discussione se mettere lo spazio su disco, cpu e ram in 24/7 stava ancora andando avanti il giorno prima che io me ne andassi.



    Davide
    28/12/2016 12:58
Working...
X