Che cos’è la
Data Science?
La Scienza dei Dati
Quando analizziamo dei dati, quasi sempre lo facciamo per trovare risposte ad alcune domande specifiche. Ad esempio: quanti sono i disoccupati in Italia? Quanto fa male fumare? Un certo farmaco funziona davvero?
L’analisi dei dati è però una disciplina complessa: per questo esiste la Data Science, che studia scientificamente come elaborare i dati in modo rigoroso, per ricavarne conoscenza, cioè informazioni corrette e affidabili, che rispondono alle domande da cui siamo partiti.
La Data Science nasce nel 2001, quando l’informatico americano William Cleveland propone un programma per “aggiornare” la statistica, e renderla pronta ad affrontare le sfide del nuovo millennio. Cleveland, infatti, si rende conto che la statistica tradizionale offre ottimi strumenti di analisi, ma non ha le capacità per processare in modo efficace le enormi quantità di dati rese disponibili dall’avvento delle nuove tecnologie.
Ad esempio: come può fare un ingegnere di Google o Netflix ad analizzare i dati raccolti sugli utenti, per capirne i gusti e proporre contenuti interessanti? Come può un analista investigativo utilizzare i dati raccolti dalle banche per scovare chi ricicla denaro sporco? Come fa uno statistico finanziario a utilizzare i dati della borsa per individuare i titoli su cui investire?
Per analizzare grandi volumi di dati in breve tempo, la Data Science unisce alla statistica gli strumenti dell’informatica (come database o linguaggi di programmazione), e sfrutta al massimo le capacità di calcolo offerte dai computer moderni.
Inoltre, dovendo applicare questi metodi a campi sempre più vari e complessi, è importante avere competenze specifiche sulla materia a cui si vuole lavorare: competenze che possono anche venire dalla collaborazione con esperti esterni, rendendo così la Data Science una scienza collaborativa e multidisciplinare.