Models are wrong, .... but some are useful (G. Box): April 2014

Da almeno 25 anni il mio PC trabocca di files .doc, .xls e .ppt. Non è stata una vera e propria scelta: quando ho iniziato a lavorare Microsoft Office sembrava l'unica possibilità per fare tutto bene, all'interno di un sistema di lavoro razionale. A quel tempo, i miei colleghi biologi più anziani che lavoravano su PC scrivevano i loro lavori in WordStar, utilizzavano Lotus per la gestione dei dati e DB3 per i riferimenti bibliografici e non era affatto facile mettere a collaborare questi tre mondi separati. Office 3 fu un vero schock: ad esempio era finalmente possibile creare tabelle nel foglio elettronico, incollarle nell'elaboratore testi ed unirle al resto del lavoro!

Con il passare del tempo tuttavia, la mia frustrazione è andata crescendo. Infatti, ho iniziato ad accorgermi di come Excel e qualunque altro foglio elettronico confondessero la visualizzazione dei dati con la loro gestione, cosicché ero spesso indotto ad immettere i dati in un formato poco razionale per la loro analisi. D'altra parte, mi sono accorto di come Word e qualunque altro word processor confondessero la composizione del testo con la formattazione, il che era vero (all'ennesima potenza) anche per Power Point e qualunque altro programma per le presentazioni. Il risultato era che finivo per mischiare fasi di lavoro che avrebbero dovuto essere logicamente separate, con spreco di tempo, energie e, in ultima analisi, bassa qualità di lavoro.

Il massimo della frustrazione l'ho raggiunto qualche anno fa, quando ho tentato di aprire con WORD 2010 il file della mia tesi di dottorato, scritto nel 1993 con WORD 2.0. Allora è comparsa una minacciosa finestra di dialogo con qualcosa di simile a: “Questo file non è leggibile per motivi di sicurezza”. Anche se ho poi scoperto che il problema poteva essere aggirato con una semplice modifica del file di registro, per qualche istante sono rimasto senza fiato: “è mai possibile che non sono libero di leggere la mia tesi di dottorato, nel mio computer, con lo stesso programma di videoscrittura usato al tempo (magari in una versione precedente)?”. Chi come me tiene al suo lavoro, lo immagazzina in files di vario formato e lo riusa e rielabora di continuo, non può non essere preoccupato di bloccarlo dentro un formato che non è di pubblico dominio. Questo vale anche per chi, come me, usa molti ambienti di lavoro diversi: dal PC in ufficio al MacBook a casa, all' Ipad, all' Iphone. In questo caso la portabilità è essenziale!

Da allora ho scoperto il formato testo: portabile e immarcescibile, una sicurezza totale. E, col tempo, ho totalmente ripensato il mio flusso: i miei files ora sono quasi tutti in quel formato, magari con diverse estensioni (.r, .mmd, .tex …) a seconda dell'uso. Li raccolgo tutti su Dropbox, in modo che siano disponibili su tutti i miei dispositivi, purchè online e compongo tutti i miei lavori (appunti, relazioni, lavori scientifici) utilizzando un semplice editor di testi (prediligo EditPad, ma uso anche TexStudio o RStudio, per alcune applicazioni). Se debbo inserire della formattazione o altri elementi non testuali (link, immagini ed altro), utilizzo Markdown, un semplice (si impara in un pomeriggio) linguaggio di mark-up che descrive la struttura del documento e lo stile (cosa dovrà costituire il titolo del capitolo o del paragrafo, cosa dovrà essere formattato come elenco puntato o numerato, cosa dovrà andare in grassetto o corsivo). A seconda del formato richiesto per l'output, utilizzo Pandoc per tradurre il file di testo originale da Markdown a PDF (per la stampa) o ad HTML (per il web).

Per l'analisi dei dati, salvo tutti i miei datasets in formato .csv (comma delineated) e li elaboro con R e RStudio, conservando i relativi scripts come files di testo con estensione .r, in modo da essere in grado di ripetere le analisi quando voglio.

Da tempo, le mie presentazioni sono in formato PDF, preparate con Latex e Beamer. Non ho mai problemi di caratteri non disponibili, scritte che non entrano nello schermo, files illeggibili, dovunque vada a fare le mie lezioni e qualunque strumento di presentazione io abbia a disposizione.

La mia collezione di riferimenti bibliografici è anche essa salvata in formato testo e redatta secondo le specifiche di bibtex; sono in grado di citarla facilmente in modo automatizzato (cite while you write).

Infine, quasi tutti i programmi sopra descritti sono di pubblico dominio, spesso freeware e sempre multipiattaforma. Cosa cercare di meglio? Di recente ho letto un post analogo, ma più legato al mondo APPLE che al PC. Potete leggerlo qui e vi consiglio proprio di farlo, anche perché vi sono utili links a siti che trattano Markdown, Latex e Rstudio.

Sono riuscito ad eradicare Office e Word dalla mia vita professionale? Assolutamente no!

Il motivo è che, come dicevo, sono un biologo e, nel mio mondo, tutti, o la maggior parte dei miei colleghi compongono i loro testi in Word, salvano i loro dati in Excel e preparano le loro presentazioni in Power Point. Oppure tengono la loro bibliografia in End Note o altri strumenti simili. E condividono i files risultanti, aspettandosi di ricevere in cambio lo stesso tipo di file. Anche le case editrici spesso chiedono il formato Word per la pubblicazione dei lavori e quindi, alla fine, sono costretto ad investire parte del mio tempo per trasformare i miei files di testo in una versione più 'compatibile' con il 'resto del mondo'. Certo è che, quando il lavoro è collaborativo, utilizzare i miei strumenti preferiti diviene quasi impossibile.

Mi ha colpito (positivamente) un post che raccomanda di non utilizzare il formato .doc (o .docx) per gli attachment di post elettronica. Si può leggere qui. Riusciremo anche noi biologi ad avere un futuro non dico libero da Office (sarebbe esagerato), ma almeno nel quale sia possibile che ognuno, oltre ai suoi strumenti preferiti, sia in grado di operare con una pluralità di strumenti diversi e quindi di interagire anche con chi, per sua scelta, non usi altro che software libero? Forse la mia generazione non ce la farà, ma spero che una scuola e un'Università più responsabili educhino le future generazioni ad un uso più razionale del proprio tempo di computing.

Confidence intervals: am I uncousciously a Bayiesian?

Last week I made a survey among the students attending my course in 'Experimental Methods in Agriculture'. One of the questions was:

QUESTION: “I sampled 100 seeds from a big population of Holy Clover (Onobrychis viciifoliae Scop) and found that their average weight was \( \bar{Y} \) = 15.5 mg. The confidence interval for the population mean was 13-18. What is the meaning of such a statement?”.

The possible answers were:

There is 95% probability that the population mean is in the interval 13 to 18;
If we sample repeatedly from our population of Holy Clover, the estimated confidence intervals will contain the true mean in 95% of cases;
The true population mean is certainly between 13 and 18;
The true population mean can take any value between 13 and 18.

I asked my students to select the correct answer without looking at textbooks or class notes, just using their memory and intuition. This survey came after the first half of the course, approximately one month later than the lecture about point and interval estimation.

In the end, 75% of my students choose answer (1), while none of them choose answer (2). This came out quite as a shock to me: in a frequentist setting, the correct answer is clearly (2). Indeed, it should be intuitively clear that there is a 'true' (fixed) average weight \( \mu \) for my seed population, but the problem is that I will never come to known it exactely, as the population is too big for me to measure its weight. Therefore, I am forced into taking a small sample and measuring its average weight. My intuition suggests that further samples will show different average weights, but the true \( \mu \) will always be there, unchanged and unknown. Recalling the frequentist definition of probability (from Wikipedia: “the limit of the relative frequency of an event in a large number of trials”) it would seem pretty clear that it makes no sense to attach any sort of probability to the true value of \( \mu \), as this is not going to change at all, during my sampling! This is why answer (1) is nonsensical in a frequentist setting. Furthermore, the confidence interval (13 to 18) that I built from my sample may either contain \( \mu \) or not, but I have no way to favour one of the two situations. And the extremes of the interval (13 and 18) are actually meaningless: when I repeat the sampling I'll very likely get different values and a different interval.

If the above reasoning is so clear, why does not answer (2) come out as a natural choice for students? Why are they intuitively embracing the Bayesian perspective of answer (1), even though I am pretty sure that they have never been exposed to Bayesian thinking at all (as all agriculture students, at least in Italy)? It is clear that I have not done a good job in conveying the correct message, during my lecture! To use the same words as Dennis (Discussion: Should Ecologists become Bayesians. Ecological applications, 6, 1095-1103), I was probably suggesting more than a frequentist confidence interval delivers.

I am not the only one in this position: I am sure than most of my collegues biologists see confidence intervals very much like it is described in answer (1). I do not think we are to blame. Indeed, I went through the books I used to study when I was a PhD student and found, for example, that Sokal and Rohlf (Biometry. W.H. Freeman and Company, 1981) at page 141, report this equation (7.4):

\[ P\{ \bar{Y} - 1.96 \sigma _{\bar{Y}} \leq \mu \leq \bar{Y} + 1.96 \sigma_{\bar{Y}} \} \]

and comment:“Thus the probability, P, is 0.95 that the term \( \bar{Y} - 1.96 \sigma _{\bar{Y}} \) is less then or equal to the parametric mean \( \mu \) and that the term \( \bar{Y} + 1.96 \sigma_{\bar{Y}} \) is greater than or equal to \( \mu \).” Similar statements can be seen in Snedecor and Cochran (Statistical methods. IOWA State University Press, 1991) and in almost all biometry books I have at hand.

The above equation is derived by using simple math and it is certainly correct. But I am wondering: does it make sense in a frequentist setting? I'll leave the answer to the statisticians. As a biologist, I have to admit that, like my students and my collegues, I feel somewhat disappointed by the crude meaning of frequentist confidence intervals. Though the correct answer is (2), I find myself wishing it were (1): that would really be satisfactory! This more or less unconscious feeling may have influenced my lecture about point and interval estimation.

In the end, considering the ironic claim of IJ Good (“People who do not know they area Bayesians are called non-Bayesians”; cited in Kery, 2010. Introduction to WinBugs for ecologists. Academic Press) I am asking myself: am I one of those who are Bayesians, but do not know, yet?

Models are wrong, .... but some are useful (G. Box)

Sunday, 27 April 2014

Abbandonare Word: sogno o realtà?

Wednesday, 16 April 2014

Confidence intervals: am I uncousciously a Bayesian?