Home Concorsi CONCORSI ENOLOGICI Quanto sono esperti i giudici “esperti” assaggiatori di vino?

Quanto sono esperti i giudici “esperti” assaggiatori di vino?

Il titolo è un po’ provocatorio, lo ammetto, ma non è mio: è di Robert T. Hodgson, professore emerito di statistica alla Humboldt State University in California che tra il 2008 e il 2009 ha pubblicato alcuni articoli sul Journal of Wine Economics che hanno messo un po’ in agitazione il mondo un po’ autoreferenziale dei concorsi vinicoli, delle guide del vino, dei wine writers, dei punteggi e dei giudici assaggiatori, toccando forse un nervo un po’ scoperto.

 concorso_mondiale_bruxelles_sala_450

Ogni strumento di misura, per quanto sofisticato, commette degli errori. Nei corsi universitari (che ho sempre trovato un po’ noiosi a dire la verità) di “Teoria degli errori” si insegna a distinguerne i vari tipi, a capire che “accuratezza” e “precisione” sono due concetti diversi, e così via.

 

Ho tra le mani un normale righello e provo a misurare la lunghezza di una piastrella della mia cucina. Se vi dicessi che ho misurato 14.8135 centimetri mi prendereste per un bugiardo. Come avrei potuto con una sola misura dare tutti quei decimali avendo solo un righello con tacche separate da un millimetro? È vero, lo confesso: ho misurato 14.8 cm. O forse era 14.9 non sono riuscito a leggere bene. Il mio righello ha una sensibilità di un millimetro. Pretendere di leggere più cifre decimali non ha senso e quindi la precisione non può essere inferiore a un millimetro. Potrebbe anche non essere l’unico errore commesso: ad esempio durante la stampa il righello di plastica potrebbe essersi dilatato un po’ e quindi i suoi 14 cm in realtà sono 15.

 

Quando si usa uno strumento di misura si deve essere sempre consapevoli che si commette un errore, e possibilmente avere una stima di questo errore. È questo il motivo principale per cui gli strumenti vanno tarati e verificati al fine di interpretare correttamente i risultati. In più le misure sperimentali vanno sempre ripetute, per poterle valutare statisticamente. E questo è ancora più vero nell’era degli strumenti digitali dove si rischia di dare credito alle troppe cifre decimali. Con il vostro termometro da cucina avete misurato la temperatura del cioccolato a 31.28 °C? Dai, facciamo 31 °C, e probabilmente il valore esatto sta tra 30 °C e 32 °C!

 VeronaFiera-wine-competition-75

trebicchieriA volte anche gli esseri umani si improvvisano “strumenti di misura”. Guardate quel palazzo laggiù: secondo voi quanto è alto? Beh, contando i piani (si vedono i balconi per cui è facile) e facendo una stima dell’altezza di ogni piano arrivo a circa 15 metri, tenendo conto anche del tetto. Però potrebbe benissimo essere alto 17 metri oppure 13 perché non so esattamente quanto è alto un piano. Sicuramente non è alto 10 metri ma neppure 30. È quindi perfettamente inutile dare la stima dell’altezza con una o due cifre decimali come “secondo me è alto 14,84 metri”.

 

A volte allo strumento di misura “uomo” viene chiesta una cosa ancora più difficile, come dare un punteggio quantificando delle caratteristiche malamente definite di “bellezza” o di “bontà” o di “gradimento”. Pensate ai concorsi di bellezza ad esempio, oppure alle degustazioni di vino. Il famoso critico di vini Robert Parker ad esempio assegna un punteggio tra 50 e 100 ai vini che assaggia e recensisce. Altri usano scale diversa, a volte usando dei simboli invece che i numeri: chiocciole, bicchieri, medaglie e così via.

 

Quello che ci si può legittimamente chiedere è quanto siano ripetibili questi giudizi numerici. Se un critico assegna ad un vino 88 punti, che errore è associato a questa “misura”? Ripetendo lo stesso assaggio in cieco come varierà il punteggio? Rimarrà vicino a 88 o risulterà essere molto diverso?

 

Se per una piastrella esiste un valore “esatto” (o “vero” se preferite) sottostante (magari 14.759… cm), e le nostre misure cercano di avvicinarsi, è per lo meno dubbio che possa esistere una cosa di questo tipo per un vino o una candidata a Miss Italia. È quindi forse più corretto interpretare questi punteggi non come una stima di una proprietà intrinseca dell’oggetto -come la “vera” lunghezza della piastrella- ma come una misura approssimata del gradimento dell’oggetto -una bottiglia di Barolo del 1996- da parte dell’assaggiatore in una scala almeno in parte arbitraria.

 roberto-gatti-2

Non entriamo nel merito di come vengono costruiti questi punteggi, perché è completamente irrilevante per la nostra discussione. Le schede di degustazione possono essere molto semplici o tenere conto di molti parametri entrando nel dettaglio di acidità, aromi percepiti, retrogusto, colore e così via. Ma in realtà tutto questo non ci importa ai fini della discussione. Quello che ci chiediamo è quanto siano ripetibili questi giudizi. Se con il mio righello misuro più volte la piastrella, otterrò quasi sempre dei valori tra 14.7 e 15 (poiché non è sempre facile posizionare il righello all’inizio della piastrella e leggere bene tra quali tacche finisce il bordo).

 

Se un critico assegna ad un vino 88 punti, che errore è associato a questa “misura”? Ripetendo lo stesso assaggio in cieco come varietà il punteggio? Rimarrà vicino a 88 o risulterà essere molto diverso? Possiamo immaginarci un esperimento ipotetico: l’esperto assaggia in cieco -senza cioè sapere che cosa sta assaggiando- per tre volte questo vino, mescolato ad altri, senza sapere che cosa gli viene offerto. Che voti assegnerà a quel vino sempre identico? Sarà una serie come (88,86,89) oppure (88,94,75) ? Saranno tutti valori vicini a 88, come nel primo caso, oppure potranno variare anche considerevolmente, come nel secondo? E di quanto?

 

Entra in scena Robert Hodgson

 

Hodgson, oltre che professore di statistica, è anche un piccolo produttore di vino (alla Fieldbrook Winery). Si chiedeva da tempo come mai il suo vino a volte vincesse una medaglia d’oro ad un concorso vinicolo mentre in un’altra competizione lo stesso vino non venisse neppure menzionato. Dipendeva dalla variabilità delle bottiglie di vino oppure dalla variabilità delle opinioni dei vari giudici?

 download

Dice Hodgson:

 

“Cosa ci aspettiamo da un giudice di un concorso vinicolo? Prima di tutto che sia consistente, perché se il giudice non dà un giudizio molto simile ad un vino identico assaggiato in circostanze identiche, che valore può avere la sua raccomandazione?”

 

Nella primavera del 2003 Hodgson contatta G.M Pucilowski, giudice capo della “California State Fair wine competition” (il concorso vinicolo della fiera dello Stato della California), la più antica e importante manifestazione vinicola della California a Sacramento, proponendo un’analisi indipendente dell’affidabilità dei suoi giudici, tutti selezionati tra produttori di vino, commercianti, critici professionisti, giornalisti del settore, professori di enologia e viticoltura. Tutti professionisti che potremmo genericamente indicare come “esperti”, e che in più hanno anche superato un corso di valutazione sensoriale del vino dell’Università della California. In questa manifestazione ogni anno vengono giudicati circa 3000 vini californiani usando 16 panel di quattro giudici.

Dal 2005 al 2008 sono stati esaminati tra 65 e 70 giudici ogni anno. In ogni sessione di assaggi in cieco ogni giudice riceveva 30 vini. Alcuni di questi però erano campioni in triplice copia versati dalla stessa bottiglia. Hodgson voleva misurare la consistenza dei giudici: la capacità di replicare i loro punteggi assaggiando lo stesso vino. Questa, sostiene Hodgson, è una sorta di misura dell’”errore sperimentale” del giudice.

 

Il punteggio assegnato da ogni giudice ai vari vini, espresso sotto forma di simboli e trasformato in una scala numerica tra 80 e 100, è stato registrato di modo indipendente, prima cioè che potesse essere discusso con gli altri giudici del panel, in modo tale da evitare possibili contaminazioni del giudizio.

 

È importante notare che la “consistenza” non è l’unico criterio considerato importante in un concorso. Un ruolo fondamentale, ma lo vedremo in un articolo futuro, è anche la “concordanza”: l’accordo di giudizio tra assaggiatori diversi su uno stesso vino. Hodgson definisce un giudice “affidabile” se è sia consistente (entro certi parametri) che concordante con altri giudici.

 

I risultati

 Concorso-enologico-Vinitaly_1

I risultati hanno sorpreso Hodgson. Tipicamente i giudizi sullo stesso vino, da parte dello stesso assaggiatore, variavano di +/- 4 punti, su 20 disponibili. Tuttavia solamente un giudice su dieci è stato sempre consistente, replicando tutti i suoi giudizi con una deviazione massima di +/-2 punti. All’estremo opposto il 10 per cento dei giudici ha mostrato variazioni di 12 punti su 20 disponibili. Nel 18 per cento degli assaggi il giudizio è stato replicato perfettamente, tuttavia questo è capitato tipicamente con vini a basso punteggio. In altre parole i giudici sono stati consistenti nell’apprezzamento negativo di un vino.

 

Il vino numero 3 ad esempio, in tutti i suoi 3×4=12 assaggi in un panel ha ricevuto sempre lo stesso voto: 80, il minimo. In questi concorsi significa che il vino è senza personalità, banale, per nulla interessante, o addirittura mediocre. Invece al vino 2 il primo giudice ha assegnato i punteggi 80, 90 e 96 in tre assaggi diversi -sempre durante la stessa sessione- mentre il quarto giudice invece è stato più consistente con un 84, 82, 82.

 

Una domanda che viene spontanea a questo punto è se questo tipo di variabilità sia casuale o se sistematicamente i migliori giudici di un concorso lo sono stati anche negli anni successivi per una loro qualità intrinseca. Questo aprirebbe la strada, ad esempio, e volendo, alla selezione dei migliori giudici. Lo studio di Hodgson però mostra che questo non è necessariamente vero. Un giudice che si è dimostrato particolarmente consistente nel 2005, ad esempio, non sempre lo era nel 2006 o viceversa. Questo significa che, almeno per alcuni giudici, la consistenza è stata più o meno casuale.

 

Come ha reagito il mondo del vino a questi studi? Ovviamente hanno generato molte polemiche e svariate prevedibili risposte piccate, ma anche genuino interesse. È interessante ascoltare l’opinione diretta di G.M.Pucilowski: i professionisti hanno preso molto sul serio i risultati di Hodgson, e pensano siano importanti per migliorare l’affidabilità dei giudici dei concorsi vinicoli. A sentirsi un po’ punti sul vivo invece sono stati soprattutto i “wine writers”: persone che scrivono di vino, su web riviste e giornali, e magari recensiscono vini dando punteggi (ovviamente non con assaggi in cieco ripetuti e quindi poco affidabili per definizione).

 

 

 

https://www.youtube.com/watch?v=qQoy4bX_foM

 

Scrive Hodgson:

 

“L’interesse dell’autore negli ultimi quattro anni è stato quello di spiegare la variabilità dei risultati delle competizioni vinicole. Nonostante i dati presentati provengano da una singola competizione secondo l’autore non vi è ragione di pensare che non possano essere di portata più generale.

Lo scopo di questa questo studio è stato di misurare l’affidabilità: l’abilità di un giudice nelle competizioni di vino nel replicare in modo consistente il suo giudizio su vini identici. Con questa misura dovrebbe essere possibile valutare la qualità delle competizioni vinicole usando la consistenza e la concordanza come mezzi per giudicare i panel.”

 

 

In effetti, come supponeva Hodgson, risultati simili sono stati trovati anche da Richard Gawel e Peter Godden, due ricercatori australiani che nel 2008 hanno analizzato i dati provenienti da 15 anni di degustazioni di 571 esperti assaggiatori, riscontrando una grande variabilità nella capacità degli assaggiatori di dare giudizi consistenti: solo il 30 per cento degli assaggiatori ha mostrato una consistenza sufficiente. Lo studio, pubblicato sull’Australian Journal of Grape and Wine Research, mette anche in evidenza come gli assaggiatori abbiano più difficoltà a riprodurre i propri giudizi per i vini bianchi rispetto a quelli rossi, dove gli assaggiatori sono più consistenti nei loro giudizi.

 

Cosa possiamo concludere dallo studio di Hodgson? Alcuni, esagerando, lo hanno usato per sostenere che critici e assaggiatori di vino sono completamente inaffidabili, una “burla”. Bisogna sempre stare attenti però a non leggere in articolo scientifico quello che non è scritto.

 

Una prima conclusione dei lavori di Hodgson è che una distribuzione numerica dei punteggi così ampia ha comunque ben poco senso, data la poca riproducibilità dei risultati. Sarebbe come pretendere, con il nostro righello, di misurare i centesimi di millimetro.

 

La seconda conclusione, ma è solo una conferma, è che solamente con degli assaggi in cieco si possono eliminare i pregiudizi dell’assaggiatore. Se ricordate ne avevamo discusso in un vecchio articolo parlando di come il prezzo di un vino influenzava il giudizio.

 

Una terza conclusione, inevitabile, è che un certo numero di “esperti” di vino non sono in grado di replicare i propri giudizi in modo accettabile, e quindi forse non sono così esperti. La metodologia sperimentale usata da Hodgson permette di scoprire quali giudici sono consistenti e alcuni concorsi, anche in Italia, cominciano ad usare questi metodi statistici per migliorare la qualità dei panel.

 

Personalmente trovo poi interessante e rassicurante che, in cieco, i vini peggiori siano stati comunque riconosciuti come tali. Questo forse significa che se non posso fidarmi troppo del singolo amico “esperto” quando mi consiglia un vino secondo lui eccellente, se non altro posso fidarmi quando mi indica i vini da non acquistare.

 

 

( Fonte Bressanini le scienze )