DOCUMENTS

elab.immagini
galileo
orgoglio
realtà virtuale
vrml
biomeccanica
esapodi
formula1
intelligenza
takoma







Papers
meccanica
sistemi
robotica


Introduzione

Guardando fuori dalla mia finestra vedo una casa, degli alberi, un laghetto e il cielo. Teoricamente dovrei dire di vedere 327 livelli di luminosità e sfumature dei colori. Ma io, davanti agli occhi, ho "327 livelli di luminosità"?
No, io ho una casa, degli alberi, un laghetto e il cielo. Mi è impossibile immaginare un "327", mi è impossibile archiviarlo; mi è impossibile dire che 120 sono per la casa, 80 per il laghetto, 100 per gli alberi e 27 per il cielo, così come mi è impossibile dire che invece potrebbe essere 50, 110, 90 e 77.

La suddivisione pratica che il mio occhio realizza quando vedo qualcosa non è determinata in maniera arbitraria, non è una suddivisione rigidamente analizzabile: io vedo quello che è sistemato e suddiviso sulla base della mia cognizione, frutto di un sistema complesso di analisi, tanto complesso quanto superiore per capacità ed adeguatezza rispetto a qualsiasi altro.
La percezione, soprattutto la percezione visiva, è un argomento propedeutico e fondamentale per affrontare la gestione delle informazioni grafiche allo scopo di trarne informazioni a livello ambientale. La conoscenza riguardo al funzionamento del sistema "vista" è quindi essenziale per intraprendere un'analisi completa del riconoscimento delle immagini allo scopo di ricostruire una sua emulazione robotica.

Sfortunatamente però questo tipo di studio è molto difficile perché richiede una perfetta conoscenza della mente e dei suoi processi cognitivi, cosa che è da sempre la più grande sfida dell'uomo nei confronti di se stesso. Per questo non esistono, ancora, teorie capaci di spiegare completamente e compiutamente l'intero processo percettivo sensoriale in tutti i suoi fenomeni. Gli approcci che si possono immaginare possono pertanto essere limitati ad alcune impostazioni: analitici di tipo neuropsicologico, di tipo ingegneristico oppure olistico.

La teoria della Gestalt

Secondo la teoria delle features, come abbiamo visto durante il corso, il riconoscimento di una configurazione è basato sulle features considerate come elementi individuali di una configurazione visiva. La Teoria della Gestalt, sviluppata nel 1910 da Max Wertheimer ed elaborata in seguito da Wolfgang Köhler e Kurt Koffka alla Frankfurt University, propone un punto di vista di tipo olistico.

La Teoria della Gestalt si oppone all'Analisi delle Features: mentre quest'ultima analizza la percezione visiva descrivendola in termini di "caratteristiche elementari", la Gestalt enfatizza il significato dell'interezza della sensazione. Si osserva come il riconoscimento di una configurazione si basa sulla forma complessiva dello stimolo visivo piuttosto che sulle sue caratteristiche costituenti.
Quando ci arrivano un certo numero di stimoli noi non utilizziamo come regola l'analisi puntuale delle informazioni: siamo capaci di generare delle cognizioni in grado di interpretare nella sua globalità la percezione e quindi anche il modo nel quale questa è suddivisa e definita. La teoria della Gestalt punta quindi ad analizzare questi processi basandosi sull'osservazione che il "tutto" è qualcosa di più della "somma delle parti" e propone il concetto di "Gestalt" (che significa "intero" o "struttura") quale principale unità d'analisi nell'ambito della percezione (visiva e non).
Quando si osserva una scena noi non abbiamo una sensazione di "luminosità" o di "contrasto": vediamo oggetti e superfici, in particolare modo noi distinguiamo sfondi ed oggetti. In questo modo si possono associare dei significati alle percezioni.

Una prova di questa nostra attitudine l'ho potuta verificare eseguendo un esperimento già condotto da uno studioso "gestaltista", Navon, nel 1917. Le caratteristiche locali (le feature) sono più specifiche delle caratteristiche globali e sono pertanto "simili alle parti" mentre le caratteristiche globali sono più "simili all'intero". Si tratta di guardare, per breve tempo una grande lettera composta da molte piccole lettere e di decidere il più rapidamente possibile se il suono che nel frattempo si ascolta è una "H" o una "S".

Quando la lettera globale è la stessa di quella udita, la velocità della discriminazione uditiva risulta maggiore, mentre quando la lettera ascoltata è diversa da quella vista globalmente, l'effetto di interferenza genera più ritardo. Più sorprendentemente, la prestazione dell'ascolto non è per niente influenzata dalle lettere locali e, anzi, la maggioranza degli amici con i quali ho condotto il mio esperimento spesso non si è neanche accorta che le lettere grandi fossero composte di piccole lettere.
Questi risultati suggeriscono che le caratteristiche globali sono percepite più prontamente delle caratteristiche locali, come la teoria della Gestalt prevede.
Ma perché dovrebbe essere così? Forse quando vi è solo il tempo sufficiente per un'analisi percettiva parziale, è di solito più importante avere informazioni sulla struttura generale di una scena percepita piuttosto che su alcuni dettagli isolati.

Da questa prova si osserva che l'intero può essere percepito prima delle sue parti, ma non è chiaro quanto controllo abbiamo sui nostri processi percettivi. Se, ad esempio, si volessero percepire le caratteristiche locali e ignorare le caratteristiche globali, sarebbe possibile? Sempre Navon ha cercato di rispondere a questo quesito con un altro studio nel quale gli stimoli erano ancora grandi lettere composte di piccole lettere. Il test consisteva nel decidere il più rapidamente possibile se la lettera globale fosse una "H" o una "S" o alternativamente se le piccole lettere fossero delle "H" o delle "S". La velocità di risposta nel caso delle lettere grandi o globali non era influenzata dalla natura delle lettere piccole o locali. Viceversa, Ia velocità di risposta con le lettere locali era molto rallentata quando Ia lettera globale era in conflitto con le lettere locali. Quest'ultimo risultato suggerisce che è difficile o addirittura impossibile evitare di percepire l'intero e che l'elaborazione globale avviene necessariamente prima di ogni analisi percettiva più dettagliata.
Mi pare quindi di capire che l'approccio delle feature non è esattamente quello che noi utilizziamo nel nostro sistema di visione: noi non rappresentiamo una scena a partire dai suoi elementi individuali.
Invece, la strutturazione globale iniziale è spesso arricchita da un'analisi progressivamente sempre più particolareggiata. Credo che la logica per cui il sistema percettivo lavora in questo modo sia quella di consentire agli oggetti della scena visiva di essere identificati e percepiti nei minimi dettagli.
Tuttavia, mi sembra anche chiaro che non sempre il sistema percettivo funziona invariabilmente in questa maniera. Le grandi lettere nell'esperimento di Navon non erano poi così grandi, non eccedevano mai di 5.5° l'angolo visivo. Altri sperimentatori (Kinehla e Wolf) usarono stimoli simili a quelli di Navon ma di dimensioni che raggiungevano 22° di angolo visivo. Essi scoprirono che era più semplice rispondere alle lettere locali che a quella globale quando la lettera globale superava gli 8° di angolo visivo Essi conclusero, ragionevolmente, che le immagini nel campo visivo con dimensioni ottimali sono elaborate per prime.

E' probabile allora che fattori quali: le dimensioni delle caratteristiche locali e globali, le condizioni visive e la natura del compito dell'osservatore abbiano una funzione nel determinare il ruolo svolto dalle caratteristiche individuali nel riconoscimento di configurazioni.

La Teoria della Gestalt tende a sostituire al concetto di associazione di elementi quello di sintesi mentale, intesa in senso analogo alla sintesi chimica che, pur mantenendo la realtà dei componenti (ad esempio dell'ossigeno e dell'idrogeno nell'acqua), dà origine a proprietà nuove non esistenti negli elementi stessi.

Le due classi di oggetti, così come vengono riconosciuti, sono allora: quelli elementari, costituiti dai singoli dati sensoriali (colori, luminosità, ecc.) e quelli d'origine superiore, fra i quali sono comprese le forme o strutture. Mentre i primi sorgerebbero dalla semplice attività degli organi sensoriali periferici (i raggi luminosi che colpiscono la retina, gli impulsi su coni e bastoncelli, etc), gli oggetti d'ordine superiore, legati a quelli elementari da un rapporto particolare, detto di fondazione, deriverebbero da una specifica attività nota come produzione. Le rappresentazioni di questi oggetti d'origine superiore si dicono perciò anche "rappresentazioni prodotte".
La Gestalt indica, infatti, che ogni oggetto più che avere una forma, una struttura, è una forma, una struttura, e solo di questa si ha la sensazione, non dello stimolo locale che diventa quindi irrilevante al fine di riconoscere la scena. Alcuni fenomeni che possono essere spiegati unicamente dal punto di vista della "forma" e non da quello dell'approccio "atomistico" sono ad esempio:
1. i casi di illusioni ottiche: la percezione non è proporzionale ai singoli elementi, ma è funzione della totalità della figura;
2. i casi di figure ambigue e reversibili: le figure restano immutate, ma il rendimento percettivo cambia;
3. i casi di movimenti apparenti: dei punti luminosi in movimento rapido danno l'impressione del movimento;
4. i fenomeni di induzione cromatica: l'esperimento dei dischetti colorati in rapida rotazione;
5. la lettura: leggere è ben più che divenire coscienti dell'immagine formata dalle singole lettere. Ogni parola è una totalità, non un insieme di elementi associati: di solito si legge solo l'inizio della parola e si passa immediatamente alla parola successiva o si legge anche ciò che non si vede, o si legge giusto anche se vi è un errore.

Per la teoria della Gestalt "i fattori che determinano l'organizzazione del campo visivo in unità (oggetti) separate ed autonome sono unicamente condizioni di vicinanza spaziale, somiglianza, direzione comune e tendenza al completamento (forme chiuse), comunanza di movimento, adattamento dovuto all'esperienza, posizione nello spazio".

Le cinque leggi fondamentali della Gestalt sono, infatti:

A. Legge di SUPERFICE
B. Legge di VICINANZA
C. Legge della FORMA CHIUSA
D. Legge della SIMMETRIA
E. Legge della BUONA CONTINUAZIONE, o CONTINUITA' DI DIREZIONE

Superficie Noi tendiamo a vedere una regione tanto facilmente come figura, quanto più essa è piccola. Così, al diminuire della superficie della croce gialla da 1 a 2, la sua tendenza ad essere vista come figura aumenta.

Vicinanza La tendenza è quella di raggruppare insieme i punti, o gli oggetti, vicini tra loro. In 1 si possono vedere con la stessa facilità sia file orizzontali sia colonne verticali. Se i punti si avvicinano nel senso verticale (come in 2) emergeranno come immagine le file verticali; aumentando invece la vicinanza in senso orizzontale (come in 3) appariranno con maggiore immediatezza le colonne orizzontali.
La legge di Vicinanza è quindi di fondamentale importanza ed è anche alla base della tecnica televisiva e delle riproduzioni fotografiche.

Forma chiusa Noi tendiamo a vedere come figure le aree con contorni chiusi, più che non quelle con contorni aperti. Per questo principio, in 1 si vedono come degli schermi televisivi, in 2 come dei torsoli di mela.

E' abbastanza semplice misurare e mettere alla prova queste tre leggi; ci sono invece altre leggi, di importanza uguale se non maggiore, che possono essere dimostrate facilmente in un modo intuitivo o che segue il senso comune, ma che è estremamente difficile definire in modo obiettivo e quantificabile. Due di questi fattori sono rappresentati da D (Simmetria) ed E (Buona Continuazione).

Simmetria Quanto più una regione chiusa è simmetrica, tanto più tende ad essere vista come figura. In 1 si notano solo colonne gialle su di uno sfondo nero, viceversa in 2 ci sono colonne nere su fondo giallo.

Buona continuazione o continuità di direzione. Si tende a vedere quella combinazione di figura e sfondo che dimostra il minor numero di mutamenti o di interruzioni nelle linee o nei contorni. Questa è una legge delle più importanti per quanto riguarda l'organizzazione figurale. Il modello disegnato in 1, è visto quasi sempre come una linea ondulata sovrapposta ad una greca. Ciò è in contrasto con la Legge della Forma Chiusa, che provocherebbe la percezione di quanto visibile in 2.
La legge della buona continuazione spiega perché il numero 4 è nascosto in modo più efficace in 1 che non in 3, anche se in 3 esiste un numero maggiore di linee estranee.

In conclusione, secondo i gestaltisti:
1. fenomenologicamente gli oggetti si presentano quali forme o totalità a sé stanti la cui organizzazione in unità è dovuta a diverse condizioni che ne regolano dinamicamente la formazione;
2. questo processo di organizzazione è un processo originale, primario, che non appella, almeno fondamentalmente, all'esperienza passata;
3. le parti hanno senso unicamente se viste in funzione del tutto. Una parte in un tutto è altra cosa di quella stessa parte isolata o in un altro tutto;
4. ciò che determina fondamentalmente l'apparire delle forme è la caratteristica di "pregnanza" o "buona forma" da esse posseduta: quanto più regolari, simmetriche, coesive, omogenee, equilibrate, semplici, concise esse sono, tanto maggiore è la probabilità che hanno d'imporsi alla nostra percezione (legge della pregnanza).

La complessità del riconoscimento di oggetti si può cogliere a fondo considerando come noi svolgiamo alcuni dei processi coinvolti, così da poterli modellare con un algoritmo.

Per prima cosa, di solito, ci sono numerosi e differenti oggetti sovrapposti nel campo visivo e dobbiamo in qualche modo decidere dove un oggetto finisce e ne comincia un altro.
In secondo luogo, noi siamo in grado di riconoscere accuratamente oggetti in un ampio range di distanze e orientamento visivo. Ad esempio, un tavolino rotondo viene visto come tale nonostante sull'immagine retinica ci sia una forma ellittica. Si può dire che un oggetto viene visto con "costanza" in riferimento al fatto che la sua dimensione e forma apparente cambino nonostante l'ampia variazione in dimensione e forma dell'immagine retinica.
In terzo luogo, riconosciamo che un oggetto è, ad esempio, una sedia senza alcuna apparente difficoltà, anche se le sedie variano enormemente nelle loro proprietà visive (ad es. in colore, dimensione, forma, struttura). Questi tre aspetti del nostro modo di vedere richiedono di collocare tanti stimoli visivi eterogenei nella stessa categoria (ad es. le sedie) e quindi io credo che sia necessariamente coinvolto un certo grado di "apprendimento".

Ho trovato molti approfondimenti a proposito di questo tema, che adottavano approcci più psicologici piuttosto che fisiologici. La teoria computazionale di Marr mi è sembrata anche adatta ad una sua implementazione per l'elaborazione delle immagini per scopi industriali e robotici, specialmente quando associata a tecniche di intelligenza artificiale al fine, come sempre, di realizzare un programma che consenta ad una macchina di riconoscere gli oggetti nel mondo reale.

La teoria computazionale di Marr

Marr (nel 1982) ha elaborato una studio per arrivare, partendo da una coppia di immagini, ad una descrizione simbolica della scena vista. Per descrizione simbolica intendo quel tipo di "immagine mentale" che si crea subito dopo aver aperto gli occhi davanti ad una scena reale, ovvero quell'insieme di connessioni cognitive che ci porta ad identificare gli oggetti.
Riuscendo ad approfondire la nostra conoscenza riguardo a questi meccanismi io credo che non solo saremo in grado di costruire macchine dotate di un senso visivo, ma riusciremo anche ad aumentare le nostre abilità ed eventualmente a superare limiti che ancora vediamo come tali.

La teoria di Marr identifica tre livelli di spiegazione per Ia percezione visiva. Il livello più alto è quello computazionale, che è in relazione allo scopo della percezione, e il livello più basso è quello del substrato fisico (cioè il cervello). A livello intermedio, vi sono gli algoritmi che si occupano dei processi dettagliati coinvolti nella percezione.

Praticamente, egli ha proposto che i processi coinvolti nella visione, producano una serie di rappresentazioni (cioè di descrizioni) che forniscono informazioni sempre più dettagliate sull'ambiente visivo.

Secondo Marr bisogna distinguere tra tre tipi principali di rappresentazione:

1. L'abbozzo primario (primal sketch), che fornisce una descrizione bidimensionale dei principali cambiamenti di intensità luminosa dell'input visivo, incluse informazioni sui profili, contorni e macchie. Questa rappresentazione è centrata suIl'osservatore cioè l'input visivo è descritto solo dal punto di vista dell'osservatore.

2. L'abbozzo 2.5D (2.5-D sketch), che incorpora una descrizione della profondità ed orientamento delle superfici visibili, utilizzando le informazioni fornite dalla sfumatura, struttura, movimento, disparità binoculare e così via. Anche questo, come l'abbozzo primario, è centrato sull'osservatore.

3. La rappresentazione del modello 3D (3D model representation), che descrive tridimensionalmente le forme degli oggetti e la loro relativa posizione in un modo che sia indipendente dal punto di vista dell'osservatore.

L'assunto è che una completa rappresentazione della forma di un oggetto, e quindi dell'oggetto vero e proprio a livello descrittivo, non si possa ottenere in un unico passo. Il processo di percezione delle forme segue, infatti, passi successivi:

1. Ottenimento delle immagini: per ripresa fotografica, attraverso una videocamera o attraverso altri dispositivi, si raccoglie l'informazione dell'intensità luminosa.
2. Costruzione dell'abbozzo primario: dalle informazioni sull'intensità luminosa ottenuta dalle immagini viste si riconoscono primitive geometriche e forme così da rendere possibile il riconoscimento delle superfici.
3. Costruzione dell'abbozzo 2.5-D: utilizzando le informazioni di profondità ed orientamento delle superfici visibili si estraggono gli oggetti dal piano bidimensionale dell'immagine.
4. Costruzione del modello 3D: dalla posizione e dall'orientamento reciproco degli oggetti si esplicita e si collega l'intera rappresentazione della scena che viene ora vista in termini di descrizioni svincolate dalla posizione che hanno i relativi oggetti sull'immagine originale prelevata. Si ottiene in questo modo un modello descrittivo del mondo.

L'abbozzo primario

Secondo Marr è possibile identificare due versioni dell'abbozzo primario. Questi sono l'abbozzo primario grezzo e l'abbozzo primario completo. In sostanza, l'abbozzo primario grezzo contiene informazioni sui cambiamenti di intensità luminosa della scena visiva e l'abbozzo primario completo si forma in seguito all'uso di questo informazioni per identificare il numero e delineare le forme degli oggetti visti.

Il problema teorico più interessante che ho approfondito nella costruzione dell'abbozzo primario deriva dal fatto che i cambiamenti di intensità luminosa spesso forniscono informazioni ambigue sul modo appropriato di organizzare il campo visivo.

Ed esempio in (a) e (b) i punti potrebbero essere raggruppati in modo orizzontale o verticale; le linee (c) potrebbero essere interpretate come due linee che si incrociano oppure come una linea a forma di V e una linea a forma di V invertita (oppure ancora come un > e un <) mentre la figura (d) può essere vista come un cerchio o come un cerchio incompleto.

La teoria di Marr sull'abbozzo primario ricalca, di fatto, alcuni aspetti già considerati dalla Teoria della Gestalt e li utilizza per le proprie analisi.
Uno degli interessi principali dei gestaltisti era, infatti, l'organizzazione del campo visivo. La legge di Pregnanz rappresenta il principio fondamentalmente della organizzazione percettiva e si può esprimere nel modo seguente: l'organizzazione del riconoscimento sarà sempre tanto "buona" quanto lo consentiranno le condizioni contingenti. In questa definizione il termine "buona" è indefinito. In pratica, sulla base dei miei approfondimenti, per i gestaltisti l'aspetto giusto era il più semplice o il più conforme aIle alternative a disposizione, ma essi non dicevano molto di più benché la legge di Pragnanz fosse il loro principio organizzativo chiave.

I gestaltisti proposero comunque numerose altre leggi, molte delle quali possono essere riconosciute nella legge di Pragnanz. Alcune di queste leggi si identificano immediatamente nella stessa figura che rappresenta l'applicazione delle teorie di Marr. Il fatto che nella fig. (a) siano percepite quattro file orizzontali di punti piuttosto che file verticali, indica che gli elementi visivi tendono ad essere raggruppati insieme se sono vicini gli uni agli altri (così come dice la legge della prossimità). La figura (b) illustra invece le legge della similarità, secondo la quale gli elementi sono raggruppati insieme percettivamente se sono simili gli uni agli altri. Si vedono colonne verticali piuttosto che file orizzontali perché gli elementi nelle colonne verticali sono identici mentre quelli nelle file orizzontali non lo sono. Vediamo due linee che si incrociano nella figura (c) perché, secondo Ia legge della buona continuazione, raggruppiamo insieme gli elementi che richiedono il minor numero di cambiamenti o interruzioni nella linea o nei contorni regolarmente curvilinei o diritti. La figura (d) illustra invece Ia legge della chiusura, secondo la quale parti mancanti di una figura sono riempite per completare Ia figura. Quindi, si vede un cerchio nonostante il fatto che sia incompleto.

Queste ed altre leggi della Gestalt sull'organizzazione percettiva sono intuitivamente ragionevoli ma sono affermazioni descrittive che possiedono scarso o nessun potere computazionale. I Gestaltisti sembrano aver creduto che le loro leggi riflettessero i processi organizzativi di base del cervello ma è molto più plausibile assumere che le leggi scaturiscano quale risultato dell'esperienza. Sembra che gli elementi visivi che sono vicini o simili tra loro appartengano allo stesso oggetto e presumibilmente questo è qualcosa che impariamo con l'esperienza.

Marr utilizzò Ie intuizioni della Gestalt quando tentò di ideare un programma per procedere dall'abbozzo primario grezzo all'abbozzo primario completo. Egli scoprì che era utile utilizzare due principi piuttosto generali quando delineò il programma: il principio della denominazione esplicita ed il principio del minor obbligo.
Secondo il principio della denominazione esplicita è utile attribuire un nome o un simbolo ad un insieme di elementi raggruppati. La ragione è quella che il nome o il simbolo possono essere usati ripetutamente per descrivere altri insiemi di elementi raggruppati, che possono quindi formare un raggruppamento più ampio. Secondo il principio del minor obbligo inoltre, le ambiguità vengono risolte solo quando vi sono evidenze convincenti sulla soluzione appropriata. Questi principi sono particolarmente utili in quanto gli errori in una fase precoce della elaborazione possono condurre poi a numerosi altri errori.

L'input per lo sviluppo dell'abbozzo primario grezzo è la distribuzione spaziale dell'intensità luminosa nell'immagine prelevata. Alcune primitive vengono direttamente estratte da questo array bidimensionale: gli zero crossing, gli edge, i segmenti, i blob, i gruppi, i boundary, etc. Queste informazioni vengono quindi integrate nell'abbozzo primario completo, organizzandole sulla base del loro orientamento e su diversi livelli paralleli nel processo di produzione. I diversi livelli vengono quindi confrontati tra di loro in modo da riconoscerne i contorni.

L'utilizzo dello zero crossing per il riconoscimento delle strutture è fondamentale e si basa sull'osservazione che esiste un punto nel quale l'intensità luminosa varia molto velocemente sull'immagine e che quel punto normalmente corrisponde ad un punto notevole della struttura che si cerca di riconoscere.

La rapida variazione spaziale dell'intensità corrisponde ad un passaggio per lo zero della sua derivata seconda. Si può quindi estrarre dall'immagine il punto di zero crossing calcolandone l'operatore D²G, dove D² è l'operatore laplaciano (D² = d²/dx² + d²/dy²) e G è la distribuzione Gaussiana bidimensionale. Il vantaggio di utilizzare questo tipo di operatore è che esso risulta invariante alle differenze di scala, cioè alle frequenze spaziali di variazione dell'intensità luminosa, e quindi di utilizzo estremamente versatile.

Questo tipo di operazione viene svolto, dal punto di vista neuronale, dal nostro sistema nervoso (nella fattispecie dal sistema occhi e cervello) in alcune aree denominate campi ad organizzazione On-Center/Off-Surround e Off-Center/On-Surround.

La corteccia visiva è proprio per questo una delle più interessanti da studiare.
Le aree visive extrastriate, ovvero le cortecce temporali media ed inferiore e la corteccia parietale posteriore, sono responsabili infatti di un'elaborazione molto complessa delle informazioni visive. La risposta nervosa della popolazione neuronale di queste cortecce infatti si presta molto bene ad essere modellata con un laplaciano:

Grazie alla particolare disposizione delle fibre nervose già a livello della corteccia visiva si possono riconoscere gli orientamenti (se semplici, complessi o ipercomplessi) sulla base delle diverse risposte sulla corteccia cerebrale delle colonne di dominanza oculare.

 

L'abbozzo 2.5-D

La trasformazione dell'abbozzo primario nell'abbozzo 2.5-D prevede vari stadi. II primo stadio implica Ia costruzione di una mappa delle distanze ("informazione punto per punto sulla profondità delle immagini di una scena", come lo stesso Marr la chiama). Successivamente, si ottengono descrizioni a più alto livello (relative ad esempio alle congiunzioni concave o convesse tra due o più superfici), combinando Ie informazioni provenienti da diverse parti in relazione tra loro nella mappa delle distanze.
Le informazioni usate per trasformare l'abbozzo primario nell'abbozzo 2.5-D includono l'ombreggiatura, il movimento, l'aspetto della superficie, la forma, ma soprattutto la disparità binoculare.
La disparità binoculare si riferisce al fatto che l'informazione visiva presentata dai due occhi non è precisamente Ia stessa. Ciò si può osservare molto chiaramente se si tiene un dito vicino al naso e lo si guarda con un occhio alla volta. Più lontano si trova l'oggetto più piccola sarà la disparità binoculare; Ia disparità binoculare viene, infatti, usata per calcolare la distanza relativa di differenti oggetti in abbinamento alle diverse tecniche di fotografia e ripresa.

Il compito di utilizzare le informazioni provenienti dalla disparità binoculare per costruire una mappa delle distanze comporta fenomeni piuttosto complessi. Tra i problemi da risolvere vi è quello riguardante come assicurarsi che l'informazione delle due immagini sia confrontata in modo appropriato (il cosiddetto problema della corrispondenza).

La teoria propone tre regole che potrebbero essere utili nel trattare il problema della corrispondenza:

* Regola 1 della combinazione binoculare: gli elementi dell'abbozzo primario che si sono formati dall'input di ciascuna immagine sono confrontati tra di loro solo se sono compatibili (ad es. hanno lo stesso colore, hanno gli stessi margini e hanno lo stesso orientamento).

* Regola 2 della combinazione binoculare: ciascun elemento può essere confrontato con un solo elemento dell'altro abbozzo primario. Se non fosse per questa regola, sarebbe possibile per un elemento apparire in più di un posto alla volta.

* Regola 3 della combinazione binoculare: vanno preferiti i confronti tra due punti o elementi in cui le disparità tra i due abbozzi primari siano simili alle disparità tra confronti vicini sulla stessa superficie. La logica di questa regola si basa sull'osservazione che punti vicini su di una immaginare probabilmente hanno la stessa distanza dall'osservatore e che I'informazione sulla disparità tiene conto della distanza.

La terza regola tra quelle elencate comunque, a mio parere, sembra la meno adeguata. Ad esempio, se un oggetto appare all'osservatore su di una traiettoria che si inclina progressivamente, allora i punti vicini non avranno disparità molto simili. Di conseguenza, si potrebbe verificare un errore nell'accoppiare i punti corrispondenti tra di loro. La reale locazione dei punti immagine può essere ottenuta allora solo utilizzando qualche tipo di informazione preventiva sulle caratteristiche del mondo esterno.

Le necessarie ipotesi sono allora che: * un punto visto dall'occhio sinistro venga contemporaneamente visto, nella stessa locazione reale, anche dall'occhio destro; * la materia sia coesiva e continua, cioè tale da non presentare improvvisi salti non motivati.

L'assunzione che la disparità vari con continuità deriva pertanto solo dall'osservazione che nella regione di spazio contigua al punto da ricercare esistono infiniti altri punti altrettanto significativi che identificano quindi una regione di punti tutti alla stessa simile distanza. Questi presupposti permettono allora di discriminare situazioni di indecisione come quella riportata.

 

La rappresentazione del modello 3-D

L'abbozzo 2.5-D presenta una serie di limitazioni. Ad esempio, non contiene informazioni sulle superfici degli oggetti presenti nel campo visivo che sono nascoste alla vista. Inoltre esso è centrato sull'osservatore, il che significa che Ia rappresentazione di un oggetto varierà considerevolmente a seconda dell'angolo da cui è osservato. Questa enorme varietà di rappresentazioni, ovviamente, non costituisce una base solida per identificare un oggetto confrontandolo con l'informazione dell'oggetto di cui si ha disponibilità. Queste sono alcune delle ragioni per cui è importante che l'elaborazione prosegua a calcolare Ia rappresentazione del modello 3-D, che non presenta queste limitazioni.

Esistono tre criteri auspicabili per la rappresentazione del modello 3-D:

1. Accessibilità: che si riferisce alla facilità con la quale Ia rappresentazione può essere costruita.
2. Portata e univocità: dove "portata" si riferisce al grado di applicazione della rappresentazione a tutte le forme di una data categoria, e "unicità" significa che tutte le differenti visuali di un oggetto producono Ia stessa rappresentazione standard. L'enorme vantaggio di un'unica descrizione o rappresentazione è che la si può confrontare più facilmente con la conoscenza appropriata dell'oggetto nella memoria.
3. Stabilità e sensibilità: dove "stabilità" indica che una rappresentazione incorpora le somiglianze tra oggetti e "sensibilità" che incorpora le differenze salienti.

La proposta della teoria è che le unità primitive per descrivere gli oggetti dovrebbero essere cilindriche. Queste unità primitive sono da organizzare gerarchicamente in modo che unità di livello elevato forniscano informazioni sulla forma degli oggetti ed unità di basso livello forniscano informazioni più dettagliate. Il senso di questo approccio teorico si può vedere ad esempio nella descrizione di una figura umana: prima di tutto viene dato un asse alla forma complessiva del "corpo". Questo produce un sistema di coordinate centrato sull'oggetto che può essere usato per specificare l'organizzazione di "braccia", "gambe", "torace" e "testa". La posizione di ciascuno di questi elementi è specificata da un asse individuale che a sua volta serve per definire un sistema di coordinate per specificare l'organizzazione di ulteriori parti accessorie.

Questo crea una gerarchia di modelli 3-D (le forme) che sono tracciati come se fossero oggetti cilindrici, anche se questo viene fatto unicamente per convenienza: sono solo gli assi che indicano le qualità volumetriche della forma.
La figura mostra come Ia forma umana possa essere decomposta in una serie di cilindri a differenti livelli di gerarchizzazione.

Commenti

Uno dei più grandi successi di questa teoria è stato chiarire che il riconoscimento di oggetti è un'operazione molto più complessa di quanto non si pensi di solito. L'informazione ricevuta dagli occhi è tipicamente ambigua ed in continuo cambiamento e l'informazione visiva fornita da un oggetto può differire radicalmente in funzione dell'angolo visivo. Di conseguenza c'è bisogno di teorie piuttosto complesse per spiegare il riconoscimento degli oggetti. L'approccio teorico di Marr ha rappresentato una prima buona approssimazione al livello di complessità teorica di cui c'è bisogno.
Una ragione per la quale Marr arrivò a credere che il riconoscimento di oggetti prevede processi molto complessi deriva dalla constatazione delle difficoltà sperimentate da lui e da altri nel cercare di sviluppare programmi di riconoscimento delle immagini che riuscissero a gestire un ambiente visivo molto semplice.

Il concetto per cui un osservatore si costruisce in realtà una serie di rappresentazioni progressivamente più complesse apre molte prospettive. Il fatto che questo approccio teorico si sia sviluppato dal tentativo di integrare l'informazione del punto di vista psicologico, fisiologico e dell'intelligenza artificiale rafforza Ia convinzione che si sia sulla strada giusta.

Molte evidenze della scienza cognitiva si accordano con l'assunzione che il riconoscimento di oggetti richieda una serie di stadi di elaborazione successive al fine di dettagliare maggiormente l'analisi della scena. Il lato negativo è rappresentato dal fatto che l'approccio computazionale di Marr si è principalmente focalizzato sugli stadi iniziali del riconoscimento di oggetti. Nonostante la teoria si sia dimostrata abbastanza corretta nello spiegare Ia formazione dell'abbozzo primario e dell'abbozzo 2.5-D, finora non vi è una precisa comprensione dei processi coinvolti nella trasformazione dell'abbozzo 2.5-D nella rappresentazione del modello 3D.

Un'altra limitazione è che Marr ha avuto relativamente poco da dire su come i processi visivi siano influenzati dalle conoscenze precedenti degli oggetti presenti nella scena visiva. Non sarebbe giusto, infatti, dire che non esiste un impatto delle conoscenze precedenti, visto che in più di una occasione è necessario fare riferimento ai processi di apprendimento di cui siamo capaci e di cui deve essere capace quindi anche un sistema di visione artificiale.

Un ultimo appunto che posso portare al sistema di Marr è che spesso sembra considerare l'esistenza di una teoria computazionale in grado di spiegare certi aspetti percettivi come una prova che la teoria stessa descriva effettivamente il modo di operare di quegli aspetti nella percezione umana. Ad esempio, Marr ha scoperto con metodi computazionali che profondità e orientamento dell'immagine possono essere ricavate senza far uso della conoscenza dell'oggetto e questo lo ha portato a concludere che la rappresentazione della profondità e dell'orientamento precedono sempre il riconoscimento degli oggetti. A mio parere, infatti, queste conclusioni non sono necessariamente conseguenti.

Questo mio studio, come pure le applicazioni, lasciano aperte molte altre porte su problemi percettivi più complessi e generali.
Le rappresentazioni percettive costruite spesso chiamano in causa l'informazione relativa agli oggetti immagazzinati nel sistema semantico (nostro o sintetico che sia). L'integrazione delle informazioni a partire dagli oggetti presentati visivamente con quelle generati da sistemi cognitivi di analisi svolge un ruolo fondamentale nel riconoscimento degli oggetti così che questo fatto comporta implicazioni dirette per le teorie del riconoscimento di oggetti.

Anche la condizione nota come afasia ottica, riveste un grande interesse teorico. Gli afasici ottici possono denominare gli oggetti che hanno toccato e possono indicare, mimandolo, l'uso degli oggetti visti. Tuttavia, hanno grandi difficoltà a denominare gli oggetti basandosi solo sul fatto di averli visti.

Si può allora verificare l'esistenza di tre tipi diversi di sistemi che hanno un ruolo nel riconoscimento di oggetti:
1. l'unità di riconoscimento degli oggetti: un'unità di riconoscimento corrispondente a ciascun oggetto noto, che contiene informazioni sulle caratteristiche strutturali;
2. il sistema semantico: che contiene le informazioni sul significato intrinseco degli oggetti e sul loro utilizzo;
3. il lessico per la produzione del linguaggio: con le informazioni sul nome e sulla codifica gli oggetti.

Alle informazioni immagazzinate sugli oggetti presentati visivamente, si accede in modo seriale nell'ordine descritto: prima li si riconosce, si abbina loro un significato e quindi li si etichetta. Perciò, ad esempio, il nome di un oggetto può essere rievocato solo dopo che si è avuto accesso all'unità di riconoscimento appropriato e all'informazione semantica relativa.

Emerge allora come il compito di riconoscimento degli oggetti in realtà risulti strettamente legato alle capacità di apprendimento e di autoadattamento del sistema, proprio perché implica così da vicino il sistema semantico e del linguaggio. Per tenere conto di queste complessità nelle teorie di riconoscimento degli oggetti, nell'affrontare completamente il problema, si può utilizzare quindi inizialmente l'approccio di Marr cercando sempre di collegare ogni informazione ad ogni altra informazione utile rappresentata nel sistema di analisi cognitiva, nostro o di una macchina che sia.