Traduzione di Filippo Pelucchi e Luisa Tonon.
Revisione di Niccolò Negro, pagina di Cameron Buckner e James Garson.
Versione Inverno 2020.
The following is the translation of Cameron Buckner and James Garson’s entry on “Connectionism” in the Stanford Encyclopedia of Philosophy. The translation follows the version of the entry in the SEP’s archives at https://plato.stanford.edu/archives/win2020/entries/connectionism/ . This translated version may differ from the current version of the entry, which may have been updated since the time of this translation. The current version is located at <https://plato.stanford.edu/entries/connectionism>. We’d like to thank the Editors of the Stanford Encyclopedia of Philosophy for granting permission to translate and to publish this entry on the web.
Il connessionismo è un movimento all’interno delle scienze cognitive che spera di rendere conto delle capacità intellettive usando le reti neurali artificiali (note anche col nome di “reti [networks/ nets] neurali”). Le reti neurali sono modelli semplificati del cervello composte da un gran numero di unità (analoghe ai neuroni), insieme a pesi che misurano la forza delle connessioni tra le unità. I pesi modellano gli effetti delle sinapsi che collegano un neurone all’altro. Esperimenti su modelli di questo tipo hanno dimostrato la capacità di apprendere abilità come il riconoscimento facciale, la lettura e l’individuazione di strutture grammaticali semplici.
I filosofi si sono interessati al connessionismo perché esso si promette di fornire un’alternativa alla teoria classica della mente [TCM], vale a dire l’idea diffusa che la mente sia qualcosa di simile a un computer digitale che elabora un linguaggio in simboli. Come e in che misura il paradigma connessionista costituisca esattamente una sfida per il classicismo è stato oggetto di accesi dibattiti negli ultimi anni.
- 1.Una descrizione delle reti neurali
- 2. Apprendimento delle reti neurali e retropropagazione
- 3. Esempi di ciò che possono fare le reti neurali
- 4. Punti di forza e di debolezza delle reti neurali
- 5. La condizione della controversia tra connessionisti e classicisti
- 6. La rappresentazione nel connessionismo
- 7. Il dibattitto sulla sistematicità
- 8. Il connessionismo e la similarità semantica
- 9. Il connessionismo e l’eliminazione della psicologia ingenua
- 10. Modelli predittivi di codifica della cognizione
- 11. Deep learning: la nuova ondata connessionista
- Bibliografia
- Strumenti accademici
- Altre Risorse in Internet
- Voci correlate
1. Una descrizione delle reti neurali
Una rete neurale è costituita da un gran numero di unità raccolte secondo uno schema di connessioni. Le unità in una rete [net] sono generalmente suddivise in tre classi: unità di input, che ricevono informazioni da elaborare, unità in output, in cui si trovano i risultati di elaborazione, e infine le unità intermedie, dette “unità nascoste”. Se una rete neurale dovesse riprodurre l’intero sistema nervoso umano, le unità di input sarebbero analoghe ai neuroni sensoriali, le unità di output ai motoneuroni e le unità nascoste a tutti gli altri tipi di neurone.
Ecco una semplice illustrazione di una rete neurale standard:
Unità di input Unità nascoste Unità di output
Ogni unità di input ha un valore di attivazione che rappresenta alcune caratteristiche esterne alla rete. Un’unità di input invia il proprio valore di attivazione a ciascuna delle unità nascoste a cui è collegata. Ognuna di queste unità nascoste calcola il proprio valore di attivazione in base ai valori di attivazione che riceve dalle unità di input. Questo segnale viene quindi trasmesso alle unità di output o a un altro livello delle unità nascoste. Quest’ultime calcolano i loro valori di attivazione nello stesso modo e li inviano alle unità loro vicine. Infine, il segnale a livello delle unità di input si propaga per tutta la rete, determinando così i valori di attivazione delle unità di output.
Il modello di attivazione stabilito da una rete è determinato dai pesi o dalla forza delle connessioni tra le unità. I pesi possono essere positivi o negativi. Un peso negativo rappresenta l’inibizione dell’unità ricevente in seguito all’attività di un’unità mittente. Il valore di attivazione per ogni unità ricevente si calcola con una semplice funzione di attivazione. Le funzioni di attivazione variano nei dettagli, ma alla base sottostanno tutti alla stessa idea. La funzione somma i contributi di tutte le unità trasmittenti, dove il contributo di un’unità è definito come il peso della connessione tra le unità trasmittenti e riceventi, moltiplicato per il valore di attivazione dell’unità mittente. Tale somma di solito viene ulteriormente modificata, ad esempio adeguando la somma di attivazione ad un valore compreso tra 0 e 1 e/o azzerando l’attivazione, a meno che non venga raggiunto un livello di soglia per tale somma. I connessionisti pensano che il funzionamento cognitivo possa essere spiegato tramite gli insiemi di unità che operano in questo modo. Poiché si presuppone che tutte le unità calcolino più o meno la stessa semplice funzione di attivazione, realizzare le capacità intellettive umane deve dipendere principalmente dalle impostazioni dei pesi tra le unità.
Il tipo di rete illustrato sopra è chiamato “rete feed-forward”. L’attivazione fluisce direttamente dagli input alle unità nascoste e poi alle unità di output. Modelli più realistici del cervello includerebbero molti strati di unità nascoste e connessioni ricorrenti che inviano segnali dai livelli più alti a quelli più bassi. Tale ricorrenza è necessaria per spiegare caratteristiche cognitive come la memoria a breve termine. In una rete feed-forward, presentazioni ripetute dello stesso input producono ogni volta lo stesso output, ma anche gli organismi più semplici si abituano a (o imparano a ignorare) lo stesso stimolo, se questo viene ripetuto più volte. I connessionisti tendono ad evitare le connessioni ricorrenti, perché si sa poco del problema generale relativo al loro training. Tuttavia, Elman (1991) e altri hanno fatto qualche progresso anche con reti ricorrenti standard, dove la ricorrenza è strettamente vincolata.
2. Apprendimento delle reti neurali e retropropagazione
Trovare il giusto insieme di pesi per svolgere un determinato compito è l’obiettivo centrale della ricerca connessionista. Fortunatamente, sono stati ideati algoritmi di apprendimento in grado di calcolare i pesi giusti per svolgere diversi compiti (vedi Hinton 1992 per una revisione accessibile). Questi rientrano in due grandi categorie: apprendimento supervisionato e non-supervisionato. L’apprendimento hebbiano è la forma non-supervisionata più conosciuta. Quando ogni input è presentato alla rete, i pesi tra i nodi che sono attivi allo stesso tempo aumentano, mentre i pesi che collegano i nodi e che non sono attivi (allo stesso tempo) diminuiscono. Questa forma di apprendimento è particolarmente utile per costruire reti in grado di classificare l’input in categorie funzionali. L’algoritmo supervisionato più utilizzato è chiamato “retropropagazione”. Per utilizzare questo metodo, è necessario un training set composto da molti esempi di input e dai relativi output che vogliamo svolgano un determinato compito. Questo insieme esterno di esempi “sorveglia” il processo di addestramento. Se, ad esempio, il compito fosse di distinguere i volti maschili da quelli femminili, il training set potrebbe contenere immagini di volti oltre all’indicazione del sesso della persona raffigurata in ciascuna di esse. Una rete che può apprendere questo compito potrebbe avere due unità di output (che indicano le categorie “maschio” e “femmina”) e molte unità di input, una dedicata alla luminosità di ogni pixel (una piccola area) nell’immagine. I pesi della rete da addestrare sono inizialmente impostati su valori casuali, poi i membri del training set vengono ripetutamente esposti alla rete. I valori per l’input di un membro sono posti sulle unità di input e l’output della rete viene confrontato con l’output desiderato per quel dato membro. Quindi, tutti i pesi nella rete vengono regolati leggermente nella direzione che avvicinerebbe i valori di output della rete ai valori per l’output desiderato. Ad esempio, quando alle unità di input viene presentato il volto maschile, i pesi vengono regolati in modo che il valore dell’unità di output maschile aumenti e il valore dell’unità di output femminile diminuisca. Una volta che questo processo viene ripetuto svariate volte, la rete può imparare a produrre l’output desiderato per ogni input nel training set. Se l’addestramento andasse a buon fine, la rete potrebbe anche imparare a generalizzare dal comportamento desiderato per input e output che non erano presenti nel training set. Ad esempio, può essere molto brava a distinguere i maschi dalle femmine in immagini che non le sono mai state presentate prima.
Addestrare le reti affinché possano riprodurre gli aspetti dell’intelligenza umana è un’arte raffinata. Il successo con la retropropagazione e gli altri metodi di apprendimento connessionisti può dipendere da un miglioramento abbastanza sottile dell’algoritmo e del training set. Il training in genere comporta centinaia di migliaia di cicli di regolazione dei pesi. Dati i limiti dei computer in passato, l’addestramento di una rete per eseguire un compito interessante richiedeva giorni o addirittura settimane. Più recentemente, l’uso di processori dedicati (GPU) fortemente in parallelo ha contribuito ad alleviare questi pesanti oneri computazionali. Ma anche qui, rimangono da affrontare alcuni limiti delle teorie connessioniste sull’apprendimento. Gli esseri umani (e molti animali meno intelligenti di loro) mostrano la capacità di imparare da singoli casi; ad esempio, un bambino a cui è stato mostrato un nuovo veicolo a due ruote e a cui è stato dato il nome “Segway”, sa subito cos’è un Segway (Lake, Zaremba et al. 2015). Le tecniche di apprendimento connessioniste come la retropropagazione sono lontane dallo spiegare questo tipo di apprendimento a “colpo singolo” [one shot].
3. Esempi di ciò che possono fare le reti neurali
I connessionisti hanno compiuto progressi significativi nel dimostrare che le reti neurali possono padroneggiare i compiti cognitivi. Ecco tre esperimenti ben noti che hanno incoraggiato i connessionisti a credere che le reti neurali riproducano correttamente l’intelligenza umana. Uno dei più interessanti di questi sforzi è il lavoro di Sejnowski e Rosenberg del 1987 su una rete dal nome “NETtalk” in grado di leggere l’inglese. Il training set per NETtalk era un grande database costituito da testo inglese accoppiato con il relativo output fonetico, scritto in un codice adatto all’uso con un sintetizzatore vocale. I nastri delle prestazioni di NETtalk nelle diverse fasi della sua formazione forniscono un ascolto molto interessante. All’inizio l’output è un rumore casuale. Più tardi, la rete sembra quasi balbettare, e più tardi ancora come se stesse parlando un inglese doppio (ossia un discorso formato da suoni che assomigliano a parole inglesi). Alla fine del training, NETtalk fa un buon lavoro nel pronunciare il testo che gli è stato assegnato. Inoltre, questa capacità si generalizza abbastanza bene al testo che non era presente nel training set.
Tra i primi modelli, un altro influente modello connessionista fu una rete addestrata da Rumelhart e McClelland (1986) per predire il passato dei verbi inglesi. Il compito è interessante perché anche se la maggior parte dei verbi in inglese (i verbi regolari) forma il passato aggiungendo il suffisso “-ed”, molti dei verbi più frequenti sono irregolari (“is” / “was”, “come” / “came”, “go” / “went”). La rete è stata inizialmente addestrata su un insieme contenente un gran numero di verbi irregolari, e successivamente su un insieme di 460 verbi contenenti per lo più verbi regolari. La rete ha appreso i tempi passati dei 460 verbi in circa 200 cicli di addestramento e ha generalizzato abbastanza bene coi verbi non presenti nel training set. Ha anche mostrato di apprezzare molto le “regolarità” che si riscontrano tra i verbi irregolari (“send” / “sent”, “build” / “built”, “blow” / “blew”, “fly” / “flew”). Durante l’apprendimento, poiché il sistema è stato esposto al training set contenente più verbi più regolari, ha avuto la tendenza a “sovra-regolare”, cioè a combinare forme irregolari e regolari: (“break” / “broked”, invece di “break” / “broken”). Ciò è stato corretto con un training più intensivo. È interessante notare come si sappia che i bambini mostrano la stessa tendenza a sovra-regolare durante l’apprendimento delle lingue. Tuttavia, c’è un acceso dibattito sul fatto che Rumelhart e McClelland forniscano un buon modello di come gli esseri umani imparano ed elaborano effettivamente le desinenze dei verbi. Ad esempio, Pinker e Prince (1988) sottolineano che il modello svolge un pessimo compito quando si tratta di generalizzare alcuni di nuovi verbi regolari. Credono che questo sia il segnale fondamentale di fallimento da parte dei modelli connessionisti. Le reti possono essere buone per creare associazioni e abbinare modelli, ma hanno limiti fondamentali quando devono padroneggiare regole generali come la formazione del past simple. Queste obiezioni sollevano un problema importante per i modelli connessionisti, vale a dire se le reti possano generalizzare correttamente per padroneggiare compiti cognitivi che implicano delle regole. Nonostante le obiezioni di Pinker e Prince, molti connessionisti credono che sia ancora possibile una generalizzazione corretta (Niklasson e van Gelder 1994).
Il lavoro di Elman del 1991 sulle reti neurali che sono in grado di apprezzare la struttura grammaticale ha importanti implicazioni per il dibattito sul loro imparare a padroneggiare queste regole. Elman ha addestrato una semplice rete ricorrente per prevedere la parola successiva in un ampio corpus di frasi inglesi. Le frasi sono state formate a partire da un semplice vocabolario di 23 parole, utilizzando un sottoinsieme della grammatica inglese. La grammatica, seppur semplice, poneva un duro test per la consapevolezza linguistica. Consentiva la formazione illimitata di clausole relative mentre richiedeva un accordo tra la testa e il verbo. Quindi, per esempio, nella frase:
Qualsiasi uomo che insegue cani che inseguono gatti… corre.
il singolare “uomo” deve concordare con il verbo “corre”, anche se i sostantivi plurali interposti (“cani”, “gatti”) potrebbero causare la selezione di “correre”. Una delle caratteristiche importanti del modello di Elman è l’uso delle connessioni ricorrenti. I valori delle unità nascoste vengono salvati in un insieme di unità dette “di contesto” [context units], per essere poi rinviati al livello di input per il successivo ciclo di elaborazione. Questo loopback dai livelli nascosti a quelli di input fornisce alla rete una forma rudimentale di memoria della sequenza di parole nella frase di input. Le reti di Elman mostravano un apprezzamento della struttura grammaticale delle frasi che non erano presenti nel training set. Il comando della sintassi della rete è stato misurato nel modo seguente. Prevedere la parola successiva in una frase inglese è, ovviamente, un compito impossibile. Tuttavia, queste reti ci sono riuscite, almeno nella maniera seguente. In un dato punto in una frase di input, le unità di output per le parole che sono continuazioni grammaticali della frase in quel preciso punto dovrebbero essere attive, mentre le unità di output per tutte le altre parole dovrebbero invece essere inattive. Dopo un training intensivo, Elman è stato in grado di produrre reti che hanno mostrato prestazioni perfette sulla base di questa misura, comprese le frasi non presenti nel training set. Il lavoro di Christiansen e Chater (1999a) e Morris, Cottrell ed Elman (2000) estende questa ricerca a grammatiche più complesse. Per una visione più estesa del progresso nell’elaborazione del linguaggio naturale connessionista, vedi i riassunti di Christiansen e Chater (1999b), e Rohde e Plaut (2003).
Anche se questa prestazione è impressionante, c’è ancora molta strada da fare per quanto riguarda le reti di addestramento in grado di elaborare una lingua come l’inglese. Inoltre, sono stati sollevati dubbi sul significato dei risultati di Elman. Ad esempio, Marcus (1998, 2001) sostiene che le reti di Elman non sono in grado di generalizzare questa prestazione con frasi formate a partire da un nuovo vocabolario. Questo, sostiene, è un segnale che i modelli connessionisti fanno delle associazioni solamente partendo dagli esempi e non sono in grado di padroneggiare per davvero regole astratte. D’altra parte, Phillips (2002) sostiene che le architetture classiche non se la passino meglio da questo punto di vista. La presunta incapacità dei modelli connessionisti di generalizzare le prestazioni in questo modo è diventata un tema importante per il dibattito sulla sistematicità (vedi la Sezione 7 di seguito).
Una preoccupazione un po’ diversa sull’adeguatezza dell’elaborazione del linguaggio connessionista si concentra su compiti che imitano l’apprendimento infantile di semplici grammatiche artificiali. I dati sul tempo di reazione confermano che i bambini possono imparare a distinguere le frasi ben formate da quelle mal formate in un nuovo linguaggio creato dagli sperimentatori. Shultz e Bale (2001) riportano il caso di successo nell’addestrare delle reti neurali nello stesso compito. Vilcu e Hadley (2005) obiettano che questo lavoro non riesce a dimostrare la vera acquisizione della grammatica, ma vedi Shultz e Bale (2006) per una risposta dettagliata.
4. Punti di forza e di debolezza delle reti neurali
I filosofi sono interessati alle reti neurali perché possono fornire un nuovo modello per comprendere la natura della mente e la sua relazione con il cervello (Rumelhart & McClelland 1986: capitolo 1). I modelli connessionisti sembrano andare di pari passo in particolare con ciò che sappiamo sulla neurologia. Il cervello è infatti una rete neurale, formata da un numero enorme di unità (neuroni) e loro connessioni (sinapsi). Inoltre, diverse proprietà dei modelli di rete neurale suggeriscono che il connessionismo possa offrire un’immagine particolarmente fedele della natura dell’elaborazione cognitiva. Le reti neurali mostrano una solida flessibilità di fronte alle sfide poste dal mondo reale. Un input rumoroso o la distruzione delle unità causano un lieve degrado nel suo funzionamento. La risposta della rete è ancora appropriata, anche se un po’ meno precisa. Al contrario, il rumore e la perdita di circuiti nei computer classici in genere provocano guasti catastrofici. Le reti neurali sono inoltre particolarmente abili a risolvere problemi che richiedono una risoluzione parallela di molti vincoli conflittuali. Ci sono diverse evidenze dalla ricerca sull’intelligenza artificiale che compiti cognitivi come il riconoscimento di oggetti, la pianificazione e persino il movimento coordinato presentano problemi di questo tipo. Sebbene i sistemi classici siano in grado di soddisfare più vincoli, i connessionisti sostengono che i modelli di rete neurale forniscono meccanismi molto più semplici per affrontare tali problemi.
Nel corso dei secoli, i filosofi hanno continuato a discutere per capire come definiamo i nostri concetti. È ormai ampiamente riconosciuto che cercare di caratterizzare le nozioni ordinarie con condizioni necessarie e sufficienti è un’operazione destinata all’insuccesso. Eccezioni a quasi tutte le definizioni proposte sono sempre in attesa dietro le quinte. Ad esempio, si potrebbe sostenere che una tigre non è altro che un grande felino nero e arancione. Ma allora che dire delle tigri albine? Filosofi e psicologi cognitivi hanno sostenuto che le categorie sono delimitate in modi più flessibili, ad esempio attraverso una nozione di somiglianza familiare o somiglianza prototipica. I modelli connessionisti sembrano particolarmente adatti ad accogliere nozioni graduali di appartenenza a categorie di questo tipo. Le reti possono imparare ad apprezzare sottili schemi statistici che sarebbero molto difficili da esprimere con regole ferree. Il connessionismo promette di spiegare la flessibilità e l’intuizione che si trovano nell’intelligenza umana usando metodi che non possono essere facilmente espressi sotto forma di principi privi di eccezioni (Horgan & Tienson 1989, 1990), evitando così la fragilità che deriva dalle forme standard della rappresentazione simbolica.
Nonostante queste caratteristiche intriganti, ci sono alcuni punti deboli nei modelli connessionisti che meritano di essere menzionati. In primo luogo, la maggior parte della ricerca sulle reti neurali astrae da molte caratteristiche interessanti e forse importanti del cervello. Ad esempio, i connessionisti di solito non tentano di modellare esplicitamente la varietà dei diversi tipi di neuroni del cervello, né gli effetti dei neurotrasmettitori e degli ormoni. Inoltre, è tutt’altro che evidente che il cervello disponga del tipo di connessioni inverse che sarebbero necessarie, qualora apprendesse con un processo come quello della retropropagazione, e l’immenso numero di ripetizioni necessario per tali metodi di training sembra tutt’altro che realistico. Porre attenzione a tali questioni sarà probabilmente necessario se si vogliono costruire modelli connessionisti convincenti dell’elaborazione cognitiva umana. Va accolta anche un’obiezione più seria. È opinione diffusa, specialmente tra i classicisti, che le reti neurali non siano particolarmente brave nel tipo di elaborazione basata su regole che si pensa siano alla base del linguaggio, del ragionamento e delle forme di pensiero superiore. (Per una critica ben nota di questo tipo, si veda Pinker e Prince 1988.) Discuteremo ulteriormente la questione quando passeremo al dibattito sulla sistematicità.
È stato fatto un gran lavoro nel corso degli anni per sviluppare algoritmi biologicamente plausibili per il training orientato all’errore. È possibile dimostrare che esso approssima i risultati della retropropagazione senza le sue implausibili caratteristiche. Esempi importanti includono l’algoritmo di ricircolo dell’errore generalizzato [Generalized Error Recirculation algorithm] di O’ Reilly (O’ Reilly 1996), che utilizza segnali di errore casuali, piuttosto che segnali di errore calcolati individualmente per ciascun neurone (Lillicrap, Cownden, Tweed e Akerman 2016) e la modificazione dei pesi utilizzando il picco di plasticità dipendente dal tempo – quest’ultima è stata tra quelle preferite da figure di spicco nella ricerca sul deep learning [apprendimento profondo] (Bengio et al. 2017). (Per ulteriori informazioni sul deep learning, vedi la Sezione 11 di seguito.)
5. La condizione della controversia tra connessionisti e classicisti
Negli ultimi quarant’anni è stata predominante la teoria classica, secondo cui il processo cognitivo umano (almeno nelle sue forme più elevate) sarebbe analogo alla computazione simbolica dei computer digitali. Secondo la teoria classica, l’informazione consiste in stringhe di simboli che sono anche il modo in cui si rappresentano i dati all’interno della memoria di un computer o su un foglio di carta. I connessionisti, d’altra parte, sostengono che l’informazione viene conservata in forma non-simbolica, cioè attraverso il peso (o la “forza”) delle connessioni tra i nodi di una rete neurale. I classicisti credono che la cognizione assomigli all’elaborazione numerica: vengono prodotte in sequenza delle stringhe secondo le istruzioni date da un programma (simbolico). I connessionisti intendono invece l’elaborazione mentale come un’evoluzione dinamica e graduale dell’attività all’interno di una rete neurale. In essa, l’attivazione di ogni nodo dipende dall’attività dei nodi vicini e dalla forza delle connessioni con essi.
Queste concezioni possono sembrare in apparenza molto diverse tra loro. Tuttavia, molti connessionisti non intendono opporsi al classicismo e, anzi, alcuni di essi supportano apertamente la teoria classica. I cosiddetti “connessionisti implementazionisti” mirano ad una conciliazione tra i due paradigmi. Affermano che la rete cerebrale implementa un processore simbolico. Certo, la mente è una rete neurale, ma è anche un processore simbolico, secondo una concezione più astratta. Quindi, il fine della ricerca connessionista, secondo gli implementazionisti, è scoprire come costruire un processore simbolico utilizzando i materiali della rete neurale cosicché l’elaborazione classica possa essere assimilata alla teoria della rete neurale.
Nonostante ciò, molti connessionisti non cedono alla prospettiva implementazionista. Tali connessionisti radicali ritengono che l’elaborazione simbolica sia un’ipotesi non adatta a spiegare il funzionamento della mente. Ritengono che la teoria classica fallisca nello spiegare la cosiddetta “dolce degradazione” [graceful degradation] di una funzione, così come la rappresentazione olistica dei dati, la generalizzazione spontanea, la valutazione del contesto e molte altre funzioni proprie dell’intelligenza umana e che sono rilevanti nei loro modelli. Ai loro occhi, l’incapacità da parte della programmazione classica di modellare la flessibilità e l’efficienza della cognizione umana indica la necessità di un nuovo paradigma nelle scienze cognitive. Dunque, i connessionisti radicali vorrebbero eliminare per sempre l’elaborazione simbolica dalle scienze cognitive.
La controversia tra connessionisti radicali e implementazionisti si fa più complicata con l’invenzione delle cosiddette architetture connessioniste dette “ibride”. In esse, elementi dell’elaborazione classica vengono integrati all’interno di reti neurali (Wermter & Sun 2000). Ad esempio, Miikkulainen (1993) ha campionato una complessa serie di reti neurali capaci di condividere informazioni codificate sotto forma di pattern di attivazione. Siccome uno dei moduli funge da memoria, il sistema nel suo complesso somiglia ad un processore classico dotato però di un meccanismo separato per l’archiviazione e la gestione delle “parole” digitali. Smolensky (1990) è famoso per aver inventato i cosiddetti “metodi di prodotto tensoriale” [tensor product methods]. Essi permetterebbero di simulare il processo di una variabile libera: i dati simbolici vengono archiviati o estratti da “luoghi” determinati. Più recentemente, Eliasmith (2013) ha proposto architetture cognitive enormi e complesse che utilizzano i cosiddetti “puntatori semantici” [semantic pointers], i quali mostrano le caratteristiche delle variabili libere classiche. Date architetture ibride di questo genere, diventa allora più difficile classificare un certo modello connessionista come radicale o meramente implementazionale. Ciò porterebbe ad un cambio di prospettiva interessante: il punto della questione non è più capire se l’elaborazione simbolica sia presente o meno nella mente umana, bensì in che grado.
La divergenza di opinioni riguardo al grado in cui la cognizione umana coinvolge l’elaborazione simbolica fa naturalmente parte del dibattito sull’innatismo (vale a dire se le abilità di livello superiore come il linguaggio e il ragionamento siano parte del corredo genetico umano o se siano frutto dell’apprendimento). Il successo dei modelli connessionisti nell’apprendere operazioni, a partire da pesi scelti in maniera randomica, dà speranza agli empiristi. Quest’ultimi sono portati a pensare che il cervello di un bambino sia capace di formare la propria intelligenza a partire da input percettivi grazie ad un semplice sistema di apprendimento. D’altro canto, gli innatisti appartenenti alla tradizione razionalista argomentano che, quantomeno per quanto riguarda i linguaggi fondati sulla grammatica, la povertà di stimoli percettivi (Chomsky 1955-58) implichi l’esistenza di un meccanismo atto all’apprendimento della grammatica che sia geneticamente determinato. Tuttavia, l’allineamento di connessionismo e non-innatismo non è così ben definito. Non esiste alcun motivo per cui il modello connessionista non possa essere interpretato secondo la prospettiva innatista: il continuo “apprendere” potrebbe rappresentare il perfezionamento attuato, di generazione in generazione, dal processo evolutivo. L’idea che il cervello umano abbia il dominio, in modo geneticamente determinato, di una specifica conoscenza può essere accordata al paradigma connessionista se nel modello si modificano i pesi iniziali in modo tale che si possa imparare una data nozione in maniera semplice o banale. La ricerca connessionista si presta bene al dibattito innatista, fornendo una nuova confutazione dell’argomento della povertà dello stimolo. Gli innatisti sostengono che l’associazione di idee, ovvero il meccanismo di apprendimento proposto dall’empirismo tradizionale, sia un meccanismo insufficiente per supportare lo sviluppo di abilità cognitive di livello superiore. Essi ritengono che siano fondamentali dei meccanismi innati per imparare (ad esempio) la grammatica inglese a partire dagli input linguistici che può ricevere un bambino. Infatti, argomentano, statisticamente le regole apprendibili attraverso “semplice associazione” sono di gran lunga inferiori a quelle della grammatica. Il connessionismo potrebbe in futuro favorire l’empirismo su questo punto, fornendo la prova concettuale che tale sapere strutturato può essere appreso da input accessibili agli umani utilizzando solo i meccanismi di apprendimento presenti in architetture non classiche. Ovviamente è troppo presto per dire se questa eventualità possa realizzarsi o meno.
6. La rappresentazione nel connessionismo
I modelli connessionisti propongono un nuovo paradigma per comprendere come viene rappresentata l’informazione all’interno del cervello. Per esempio, potremmo immaginare che esista un neurone-nonna che si attiva quando pensiamo a nostra nonna. Tuttavia, tale rappresentazione dell’informazione, isolata e specifica, non è verosimile. Vi sono numerose prove che il pensare a nostra nonna implichi un complesso schema di attività che coinvolge zone relativamente estese della corteccia cerebrale.
È interessante notare che le rappresentazioni distribuite tra i nodi nascosti, piuttosto che le rappresentazioni locali, sono un prodotto del metodo del training connessionista. Lo schema di attivazione che appare tra i nodi nascosti mentre NETtalk elabora un testo ne è la prova. Le analisi rivelano che la rete ha imparato a rappresentare le categorie di consonanti e vocali, ma senza creare un nodo specifico per le consonanti e uno per le vocali, bensì sviluppando due schemi di attività caratteristici, tra loro differenti, che coinvolgono le unità nascoste.
Date le aspettative che si sono formate attraverso la nostra esperienza con la rappresentazione locale sulla carta stampata, la rappresentazione distribuita sembra allo stesso tempo nuova e difficile da comprendere. Ma la tecnica mostra importanti vantaggi. Ad esempio, le rappresentazioni distribuite si conservano relativamente bene quando delle parti del modello vengono distrutte o sovraccaricate (al contrario di quanto accade per i simboli archiviati in memorie fisse e separate). Inoltre, siccome le rappresentazioni vengono codificate in schemi e non con l’attivazione di specifici nodi, le relazioni tra rappresentazioni sono codificate in base alle similitudini o alle differenze tra schemi. Quindi le caratteristiche della rappresentazione trasmettono delle informazioni sulla natura del loro contenuto (Clark 1993: 19). Al contrario, la rappresentazione locale è frutto di una convenzione. Non esistono proprietà intrinseche ad una rappresentazione (consistente nell’attivazione di un dato nodo) che possano determinare le relazioni con altri simboli. Questa proprietà auto-descrittiva della rappresentazione distribuita permette di risolvere il dilemma filosofico sul significato. In un sistema di rappresentazione simbolica tutte le rappresentazioni sono composte di atomi simbolici (come le parole in un linguaggio). Il significato di una stringa simbolica complessa sarà dato dalla combinazione degli atomi costitutivi, ma che cosa determina il significato degli atomi?
Lo schema rappresentazionale connessionista sradica questo dubbio facendo semplicemente a meno degli atomi. Ogni rappresentazione distribuita è uno schema di attività che coinvolge tutti i nodi, quindi non esiste un principio per distinguere le rappresentazioni semplici da quelle complesse. Le rappresentazioni sono composte dall’attività dei singoli nodi. Ma nessuno di questi atomi codifica alcun simbolo. La rappresentazione è “sub-simbolica”: l’analisi delle componenti non fa trasparire nessun livello simbolico dietro alla rappresentazione.
La natura sub-simbolica della rappresentazione distribuita fornisce un nuovo modo di intendere l’elaborazione dell’informazione compiuta dal cervello. Se indichiamo l’attività di ogni neurone con un numero, l’attività complessiva del cervello è data da un gigantesco vettore numerico (o “lista di numeri”). Sia gli input del cervello, derivanti dai sensi, che gli output, diretti ai neuroni motori, possono essere visti come vettori dello stesso genere. Quindi il cervello equivale ad un processore di vettori e, di conseguenza, il problema della psicologia diventa trovare quali siano le operazioni vettoriali responsabili dei vari aspetti della cognizione umana.
La rappresentazione sub-simbolica porta con sé implicazioni interessanti per l’ipotesi classica secondo cui il cervello contiene rappresentazioni simboliche simili alle proposizioni di un linguaggio. Quest’idea, conosciuta come tesi del “linguaggio di pensiero”, viene contestata dalla natura delle rappresentazioni connessioniste. Non è facile affermare esattamente in cosa consista la tesi del linguaggio di pensiero, ma Van Gelder (1990) offre un criterio largamente accettato ed influente per determinare quando si può dire che il cervello contiene delle rappresentazioni simili a proposizioni. Tale criterio afferma: quando una rappresentazione è una occorrenza specifica ne consegue che le componenti di quella stessa rappresentazione sono anch’esse dei token. Per esempio, se scrivo “John ama Mary” ho scritto le componenti della frase: “John”, “ama” e “Mary”. La rappresentazione distribuita di espressioni complesse come “John ama Mary” può essere costruita in modo tale che non contengano nessuna rappresentazione esplicita delle loro parti (Smolensky 1990). L’informazione sulle componenti può essere estrapolata dalla rappresentazione, ma i modelli di rete neurale non hanno bisogno di estrapolare queste informazioni per poterla elaborare correttamente (Chalmers 1990). Ciò suggerisce che i modelli a rete neurale si prestino a confutare l’idea che il linguaggio di pensiero sia il prerequisito della cognizione umana. Tuttavia, la questione è ancora argomento di un vivace dibattito (Fodor 1997).
La novità connessionista di una memorizzazione distribuita e sovrapponibile ovviamente porta ad interrogarsi riguardo la sostenibilità delle nozioni classiche di computazione simbolica utilizzate per descrivere il cervello. Questa conseguenza è importante perché la tesi classica circa il processo cognitivo (e le intuizioni del senso comune) presuppone che la rappresentazione giochi un ruolo esplicativo nella comprensione della mente. A lungo si è pensato che le scienze cognitive, per loro stessa natura, necessitassero di spiegazioni che si rifacessero alle rappresentazioni (Von Eckardt 2003). Se Ramsey avesse ragione, la questione potrebbe prendere due pieghe diverse. Alcuni potrebbero usare tale argomento per sostenere una teoria della mente nuova e non classica, mentre altri potrebbero usarlo per affermare che il connessionismo è una teoria inadeguata in quanto non riesce a rendere conto di ciò che si prefigge di spiegare. Tuttavia, Haybron (2000) sostiene, obiettando così a Ramsey, che nelle architetture connessioniste radicali vi è ampio spazio per un ruolo esplicativo della rappresentazione. Roth (2005) pone un’osservazione interessante: contrariamente ad una prima impressione, avrebbe perfettamente senso spiegare il comportamento di una rete con riferimento ad un programma di computer, anche se non c’è modo di distinguere cronologicamente una sequenza di step all’interno della computazione.
Il dibattito circa l’esistenza delle rappresentazioni classiche e del linguaggio di pensiero è stato oscurato dalla mancanza di chiarezza nel definire cosa vada considerato “veicolo” rappresentazionale nei modelli neurali distribuiti. Shea (2007) crede che l’individuazione delle rappresentazioni distribuite debba essere definito dal modo in cui si raggruppano gli schemi di attivazione dei nodi nascosti. È il rapporto tra le zone di raggruppamento, luoghi di possibili schemi di attivazione, che veicola il contenuto rappresentazionale, non le attivazioni in sé e nemmeno l’insieme dei nodi responsabili dell’attivazione. Una volta compreso ciò, aumentano le possibilità di localizzare il contenuto rappresentazionale nelle reti neurali confrontabili con reti dalla diversa architettura accidentalmente coinvolte nell’elaborazione. Ciò permette di superare le obiezioni alle teorie olistiche sul significato.
In una serie di articoli, Horgan e Tienson (1989,1990) hanno difeso una teoria nota come “rappresentazione senza regole”. Secondo questa teoria, i classicisti avrebbero ragione nel pensare che il cervello umano (così come alcuni validi modelli connessionisti) contenga rappresentazioni esplicative e corpose, ma sbagliano nel pensare che queste siano definite da regole ferree come gli step di un software. L’idea che un sistema connessionista possa essere caratterizzato da regolarità di natura indicativa (chiamate da Horgan e Tienson “soft laws”) è intuitivo e convincente. Tuttavia, Aizawa (1994) sostiene che data una rete neurale arbitraria dotata di un livello rappresentazionale, è sempre possibile tararla con regole ferree che agiscano su quel livello. Guarini (2001) risponde portando la nostra attenzione sulla necessità di seguire certe regole nella costruzione dei modelli cognitivi. Alla luce di queste regole, la costruzione di Aizawa sembrerebbe mancare il punto.
7. Il dibattito sulla sistematicità
Il dubbio centrale che anima la controversia sul connessionismo nella letteratura filosofica è se esso fornisca o meno un paradigma per comprendere la mente che sia allo stesso tempo innovativo e sostenibile. La prima critica è che i modelli connessionisti siano validi solo per elaborare associazioni. Ma certe funzioni, come il linguaggio e il ragionamento, non possono essere compiute solo per mezzo di metodi associativi e dunque i modelli connessionisti faticano ad eguagliare le performance dei modelli classici nell’esibire tali abilità cognitive di livello superiore. Nonostante ciò, è facilmente dimostrabile che le reti neurali sono in grado di fare tutto ciò che può fare un processore simbolico poiché esse possono essere costruite imitando un circuito elettronico. Quindi l’obiezione non è tanto che i modelli connessionisti non sono in grado di compiere cognizione di livello superiore. Piuttosto, possono fare ciò solo se adottano gli strumenti di elaborazione simbolica ereditata dalla visione classica. Di conseguenza, il connessionismo implementazionista potrebbe anche funzionare, ma il connessionismo radicale non potrà mai spiegare la mente.
L’articolo di Fodor e Pylyshyn, largamente citato, apre un dibattito di questo tipo. Essi identificano una funzione dell’intelligenza umana, chiamata “sistematicità”, che i connessionisti non sarebbero in grado di spiegare. La sistematicità del linguaggio si riferisce al fatto che l’abilità di produrre/capire/pensare alcune frasi sia intrinsecamente collegata all’abilità di produrne/capirne/pensarne altre dalla struttura simile. Per esempio, nessuno che conosca una lingua a sufficienza per capire “John ama Mary” non capisce la frase “Mary ama John”. Secondo la teoria classica, la connessione tra queste due abilità si spiega facilmente se si suppone che chi padroneggia la lingua rappresenti nella propria mente le componenti (“John”, “ama” e “Mary”) di “John ama Mary” e ne computi il significato a partire dal significato delle sue componenti. Se così fosse, allora comprendere una proposizione mai sentita come “Mary ama John” può essere considerato un esempio della stessa elaborazione simbolica. Similmente, l’elaborazione simbolica andrebbe considerata responsabile della sistematicità del ragionamento, dell’apprendimento e del pensiero. Questo spiegherebbe perché non esistono persone che, capaci di concludere P da P&(Q&R), ma allo stesso tempo incapaci di concludere P da P&Q. Allo stesso modo, spiegherebbe perché non esistono persone che sono capaci di imparare a preferire un cubo rosso rispetto a un quadrato verde e che allo stesso tempo non sono in grado di imparare a scegliere un cubo verde invece che un quadrato rosso. Spiegherebbe perché se una persona è capace di pensare che John ama Mary è anche in grado di pensare che Mary ama John.
Fodor e McLaughlin (1990) argomentano con dettaglio l’impossibilità che il connessionismo incontra nel cercare di rendere conto della sistematicità. Anche se i modelli connessionisti possono essere allenati ad essere sistematici, possono anche essere allenati a riconoscere, per esempio, “John ama Mary” senza però essere in grado di riconoscere “Mary ama John”. Siccome il connessionismo non garantisce sistematicità, allora non può certo spiegare come essa sia un aspetto così trasversale della cognizione umana. Si può trovare della sistematicità nelle architetture connessioniste, ma si tratta sempre di un caso più che fortunato. La soluzione classica è migliore perché nei modelli classici si trova sempre della sistematicità diffusa.
L’obiezione secondo cui le reti connessioniste siano svantaggiate nello spiegare la sistematicità ha generato molto interesse. Chalmers (1993) sottolinea che l’argomentazione di Fodor e Pylyshyn è troppo forte poiché sostiene che tutte le reti neurali, anche quelle che adottano un’architettura classica, non presentano sistematicità. Data la conclusione, non contestata, che il cervello è una rete neurale, ne consegue che la sistematicità è impossibile nel pensiero umano. Un’altra replica (Aizawa 1997b; Matthews 1997; Hadley 1997b) sostiene che le architetture classiche non siano più soddisfacenti nell’illustrare la sistematicità. Esistono infatti modelli classici che possono essere programmati per riconoscere “John ama Mary” senza essere capaci di riconoscere “Mary ama John” e questo dipende da quali sono esattamente le regole simboliche che governano l’elaborazione classica. Il punto è che, né l’uso di architetture solamente connessioniste, né l’uso di architetture esclusivamente classiche porta con sé abbastanza vincoli per dimostrare una sistematicità diffusa. In entrambe le architetture sono necessarie ulteriori ipotesi per garantire che “Mary ama John” e “John ama Mary” siano trattate allo stesso modo.
Una discussione a tal proposito dovrebbe menzionare la richiesta di Fodor e McLaughlin: che la sistematicità venga spiegata come una questione di necessità, ovvero come una questione di leggi di natura. La critica rivolta ai connessionisti è quella di non poter spiegare la sistematicità, nonostante implementino sistemi che presentano sistematicità, poiché essa deve essere una proprietà necessaria dei loro modelli. Però la richiesta di un carattere necessario della sistematicità è notevole e nemmeno le architetture classiche la possono soddisfare. Quindi, l’unico modo per garantire un’obiezione schiacciante al connessionismo sarebbe mitigare tale richiesta in modo che almeno le architetture classiche la possano soddisfare, mentre quelle connessioniste no. Una condizione di questo tipo però non è ancora stata formulata.
Con l’evolversi del dibattito sulla sistematicità, l’attenzione si è concentrata sul definire dei criteri che potessero rispondere alla sfida lanciata da Fodor e Pylyshyn. Hadley (1994a, 1994b) distingue tre tipi di sistematicità. I connessionisti hanno chiaramente dimostrato il più debole tra questi, mostrando che le reti neurali possono imparare a riconoscere correttamente delle nuove combinazioni di parole (ad esempio, “Mary ama John”) che non erano presenti nel training set. Nonostante ciò, Hadley afferma che una contestazione convincente debba dimostrare sistematicità forte, o meglio, una forte sistematicità semantica. Una sistematicità forte richiede (al minimo) che venga riconosciuto “Mary ama John” anche se “Mary” non è mai apparso nella posizione di soggetto in nessuna frase del training set. Una sistematicità semantica forte richiederebbe allo stesso modo che la rete sia in grado di elaborare correttamente una frase nuova, piuttosto che distinguere meramente tra forma grammaticale e non-grammaticale. Niklasson e Van Gelder (1994) hanno rivendicato con successo una sistematicità forte, anche se Hadley sostiene che si tratta, al più, di un caso limite. Hadley e Hayward (1997) si sono occupati di sistematicità semantica forte, ma per ammissione di Hadley stesso non è del tutto chiaro se abbiano evitato l’utilizzo di architetture classiche. Boden e Niklasson (2000) sostengono di aver costruito un modello che riporta, almeno vagamente, della sistematicità semantica forte, ma Hadley (2004) ribatte affermando che esso non riporta nemmeno quella. Che si considerino o meno in parte riusciti alcuni di questi tentativi, sembra lecito affermare che nessuno ha soddisfatto la richiesta di una rete neurale capace di imparare l’elaborazione semantica complessa per poterla applicare ad un range completo di nuovi input.
La ricerca di reti che possano chiaramente dimostrare della sistematicità forte è continua. Jansen e Watter (2012) forniscono un buon riepilogo dei tentativi precedenti e propongono un principio interessante per risolvere il problema. Utilizzano un’architettura più complessa che combina una mappatura capace di riorganizzarsi autonomamente e delle funzioni tipiche delle semplici reti ricorrenti. Tuttavia, la principale innovazione è quella di abbinare dei codici alle parole in modo che possano essere processati per rappresentare delle funzioni sensomotorie di ciò che le parole significano. Una volta allenate, le loro reti dimostrano molta precisione nel distinguere gli elementi grammaticali di proposizioni le cui parole non sono mai apparse nel training set. Ciò potrebbe essere considerato un sotterfugio, dato che i codici attribuiti alle parole potrebbero fungere da categorie grammaticali, o quantomeno potrebbero facilitarne l’apprendimento. Jansen e Watter sottolineano però che le funzioni sensori-motorie di ciò che le parole significano sono evidenti ad un bambino che ha appena imparato una nuova parola, e quindi non sono off-limits in un modello di apprendimento linguistico. Essi pongono l’interessante osservazione per cui la soluzione al problema della sistematicità potrebbe includere fonti di informazione ambientale che sono state finora ignorate nelle teorie dell’apprendimento linguistico. Questo progetto complica il dibattito sulla sistematicità, poiché genera una nuova preoccupazione riguardo a quali siano le fonti d’informazione legittime per rispondere alla sfida appena proposta. Tuttavia, ciò ci ricorda che la sola architettura (che sia classica o connessionista) in ogni caso non risolverà il problema della sistematicità, dunque la questione interessante diventa: quali sono le fonti di informazione supplementare necessarie a rendere possibile il processo di apprendimento della grammatica?
Kent Johnson (2004) sostiene che tutto il dibattito sulla sistematicità è fuorviante. Cercare di definire minuziosamente la sistematicità del linguaggio o del pensiero porta solo a banalità e fallacie. Certamente i connessionisti devono fornire delle spiegazioni, ma Johnson ritiene improduttivo adempiere a questo compito ricorrendo alla sistematicità. Anche Aizawa (2014) suggerisce che il dibattito non è più rilevante data la direzione presa dalle scienze cognitive al giorno d’oggi. Ciò di cui c’è bisogno, invece, è lo sviluppo di modelli connessionisti plausibili a livello neurale, capaci di elaborare un linguaggio con una sintassi ripetitiva e capaci di reagire immediatamente all’aggiunta di nuovi elementi nel lessico, senza l’utilizzo di elementi di architettura classica. Il dibattito sulla sistematicità potrebbe non sussistere, suggerisce Johnson, poiché la richiesta di sistematicità semantica forte avanzata da Hadley può essere vista come un ulteriore test per il successo delle tesi connessioniste.
Ricerche recenti (Loula, Baroni, Lake 2018) gettano nuova luce sulla controversia. Delle reti neurali ricorrenti sono state allenate ad interpretare consegne complesse grazie ad un linguaggio semplice che include primitivi semantici come “jump”, “walk”, “right”, “left”, “opposite” e “around”. “Opposite” indica di eseguire due volte la stessa azione e “around” di compierla quattro volte. Dunque “jump around left” richiede un salto verso sinistra per quattro volte. Gli autori riportano che la loro rete ha dimostrato della generalizzazione molto precisa eseguendo compiti che richiedono una sistematicità semantica forte. Le reti hanno eseguito correttamente le consegne del set contenenti “jump around right” anche se questa frase non è mai apparsa nel training set. Tuttavia, il fallimento della rete nel compiere compiti più difficili suggerisce un limite nell’abilità di generalizzazione tipica di una sistematicità genuina. Le reti mostravano scarsa abilità quando le consegne nel test set erano più lunghe (o anche più corte) di quelle presenti nel training set. Dunque, non sono state capaci di comporre spontaneamente il significato di espressioni complesse a partire dal significato delle parti. Servono nuove ricerche per capire la natura di questi insuccessi, se essi possano essere superati con architetture non classiche ed il grado in cui gli esseri umani presentano errori simili se posti in condizioni analoghe.
Sono passati quarant’anni dall’inizio del dibattito sulla sistematicità e l’articolo originale di Fodor e Pylyshyn vanta oltre 3000 citazioni . Dunque, questo breve resoconto è necessariamente incompleto. Aizawa (2003) propone un’eccellente visione d’insieme di ciò che è stato scritto sul tema. Calvo e Symons (2014) rappresentano un’altra fonte più recente.
8. Il connessionismo e la similarità semantica
Una delle attrattive delle rappresentazioni distribuite nei modelli connessionisti è che suggeriscono una soluzione al problema di fornire una teoria su come gli stati cerebrali possano avere significato. L’idea è che le somiglianze e le differenze tra i modelli di attivazione lungo le diverse dimensioni dell’attività neurale registrino le informazioni semantiche. Quindi, le proprietà di somiglianza delle attivazioni neurali forniscono proprietà intrinseche che determinano il significato. Tuttavia, quando si tratta di rappresentazioni linguistiche composte Fodor e Lepore (1992: cap. 6) sfidano le teorie basate sulla somiglianza, su due fronti. Il primo problema è che i cervelli umani presumibilmente variano in modo significativo nel numero e nelle connessioni tra i loro neuroni. Sebbene sia semplice definire misure di similarità su due reti che contengono lo stesso numero di unità, è più difficile vedere come si possa fare quando le architetture di base di due reti differiscono. Il secondo problema citato da Fodor e Lepore è che, anche se le misure di somiglianza per i significati possono essere elaborate con successo, sono inadeguate a soddisfare i desiderata che una teoria del significato dovrebbe soddisfare.
Churchland (1998) mostra che la prima di queste due obiezioni può essere soddisfatta. Citando il lavoro di Laakso e Cottrell (2000), egli spiega come si possano definire misure di similarità tra pattern di attivazione in reti con strutture radicalmente differenti. Non solo, ma Laakso e Cottrell mostrano che reti di diverse strutture addestrate allo stesso compito sviluppano modelli di attivazione fortemente simili a seconda delle misure che raccomandano. Ciò fa sperare di poter creare misure empiricamente ben definite di somiglianza di concetti e pensieri tra individui diversi.
D’altro canto, lo sviluppo di una teoria tradizionale del significato basata sulla somiglianza incontra seri ostacoli (Fodor & Lepore 1999), poiché tale teoria sarebbe necessaria per assegnare alle frasi condizioni di verità basate su un’analisi del significato delle loro parti, e non è chiaro che la sola somiglianza possa svolgere compiti come fissare la denotazione nel modo in cui lo richiede una teoria standard. Tuttavia, la maggior parte dei connessionisti che promuovono teorie sul significato basate sulla somiglianza rifiuta molti dei presupposti delle teorie standard. Essi sperano di creare un’alternativa di lavoro che rifiuti o modifichi quei presupposti, pur rimanendo fedeli ai dati sulle capacità linguistiche umane.
Calvo Garzón (2003) obietta che ci sono ragioni per pensare che i connessionisti debbano essere in errore. La risposta di Churchland rende conto della sfida delle informazioni collaterali. Il problema è che c’è poca garanzia sulle somiglianze misurate tra i modelli di attivazione di un concetto (ad esempio, “nonna”) in due cervelli umani, poiché le informazioni (collaterali) di due persone sulle loro nonne (nome, aspetto, età, carattere) saranno molto diverse. Se i concetti sono definiti sulla base di tutto ciò che sappiamo, allora le misure per i modelli di attivazione dei nostri concetti sono destinate ad essere molto diverse. Questo è un problema davvero importante per ogni teoria che spera di definire il significato attraverso le relazioni funzionali tra gli stati cerebrali. Filosofi di vario genere devono avere a che fare con questo problema. Data la mancanza di una teoria dei concetti generalmente accettata nei paradigmi tradizionali o connessionisti, è giusto lasciare la questione alla ricerca futura.
9. Il connessionismo e l’eliminazione della psicologia ingenua
Un’altra importante applicazione della ricerca connessionista al dibattito filosofico sulla mente riguarda lo statuto della psicologia ingenua. La psicologia ingenua è la struttura concettuale che applichiamo spontaneamente alla comprensione e alla previsione del comportamento umano. Ad esempio, sapere che John desidera una birra e che crede che ce ne sia una in frigorifero ci permette di spiegare perché John è appena andato in cucina. Tale conoscenza dipende in modo cruciale dalla nostra capacità di pensare agli altri come se possedessero desideri e obiettivi, piani per soddisfarli e credenze per portare a termine quei dati piani. L’idea che le persone possiedono credenze, progetti e desideri è un luogo comune della vita ordinaria, ma fornisce davvero una descrizione fedele di ciò che accade effettivamente nel loro cervello?
I difensori di quest’idea sosterranno che la psicologia ingenua è troppo bella per essere falsa (Fodor 1988: Cap. 1). Cosa si può chiedere di più perché una teoria sia vera, se non che essa fornisce un framework indispensabile per mettersi d’accordo con gli altri? D’altra parte, gli eliminativisti risponderanno che l’uso utile e diffuso di uno schema concettuale non ne giustifica la sua verità (Churchland 1989: cap. 1). Gli antichi astronomi trovavano utile (e anche essenziale) la nozione di “sfera celeste” allo svolgimento della loro disciplina, ma ora sappiamo che le sfere celesti non esistono. Dal punto di vista degli eliminativisti, un’adesione alla psicologia ingenua, come la fedeltà alla fisica ingenua (aristotelica), ostacola il progresso scientifico. Una psicologia praticabile può richiedere una rivoluzione tanto radicale nei suoi fondamenti concettuali, quanto si è trovato nella meccanica quantistica.
Gli eliminativisti sono interessati al connessionismo perché promette di fornire una base concettuale che potrebbe sostituire la psicologia ingenua. Ad esempio, Ramsey, Stich e Garon (1991) hanno sostenuto che alcune reti feed-forward mostrano che semplici compiti cognitivi possono essere eseguiti senza impiegare elementi che potrebbero corrispondere a credenze, desideri e piani. Supponendo che tali reti restituiscano in maniera fedele il funzionamento del cervello, i concetti della psicologia ingenua non se la cavano meglio delle sfere celesti. Se i modelli connessionisti indeboliscano in questo modo la psicologia ingenua, è ancora controverso. Ci sono due principali linee di risposta all’affermazione secondo cui i modelli connessionisti supportano le conclusioni eliminativiste. Un’obiezione è che i modelli utilizzati da Ramsey et al. sono reti feed-forward troppo deboli per spiegare alcune delle caratteristiche più basilari della cognizione, come la memoria a breve termine. Ramsey et. al non hanno dimostrato che credenze e desideri devono essere assenti in una classe di reti adeguata alla cognizione umana. Una seconda linea di confutazione contesta l’affermazione secondo cui gli elementi corrispondenti a credenze e desideri sono necessariamente assenti anche nelle reti feed-forward in merito (Von Eckardt 2005).
La questione è ulteriormente complicata dai disaccordi sulla natura della psicologia ingenua. Molti filosofi trattano le credenze e i desideri postulati dalla psicologia ingenua come stati cerebrali con contenuti simbolici. Ad esempio, si pensa che la credenza che c’è una birra nel frigorifero sia uno stato cerebrale che contiene simboli corrispondenti alla birra e al frigorifero. Secondo quest’idea, il destino della psicologia ingenua è fortemente legato all’ipotesi dell’elaborazione simbolica. Quindi, se i connessionisti riescono a stabilire che l’elaborazione del cervello è essenzialmente non-simbolica, seguiranno delle conclusioni eliminativiste. D’altra parte, alcuni filosofi non pensano che la psicologia ingenua sia essenzialmente simbolica, e alcuni addirittura metterebbero in dubbio l’idea che la psicologia ingenua debba essere trattata in primo luogo come una teoria. Secondo questa concezione, è molto più difficile creare legami tra i risultati della ricerca connessionista e il rifiuto della psicologia ingenua.
10. Modelli predittivi di codifica della cognizione
Poiché la ricerca connessionista è maturata dalla sua “Golden Age” negli anni ‘80, il paradigma principale si è irradiato in una serie di approcci distinti. Due tendenze importanti che vale la pena menzionare sono la codifica predittiva [predictive coding] e il deep learning (che saranno trattati nella sezione seguente). La codifica predittiva è uno strumento di elaborazione delle informazioni consolidato con un’ampia gamma di applicazioni. È utile, ad esempio, per comprimere la dimensione degli insiemi di dati. Supponiamo di voler trasmettere l’immagine di un paesaggio con un cielo azzurro. Poiché la maggior parte dei pixel nella metà superiore dell’immagine è all’incirca della stessa tonalità, è poco conveniente registrare il valore del colore (ad esempio, Rosso: 46 Verde: 78 Blu: FF in linguaggio esadecimale) più e più volte per ogni pixel nella metà superiore dell’immagine. Poiché il valore di un pixel predice fortemente il valore di quello a esso vicino, la cosa migliore da fare è registrare in ogni posizione dei pixel la differenza tra il valore previsto (una media di quelli vicini) e il valore effettivo per quel pixel. (Nel caso in cui volessimo rappresentare un cielo uniformemente ombreggiato, dovremmo solo registrare il valore blu una volta, seguito da molti zeri.) In questo modo, le principali risorse di codifica sono necessarie solo per tenere traccia dei punti nell’immagine (come i bordi), in cui avvengono grandi cambiamenti, cioè punti di variazione “a sorpresa” o “inaspettati”.
È ben noto che l’elaborazione visiva precoce nel cervello comporta l’acquisizione di differenze tra valori vicini (ad esempio, per identificare i confini visivi). È quindi naturale esplorare come il cervello potrebbe trarre vantaggio dalla codifica predittiva nella percezione, nell’inferenza o persino nell’azione. (Vedi Clark 2013 per un eccellente riassunto e punto di accesso alla letteratura sul tema.) C’è un’ampia varietà nei modelli presentati nel paradigma della codifica predittiva, e tendono ad essere specificati a un livello più alto di generalità rispetto ai modelli connessionisti finora discussi. Supponiamo di avere una rete neurale con livelli di input, livelli nascosti e livelli di output che è stata addestrata su un compito specifico (ad esempio, il riconoscimento facciale) e che quindi presumibilmente ha informazioni sui volti memorizzate nei pesi che collegano i nodi del livello nascosto. Tre caratteristiche classificherebbero questa rete come modello di codifica predittiva. Innanzitutto, questo modello avrà delle connessioni verso il basso dai livelli superiori che sono in grado di prevedere l’input successivo per quel dato compito. (La previsione potrebbe essere una rappresentazione di un volto generico.) In secondo luogo, i dati inviati ai livelli superiori per un determinato input non sono il valore registrato nei nodi di input, ma la differenza tra i valori previsti e i valori effettivamente presenti. (Quindi nell’esempio, i dati forniti tracciano le differenze tra il volto da riconoscere e il volto generico.) In questo modo, i dati ricevuti dalla rete sono già rielaborati perché la codifica risulti efficace. Terzo, il modello viene addestrato regolando i pesi in modo tale che l’errore sia ridotto al minimo agli input. In altre parole, la rete addestrata riduce il più possibile la “sorpresa” registrata nella differenza tra l’input grezzo e la sua previsione. Così facendo si arriva a prevedere il volto dell’individuo da riconoscere affinché possa eliminare l’errore. Alcuni sostenitori dei modelli di codifica predittiva suggeriscono che questo schema spieghi in maniera unificata tutti i fenomeni cognitivi, compresa la percezione, il ragionamento, la pianificazione e il controllo motorio. Riducendo al minimo l’errore di previsione nell’interazione con l’ambiente, la rete è costretta a sviluppare le risorse concettuali per modellare la struttura causale del mondo esterno, e quindi a navigare in quel mondo in maniera più efficace.
Il paradigma della codifica predittiva (da qui in poi “CP”) ha attirato molta attenzione. Ci sono ampie prove che i modelli CP catturino dettagli essenziali della funzione visiva nel cervello dei mammiferi (Rao & Ballard 1999; Huang & Rao 2011). Ad esempio, quando vengono addestrati su input visivi tipici, i modelli CP sviluppano spontaneamente aree funzionali per il rilevamento di bordi, orientamento e movimento che sono notoriamente presenti nella corteccia visiva. Questo lavoro solleva anche l’interessante punto per cui l’architettura visiva può svilupparsi in risposta alle statistiche delle scene incontrate, in modo che gli organismi in ambienti diversi abbiano sistemi visivi appositamente adattati alle loro esigenze.
Bisogna ammettere che non esistono ancora prove convincenti del fatto che le caratteristiche essenziali dei modelli CP sono implementate direttamente come strutture anatomiche nel cervello. Anche se si ipotizzasse che le cellule piramidali superficiali possano trasmettere l’errore di previsione, mentre le previsioni delle cellule piramidali profonde trasmetterebbero le previsioni, non potremmo sapere se è effettivamente così che funzionano. D’altra parte, i modelli CP sembrano più plausibili dal punto di vista neurale rispetto alle architetture di retropropagazione, poiché non è necessario un processo separato di addestramento su un insieme di campioni di addestramento fornito dall’esterno. Al contrario, le previsioni sostituiscono il ruolo del training set, in modo che l’apprendimento e l’interazione con l’ambiente siano le due facce di un processo unificato e non supervisionato.
I modelli CP promettono anche di spiegare i fenomeni cognitivi di livello superiore. Un esempio spesso citato è la rivalità binoculare. Quando si presentano due immagini completamente diverse in due occhi, gli esseri umani riferiscono un’oscillazione tra le due immagini mentre ciascuna a sua volta viene “messa a fuoco”. La spiegazione di CP è che il sistema riesce ad eliminare l’errore prevedendo la scena per un occhio, ma aumentando così l’errore per l’altro occhio. Quindi il sistema è instabile, “a caccia” da una previsione all’altra. La codifica predittiva è anche una spiegazione naturale del motivo per cui non siamo consapevoli del nostro punto cieco, poiché la mancanza di input in quell’area equivale al fatto che non vengono segnalati errori, con il risultato che si percepisce “più o meno lo stesso”.
Sono state sostenute anche delle teorie dell’attenzione per CP. Ad esempio, Hohwy (2012) osserva che i modelli CP realistici, che devono tollerare input rumorosi, devono includere parametri che tracciano la precisione desiderata da utilizzare nella segnalazione degli errori. Quindi, i modelli CP devono fare previsioni sulla precisione dell’errore rilevanti per una data situazione. Hohwy esplora l’idea che i meccanismi per ottimizzare le aspettative di precisione si mappano su quelli che rappresentano l’attenzione e sostiene che i fenomeni attenzionali come la cecità al cambiamento possono essere spiegati all’interno del paradigma di CP.
La codifica predittiva ha implicazioni interessanti per i temi della filosofia delle scienze cognitive. Integrando i processi di previsione dall’alto verso il basso con il rilevamento degli errori dal basso verso l’alto, la teoria di CP della percezione li considera come intrinsecamente carichi di teoria. La distribuzione della categorizzazione concettuale incarnata nei livelli più alti della rete è essenziale per il processo stesso di raccolta dei dati sul mondo. Ciò sottolinea, inoltre, stretti legami tra credenze, capacità immaginative e percezione (Grush 2004). Il paradigma di CP tende anche a supportare teorie della cognizione situata o incarnata, poiché considera l’azione come un’interazione dinamica tra gli effetti dell’organismo sull’ambiente, le sue previsioni relative a tali effetti (i suoi piani) e il suo monitoraggio continuo dell’errore, che fornisce un feedback per contribuire a garantire il successo.
È troppo presto per valutare l’importanza e la portata dei modelli CP nel tenere conto dei vari aspetti della cognizione. Fornire una teoria unificata delle funzioni cerebrali in generale è, dopo tutto, uno standard incredibilmente alto. L’articolo mirato di Clark (2013) fornisce un punto di ritrovo utile per suggerire delle obiezioni contro i modelli di CP e alcune possibili risposte. Un’obiezione che si sente spesso è che ci si può aspettare che un organismo con un cervello CP si rannicchi in una stanza buia e muoia, poiché questo è il modo migliore per ridurre al minimo l’errore ai suoi input sensoriali. Tuttavia, tale idea presuppone una visione troppo ristretta della sofisticatezza delle previsioni a disposizione dell’organismo. Se dovesse sopravvivere, la sua dotazione genetica unita a ciò che può imparare lungo la strada potrebbe benissimo dotarlo dell’aspettativa che esca e cerchi le risorse necessarie nell’ambiente. Ridurre al minimo l’errore per quella previsione del suo comportamento lo farà uscire dalla stanza buia. Tuttavia, resta da vedere se una teoria degli impulsi biologici si possa utilmente riformulare nella terminologia di CP in questo modo, o se la teoria di CP si possa caratterizzare più correttamente come soltanto una parte della spiegazione. Un’altra obiezione è che l’influenza dall’alto verso il basso sulla nostra percezione, unita al vincolo che il cervello riceve segnali di errore piuttosto che dati grezzi, imporrebbe una divisione irrealistica tra un mondo di fantasia (rappresentato) e il mondo così com’è. È difficile valutare se questa si possa qualificare come un’obiezione seria. Se i modelli CP dovessero effettivamente fornire una teoria della nostra esperienza fenomenica e caratterizzare le relazioni tra quell’esperienza e ciò che contiamo come reale, allora le conclusioni scettiche da trarre conterebbero come caratteristiche della teoria, piuttosto che come obiezioni ad essa. Un certo numero di autori che ha risposto all’articolo di Clark si preoccupa anche che i modelli di CP contino come eccessivamente generici. Nel cercare di spiegare tutto, in realtà non spiegano niente. Senza vincoli sufficienti sull’architettura, è troppo facile pretendere di spiegare i fenomeni cognitivi semplicemente ri-descrivendoli utilizzando il vocabolario della previsione, del confronto, della minimizzazione degli errori e della precisione ottimizzata. La vera prova del budino sta nel mangiarlo, ed essa arriverà con lo sviluppo di modelli informatici più complessi e dettagliati che siano biologicamente plausibili nel framework di CP e in grado di dimostrare le caratteristiche distintive della cognizione.
11. Deep learning: una nuova ondata connessionista
Mentre le ambizioni del connessionismo sembravano maturare e temperarsi verso la fine della sua Golden Age dal 1980 al 1995, la ricerca sulle reti neurali è recentemente tornata alla ribalta dopo che una combinazione di risultati tecnici è stata in grado di addestrare reti con molti livelli di nodi tra input e output (Krizhevsky, Sutskever e Hinton 2012; Goodfellow, Bengio e Courville 2016). Amazon, Facebook, Google, Microsoft e Uber da allora hanno fatto investimenti sostanziali in questi sistemi di “deep learning”. Le loro numerose applicazioni promettenti includono il riconoscimento di oggetti e volti nelle fotografie, la traduzione in linguaggio naturale e la generazione di testo, la previsione delle pieghe proteiche, la diagnosi e il trattamento medico e il controllo dei veicoli a guida autonoma . Il successo del programma di gioco AlphaZero (Silver et al. 2018) ha portato un’intensa pubblicità al deep learning sulla stampa popolare. Ciò che è particolarmente significativo riguardo AlphaZero è che essenzialmente lo stesso algoritmo è stato in grado di imparare a sconfiggere esseri umani campioni del mondo e altri sistemi artificiali dalle prestazioni migliori in tre diversi giochi basati su regole (scacchi, shogi e Go) “senza la conoscenza umana” della strategia, utilizzando cioè solo le informazioni sulle regole di questi giochi e le politiche apprese da un ampio self-play. La sua capacità di infliggere delle sonore sconfitte a programmi ideati sulla base della conoscenza degli esperti nelle loro competenze è stata propagandata come la sconfitta definitiva per il tradizionale paradigma simbolico nell’intelligenza artificiale.
Tuttavia, le nuove capacità dei sistemi di deep learning hanno portato con sé nuove preoccupazioni. Le reti profonde in genere imparano da molti più dati rispetto ai loro predecessori (AlphaZero ha imparato da oltre 100 milioni di giochi Go in self-play) e possono estrarre schemi molto più sottili e strutturati. Mentre l’analisi dell’insolito approccio alla strategia di AlphaZero ha creato una minirivoluzione nello studio degli scacchi e del Go (Sadler & Regan 2019), ha anche sollevato preoccupazioni sul fatto che le soluzioni scoperte dalle reti profonde siano aliene e misteriose. È naturale, quindi, avere dei ripensamenti sulla dipendenza dalle tecnologie di deep learning per compiti che devono rispondere agli interessi e agli obiettivi umani.
Il successo del deep learning non sarebbe stato possibile senza le unità di elaborazione grafica (GPU) specializzate, processori ottimizzati in parallelo per il carico computazionale del training di grandi reti. Tuttavia, le innovazioni cruciali alla base dei successi del deep learning risiedono nell’architettura di rete. Sebbene la letteratura descriva un insieme sconcertante di variazioni nella progettazione delle reti profonde (Schmidhuber 2015), esistono alcuni temi comuni che aiutano a definire il paradigma.
La caratteristica più evidente è un sostanziale aumento del numero di livelli nascosti. Mentre le reti della Golden Age in genere avevano solo uno o due livelli nascosti, le reti neurali profonde ne hanno da cinque a diverse centinaia. È stato dimostrato che una profondità aggiuntiva può aumentare esponenzialmente la potenza rappresentazionale e computazionale di una rete neurale, rispetto a una rete meno profonda ma con lo stesso numero di nodi (Bengio & Dellaleau 2011; Montúfar et al. 2014; Raghu et al. 2017). L’idea chiave è che i modelli rilevati in un dato livello possono essere utilizzati dai livelli successivi per produrre discriminazioni sempre più complesse.
Il numero dei livelli non è l’unica caratteristica delle reti profonde che spiega le loro capacità superiori. Un consenso emergente è che molti compiti difficili da imparare sono caratterizzati dalla presenza di “parametri di disturbo”, vale a dire fonti di variazione nei segnali di input che non sono correlate con il successo decisionale. Esempi di parametri di disturbo nelle attività di categorizzazione visiva includono posa, dimensione e posizione nel campo visivo. Esempi nelle attività uditive includono tono, timbro e durata. I sistemi funzionanti devono imparare a riconoscere le somiglianze più profonde che si nascondono sotto questa variazione per identificare gli oggetti nelle immagini o le parole nei dati audio.
Una delle architetture profonde più comunemente implementate, le reti convolutive [convolutional] profonde, sfrutta una combinazione di strategie adatte a superare le variazioni di disturbo. Le reti della Golden Age utilizzavano la stessa funzione di attivazione per tutte le unità e le unità di un livello erano completamente collegate alle unità dei livelli adiacenti. Tuttavia, le reti convoluzionali profonde implementano diverse funzioni di attivazione e le connessioni alle unità nel livello superiore successivo sono limitate a piccole finestre, come un riquadro quadrato di un’immagine o un frammento temporale di un file audio.
Un piccolo esempio di una rete convoluzionale profonda addestrata a riconoscere gli oggetti nelle immagini aiuterà a illustrare alcuni dettagli. L’input a tale rete consiste in una scena digitalizzata con valori di rosso, verde e blu (RGB, Red Green and Blue) per l’intensità dei colori in ciascun pixel. Questo livello di input viene inviato a un livello di unità filtro, che sono collegate solo a una piccola finestra di pixel di input. Le unità filtro rilevano caratteristiche locali specifiche dell’immagine utilizzando un’operazione chiamata “convoluzione”. Ad esempio, potrebbero individuare i bordi notando le differenze nell’intensità dei pixel adiacenti che sono più grandi. Gli output di queste unità vengono quindi passati alle unità lineari rettificate (o nodi detti “ReLU”), che passano solo lungo le attivazioni dai nodi filtro che superano una certa soglia. Le unità ReLU inviano i loro segnali a un livello di pooling, che raccoglie i dati da molte unità ReLU e trasmette solo le funzionalità più attive per ciascuna posizione. Il risultato di questo sandwich di strati convoluzione-ReLU-pooling è una “mappatura delle caratteristiche”, che segna tutte e solo le caratteristiche più salienti rilevate in ogni posizione nell’intera immagine. Questa mappa delle caratteristiche può quindi essere inviata a un’intera serie di sandwich simili per rilevare caratteristiche più grandi e più astratte. Ad esempio, un sandwich potrebbe creare linee dai bordi, gli angoli successivi dalle linee, le forme successive da linee e angoli e gli oggetti successivi dalle forme. Un ultimo livello di classificazione completamente connesso viene quindi utilizzato per assegnare etichette agli oggetti rilevati nella mappa delle caratteristiche più astratta fornita dal penultimo livello.
Questa divisione del lavoro è estremamente efficiente nel superare le variazioni di disturbo rispetto alle reti superficiali della Golden Age. Inoltre, limitare gli ingressi dei nodi filtro a una piccola finestra riduce notevolmente il numero di pesi che devono essere appresi ad ogni livello, rispetto a una rete completamente connessa. Se le caratteristiche di solito dipendono solo dalle relazioni locali (nel senso che normalmente non è cioè necessario guardare i piedi di qualcuno per leggere la sua espressione facciale), allora questo guadagno non ha alcun costo per l’accuratezza della classificazione. Inoltre, il raggruppamento degli output di diversi nodi di filtro aiuta a rilevare la stessa caratteristica attraverso piccole differenze nelle variabili di disturbo come la posa o la posizione. C’è un entusiasmo particolare per questo tipo di divisione del lavoro neuro-computazionale all’interno delle scienze cognitive, perché è stato originariamente ispirato da studi anatomici sulla neocorteccia dei mammiferi (Hubel & Wiesel 1965; Fukushima 1980). Altre fonti di prove empiriche hanno dimostrato il potenziale di tali reti come modelli per la somiglianza percettiva e i giudizi di riconoscimento degli oggetti nei primati (Khaligh-Razavi & Kriegeskorte 2014; Hong et al. 2016; Kubilius, Bracci, & Beeck 2016; Lake, Zaremba et al. 2015; Yamins & DiCarlo 2016; e Guest & Love 2019 [Altre risorse Internet, di seguito ARII]). Questi punti si interfacciano anche con la controversia sull’innatismo discussa nella Sezione 6. Ad esempio, Buckner (2018) ha recentemente sostenuto che queste funzioni di attivazione si combinano per implementare una forma di astrazione cognitiva che affronta ii problemi della tradizionale filosofia empirista della mente, riguardo al modo in cui la mente può scoprire efficacemente la conoscenza categorica astratta in percezioni specifiche e idiosincratiche.
L’aumento della potenza di calcolo che deriva dall’architettura delle reti profonde porta con sé ulteriori pericoli. In effetti, la capacità rappresentazionale delle reti profonde è così grande che esse possono semplicemente memorizzare la risposta corretta per ogni elemento in un insieme di dati ampio e complesso, anche se le etichette “corrette” sono state assegnate casualmente (Zhang et al. 2016 in ARII). Il risultato è una scarsa generalizzazione del compito da apprendere, con totale incapacità di rispondere adeguatamente agli input al di fuori del training set. Le reti profonde efficaci impiegano quindi una serie di strategie per impedire loro di memorizzare semplicemente i dati del training, principalmente influenzando la rete contro l’apprendimento di idiosincrasie a grana fine. Le opzioni più comuni includono il dropout, che disattiva casualmente un piccolo numero di nodi durante il training, e le regole di decadimento del peso, che fanno diminuire il valore dei pesi se essi non vengono costantemente aggiornati usando esempi diversi.
Mentre questi punti generali possono spiegare perché le reti convoluzionali profonde tendono ad avere successo in un’ampia varietà di compiti, la loro struttura complessa rende difficile spiegare le loro decisioni in casi specifici. Questa preoccupazione si interfaccia con il movimento XAI (Explainable Artificial Intelligence), che mira a ispirare lo sviluppo di strumenti migliori per analizzare le decisioni degli algoritmi informatici, in particolare affinché i sistemi di IA possano essere certificati per soddisfare requisiti pratici o legali (Explainable Artificial Intelligence (XAI); B. Goodman & Flaxman 2017). I metodi di visualizzazione profonda sono strumenti importanti per affrontare questi obiettivi per le reti neurali profonde. Una popolare famiglia di metodi utilizza un ulteriore apprendimento automatico per creare un’immagine artificiale che massimizzi l’attivazione di alcune particolari unità del livello nascosto (Yosinski et al. 2015). L’immagine ha lo scopo di dare un’impressione del tipo di caratteristica che l’unità rileva quando si attiva. Come previsto, le immagini appaiono più complesse e più simili a oggetti man mano che si sale nella gerarchia dei livelli (per esempi e software, vedi http://yosinski.com/deepvis). Senza un’ulteriore elaborazione, tuttavia, molte di queste visualizzazioni appaiono chimeriche e prive di senso, e non è esattamente chiaro quanto questo metodo riveli correttamente le caratteristiche che sono veramente importanti nell’elaborazione da parte della rete. Un’altra famiglia di metodi tenta di rivelare gli aspetti delle immagini di input che sono più salienti per il processo decisionale delle reti. La decomposizione della rilevanza, ad esempio, determina quali nodi, se disattivati, avrebbero avuto il maggiore effetto su una particolare decisione (Montavon, Samek e Müller 2018). Questo può generare una “mappa di calore”, che mostra gli aspetti dell’input che sono stati più influenti in quella decisione. Un ulteriore apprendimento automatico è stato utilizzato anche per costruire sistemi in grado di fornire brevi frasi in inglese, le quali descrivono le caratteristiche che portano alle decisioni di una rete (Hendricks et al. 2016 [ARII]; Ehsan et al. 2018). Nonostante questi progressi, le metodologie necessarie per una spiegazione adeguata del comportamento di una rete profonda rimangono poco chiare e trarrebbero beneficio da un’ulteriore riflessione filosofica (Lipton 2016 [ARII]; Zednik 2019 [ARII]).
La necessità di spiegare le reti profonde è tanto più pressante a causa della scoperta dei cosiddetti “esempi contraddittori [adversarial]” (Goodfellow et al. 2014; Nguyen, Yosinski e Clune 2015). Questi si presentano in almeno due forme: le cosiddette “immagini perturbate”, che sono fotografie naturali modificate leggermente in un modo da provocare cambiamenti drammatici nella classificazione da parte delle reti profonde, anche se la differenza è impercettibile per gli esseri umani, e le note “immagini spazzatura”, che sono presumibilmente prive di significato agli esseri umani, ma sono classificate con punteggi di confidenza elevati da parte delle reti profonde. Gli esempi contraddittori hanno portato alcuni a concludere che qualunque sia la comprensione che la rete ha degli oggetti, essa deve essere radicalmente diversa da quella degli umani. Gli esempi contraddittori mostrano una serie di proprietà sorprendenti: sebbene costruiti da un particolare training set, sono molto efficaci nell’ingannare altre reti addestrate allo stesso compito, anche reti con training set e architetture diversi. Inoltre, la ricerca di contromisure efficaci ha portato a frustranti fallimenti. È stato anche scoperto, tuttavia, che i metodi di perturbazione possono creare immagini che ingannano gli esseri umani (Elsayed et al. 2018), i quali possono prevedere le etichette preferite delle reti per le immagini spazzatura con elevata precisione (Z. Zhou e Firestone 2019). Altri hanno notato che le caratteristiche rilevate dalle reti negli esempi contraddittori portano a classificazioni affidabili nei dati presenti in natura, sfidando l’idea che le decisioni delle reti siano da considerarsi errate (Ilyas et al. 2019 [AIIR]). Queste questioni si intersecano con quelle tradizionali sulla proiezione e l’induzione, offrendo potenzialmente nuovi casi di test per vecchi enigmi filosofici in epistemologia e filosofia della scienza (N. Goodman 1955; Quine 1969; Harman & Kulkarni 2007).
Sebbene il deep learning abbia ricevuto un’enorme attenzione nell’informatica e da parte della stampa popolare, è stato pubblicato sorprendentemente poco al riguardo direttamente tra i filosofi (sebbene ciò stia cominciando a cambiare — Buckner 2018, 2019 [ARII]; Miracchi 2019; Shevlin & Halina 2019 e Zednik 2019 [ARII]). Tuttavia, ci sono ricche opportunità per la ricerca filosofica sul deep learning. Esempi di alcune domande pertinenti includono:
- Che tipo di spiegazione o giustificazione sono necessarie per soddisfare le nostre preoccupazioni sull’affidabilità delle reti neurali profonde nelle applicazioni pratiche? Quali risultati sarebbero necessari nella ricerca sulle reti profonde per assicurarci che spiegazioni o giustificazioni pertinenti siano a portata di mano?
- Le reti profonde possono fungere da modelli esplicativi della cognizione biologica nelle neuroscienze cognitive? Se sì, che tipo di spiegazioni scientifiche forniscono? Sono di natura meccanicistica, funzionale o non-causale?
- Quali sono le prospettive per nuove scoperte nell’elaborazione del linguaggio naturale nelle reti profonde e cosa ci vorrebbe per gettare nuova luce sulla controversia legata alla sistematicità?
- La ricerca sul deep learning cambia i termini del conflitto tra i connessionisti radicali e coloro che affermano che i modelli di elaborazione simbolica sono necessari per spiegare il funzionamento cognitivo di livello superiore?
- Le reti profonde come AlphaZero rivendicano l’empirismo classico sul ragionamento superiore? O alla fine devono replicare ulteriormente bias umani e conoscenza di un dominio specifico per ragionare nel modo in cui lo fanno gli esseri umani?
Bibliografia
- Aizawa, Kenneth, 1994, “Representations without Rules, Connectionism and the Syntactic Argument”, Synthese, 101(3): 465–492. doi:10.1007/BF01063898
- –––, 1997a, “Exhibiting versus Explaining Systematicity: A Reply to Hadley and Hayward”, Minds and Machines, 7(1): 39–55. doi:10.1023/A:1008203312152
- –––, 1997b, “Explaining Systematicity”, Mind & Language, 12(2): 115–136. doi:10.1111/j.1468-0017.1997.tb00065.x
- –––, 2003, The Systematicity Arguments, Dordrecht: Kluwer.
- –––, 2014, “A Tough Time to be Talking Systematicity”, in Calvo and Symons 2014: 77–101.
- Bechtel, William, 1987, “Connectionism and the Philosophy of Mind: An Overview”, The Southern Journal of Philosophy, 26(S1): 17–41. doi:10.1111/j.2041-6962.1988.tb00461.x
- –––, 1988, “Connectionism and Rules and Representation Systems: Are They Compatible?”, Philosophical Psychology, 1(1): 5–16. doi:10.1080/09515088808572922
- Bechtel, William and Adele Abrahamsen, 1990, Connectionism and the Mind: An Introduction to Parallel Processing in Networks, Cambridge, MA: Blackwell.
- Bengio, Yoshua and Olivier Delalleau, 2011, “On the Expressive Power of Deep Architectures”, in International Conference on Algorithmic Learning Theory (ALT 2011), Jyrki Kivinen, Csaba Szepesvári, Esko Ukkonen, and Thomas Zeugmann (eds.) (Lecture Notes in Computer Science 6925), Berlin, Heidelberg: Springer Berlin Heidelberg, 18–36. doi:10.1007/978-3-642-24412-4_3
- Bengio, Yoshua, Thomas Mesnard, Asja Fischer, Saizheng Zhang, and Yuhuai Wu, 2017, “STDP-Compatible Approximation of Backpropagation in an Energy-Based Model”, Neural Computation, 29(3): 555–577. doi:10.1162/NECO_a_00934
- Bodén, Mikael and Lars Niklasson, 2000, “Semantic Systematicity and Context in Connectionist Networks”, Connection Science, 12(2): 111–142. doi:10.1080/09540090050129754
- Buckner, Cameron, 2018, “Empiricism without Magic: Transformational Abstraction in Deep Convolutional Neural Networks”, Synthese, 195(12): 5339–5372. doi:10.1007/s11229-018-01949-1
- Butler, Keith, 1991, “Towards a Connectionist Cognitive Architecture”, Mind & Language, 6(3): 252–272. doi:10.1111/j.1468-0017.1991.tb00191.x
- Calvo Garzón, Francisco, 2003, “Connectionist Semantics and the Collateral Information Challenge”, Mind & Language, 18(1): 77–94. doi:10.1111/1468-0017.00215
- Calvo, Paco and John Symons, 2014, The Architecture of Cognition: Rethinking Fodor and Pylyshyn’s Systematicity Challenge, Cambridge: MIT Press.
- Chalmers, David J., 1990, “Syntactic Transformations on Distributed Representations”, Connection Science, 2(1–2): 53–62. doi:10.1080/09540099008915662
- –––, 1993, “Connectionism and Compositionality: Why Fodor and Pylyshyn Were Wrong”, Philosophical Psychology, 6(3): 305–319. doi:10.1080/09515089308573094
- Chomsky, Noam, 1965, Aspects of the Theory of Syntax, Cambridge, MA: MIT Press.
- Christiansen, Morten H. and Nick Chater, 1994, “Generalization and Connectionist Language Learning”, Mind & Language, 9(3): 273–287. doi:10.1111/j.1468-0017.1994.tb00226.x
- –––, 1999a, “Toward a Connectionist Model of Recursion in Human Linguistic Performance”, Cognitive Science, 23(2): 157–205. doi:10.1207/s15516709cog2302_2
- –––, 1999b, “Connectionist Natural Language Processing: The State of the Art”, Cognitive Science, 23(4): 417–437. doi:10.1207/s15516709cog2304_2
- Churchland, Paul M., 1989, A Neurocomputational Perspective: The Nature of Mind and the Structure of Science, Cambridge, MA: MIT Press.
- –––, 1995, The Engine of Reason, the Seat of the Soul: A Philosophical Journey into the Brain, Cambridge, MA: MIT Press.
- –––, 1998, “Conceptual Similarity Across Sensory and Neural Diversity: The Fodor/Lepore Challenge Answered”, Journal of Philosophy, 95(1): 5–32. doi:10.5840/jphil19989514
- Clark, Andy, 1989, Microcognition: Philosophy, Cognitive Science, and Parallel Distributed Processing, (Explorations in Cognitive Science), Cambridge, MA: MIT Press.
- –––, 1990 [1995], “Connectionist Minds”, Proceedings of the Aristotelian Society, 90: 83–102. Reprinted in MacDonald and MacDonald 1995: 339–356. doi:10.1093/aristotelian/90.1.83
- –––, 1993, Associative Engines: Connectionism, Concepts, and Representational Change, Cambridge, MA: MIT Press.
- –––, 2013, “Whatever next? Predictive Brains, Situated Agents, and the Future of Cognitive Science”, Behavioral and Brain Sciences, 36(3): 181–204. doi:10.1017/S0140525X12000477
- Clark, Andy and Rudi Lutz (eds.), 1992, Connectionism in Context, London: Springer London. doi:10.1007/978-1-4471-1923-4
- Cotrell G.W. and S.L. Small, 1983, “A Connectionist Scheme for Modeling Word Sense Disambiguation”, Cognition and Brain Theory, 6(1): 89–120.
- Cummins, Robert, 1991, “The Role of Representation in Connectionist Explanations of Cognitive Capacities”, in Ramsey, Stich, and Rumelhart 1991: 91–114.
- –––, 1996, “Systematicity”:, Journal of Philosophy, 93(12): 591–614. doi:10.2307/2941118
- Cummins, Robert and Georg Schwarz, 1991, “Connectionism, Computation, and Cognition”, in Horgan and Tienson 1991: 60–73. doi:10.1007/978-94-011-3524-5_3
- Davies, Martin, 1989, “Connectionism, Modularity, and Tacit Knowledge”, The British Journal for the Philosophy of Science, 40(4): 541–555. doi:10.1093/bjps/40.4.541
- –––, 1991, “Concepts, Connectionism and the Language of Thought”, in Ramsey, Stich, and Rumelhart 1991: 229–257.
- Dinsmore, John (ed.), 1992, The Symbolic and Connectionist Paradigms: Closing the Gap, Hillsdale, NJ: Erlbaum.
- Ehsan, Upol, Brent Harrison, Larry Chan, and Mark O. Riedl, 2018, “Rationalization: A Neural Machine Translation Approach to Generating Natural Language Explanations”, in Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society (AIES ‘18), New Orleans, LA: ACM Press, 81–87. doi:10.1145/3278721.3278736
- Eliasmith, Chris, 2007, “How to Build a Brain: From Function to Implementation”, Synthese, 159(3): 373–388. doi:10.1007/s11229-007-9235-0
- –––, 2013, How to Build a Brain: a Neural Architecture for Biological Cognition, New York: Oxford University Press.
- Elman, Jeffrey L., 1991, “Distributed Representations, Simple Recurrent Networks, and Grammatical Structure”, in Touretzky 1991: 91–122. doi:10.1007/978-1-4615-4008-3_5
- Elman, Jeffrey, Elizabeth Bates, Mark H. Johnson, Annette Karmiloff-Smith,Domenico Parisi, and Kim Plunkett, 1996, Rethinking Innateness: A Connectionist Perspective on Development, Cambridge, MA: MIT Press.
- Elsayed, Gamaleldin F., Shreya Shankar, Brian Cheung, Nicolas Papernot, Alexey Kurakin, Ian Goodfellow, and Jascha Sohl-Dickstein, 2018, “Adversarial Examples That Fool Both Computer Vision and Time-Limited Humans”, in Proceedings of the 32Nd International Conference on Neural Information Processing Systems, (NIPS’18), 31: 3914–3924.
- Fodor, Jerry A., 1988, Psychosemantics: The Problem of Meaning in the Philosophy of Mind, Cambridge, MA: MIT Press.
- –––, 1997, “Connectionism and the Problem of Systematicity (Continued): Why Smolensky’s Solution Still Doesn’t Work”, Cognition, 62(1): 109–119. doi:10.1016/S0010-0277(96)00780-9
- Fodor, Jerry and Ernest Lepore, 1992, Holism: A Shopper’s Guide, Cambridge: Blackwell.
- Fodor, Jerry and Ernie Lepore, 1999, “All at Sea in Semantic Space: Churchland on Meaning Similarity”, Journal of Philosophy, 96(8): 381–403. doi:10.5840/jphil199996818
- Fodor, Jerry and Brian P. McLaughlin, 1990, “Connectionism and the Problem of Systematicity: Why Smolensky’s Solution Doesn’t Work”, Cognition, 35(2): 183–204. doi:10.1016/0010-0277(90)90014-B
- Fodor, Jerry A. and Zenon W. Pylyshyn, 1988, “Connectionism and Cognitive Architecture: A Critical Analysis”, Cognition, 28(1–2): 3–71. doi:10.1016/0010-0277(88)90031-5
- Friston, Karl, 2005, “A Theory of Cortical Responses”, Philosophical Transactions of the Royal Society B: Biological Sciences, 360(1456): 815–836. doi:10.1098/rstb.2005.1622
- Friston, Karl J. and Klaas E. Stephan, 2007, “Free-Energy and the Brain”, Synthese, 159(3): 417–458. doi:10.1007/s11229-007-9237-y
- Fukushima, Kunihiko, 1980, “Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position”, Biological Cybernetics, 36(4): 193–202. doi:10.1007/BF00344251
- Garfield, Jay L., 1997, “Mentalese Not Spoken Here: Computation, Cognition and Causation”, Philosophical Psychology, 10(4): 413–435. doi:10.1080/09515089708573231
- Garson, James W., 1991, “What Connectionists Cannot Do: The Threat to Classical AI”, in Horgan and Tienson 1991: 113–142. doi:10.1007/978-94-011-3524-5_6
- –––, 1994, “Cognition without Classical Architecture”, Synthese, 100(2): 291–305. doi:10.1007/BF01063812
- –––, 1997, “Syntax in a Dynamic Brain”, Synthese, 110(3): 343–355.
- Goodfellow, Ian, Yoshua Bengio, and Aaron Courville, 2016, Deep Learning, Cambridge, MA: MIT Press.
- Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy, 2015, “Explaining and Harnessing Adversarial Examples.”, in 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, May 7–9, 2015, available online.
- Goodfellow, Ian J., Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, 2014, “Generative Adversarial Nets”, in Proceedings of the 27th International Conference on Neural Information Processing Systems, (NIPS’14), Cambridge, MA: MIT Press, 2: 2672–2680.
- Goodman, Bryce and Seth Flaxman, 2017, “European Union Regulations on Algorithmic Decision-Making and a ‘Right to Explanation’”, AI Magazine, 38(3): 50–57. doi:10.1609/aimag.v38i3.2741
- Goodman, Nelson, 1955, Fact, Fiction, and Forecast, Cambridge, MA: Harvard University Press.
- Grush, Rick, 2004, “The Emulation Theory of Representation: Motor Control, Imagery, and Perception”, Behavioral and Brain Sciences, 27(3): 377–396. doi:10.1017/S0140525X04000093
- Guarini, Marcello, 2001, “A Defence of Connectionism Against the ‘Syntactic’ Argument”, Synthese, 128(3): 287–317. doi:10.1023/A:1011905917986
- Hadley, Robert F., 1994a, “Systematicity in Connectionist Language Learning”, Mind & Language, 9(3): 247–272. doi:10.1111/j.1468-0017.1994.tb00225.x
- –––, 1994b, “Systematicity Revisited: Reply to Christiansen and Chater and Niklasson and van Gelder”, Mind & Language, 9(4): 431–444. doi:10.1111/j.1468-0017.1994.tb00317.x
- –––, 1997a, “Explaining Systematicity: A Reply to Kenneth Aizawa”, Minds and Machines, 7(4): 571–579. doi:10.1023/A:1008252322227
- –––, 1997b, “Cognition, Systematicity and Nomic Necessity”, Mind & Language, 12(2): 137–153. doi:10.1111/j.1468-0017.1997.tb00066.x
- –––, 2004, “On The Proper Treatment of Semantic Systematicity”, Minds and Machines, 14(2): 145–172. doi:10.1023/B:MIND.0000021693.67203.46
- Hadley, Robert F. and Michael B. Hayward, 1997, “Strong Semantic Systematicity from Hebbian Connectionist Learning”, Minds and Machines, 7(1): 1–37. doi:10.1023/A:1008252408222
- Hanson, Stephen J. and Judy Kegl, 1987, “PARSNIP: A Connectionist Network that Learns Natural Language Grammar from Exposure to Natural Language Sentences”, Ninth Annual Conference of the Cognitive Science Society, Hillsdale, NJ: Erlbaum, pp. 106–119.
- Harman, Gilbert and Sanjeev Kulkarni, 2007, Reliable Reasoning: Induction and Statistical Learning Theory, Cambridge MA: MIT Press.
- Hatfield, Gary, 1991a, “Representation in Perception and Cognition: Connectionist Affordances”, in Ramsey, Stich, and Rumelhart 1991: 163–195.
- –––, 1991b, “Representation and Rule-Instantiation in Connectionist Systems”, in Horgan and Tienson 1991: 90–112. doi:10.1007/978-94-011-3524-5_5
- Hawthorne, John, 1989, “On the Compatibility of Connectionist and Classical Models”, Philosophical Psychology, 2(1): 5–15. doi:10.1080/09515088908572956
- Haybron, Daniel M., 2000, “The Causal and Explanatory Role of Information Stored in Connectionist Networks”, Minds and Machines, 10(3): 361–380. doi:10.1023/A:1026545231550
- Hinton, Geoffrey E., 1990 [1991], “Mapping Part-Whole Hierarchies into Connectionist Networks”, Artificial Intelligence, 46(1–2): 47–75. Reprinted in Hinton 1991: 47–76. doi:10.1016/0004-3702(90)90004-J
- ––– (ed.), 1991, Connectionist Symbol Processing, Cambridge, MA: MIT Press.
- –––, 1992, “How Neural Networks Learn from Experience”, Scientific American, 267(3): 145–151.
- –––, 2010, “Learning to Represent Visual Input”, Philosophical Transactions of the Royal Society B: Biological Sciences, 365(1537): 177–184. doi:10.1098/rstb.2009.0200
- Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart, 1986, “Distributed Representations”, Rumelhart, McClelland, and the PDP group 1986: chapter 3.
- Hohwy, Jakob, 2012, “Attention and Conscious Perception in the Hypothesis Testing Brain”, Frontiers in Psychology, 3(96): 1–14. doi:10.3389/fpsyg.2012.00096
- Hong, Ha, Daniel L K Yamins, Najib J Majaj, and James J DiCarlo, 2016, “Explicit Information for Category-Orthogonal Object Properties Increases along the Ventral Stream”, Nature Neuroscience, 19(4): 613–622. doi:10.1038/nn.4247
- Horgan, Terence E. and John Tienson, 1989, “Representations without Rules”, Philosophical Topics, 17(1): 147–174.
- –––, 1990, “Soft Laws”, Midwest Studies In Philosophy, 15: 256–279. doi:10.1111/j.1475-4975.1990.tb00217.x
- ––– (eds.), 1991, Connectionism and the Philosophy of Mind, Dordrecht: Kluwer. doi:10.1007/978-94-011-3524-5
- –––, 1996, Connectionism and the Philosophy of Psychology, Cambridge, MA: MIT Press.
- Hosoya, Toshihiko, Stephen A. Baccus, and Markus Meister, 2005, “Dynamic Predictive Coding by the Retina”, Nature, 436(7047): 71–77. doi:10.1038/nature0368
- Huang, Yanping and Rajesh P. N. Rao, 2011, “Predictive Coding”, Wiley Interdisciplinary Reviews: Cognitive Science, 2(5): 580–593. doi:10.1002/wcs.142
- Hubel, David H. and Torsten N. Wiesel, 1965, “Receptive Fields and Functional Architecture in Two Nonstriate Visual Areas (18 and 19) of the Cat”, Journal of Neurophysiology, 28(2): 229–289. doi:10.1152/jn.1965.28.2.229
- Jansen, Peter A. and Scott Watter, 2012, “Strong Systematicity through Sensorimotor Conceptual Grounding: An Unsupervised, Developmental Approach to Connectionist Sentence Processing”, Connection Science, 24(1): 25–55. doi:10.1080/09540091.2012.664121
- Johnson, Kent, 2004, “On the Systematicity of Language and Thought”:, Journal of Philosophy, 101(3): 111–139. doi:10.5840/jphil2004101321
- Jones, Matt and Bradley C. Love, 2011, “Bayesian Fundamentalism or Enlightenment? On the Explanatory Status and Theoretical Contributions of Bayesian Models of Cognition”, Behavioral and Brain Sciences, 34(4): 169–188. doi:10.1017/S0140525X10003134
- Khaligh-Razavi, Seyed-Mahdi and Nikolaus Kriegeskorte, 2014, “Deep Supervised, but Not Unsupervised, Models May Explain IT Cortical Representation”, PLoS Computational Biology, 10(11): e1003915. doi:10.1371/journal.pcbi.1003915
- Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton, 2012, “Imagenet Classification with Deep Convolutional Neural Networks”, Advances in Neural Information Processing Systems, 25: 1097–1105.
- Kubilius, Jonas, Stefania Bracci, and Hans P. Op de Beeck, 2016, “Deep Neural Networks as a Computational Model for Human Shape Sensitivity”, PLOS Computational Biology, 12(4): e1004896. doi:10.1371/journal.pcbi.1004896
- Laakso, Aarre and Garrison Cottrell, 2000, “Content and Cluster Analysis: Assessing Representational Similarity in Neural Systems”, Philosophical Psychology, 13(1): 47–76. doi:10.1080/09515080050002726
- Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum, 2015, “Human-Level Concept Learning through Probabilistic Program Induction”, Science, 350(6266): 1332–1338. doi:10.1126/science.aab3050
- Lake, Brenden M., Wojciech Zaremba, Rob Fergus, and Todd M. Gureckis, 2015, “Deep Neural Networks Predict Category Typicality Ratings for Images”, Proceedings of the 37th Annual Cognitive Science Society, Pasadena, CA, 22–25 July 2015, available online.
- Lillicrap, Timothy P., Daniel Cownden, Douglas B. Tweed, and Colin J. Akerman, 2016, “Random Synaptic Feedback Weights Support Error Backpropagation for Deep Learning”, Nature Communications, 7(1): 13276. doi:10.1038/ncomms13276
- Loula, João, Marco Baroni, and Brenden Lake, 2018, “Rearranging the Familiar: Testing Compositional Generalization in Recurrent Networks”, in Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, Brussels, Belgium: Association for Computational Linguistics, 108–114. doi:10.18653/v1/W18-5413
- MacDonald, Cynthia and Graham MacDonald (eds), 1995, Connectionism, (Debates on Psychological Explanation, 2), Oxford: Blackwell.
- Matthews, Robert J., 1997, “Can Connectionists Explain Systematicity?”, Mind & Language, 12(2): 154–177. doi:10.1111/j.1468-0017.1997.tb00067.x
- Marcus, Gary F., 1998, “Rethinking Eliminative Connectionism”, Cognitive Psychology, 37(3): 243–282. doi:10.1006/cogp.1998.0694
- –––, 2001, The Algebraic Mind: Integrating Connectionism and Cognitive Science, Cambridge, MA: MIT Press.
- McClelland, James L and Jeffrey L Elman, 1986, “The TRACE Model of Speech Perception”, Cognitive Psychology, 18(1): 1–86. doi:10.1016/0010-0285(86)90015-0
- McClelland, James L., David E. Rumelhart, and the PDP Research Group (ed.), 1986, Parallel Distributed Processing, Volume II: Explorations in the Microstructure of Cognition: Psychological and Biological Models, Cambridge, MA: MIT Press.
- McLaughlin, Brian P., 1993, “The Connectionism/Classicism Battle to Win Souls”, Philosophical Studies, 71(2): 163–190. doi:10.1007/BF00989855
- Miikkulainen, Risto, 1993, Subsymbolic Natural Language Processing: An Integrated Model of Scripts, Lexicon, and Memory, Cambridge, MA: MIT Press.
- Miikkulainen, Risto and Michael G. Dyer, 1991, “Natural Language Processing With Modular Pdp Networks and Distributed Lexicon”, Cognitive Science, 15(3): 343–399. doi:10.1207/s15516709cog1503_2
- Miracchi, Lisa, 2019, “A Competence Framework for Artificial Intelligence Research”, Philosophical Psychology, 32(5): 588–633. doi:10.1080/09515089.2019.1607692
- Montavon, Grégoire, Wojciech Samek, and Klaus-Robert Müller, 2018, “Methods for Interpreting and Understanding Deep Neural Networks”, Digital Signal Processing, 73: 1–15. doi:10.1016/j.dsp.2017.10.011
- Montúfar, Guido, Razvan Pascanu, Kyunghyun Cho, and Yoshua Bengio, 2014, “On the Number of Linear Regions of Deep Neural Networks”, in Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS’14), Cambridge, MA: MIT Press, 2: 2924–2932.
- Morris, William C., Garrison W. Cottrell, and Jeffrey Elman, 2000, “A Connectionist Simulation of the Empirical Acquisition of Grammatical Relations”, in Wermter and Sun 2000: 1778:175–193. doi:10.1007/10719871_12
- Nguyen, Anh, Jason Yosinski, Jeff Clune, 2015, “Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images”, Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2015), 427–436, available online.
- Niklasson, Lars F. and Tim van Gelder, 1994, “On Being Systematically Connectionist”, Mind & Language, 9(3): 288–302. doi:10.1111/j.1468-0017.1994.tb00227.x
- O’Reilly, Randall C., 1996, “Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm”, Neural Computation, 8(5): 895–938. doi:10.1162/neco.1996.8.5.895
- Phillips, Steven, 2002, “Does Classicism Explain Universality?”, Minds and Machines, 12(3): 423–434. doi:10.1023/A:1016160512967
- Pinker, Steven and Jacques Mehler (eds.), 1988, Connections and Symbols, Cambridge, MA: MIT Press.
- Pinker, Steven and Alan Prince, 1988, “On Language and Connectionism: Analysis of a Parallel Distributed Processing Model of Language Acquisition”, Cognition, 28(1–2): 73–193. doi:10.1016/0010-0277(88)90032-7
- Pollack, Jordan B., 1989, “Implications of Recursive Distributed Representations”, in Touretzky 1989: 527–535, available online.
- –––, 1991, “Induction of Dynamical Recognizers”, in Touretzky 1991: 123–148. doi:10.1007/978-1-4615-4008-3_6
- Pollack, Jordan B., 1990 [1991], “Recursive Distributed Representations”, Artificial Intelligence, 46(1–2): 77–105. Reprinted in Hinton 1991: 77–106. doi:10.1016/0004-3702(90)90005-K
- Port, Robert F., 1990, “Representation and Recognition of Temporal Patterns”, Connection Science, 2(1–2): 151–176. doi:10.1080/09540099008915667
- Port, Robert F. and Timothy van Gelder, 1991, “Representing Aspects of Language”, Proceedings of the Thirteenth Annual Conference of the Cognitive Science Society, Hillsdale, N.J.: Erlbaum, 487–492, available online.
- Quine, W. V., 1969, “Natural Kinds”, in Essays in Honor of Carl G. Hempel, Nicholas Rescher (ed.), Dordrecht: Springer Netherlands, 5–23. doi:10.1007/978-94-017-1466-2_2
- Raghu, Maithra, Ben Poole, Jon Kleinberg, Surya Ganguli, and Jascha Sohl-Dickstein, 2017, “On the Expressive Power of Deep Neural Networks”, in Proceedings of the 34th International Conference on Machine Learning, 70: 2847–2854, available online.
- Ramsey, William, 1997, “Do Connectionist Representations Earn Their Explanatory Keep?”, Mind & Language, 12(1): 34–66. doi:10.1111/j.1468-0017.1997.tb00061.x
- Ramsey, William, Stephen P. Stich, and Joseph Garon, 1991, “Connectionism, Eliminativism, and the Future of Folk Psychology”, in Ramsey, Stich, and Rumelhart 1991: 199–228.
- Ramsey, William, Stephen P. Stich, and David E. Rumelhart, 1991, Philosophy and Connectionist Theory, Hillsdale, N.J.: Erlbaum.
- Rao, Rajesh P. N. and Dana H. Ballard, 1999, “Predictive Coding in the Visual Cortex: A Functional Interpretation of Some Extra-Classical Receptive-Field Effects”, Nature Neuroscience, 2(1): 79–87. doi:10.1038/4580
- Rohde, Douglas L. T. and David C. Plaut, 2003, “Connectionist Models of Language Processing”, Cognitive Studies (Japan), 10(1): 10–28. doi:10.11225/jcss.10.10
- Roth, Martin, 2005, “Program Execution in Connectionist Networks”, Mind & Language, 20(4): 448–467. doi:10.1111/j.0268-1064.2005.00295.x
- Rumelhart, David E. and James L. McClelland, 1986, “On Learning the Past Tenses of English Verbs”, in McClelland, Rumelhart, and the PDP group 1986: 216–271.
- Rumelhart, David E., James L. McClelland, and the PDP Research Group (eds), 1986, Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Cambridge, MA: MIT Press.
- Sadler, Matthew and Natasha Regan, 2019, Game Changer: AlphaZero’s Groundbreaking Chess Strategies and the Promise of AI, Alkmaar: New in Chess.
- Schmidhuber, Jürgen, 2015, “Deep Learning in Neural Networks: An Overview”, Neural Networks, 61: 85–117. doi:10.1016/j.neunet.2014.09.003
- Schwarz, Georg, 1992, “Connectionism, Processing, Memory”, Connection Science, 4(3–4): 207–226. doi:10.1080/09540099208946616
- Sejnowski, Terrence J. and Charles R. Rosenberg, 1987, “Parallel Networks that Learn to Pronounce English Text”, Complex Systems, 1(1): 145–168, available online.
- Servan-Schreiber, David, Axel Cleeremans, and James L. McClelland, 1991, “Graded State Machines: The Representation of Temporal Contingencies in Simple Recurrent Networks”, in Touretzky 1991: 57–89. doi:10.1007/978-1-4615-4008-3_4
- Shastri, Lokendra and Venkat Ajjanagadde, 1993, “From Simple Associations to Systematic Reasoning: A Connectionist Representation of Rules, Variables and Dynamic Bindings Using Temporal Synchrony”, Behavioral and Brain Sciences, 16(3): 417–451. doi:10.1017/S0140525X00030910
- Shea, Nicholas, 2007, “Content and Its Vehicles in Connectionist Systems”, Mind & Language, 22(3): 246–269. doi:10.1111/j.1468-0017.2007.00308.x
- Shevlin, Henry and Marta Halina, 2019, “Apply Rich Psychological Terms in AI with Care”, Nature Machine Intelligence, 1(4): 165–167. doi:10.1038/s42256-019-0039-y
- Shultz, Thomas R. and Alan C. Bale, 2001, “Neural Network Simulation of Infant Familiarization to Artificial Sentences”, Infancy, 2(4): 501–536.
- –––, 2006, “Neural Networks Discover a Near-Identity Relation to Distinguish Simple Syntactic Forms”, Minds and Machines, 16(2): 107–139. doi:10.1007/s11023-006-9029-z
- Silver, David, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, et al., 2018, “A General Reinforcement Learning Algorithm That Masters Chess, Shogi, and Go through Self-Play”, Science, 362(6419): 1140–1144. doi:10.1126/science.aar6404
- Smolensky, Paul, 1987, “The Constituent Structure of Connectionist Mental States: A Reply to Fodor and Pylyshyn”, The Southern Journal of Philosophy, 26(S1): 137–161. doi:10.1111/j.2041-6962.1988.tb00470.x
- –––, 1988, “On the Proper Treatment of Connectionism”, Behavioral and Brain Sciences, 11(1): 1–23. doi:10.1017/S0140525X00052432
- –––, 1990 [1991], “Tensor Product Variable Binding and the Representation of Symbolic Structures in Connectionist Systems”, Artificial Intelligence, 46(1–2): 159–216. Reprinted in Hinton 1991: 159–216. doi:10.1016/0004-3702(90)90007-M
- –––, 1995, “Constituent Structure and Explanation in an Integrated Connectionist/Symbolic Cognitive Architecture”, in MacDonald and MacDonald 1995: .
- St. John, Mark F. and James L. McClelland, 1990 [1991], “Learning and Applying Contextual Constraints in Sentence Comprehension”, Artificial Intelligence, 46(1–2): 217–257. Reprinted in Hinton 1991: 217–257 doi:10.1016/0004-3702(90)90008-N
- Tomberlin, James E. (ed.), 1995, Philosophical Perspectives 9: AI, Connectionism and Philosophical Psychology, Atascadero: Ridgeview Press.
- Touretzky, David S. (ed.), 1989, Advances in Neural Information Processing Systems I, San Mateo, CA: Kaufmann, available online.
- ––– (ed.), 1990, Advances in Neural Information Processing Systems II, San Mateo, CA: Kaufmann.
- ––– (ed.), 1991, Connectionist Approaches to Language Learning, Boston, MA: Springer US. doi:10.1007/978-1-4615-4008-3
- Touretzky, David S., Geoffrey E. Hinton, and Terrence Joseph Sejnowski (eds), 1988, Proceedings of the 1988 Connectionist Models Summer School, San Mateo, CA: Kaufmann.
- Van Gelder, Tim, 1990, “Compositionality: A Connectionist Variation on a Classical Theme”, Cognitive Science, 14(3): 355–384. doi:10.1016/0364-0213(90)90017-Q
- –––, 1991, “What is the ‘D’ in PDP?” in Ramsey, Stich, and Rumelhart 1991: 33–59.
- Van Gelder, Timothy and Robert Port, 1993, “Beyond Symbolic: Prolegomena to a Kama-Sutra of Compositionality”, in Vasant G Honavar, Leonard Uhr (eds.), Symbol Processing and Connectionist Models in AI and Cognition: Steps Towards Integration, Boston: Academic Press.
- Vilcu, Marius and Robert F. Hadley, 2005, “Two Apparent ‘Counterexamples’ to Marcus: A Closer Look”, Minds and Machines, 15(3–4): 359–382. doi:10.1007/s11023-005-9000-4
- Von Eckardt, Barbara, 2003, “The Explanatory Need for Mental Representations in Cognitive Science”, Mind & Language, 18(4): 427–439. doi:10.1111/1468-0017.00235
- –––, 2005, “Connectionism and the Propositional Attitudes”, in Christina Erneling and David Martel Johnson (eds.), The Mind as a Scientific Object: Between Brain and Culture, New York: Oxford University Press.
- Waltz, David L. and Jordan B. Pollack, 1985, “Massively Parallel Parsing: A Strongly Interactive Model of Natural Language Interpretation*”, Cognitive Science, 9(1): 51–74. doi:10.1207/s15516709cog0901_4
- Wermter, Stefan and Ron Sun (eds.), 2000, Hybrid Neural Systems, (Lecture Notes in Computer Science 1778), Berlin, Heidelberg: Springer Berlin Heidelberg. doi:10.1007/10719871
- Yamins, Daniel L. K. and James J. DiCarlo, 2016, “Using Goal-Driven Deep Learning Models to Understand Sensory Cortex”, Nature Neuroscience, 19(3): 356–365. doi:10.1038/nn.4244
- Yosinski, Jason, Jeff Clune, Anh Nguyen, Thomas Fuchs, and Hod Lipson, 2015, “Understanding Neural Networks Through Deep Visualization”, Deep Learning Workshop, 31st International Conference on Machine Learning, Lille, France, available online.
- Zhou, Zhenglong and Chaz Firestone, 2019, “Humans Can Decipher Adversarial Images”, Nature Communications, 10(1): 1334. doi:10.1038/s41467-019-08931-6
Strumenti accademici
- Come citare questa voce.
- Vedi la versione PDF di questa voce (in inglese) presso: Friends of the SEP Society.
- Vedi questo stesso argomento presso il progetto: Internet Philosophy Ontology Project (InPhO).
- Bibliografia arricchita per questa voce presso PhilPapers, con link al suo database.
Altre risorse in Internet
- Bengio, Yoshua, Aaron Courville, and Pascal Vincent, 2014, “Representation Learning: A Review and New Perspectives”, manuscript at arXiv.org, original submission 2012.
- Buckner, C., 2019, “Deep Learning: A Philosophical Introduction”, preprint at PhilSci Archives.
- Explainable Artificial Intelligence (XAI), DARPA /I2O program.
- Guest, Olivia and Bradley C. Love, 2019, “Levels of Representation in a Deep Learning Model of Categorization”, manuscript at bioRxiv.org.
- Hendricks, Lisa Anne, Zeynep Akata, Marcus Rohrbach, Jeff Donahue, Bernt Schiele, and Trevor Darrell, 2016, “Generating Visual Explanations”, manuscript at arXiv.org, 28 March 2016.
- Ilyas, Andrew, Shibani Santurkar, Dimitris Tsipras, Logan Engstrom, Brandon Tran, and Aleksander Madry, 2019, “Adversarial Examples Are Not Bugs, They Are Features”, manuscript at arXiv.org, 19 June 2019.
- Lipton, Zachary C., 2016, “The Mythos of Model Interpretability”, manuscript at arXiv.org.
- Zednik, Carlos, 2019, “Solving the Black Box Problem: A General-Purpose Recipe for Explainable Artificial Intelligence”, manuscript at arXiv.org.
- Zhang, Chiyuan, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals, 2016, “Understanding Deep Learning Requires Rethinking Generalization”, manuscript at arXiv.org.
- Papers on Connectionism, search result for the topic “connectionism” at philpapers.org.
Voci correlate
artificial intelligence | language of thought hypothesis | mental representation
Copyright © 2019 by
Cameron Buckner <cjbuckner@uh.edu>
James Garson <JGarson@uh.edu>