A R E E   D ELLA   R I C E R C A

P I S A

Zampolli: tra breve su PC anche la conoscenza extralinguistica
Direttore dell'Istituto di Linguistica Computazionale

La linguistica computazionale è una disciplina piuttosto recente e, soprattutto, originale; come nasce in Italia?

L'utilizzo di sistemi elettronici per l'elaborazione di dati linguistici è iniziato negli anni immediatamente seguenti la fine della seconda guerra mondiale, e si è sviluppato inizialmente in due filoni.

Da un lato, si hanno i primi tentativi di costruire sistemi per la traduzione automatica tra lingue: questo filone, che in Italia ha trovato nel Prof. Silvio Ceccato un illuminato pioniere, ha conosciuto nel 1966 una battuta di arresto, a seguito del rapporto ARPA, che suggerì al governo americano di supportare la ricerca di base in linguistica computazionale prima di ritentare con la traduzione automatica.

In alto: sistema per la filologia computazionale: finestra principale del documento

In basso: finestra del documento con un esempio di corrispondenza testo-immagine

 

Il secondo filone consisteva nel creare sistemi e metodiche per lo spoglio elettronico di testi che fossero di aiuto a studiosi umanisti. Iniziatore di questo secondo filone è stato il gesuita italiano Roberto Busa, che nel 1948 iniziò la compilazione del cosiddetto Index Tomistico, un'opera complessa, durata 30 anni, che mirava a realizzare gli spogli elettronici di tutte le opere di S.Tommaso D'Aquino.

Attorno al 195859 i sistemi utilizzati da Padre Busa vengono applicati all'italiano e sono stato proprio io a servirmene nella mia tesi di laurea.

Nel 1964, l'Accademia della Crusca, che stava avviando la schedatura di testi italiani per la redazione di una nuova edizione del Vocabolario Storico, decise di adottare i metodi da me approntati.

L'esempio dell'Accademia fu ben presto seguito da molti altri prestigiosi istituti, tanto che il CNUCE, presso il quale ero stato distaccato dal Centro Scientifico IBM, dovette darmi dei collaboratori che mi aiutassero per rispondere alle continue domande di collaborazione che mi pervenivano.

Nacque così, nel 1968, la Sezione Linguistica del CNUCE, che attorno al 1970, usufruì di un grosso finanziamento messo a disposizione dall'Ufficio Elettronico della Camera dei Deputati, diretto allora dall'opinionista Beniamino Placido, finanziamento destinato alla messa a punto di un dizionario di macchina dell'italiano, per un sistema di information retrieval, che aiutasse i parlamentari nella consultazione delle leggi.

Da quel momento la nostra attività si sviluppò rapidamente e potemmo affiancare, all'attività di servizio e di assistenza ad enti ed istituzioni, quella autonoma di ricerca, che ben presto divenne preponderante.

Nel 1978, infine, la divisione di linguistica, si scorpora dall'Istituto CNUCE per dare vita ad un organo autonomo, l'Istituto di Linguistica Computazionale, appunto.

Come è definibile esattamente la linguistica computazionale e di cosa si occupa specificatamente l'Istituto che lei dirige?

La linguistica computazionale è definibile come la disciplina che applica il calcolatore al trattamento dei dati linguistici per scopi di ricerca oppure per le realizzazioni di applicazioni pratiche.

Si tratta di un campo di studio che ha una sua indiscutibile autonomia e che è caratterizzato da una spiccata interdisciplinarità, dal momento che utilizza tanto gli strumenti della linguistica quanto quelli dell'informatica.

La linguistica computazionale è un settore importante ed in continua ascesa (si pensi, per esempio, al fatto che i finanziamenti comunitari sono stati quasi decuplicati dal terzo Programma Quadro UE all'attuale) ed il merito della sua diffusione in Italia va senz'altro al CNR, che ha colmato l'assenza del mondo accademico in questo campo. L'Università ha infatti dimostrato di avere problemi nel dare spazio a questa materia, forse perché difficilmente classificabile.

Le linee di ricerca dell'ILC sono numerose e varie.

La più "antica" è quella definibile "Spogli elettronici e basi di dati linguistici", la quale fondamentalmente analizza le operazioni che il ricercatore o lo studioso umanisti compiono, per fornire loro metodi e tecnologie in grado di agevolare l'attività di ricerca.

copertina libroI ricercatori dell'lstituto hanno messo a punto software, largamente adottati in Italia e in molti altri paesi, che consentono agli studiosi di accedere ai testi in modo "intelligente", e di compiere non solo molto più agevolmente e velocemente le operazioni tradizionali, ma anche operazioni radicalmente innovative, che non erano possibili in precedenza. Questi metodi hanno trovato larga applicazione anche nell'industria culturale, in particolare nell'editoria elettronica, e, opportunamente integrati, vengono da noi utilizzati in un Progetto Comunitario che si propone di facilitare la navigazione multilingue su Internet.

Un'altra linea di ricerca molto innovativa dell'Istituto, la cosiddetta "Postazione di lavoro filologica multimodulare", si propone essenzialmente di mettere a disposizione dei filologi le potenzialità del calcolatore per aiutarli nelle operazioni più impegnative, quali ad esempio l'interpretazione di manoscritti di difficile lettura, perché in cattivo stato di conservazione. "Il sistema di Filologia Computazionale", studiato per favorire l'accesso ad archivi di immagini digitali di antichi documenti manoscritti e a stampa, ha la caratteristica di favorire non solo la conservazione dei documenti, ma soprattutto lo studio dei testi in essi contenuti al fine di produrne edizioni critiche e studiarne gli aspetti paleografici. Il sistema è stato adottato fino a questo momento per lavori su manoscritti medievali (italiani, latini ed occitanici) ed è in fase di realizzazione un adattamento per i papiri egizi in geroglifico.

In connessione con questa linea l'Istituto ha collaborato, nell'ambito di un Progetto Europeo, ad uno studio di fattibilità di una stazione di "lettura" per quanti consultano, tramite Internet, le opere raccolte nelle grandi biblioteche nazionali, tra cui la British Library e la Grande Bibliothèque de France.

C'è poi la linea di ricerca denominata "Risorse Linguistiche". Questo termine, da me coniato ed ora comunemente usato in ambito internazionale, indica raccolte di dati e descrizioni di una lingua ad uso del calcolatore, quali corpora orali e scritti, lessici e terminologie mono- e multilingui, grammatiche formali, ecc.

In questo settore abbiamo coordinato e coordiniamo diversi Progetti Comunitari. Per esempio, in questo momento, guidiamo un consorzio che sta producendo un lessico computazionale con informazioni morfologiche, sintattiche, semantiche, per tutte le lingue dell'Unione Europea, e un Progetto, nell'ambito dell'accordo di collaborazione scientifico-tecnica tra Unione Europea e National Science Foundation (NSF) americana, per la definizione di standard per la valutazione di prodotti dell'ingegneria linguistica, la creazione di risorse lessicali multilingui, la codifica di risorse multimodali. Queste ultime sono essenziali per sviluppare applicazioni capaci di consentire una comunicazione uomo-calcolatore non solo tramite la tastiera ma anche con modalità diverse, quali la voce, i gesti, il linguaggio dei segni. È facile comprendere quante possibilità di applicazioni industriali abbiano queste ricerche, e quale aiuto possano dare, per esempio, ai portatori di handicap.

Un gruppo di ricercatori studia, poi, come far sì che gli strumenti della linguistica computazionale migliorino l'apprendimento e l'insegnamento delle lingue, sia di quelle straniere sia della lingua madre.

Altre importanti linee di ricerca studiano modelli formali trattabili computazionalmente per l'analisi e la generazione di strutture linguistiche, con particolare riguardo alla comprensione del dialogo, e metodi per l'induzione di modelli computazionali del linguaggio a partire dai testi scritti e parlati.

Un settore dell'Istituto studia, invece, il modo di rappresentare la conoscenza extralinguistica, in modo che il calcolatore possa utilizzarla per "comprendere" e per "produrre" meglio la lingua.

A queste ricerche è legato un Progetto Europeo che mira a consentire al cittadino comune di accedere alla banca dati pensionistici, usando il proprio linguaggio e senza l'intermediazione dell'operatore umano.

In generale l'Istituto, specialmente in progetti comunitari, contribuisce allo sviluppo di prototipi per diversi tipi di applicazioni, in particolare per il recupero e l'estrazione delle informazioni. In questo momento stiamo lavorando ad un sistema per l'aiuto alla traduzione multilingue su Internet, nell'ambito di un Progetto coordinato dall'Università delle Nazioni Unite di Tokyo e che riunisce circa 20 paesi in tutto il mondo, dalla Cina alla Tanzania, dalla Mongolia alla Germania.

Da quanto mi ha fin qui detto emerge che la linguistica computazionale è un settore in grande espansione e, soprattutto, caratterizzato da spiccata applicabilità. Quali sono, allora, i progetti per il futuro dell'Istituto?

copertina libroAll'Istituto viene riconosciuta una chiara leadership internazionale, in particolare in alcuni settori. Anche in ambito nazionale stiamo riuscendo a far convergere finanziamenti sulla nostra disciplina. Per esempio, il MURST ha appena approvato tre progetti di interesse nazionale nel nostro settore, da noi proposti e coordinati, ai quali collaborano industrie, università, enti di ricerca. A questo proposito, voglio ricordare che guidiamo il gruppo di coordinatori dei Progetti Nazionali dei paesi europei.

Autorità di Governo hanno partecipato a un Convegno da noi organizzato presso il Ministero delle PPTT a Roma, affermando il ruolo strategico della linguistica computazionale per il nostro Paese, le nostre industrie, la nostra lingua, la nostra cultura.

Dobbiamo tuttavia continuare ad operare attivamente, affinché il potenziale socioeconomico e culturale del trattamento automatico delle lingue sia sfruttato adeguatamente nel nostro Paese, per lo sviluppo industriale, i servizi ai cittadini, la promozione della nostra lingua.

Penso che il CNR dovrebbe fare propria questa convinzione e mantenere il ruolo di guida e propulsione che ha avuto in passato.

Recentemente, il vice Presidente americano ha detto che la sfida tecnologica del nuovo millennio sta nel permettere a tutti di partecipare alla comunicazione internazionale nella propria lingua. I governanti di molti paesi europei hanno compreso che la cultura e l'economia di un popolo sono legati alla fortuna della sua lingua e che, come disse il Presidente Mitterrand in un ormai famoso discorso all'Accademie de France, le lingue che non si informatizzeranno perderanno il loro ruolo veicolare nella società dell'informazione.

È anche essenziale rispondere alla domanda di ricercatori specializzati che viene dalle industrie, dalle aziende, dalle Pubbliche Amministrazioni: la carenza di formazione nel settore viene lamentata da più parti, e il CNR dovrebbe mettere a disposizione le proprie competenze.

Per quanto riguarda il discorso legato all'attività di ricerca, ritengo che le linee attuali vadano mantenute e potenziate, incrementando il personale, attualmente sottodimensionato rispetto alle esigenze scientifiche e alle richieste provenienti dal mercato.

A questo proposito vorrei aggiungere che all'interno della riforma dell'Ente l'ILC deve mantenere, a mio parere, la propria autonomia, aggregando semmai ricercatori di altri Istituti che ci hanno espresso il proprio interesse.

Mi sembrerebbe contraddittorio che, dopo essere stato per tanti anni il solo Ente pubblico ad offrire supporto a questa disciplina nel nostro Paese, il CNR non ne riconoscesse l'importanza strategica, proprio nel momento nel quale il riconoscimento del suo potenziale sta portando ad una esplosione dei finanziamenti internazionali, al moltiplicarsi di Istituti specializzati nei paesi più avanzati e al sostegno di molti Governi e autorità nazionali. fine articolo

pagina successiva