Disambiguazione in linguistica e linguistica computazionale

In linguistica, la disambiguazione è il processo per determinare quale senso di una parola viene utilizzato in un particolare contesto. Conosciuto anche come chiarimento lessicale.

Nella linguistica computazionale, questo processo discriminatorio è chiamato chiarimento delle parole (WSD).

Esempi e osservazioni

"Accade così che la nostra comunicazione, sia in lingue diverse, consenta di usare la stessa forma di parola per significare cose diverse nelle singole transazioni comunicative. La conseguenza è che si deve capire, in una particolare transazione, il significato inteso di un dato parola tra i suoi sensi potenzialmente associati ambiguità derivanti da tali molteplici associazioni di significato della forma sono a livello lessicale, spesso devono essere risolte mediante un contesto più ampio dal discorso che incorpora la parola. Quindi i diversi sensi della parola "servizio" potrebbero essere distinti solo se si potesse guardare oltre la parola stessa, come nel contrasto tra "il servizio del giocatore a Wimbledon" con "il servizio del cameriere nello Sheraton". Questo processo di identificazione dei significati delle parole in un discorso è generalmente noto come senso delle parole disambiguazione (WSD). "(Oi Yee Kwong, Nuove prospettive sulle strategie computazionali e cognitive per la disambiguazione del senso delle parole. Springer, 2013)

Disambiguazione lessicale e disambiguazione basata sul significato delle parole (WSD)

"Lessicale disambiguazione nella sua definizione più ampia non è altro che determinare il significato di ogni parola nel contesto, che sembra essere un processo in gran parte inconscio nelle persone. Come problema computazionale, viene spesso descritto come "AI-complete", ovvero un problema la cui soluzione presuppone una soluzione per completare la comprensione del linguaggio naturale o il ragionamento del senso comune (Ide e Véronis 1998).

"Nel campo della linguistica computazionale, il problema è generalmente chiamato disambiguazione del senso delle parole (WSD) ed è definito come il problema di determinare computazionalmente quale 'senso' di una parola è attivato dall'uso della parola in un particolare contesto. WSD è essenzialmente un compito di classificazione: i sensi delle parole sono le classi, il contesto fornisce le prove e ogni occorrenza di una parola è assegnata a una o più delle sue possibili classi sulla base delle prove. Questa è la caratterizzazione tradizionale e comune di WSD che vede come un esplicito processo di disambiguazione rispetto a un inventario fisso di sensi di parole. Si presume che le parole abbiano un insieme finito e discreto di sensi da un dizionario, una base di conoscenza lessicale o un'ontologia (in quest'ultimo caso i sensi corrispondono a concetti che una parola sia lessicale). Possono anche essere utilizzati inventari specifici dell'applicazione. Ad esempio, in un'impostazione di traduzione automatica (MT), si possono trattare le traduzioni di parole come sensi di parola, un approccio che è sempre più fattibile a causa della disponibilità di grandi corpora paralleli multilingue che possono servire da dati di addestramento. L'inventario fisso del WSD tradizionale riduce la complessità del problema, ma esistono campi alternativi ... "(Eneko Agirre e Philip Edmonds," Introduzione ". Disambiguazione del senso delle parole: algoritmi e applicazioni. Springer, 2007)

Omonimia e chiarimento delle ambiguità

"Lessicale disambiguazione è particolarmente adatto in caso di omonimia, ad esempio un verificarsi di basso deve essere mappato su uno degli elementi lessicali bassi₁ o basso₂, a seconda del significato previsto.

"La disambiguazione lessicale implica una scelta cognitiva ed è un compito che inibisce i processi di comprensione. Dovrebbe essere distinto dai processi che portano a una differenziazione dei sensi delle parole. Il primo compito viene svolto in modo abbastanza affidabile anche senza molte informazioni contestuali mentre il secondo non lo è (cfr. Veronis 1998, 2001) È stato anche dimostrato che le parole omonime, che richiedono chiarimento, rallentano l'accesso lessicale, mentre le parole polisemiche, che attivano una molteplicità di sensi delle parole, accelerano l'accesso lessicale (Rodd ea 2002).

"Tuttavia, sia la modifica produttiva dei valori semantici sia la scelta semplice tra elementi lessicali diversi hanno in comune il fatto che richiedono ulteriori informazioni non lessicali". (Peter Bosch, "Produttività, polisemia e indicizzazione dei predicati". Logica, lingua e computazione: 6 ° simposio internazionale di Tbilisi su logica, lingua e computazione, ed. di Balder D. ten Cate e Henk W. Zeevat. Springer, 2007)

Disambiguazione della categoria lessicale e principio di verosimiglianza

"Corley and Crocker (2000) presentano un modello ad ampia copertura della categoria lessicale disambiguazione basato sul Principio di verosimiglianza. In particolare, suggeriscono che per una frase composta da parole w₀... w_n, l'elaboratore delle frasi adotta la sequenza della parte del discorso più probabile t₀... t_n. Più specificamente, il loro modello sfrutta due semplici probabilità:io) la probabilità condizionata della parola w_io data una parte particolare del discorso t_io, e (ii) la probabilità di t_io data la parte precedente del discorso t_i-1. Quando viene trovata ogni parola della frase, il sistema le assegna quella parte del discorso t_io, che massimizza il prodotto di queste due probabilità. Questo modello si basa sull'intuizione che molte ambiguità sintattiche hanno una base lessicale (MacDonald et al., 1994), come in (3):

(3) I prezzi / le marche di magazzino sono più economici degli altri.

"Queste frasi sono temporaneamente ambigue tra una lettura in cui prezzi o fa è il verbo principale o parte di un sostantivo composto. Dopo essere stato addestrato su un grande corpus, il modello prevede la parte più probabile del discorso prezzi, spiegando correttamente il fatto che le persone capiscono prezzo come un nome ma fa come verbo (vedi Crocker e Corley, 2002, e riferimenti citati). Non solo il modello tiene conto di una serie di preferenze di disambiguazione radicate nell'ambiguità di categoria lessicale, ma spiega anche perché, in generale, le persone sono estremamente accurate nel risolvere tali ambiguità. "(Matthew W. Crocker," Modelli razionali di comprensione: affrontare il Paradosso delle prestazioni ". Psicolinguistica del ventunesimo secolo: quattro pietre angolari, ed. di Anne Cutler. Lawrence Erlbaum, 2005)

Humanities