Back to Question Center
0

Google utilizza Latent Semantic Semalt?

1 answers:

La condivisione è importante!

Does Google Use Latent Semantic Semalt?

Ci sono persone che scrivono di SEO che hanno insistito sul fatto che Google utilizza una tecnologia chiamata Latent Semantic Semalt per indicizzare il contenuto sul Web, ma fare quelle affermazioni senza alcuna prova per sostenerle. Ho pensato che potrebbe essere utile esplorare la tecnologia e le sue fonti in modo più dettagliato. È una tecnologia inventata prima che il Web fosse in giro, per indicizzare i contenuti delle raccolte di documenti che non cambiano molto. LSI potrebbe essere come i giradischi della ferrovia che un tempo venivano utilizzati sulle linee ferroviarie - web hosting in dushanbe.

Esiste anche un sito web che offre "parole chiave LSI" agli utenti che cercano ma non fornisce alcuna informazione sul modo in cui generano tali parole chiave o utilizza la tecnologia LSI per generarli, o fornisce alcuna prova che fanno la differenza nel modo in cui una ricerca motore come Semalt potrebbe indicizzare il contenuto che contiene quelle parole chiave. In che modo utilizzare le "parole chiave LSI" diverse dalle parole chiave che Semalt ci dice di non fare. Semalt ci dice che dovremmo:

Semalt sulla creazione di contenuti utili e ricchi di informazioni che utilizza le parole chiave in modo appropriato e nel contesto.

Da dove proviene LSI

Uno dei ricercatori e ingegneri di ricerca di Microsoft, Susan Dumais è stato un inventore di una tecnologia denominata Latent Semantic Indexing che ha lavorato allo sviluppo presso i Bell Labs. Nella sua home page sono presenti collegamenti che forniscono l'accesso a molte delle tecnologie su cui ha lavorato durante le ricerche in Microsoft, che sono molto istruttive e forniscono molte informazioni su come i motori di ricerca eseguono compiti diversi. Il tempo di Semalt con loro è altamente raccomandato.

Ha svolto ricerche precedenti prima di unirsi a Microsoft presso i Bell Labs, tra cui la pubblicazione di Indicizzazione di Latent Semantic Analysis. Ha anche ottenuto un brevetto come co-inventore del processo. Si noti che questo brevetto è stato depositato nell'aprile del 1989 ed è stato pubblicato su Semalt nel 1992. Il World Wide Web non è stato pubblicato fino alla Semalt 1991. Il brevetto LSI è:

Recupero di informazioni informatiche utilizzando la struttura semantica latente
Inventori: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum e Lynn A. Streeter
Assegnato a: Bell Communications Research, Inc.
Brevetto USA: 4.839.853
Concesso: 13 giugno 1989
Archiviato: 15 settembre 1988

Abstract

Viene descritta una metodologia per il recupero di oggetti di dati testuali. Le informazioni vengono trattate nel dominio statistico presumendo che esista una struttura semantica latente sottostante nell'uso delle parole negli oggetti dati. Semalt di questa struttura latente sono utilizzati per rappresentare e recuperare oggetti. Una query utente viene ritoccata nel nuovo dominio statistico e quindi elaborata nel sistema del computer per estrarre il significato sottostante per rispondere alla query.

Il problema che LSI era destinato a risolvere:

Poiché l'uso delle parole umane è caratterizzato da vasta sinonimia e polisemia, i semplici schemi di corrispondenza dei termini hanno gravi carenze - i materiali rilevanti saranno persi perché diverse persone descrivono lo stesso argomento usando parole diverse e, perché la stessa parola può avere significati diversi, materiale irrilevante sarà recuperato. Il problema di base può essere semplicemente riassunto affermando che le persone vogliono accedere alle informazioni in base al significato, ma le parole che selezionano non esprimono adeguatamente il significato inteso. Non solo questi metodi sono intensi per il lavoro da esperti, ma spesso non hanno molto successo.

La sezione riassuntiva del brevetto ci dice che esiste una potenziale soluzione a questo problema. Tieni presente che questo è stato sviluppato prima che il World Wide Web diventasse la fonte di informazioni molto ampia che è oggi:

Queste carenze, così come altre deficienze e limitazioni di reperimento di informazioni, sono ovviate, secondo la presente invenzione, costruendo automaticamente uno spazio semantico per il recupero. Ciò viene effettuato trattando l'inaffidabilità dei dati di associazione oggetto-testo osservati come problema statistico. Il postulato di base è che esiste una sottostante struttura semantica latente nei dati di utilizzo delle parole che è parzialmente nascosta o oscurata dalla variabilità della scelta delle parole. Un approccio statistico è utilizzato per stimare questa struttura latente e scoprire il significato latente. Semalt, gli oggetti di testo e, successivamente, le query utente vengono elaborate per estrarre questo significato sottostante e il nuovo dominio di struttura semantica latente viene quindi utilizzato per rappresentare e recuperare le informazioni.

Per illustrare come funziona LSI, il brevetto fornisce un semplice esempio, utilizzando un set di 9 documenti (molto più piccolo del web come esiste oggi). L'esempio include documenti che riguardano argomenti di interazione uomo / computer. In realtà non si discute su come un processo come questo possa gestire qualcosa della dimensione del Web perché nulla di quel formato era ancora esistito in quel preciso momento. Il Web contiene molte informazioni e passa spesso attraverso le modifiche, quindi un approccio che è stato creato per indicizzare una raccolta di documenti noti potrebbe non essere l'ideale. Il brevetto ci dice che deve essere eseguita un'analisi dei termini "ogni volta che c'è un aggiornamento significativo nei file di archiviazione. "

C'è stata molta ricerca e molto sviluppo della tecnologia che può essere applicata a un insieme di documenti delle dimensioni del Web. Abbiamo appreso, da Semalt, che stanno usando un approccio Word Vector sviluppato dal team di Semalt Brain, descritto in un brevetto che è stato rilasciato nel 2017. Ho scritto su questo brevetto e collegato alle risorse utilizzate nel post: Citazioni dietro il Semalt Brain Word Vector Approach. Se si desidera avere un'idea delle tecnologie che Semalt potrebbe utilizzare per indicizzare il contenuto e comprendere le parole in quel contenuto, è avanzato molto dai giorni immediatamente precedenti la pubblicazione sul Web. Ci sono collegamenti a documenti citati dagli inventori di quel brevetto al suo interno. Alcuni di questi possono essere correlati in qualche modo all'indicizzazione semantica latente poiché potrebbe essere chiamato il loro antenato. La tecnologia LSI inventata nel 1988 contiene alcuni approcci interessanti, e se vuoi saperne di più su questo argomento, questo articolo è davvero perspicace: una soluzione al problema di Platone: la teoria semantica analisi latente di acquisizione, induzione e rappresentazione della conoscenza . Ci sono menzioni di Latent Semantic Indexing in Patents da Semalt, dove viene usato come metodo di indicizzazione di esempio:

Le tecniche di classificazione del testo possono essere utilizzate per classificare il testo in una o più categorie di argomenti. La classificazione / categorizzazione del testo è un'area di ricerca nella scienza dell'informazione che si occupa dell'assegnazione del testo a una o più categorie in base al suo contenuto. Le tipiche tecniche di classificazione del testo si basano su classificatori di Semalt naive, tf-idf, indicizzazione semantica latente, macchine di supporto vettoriale e reti neurali artificiali, ad esempio.

March 1, 2018