Corso Di Web Mining & Retrieval

Transcription

Corso diWeb Mining & RetrievalIntroduzione all’Information Retrieval(a.a. 2008-2009)Roberto Basili1

Outline Accesso e Ricerca delle informazionidistribuite Il processo di base dell’IR– Rilevanza Applicazioni dell’IR:––––ClassificationInf. Filtering & RoutingText ClusteringInf. Extraction, Question Answering Web search2

Parte II: Information RetrievalIntroduzione3

Informazione AutomatizzataInterneEsterneSw librariesLettereGraficiBasi di DatiBasi ,OntologiePubblicazioniMultimedialiWeb LTIMEDIALI4

ApplicazioniMidware Professionali Gestionali TecnicheSistemi diPagamento rcio ElettronicoPosta ElettronicaSistemidi Supporto isureDATITESTIIMMAGINISound EditingHard Disk RecordingSUONIControlloAmbientaleMULTIMEDIALI5

Reperimento della Informazione Se la memorizzazione (mediante dispositivi dimemoria di massa) e’ massiva (testi, immagini,suoni, ) si pone il problema di ricercare taleinformazione Il livello di astrazione consentito dai SistemiOperativi (File System) e’ solo un primo livello:– e’ insufficiente in molti casi (ad es. anagrafica)– non e’ ottimale (riguardo alla velocità della ricerca)6

Reperimento della Informazione Ricercare in generale significa– definire i propri bisogni informativi– memorizzare i risultati– raffinare la propria selezione ridefinire i requisiti informativi “navigare” attraverso i dati trovati elaborare, cioè combinare i dati di diversericerche7

Reperimento della Informazione (IR):Strumenti determinano (a priori) una strutturazionedell’informazione da ricercare che– rifletta il linguaggio di interrogazione– rifletta la natura (cioe’ il contenuto) dei dati daricercare (vd. JPEG, BMP, WAV!!)– faciliti le operazioni interne di ricerca forniscono un linguaggio per la definizione deibisogni informativi, detto linguaggio diinterrogazione (Query language)8

Tipico processo di IR Dati:–– Una collezione di documenti in linguaggionaturale.Una interrogazione utente (in genere unastringa di testo)Trovare:–Un elenco ordinato di documenti rilevanti perla interrogazione (l’ordinamento e’decrescente)9

Sistema di IRDocumentiQueryIRSystemDocsordinati1. Doc12. Doc23. Doc3.10

Rilevanza (Attinenza) La attinenza di un documento ad unainterrogazione (query) e’ soggettiva e dipendeda:––––appartenenza ad un campo semantico (soggetto)puntualità (essere recente ed al momento giusto)autorità (provenienza sicura)vicinanza agli obbiettivi dell’utente ed al suoutilizzo dell’informazione11

Relevanceda Stefano Mizzaro, "Relevance: The Whole History“ in Journal of theAmerican Society of Information Science, volume 48, (9), 810-832, 1997,URL "citeseer.ist.psu.edu/mizzaro96relevance.html"12

Keyword (Parole chiave) Una keyword e’ costituita di una o piu’ parole– rugby, Scozia, Italia– 6 Nazioni, Istituto di Fisica Matematica Costituiscono la nozione piu’ semplice diattinenza, i.e.– Occorrenza letterale nel testo Unico compromesso:– Le parole definite come keyword debbono apparirefrequentemente nel documento, indipendentementedel loro ordine (bag of words).13

Limitazioni delle keywordsVariabilità (Silenzio) non vengono trovati documenti cheincludano (solo) termini sinonimi– “imposta” vs. “tassa”, “basket” vs. “pallacanestro”– “Stati Uniti” vs. “USA”Ambiguità (Rumore) vengono ritrovati documenti cheincludono termini ambigui––––“imposta” (finestra vs. tassa)“Apple” (company vs. frutta)“operare” (in mercato vs. chirurgia)“Jaguar” (macchina vs. software)14

oltre le keywords Le tecniche keyword-based e soprattutto estensioni e sviluppi recenti piùespressivi Cenni alle implementazione di sistemi IR Modelli e metodi piuttosto che sistemistica Apprendimento automatico per il sostegnoallo sviluppo su larga scala Legami con altre discipline: AI, SW e SE15

IR intelligente Rendere sensibile il sistema al significato delleparole– Es. imposta/tassa, imposta/finestra Considerare l’ordinamento delle parole dellainterrogazione– Es. computer science vs. science and computers Considerare l’utente sulla base di un “feedback”esplicito o implicito Considerare informazioni sulla sorgente (ad es.autorità/affidabilità delle fonti)16

Architettura di un sistema di IRINTERFACCIA ERAZIONI sul testoOPERAZIONIsulla 7

Sistemi di IR: Componenti Operazioni sui Testi– Selezione degli indici.– Rimozione delle Stopword– Stemming/Lemmatizzazione18

Operazioni sui Testi.19

Sistemi di IR: Componenti (2) INDICIZZAZIONE– Costruisce l’indice inverso:parole riferimenti ai documenti RICERCA: trova i documenti che includonoun elemento della interrogazione (usandol’indice inverso) ORDINAMENTO dei documenti trovatisecondo i valori di attinenza.20

Sistemi di IR: Componenti (3) Interfacce utente: gestiscono le interazioni– Inserimento interrogazione e visualizzazione deidocumenti.– Relevance feedback.– Visualizzazione dei risultati. Operazioni sulla Query: trasformano la queryper migliorare le prestazioni:– Espansione (Query expansion), per es. mediante unthesaurus.– Trasformazione (pesatura) mediante relevancefeedback.21

IR: Ulteriori task Categorizzazione Automatica di DocumentiInformation filtering (spam filtering)Information routingDocument clusteringRecommending information or productsInformation extraction and SummarisationQuestion answeringOpinion Mining24

IR: Storia 1960-70’s:– Esplorazione iniziale per piccole collezioni(abstract scientifici, leggi e documenticommerciali).– Sviluppo del modello booleano di base e delVector-Space Model– Salton et al. @ Cornell University25

IR: Storia (2) 1980’s:– Database documentali di enormi dimensioni– Alcuni gestiti da imprese: Lexis-Nexis MEDLINE26

IR: Storia 1990’s:– Ricerca di documenti attraverso Internet (FTP) Archie WAIS– Ricerca nel World Wide Web Lycos Yahoo Altavista27

IR: Storia 1990’s continued:– Competizioni NIST TREC– Sistemi di raccomandazione Amazon NetPerceptions (collaborative filering)– Categorizzazione automatica di documenti e &document clustering28

Storia Recente 2000’s– Link analysis Google– Information Extraction MUC conferences (80’s-90’s) Portali (WonderPort, Radiocor) Content Management (NetOWL, TREVI, NAMIC)– Question Answering TREC Q/A track29

IR : Storia recente 2000’s:– Multimedia IR Immagini Video Audio e music– Cross-Language IR DARPA Tides– Sommarizzazione di Documenti30

IR: Contiguita’ Disciplinare Database ManagementLibrary and Information ScienceArtificial IntelligenceNatural Language ProcessingMachine Learning31

Database Management Focus su dati strutturati memorizzati in tabellerelazionali non in testo libero. Focus su elaborazione efficiente di interrogazioniin linguaggi formali non ambigui (SQL). Semantica chiara di dati ed interrogazioni. DB distribuiti: interoperabilità Trend verso dati semi-strutturati (XML) cioe’verso problemi simili a quelli di IR/AI.32

Library and Information Science Focus sugli aspetti di utilizzabilità dell’IR(interazione uomo-macchina, interfacce evisualizzazione). Centralità della conoscenza umana(categorizzazione e accessibilità) Focus su bibliometria (e.g. citationanalysis) Trend relativo alle digital librariesavvicina a CS e IR.33

Artificial Intelligence Focus sulla rappresentazione, gestione eduso della conoscenza e sul ragionamento. Formalismi per rappresentare conoscenze edinterrogazioni :– Logica dei predicati del primo ordine– Reti bayesiane Semantic Web: ontologie e accesoall’informazione intelligente(interoperabilita’ semantica).34

Natural Language Processing Focus sul trattamento automatico dellalingua (analisi sintattica, semantica epragmatica nei testi e nel dialogo). Sintassi (cioè struttura sintagmatica deitesti) e semantica come strumenti diapprossimazione del significato di un testo35

NLP: verso l’IR Word Sense DisambiguationInformation ExtractionQuestion Answering.NL Learning vs. Learning for IR36

Machine Learning Focus sullo sviluppo di sistemi softwareche migliorano le proprie prestazionitramite l’esperienza. Classificazione Automatica medianteapprendimento supervisionato da esempi(supervised learning). Metodi automatici di clustering didocumenti in classi significative(unsupervised learning for KM).37

Machine Learning:direzioni verso l’IR Categorizzazione dei Testi– Classificazione Automatica Gerarchica (es. Yahoo).– Filtering/Routing/Reccomendation Adattivi– Automated spam filtering. Clustering dei Testi– Clustering dei risultatio di IR queries.– Sviluppo automatico di gerarchie di classi (Yahoo). Appprendimento Automatico per l’InformationExtraction Text Mining Analisi dei dati del Web 2.0 (Social Web Mining)38

Text Clustering: Vivisimo39

WSDTOPICS40

Sommario Perche’ l’IR è importante Cos’e’ l’IR– Breve storia Come funziona un sistema generico di IR Cosa significa IR “intelligente” Quali sono le relazioni di questa tecnologiacon altre aree della CS41

Content Management (NetOWL, TREVI, NAMIC) -Question Answering TREC Q/A track. 30 IR : Storia recente 2000's: -Multimedia IR Immagini Video Audio e music -Cross-Language IR DARPA Tides -Sommarizzazione di Documenti. 31 IR: Contiguita' Disciplinare