|
Web Mining e Retrieval (a.a. 2015/16) Secondo Semestre |
|
|
Elenco dei File nel deposito |
|
Sommario Contenuti
1.Novità
2.Programma del Corso
3.Testi di Riferimento
4.Link Utili
5.Diapositive delle lezioni
6.Progetti ed Esercizi Proposti
|
Novità
- Risultati dell'Esame (completo) del 10 Febbraio 2017.
Si prega di contattare il docente via e-mail per definire il giorno e l'orario dell'esame orale.
- PROPOSTE di TESI di LAUREA.
Sono attive alcune sperimentazioni e progetti presso il SAG Laboratory for Semantics Analytics, da cui sono emanate annualmente alcune Borse di Studio e Premi di Laurea.
Sara' possibile discutere in dettaglio le diverse Tesi con il coordinatore di SAG, prof. Roberto BASILI, o con il responsabile tecnico del Laboratorio, prof. Danilo CROCE.
L'orario di ricevimento, diverso da quello dei Corsi, e' da concordare con i docenti via e-mail.
- Risultati del Secondo Appello (completo) del 18 Luglio 2016.
La seduta d'orale per l'esame è prevista per Lunedi' 25 Luglio e Giovedi' 28 alle 10:00 nell'ufficio del Docente.
Sara' possibile prendere visione del compito e discuterne con il docente in sede di ricevimento. L'orario di ricevimento, diverso da quello dell'esame, nel mese di Luglio e' da concordare con il docente via e-mail.
- Risultati del Recupero Seconda Prova d'Esonero e del Primo Appello (completo) del 1 Luglio 2016.
Sara' possibile prendere visione del compito e discuterne con il docente in sede di ricevimento. L'orario di ricevimento, diverso da quello dell'esame, nel mese di Luglio e' da concordare con il docente via e-mail.
- Elenco dei Paper per la prova Orale sulla Terza Sezione del Programma "Statistical Language Processing" Gli studenti che non procederanno con progetti sperimentali, per i quali essi possono prendere contatti con il docente, possono procedere alla discussione orale della Terza Sezione del programma attraverso la discussione di due o più lavori selezionati dall'elenco QUI riportato. La discussione prevede una analisi dei singoli lavori di ricerca ed una discussione comparativa. La presentazione individuale alla commissione avra' una durata di circa 20 minuti piu' 5 minuti di domande e potra' essere condotta attraverso l'uso di slides (ad es. MS Powerpoint).
- ATTENZIONE!! L'aula usata per gli appeli estivi del 1 e 18 Luglio è la: Aula C8 (Ed. Aule Macroarea Ingegneria)
- ATTENZIONE!! SU richiesta di un certo numero di studenti, a causa di un conflitto di date con altri esami, la data del Primo appello è cambiata in quella del 1 Luglio alle ore 11:00. L'altra data di Appello d'Esame della Sessione Estiva 2016 rimane invariata.
- Date degli Appelli d'Esame della Sessione Estiva 2016.
Gli appelli di fine semestre per gli studenti non esonerati prevedono l'esame completo (Test a risposta multipla e domanda aperta) e si terranno nelle seguenti date:
- Venerdi' 1 Luglio, ore 11:00, Aula C8 (Ed. Aule Macroarea Ingegneria)
- Lunedi' 18 Luglio, ore 10:00, Aula C8 (Ed. Aule Macroarea Ingegneria)
- Risultati della Seconda Prova d'Esonero e del Primo Appello del 6 Giugno 2016.
Sara' possibile prendere visione del compito e discuterne con il docente in sede di ricevimento. L'orario di ricevimento rimane quello dell'ora seguente la lezione del Giovedi'. Altri orari, e le eventuali sedute orali richieste dagli studenti in date diverse da quelle d'esame, potranno essere concordati con il docente via e-mail.
- Materiale di Preparazione al Secondo Esonero: Lezione del 26 Maggio 2016.
- Data della Seconda Prova d'Esonero del Corso: 6 Giugno 2016.
Si comunica che le seconda prova d'esonero si terra' durante l'orario standard della lezione Lundi' 6 Giugno 2016 alle ore 14:00 in Aula C2.L'esame costituisce l'ultima prova d'esame del Corso per gli studenti che acquisiscono 6 CFU. Le ultime lezioni del Corso proseguiranno a partire da Mercoledi' 8 Giugno secondo l'orario usuale. Gli studenti sono inviati ad iscriversi all'Esame per l'a.a. 2015-16 presso il sito Delphi dell'Ateneo, per poter abilitare la Verbalizzazione.
- Risultati della Prima Prova d'Esonero del 20 Aprile 2016.
Si comunica che sara' possibile prendere visione del compito e discuterne con il docente in sede di ricevimento. L'orario di ricevimento e' quello dell'ora seguente la lezione del Giovedi'. Altri orari potranno essere concordati con il docente a lezione.
- L'incontro con IBM su Bluemix si terra' in laboratorio di informatica e non in Aula C2 come precedentemente annunciato.
- Il primo Esonero del Corso di Web Mining and Retrieval si terra' Mercoledi' 20 Aprile in Aula C3 dalle ore 16:00 come da usuale Orario di lezione. Si invitano gli studenti a prenotarsi presso il sito Delphi.
- La lezione del Corso di Web Mining and Retrieval di Lunedi' 4 Aprile in Aula C2 alle ore 14:00 e' annullata. Nella stessa Aula, il Corso ospita "Seminario IBM Bluemix ", una introduzione all'ambiente BlueMix di IBM asato su Cloud Computing, legata al Corso di "Ingegneria Dei Sistemi Software E Dei Servizi In Rete" del prof. Cantone: tutti gli studenti del Corso sono invitati a seguire il seminario.
- Le lezioni del Corso seguiranno il seguente calendario settimanale:
- LUNEDI', h. 14:00-15:45 (Aula C2 Edificio Aule Nuove Macroarea di Ingegneria)
- MERCOLEDI', h. 16:00-17:45 (Aula C3 Edificio Aule Nuove Macroarea di Ingegneria)
- GIOVEDI', h. 11:30-13:15 (Aula C2 Edificio Aule Nuove Macroarea di Ingegneria)
- Le lezioni del Corso di Web Mining and Retrieval per l'a.a. 2015-16 avranno inizio a partire da Lunedi' 29 Febbraio 2016 in Aula C2 alle ore 14:00.
Gli studenti sono inviati ad iscriversi al Corso per l'a.a. 2015-16 presso il sito Delphi dell'Ateneo.
- Le diapositive delle lezioni saranno pubblicate durante il ciclo delle lezioni su queste pagine.
|
Programma
Section I: Machine Learning and Kernel-based Learning.
Supervised methods. Probabilistic and Generative Methods. Unsupervised Learning. Clustering. Semantic Similarity metrics Agglomerative clustering methods. K-mean. Markov Models. Hidden Markov Models. Kernel-based Learning. Polynomial and RBF Kernels. String Kernels. Tree kernels. Latent Semantic kernels. Semantic kernels. Applications
Section II: Statistical Language Processing.
Supervised Language Processing tools. HMM-based POS tagging. Named Entity Recognition. Statistical parsing. PCFGs: Charniak parser. Lexicalized Parsing Methods. Shallow Semantic Parsing: kernel based semantic role labelling. Information Extraction.
Section III: Web Mining & Retrieval.
Ranking Models for the Web. Introduction to Social Network Analysis: rank, centrality. Random walk models: Page Rank. Web Search Engines. SEO. Google. Preference Learning for IR. Question Answering Systems. Open-domain Information Extraction. Wikipedia knowledge Acquisition. Social Web. Graph-based algorithms for community detection. Introduction to Opinion Mining and Sentiment Analysis.
|
Testi di Riferimento
-
IR - Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Cambridge University Press. 2008. Find the book Home page HERE.
-
ML - Pattern Recognition and Machine learning, C. Bishop. Springer. 2006.
-
ML ed IR - Automatic Text Categorization: from Information Retrieval to Support Vector Learning, Roberto Basili, Alessandro Moschitti, ARACNE Editore, 2005.
-
Web IR - Bing Liu, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. 2nd Edition, July 2011, Springer.
- Dispense fornite dal docente
|
Lezioni (Lucidi)
-
Lezione 0: Introduzione al Corso WMR. Organizzazione e Modalita' didattiche.
-
Lezione 1: Introduzione al Web Mining & Retrieval
-
Lezione 1.1: Machine Learning: target problems and major paradigms
-
Lezione 2: Probability and Learning: an introduction to Naive Bayes classifiers
-
Lezione 3: Introduction to Geometrical models of text classification: Profile-based classification, Rocchio and k-NN.
-
Lezione 4: Introduction to Unsupervised Learning as applied in Instance Clustering: similarity, metrics, algorithms and evaluation.
-
Lezione 5: Machine Learning Metrics and Evaluation.
-
Lezione 6: Introduction to Markov models: Sequence classification, Language Models, Hidden Markov Models. (Versione per la stampa BN QUI)
- (Argomento Facoltativo non trattato a lezione) Lezione 5A Estimation. (Versione per la stampa BN QUI)
- Lezione 7 Introduction to PAC learning and VC dimension.
The slides used for the Course have been postedited from a kindly published version by Ethem Alpaydin, that you can find HERE.
Further details on the PAC learnability and proof of the structural risk analysis over rectangles are given HERE (PAC Learning) and HERE (VC dimension).
- Lezione 8 Support Vector Machines.
- Lezione 9 Kernel-based learning.
- Lezione 9a. Esercitazione pratica riguardo metodi di apprendimento basato su Kernel e la piattaforma KeLP.
IMPORTANTE: in questa lezione sono stati assegnati degli homework da presentare durante la verbalizzazione dell'esame.
-
Esercitazione preparazione al Test in Itinere : Esempi di domande chiuse ed aperte risolte.
-
Lezione 10: Ensemble Classifiers and Semi-supervised learning (edited version of slides from Chapter 3 and Chapter 5 of "Web Data Mining”, by Bing Liu)..
-
Lezione 11: Introduction to On-Line Learning algorithms.
-
Lezione 12: Introduction to Neural Networks and Deep Learning Architectures.
References and resources:
- Gradient Descent and Perceptron training, "A Tutorial on Deep Learning, Part 1: Nonlinear Classifiers and The Backpropagation Algorithm", Quoc V. Le (Google), (fino a sezione 6 compresa)
- Backpropagation on NNs, "Sparse autoencoder", from the lessons of Andrew Ng (Stanford University, USA), (fino a pagina 12)
- Advanced Architectures, "A Tutorial on Deep Learning, Part 2: Autoencoders, Convolutional Neural Networks and Recurrent Neural Networks", by Quoc V. Le (Google Brain)
- Deep Learning, "Learning Deep Architectures for AI", Yoshua Bengio
Dept. IRO, Universite' de Montreal, CA.
Software packages for Deep Learning:
- Lezione 13: Introduzione all'Information Retrieval
- Lezione 14: Modelli di Information Retrieval. Una presentazione di H. Schutze sui differenti modelli di weighting e sulle varianti utilizzate nei sistemi correnti e' presente presso il "sito del libro di testo
.
-
Lezione 15: un Sistema di Information Retrieval: Lucene.
- Risorse (dataset e wrapper code) relative alla Collezione Cranfield per la esercitazione Lucene.
- Strumento per la visualizzazione di un indice: Luke
- Lezione 16 Metodi di query processing (dalle slide di H. Schutze disponibili QUI)
- Lezione 17 Latent Semantic Analysis and Machine Learning.
-
Lezione 18 Distributional Semantic Methods and Wordspace Introduction.
- Esercitazione 18.1 SemiSupervised Learning through LSA and Word Embedding Methods.
- Dataset annotati e matrici di embedding possono essere scaricati QUI
-
Lezione 19 Distributional Semantic Methods and Neural Networks: Neural Word Embeddings.
- Lezione 20 Introduzione al Web Search (dalle lezioni di Hinrich Schutze): Spam, Ads and Duplicate Detection
- Lezione 21 Link Analysis and Web Search (dalle lezioni di Hinrich Schutze): Citation Analysis, PageRank and Kleinberg's HITS
- Lezione 22 Learning to Rank for IR
- Lezione 23 Opinion Mining.
See also:
- Lezione 24. - Overview of Community Detection methods in Social Web Mining (Facoltativa)
- Lezione 25 A survey of Machine Learning Methods in Language Processing.
Further material on Semantic Role Labeling (Optional): Tutorial by A. Toutanova
Further Readings (Optional): Word Sense disambiguation: Tutorial by R. Mihalcea and T. Pedersen
Lezione 26: Web & Question Answering (Stanford Book slides by Christopher Manning and Pandu Nayak) (6 pages per page PDF version)
Lezione 27: Introduction to the Use of a Standard NLP chain (the CoreNLP Stanford toolkit)
|
Link Utili
|
LABORATORI: Progetti ed Esercizi
|