Vector Space Model

Uploaded by

mananpadia1101

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views11 pages

Vector Space Model

Uploaded by

mananpadia1101

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Vector Space Model

• The Vector Space Model is an algebraic model used in
Information Retrieval (IR) where documents and queries are
represented as vectors in a common multi-dimensional space.
• Each document and query is transformed into a vector of
terms.
• The dimension of the space equals the number of distinct
terms (vocabulary) in the document corpus.
• Each vector component corresponds to the weight of a term
in a document.
• Common weighting schemes:
• Binary (presence/absence)
• Term Frequency (TF)
• TF-IDF (Term Frequency-Inverse Document Frequency)
Vector Space Model (VSM)
• Term Frequency (TF): The number of times a term appears in
a document.
• Inverse Document Frequency (IDF): Measures how important
a term is. It is computed as:

TF-IDF Weighting:
Vector Representation
• Each document or query is represented as a vector of TF-IDF
weights:

Similarity Measures
• To retrieve relevant documents for a query, we calculate similarity between the
query vector and each document vector.
Example
• D1: “cat sat on the mat”
• D2: “dog sat behind the cat”
• Query Q: “cat sat behind dog”
Solution
Create vocabulary
Ignore stopwords like “on”, “the”, etc.
Vocabulary = [cat, sat, behind, dog, mat]
Binary Term-Document Matrix
Term D1 D2 Q
cat 1 1 1
sat 1 1 1
behind 0 1 1
dog 0 1 1
mat 1 0 0

So the document vectors become:

•D1 = [1, 1, 0, 0, 1]
•D2 = [1, 1, 1, 1, 0]
•Q = [1, 1, 1, 1, 0]
Compute the Euclidean Distance between documents and query

Final Answer: ED(D1, Q) ≈ 1.73, ED(D2, Q) = 0

D2 is more similar to the query Q than D1.
Determine the documents for the given query in most
relevant order. Apply cosine similarity as the relevant
retrieval metric. Use appropriate preprocessing
wherever required.
Query: "fire save stories"
Documents:
•D1: "A man and a woman in fire."
•D2: "A man saves a woman in fire."
•D3: "Men and women and the baby a good movie."
•D4: "A man saved the baby in fire."
Solution
"fire save stories" -> fire, save, stories
• D1: "A man and a woman in fire"→ [man, woman, fire]
• D2: "A man saves a woman in fire"→ [man, save, woman,
fire]
• D3: "Men and women and the baby a good movie“→ [man,
woman, baby, good, movi]
• D4: "A man saved the baby in fire"→ [man, save, baby, fire]
•Vocabulary: [fire, save, stori, man, woman, baby, good, movi]
Term Q D1 D2 D3 D4
fire 1 1 1 0 1
save 1 0 1 0 1
stori 1 0 0 0 0
man 0 1 1 1 1
woman 0 1 1 1 0
baby 0 0 0 1 1
good 0 0 0 1 0
movi 0 0 0 1 0
Calculate Cosine Similarity
D3: Dot product: 0 (no common term with Q except none
— “fire” and “save” missing)
Cosine: 0

Scores:
•D2: 0.577
•D4: 0.577
•D1: 0.333
•D3: 0.000

Final ranking: D2, D4, D1, D3

10 Intro Vses & Tfidf
No ratings yet
10 Intro Vses & Tfidf
56 pages
Unit 2a
No ratings yet
Unit 2a
51 pages
Reference Material For NLP - 1
No ratings yet
Reference Material For NLP - 1
40 pages
Vector Space Model Overview
No ratings yet
Vector Space Model Overview
75 pages
In BOW
No ratings yet
In BOW
2 pages
NLP Mid Sem
No ratings yet
NLP Mid Sem
4 pages
Module 3 Indexing Part A
No ratings yet
Module 3 Indexing Part A
46 pages
Unit 2 TB
No ratings yet
Unit 2 TB
20 pages
Enhancing Media Search with DSSM
No ratings yet
Enhancing Media Search with DSSM
6 pages
Unit 2
No ratings yet
Unit 2
48 pages
Embedding
No ratings yet
Embedding
45 pages
Week 1 Quiz
No ratings yet
Week 1 Quiz
6 pages
Lecture 5 - Language Representation Tf-Idf
No ratings yet
Lecture 5 - Language Representation Tf-Idf
51 pages
Text Similarity Cosine BOW TF-IDF Lecture
No ratings yet
Text Similarity Cosine BOW TF-IDF Lecture
6 pages
Near-Duplicate Question Detection
No ratings yet
Near-Duplicate Question Detection
4 pages
Boolean Logic for IR Professionals
No ratings yet
Boolean Logic for IR Professionals
26 pages
Ambiguity-Aware Document Similarity
No ratings yet
Ambiguity-Aware Document Similarity
10 pages
Ambiguity-Aware Document Similarity: Fabrizio Caruso
No ratings yet
Ambiguity-Aware Document Similarity: Fabrizio Caruso
10 pages
Frontiers of Computational Journalism - Columbia Journalism School Fall 2012 - Week 3: Document Topic Modeling
No ratings yet
Frontiers of Computational Journalism - Columbia Journalism School Fall 2012 - Week 3: Document Topic Modeling
48 pages
CS 3308 Learning Journal Unit 4
No ratings yet
CS 3308 Learning Journal Unit 4
5 pages
06 VectorSpaceModel
No ratings yet
06 VectorSpaceModel
65 pages
Group Presentation
No ratings yet
Group Presentation
7 pages
TF-IDF and Ranked Retrieval Basics
No ratings yet
TF-IDF and Ranked Retrieval Basics
51 pages
NLP Midsem Paper August 2024 Regular Solution
No ratings yet
NLP Midsem Paper August 2024 Regular Solution
10 pages
Theory Assignment
No ratings yet
Theory Assignment
4 pages
UNIT 6 Applications of NLP
No ratings yet
UNIT 6 Applications of NLP
60 pages
Lecture - 7 MSDS
No ratings yet
Lecture - 7 MSDS
32 pages
Week 5
No ratings yet
Week 5
26 pages
Sp09midterm Revised
No ratings yet
Sp09midterm Revised
6 pages
Information Retrieval Exam 2015
100% (2)
Information Retrieval Exam 2015
2 pages
2 Vector Semantics
No ratings yet
2 Vector Semantics
64 pages
Vector Semantics - NLP
No ratings yet
Vector Semantics - NLP
118 pages
NLP 4
No ratings yet
NLP 4
33 pages
TF-IDF Word Relevance in Queries
No ratings yet
TF-IDF Word Relevance in Queries
4 pages
SUMSEM2024-25 CSI4004 TH VL2024250701092 2025-05-16 Reference-Material-I
No ratings yet
SUMSEM2024-25 CSI4004 TH VL2024250701092 2025-05-16 Reference-Material-I
2 pages
NLP Text Similarity for Experts
No ratings yet
NLP Text Similarity for Experts
31 pages
Lect 04
No ratings yet
Lect 04
44 pages
Lexical Text Similarity in NLP
No ratings yet
Lexical Text Similarity in NLP
16 pages
Language Independent Document
No ratings yet
Language Independent Document
10 pages
Dialog System Overview and Applications
No ratings yet
Dialog System Overview and Applications
42 pages
Major Information Retrieval Models
No ratings yet
Major Information Retrieval Models
4 pages
Computational Journalism 2016 Week 2: Text Analysis
No ratings yet
Computational Journalism 2016 Week 2: Text Analysis
68 pages
Wipro - Logical 2-1
No ratings yet
Wipro - Logical 2-1
159 pages
M.tech Mid Term Question Paper - SET B
No ratings yet
M.tech Mid Term Question Paper - SET B
5 pages
L04
No ratings yet
L04
35 pages
Lecture - 7 PPMI
No ratings yet
Lecture - 7 PPMI
37 pages
Introduction to Information Retrieval Models
No ratings yet
Introduction to Information Retrieval Models
8 pages
Chapter 4 - Part II
No ratings yet
Chapter 4 - Part II
44 pages
Vector Space Model
No ratings yet
Vector Space Model
7 pages
Discrete Math II: Proposition Logic
No ratings yet
Discrete Math II: Proposition Logic
14 pages
12 Midterm Review
No ratings yet
12 Midterm Review
18 pages
Evaluating iSTART Self-Explanation Methods
No ratings yet
Evaluating iSTART Self-Explanation Methods
12 pages
Lexical Semantics: Word Representations
No ratings yet
Lexical Semantics: Word Representations
28 pages
Unit 4
No ratings yet
Unit 4
61 pages
Understanding IR Models and Ranking
No ratings yet
Understanding IR Models and Ranking
43 pages
Lesson 2 Feature Engineering On Text Data
No ratings yet
Lesson 2 Feature Engineering On Text Data
131 pages
Vector Space Model
No ratings yet
Vector Space Model
6 pages
IMO Longlist 1985 Problems
No ratings yet
IMO Longlist 1985 Problems
12 pages
Air Flow Around Isolated Gable-Roof Buildings With Different Roof-2015
No ratings yet
Air Flow Around Isolated Gable-Roof Buildings With Different Roof-2015
10 pages
Flow Assurance Study: Wolfgang Böser, Stefan Belfroid
100% (1)
Flow Assurance Study: Wolfgang Böser, Stefan Belfroid
13 pages
1 Section 200x400
No ratings yet
1 Section 200x400
3 pages
Sop - 19 Shell Content
No ratings yet
Sop - 19 Shell Content
2 pages
Bicycle Frame Finite Element Analysis
No ratings yet
Bicycle Frame Finite Element Analysis
4 pages
A Guide For Partial Discharge Measurements On Medium Voltage (MV) and High Voltage (HV) Apparatus
No ratings yet
A Guide For Partial Discharge Measurements On Medium Voltage (MV) and High Voltage (HV) Apparatus
8 pages
Cambridge IGCSE Mathematics Study Guide For May:June 2025 Exam Season
100% (1)
Cambridge IGCSE Mathematics Study Guide For May:June 2025 Exam Season
32 pages
Unit VI - Nuclear Chemistry
100% (1)
Unit VI - Nuclear Chemistry
11 pages
Lectures On The Mechanical Foundations of Thermodynamics 1st Edition Michele Campisi PDF Download
No ratings yet
Lectures On The Mechanical Foundations of Thermodynamics 1st Edition Michele Campisi PDF Download
170 pages
233 Chemistry Pp3 Qs
No ratings yet
233 Chemistry Pp3 Qs
10 pages
CLASS 11 PHYSICS BYJUS TOPICWISE NOTES Chp-8 Stress and Strain
No ratings yet
CLASS 11 PHYSICS BYJUS TOPICWISE NOTES Chp-8 Stress and Strain
6 pages
2020 J2 H1 Physics Prelim P2
No ratings yet
2020 J2 H1 Physics Prelim P2
24 pages
Understanding Semiconductor Diodes
No ratings yet
Understanding Semiconductor Diodes
39 pages
LED Drivers For Emergency Lighting (EL)
No ratings yet
LED Drivers For Emergency Lighting (EL)
3 pages
Seam 1 Week 10 Topic
No ratings yet
Seam 1 Week 10 Topic
25 pages
AIR - VP Test-2 - 12th JEE Adv - P2 - Cumulative - (25-05-2025) - Q
No ratings yet
AIR - VP Test-2 - 12th JEE Adv - P2 - Cumulative - (25-05-2025) - Q
12 pages
Turnout Geometry: Data Sheet
No ratings yet
Turnout Geometry: Data Sheet
6 pages
Industrial Speed Sensor Guide
No ratings yet
Industrial Speed Sensor Guide
2 pages
Digimed TH-44 Manual
No ratings yet
Digimed TH-44 Manual
20 pages
Completion Operations
100% (1)
Completion Operations
84 pages
PRECALCULUS Q2 - W67 Fundamental Trigonometric Identities
No ratings yet
PRECALCULUS Q2 - W67 Fundamental Trigonometric Identities
12 pages
Determinant
No ratings yet
Determinant
23 pages
Linear Scale Dro Systems
No ratings yet
Linear Scale Dro Systems
36 pages
Mechanical Properties of Solid
No ratings yet
Mechanical Properties of Solid
16 pages
VFD Minimum Speed Equation
No ratings yet
VFD Minimum Speed Equation
4 pages
LPG Cylinder Filling Plant Machines Utility Reuirements
No ratings yet
LPG Cylinder Filling Plant Machines Utility Reuirements
3 pages
Metal Reactivity Exercises
No ratings yet
Metal Reactivity Exercises
6 pages
2025 PHSC GRD 10 ATP withDATES
No ratings yet
2025 PHSC GRD 10 ATP withDATES
9 pages
Circle Equation
No ratings yet
Circle Equation
9 pages

Vector Space Model

Uploaded by

Vector Space Model

Uploaded by

Vector Space Model