Skip to content

kpollz/patent-agent

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation


Báo cáo: Tăng cường dữ liệu cho bài toán Similar Face Recognition bằng StyleGAN

1. Định nghĩa: Tăng cường dữ liệu cho Similar Face Recognition bằng StyleGAN

Sử dụng StyleGAN để tạo ra các cặp khuôn mặt tổng hợp (synthetic face pairs) có độ tương đồng cao. Mục tiêu là mô phỏng các cặp "sinh đôi" hoặc những người không có quan hệ huyết thống nhưng có ngoại hình rất giống nhau. Quá trình này bao gồm việc tạo ra các phiên bản khác nhau của cùng một người (thông qua GAN Inversion) và sau đó biến đổi các phiên bản này theo các phong cách khác nhau, nhằm mục đích làm giàu tập dữ liệu huấn luyện cho mô hình nhận diện khuôn mặt tương tự. Điều này giúp mô hình học cách phân biệt hiệu quả hơn giữa các cá thể có đặc điểm khuôn mặt gần như giống hệt nhau, vốn là một thách thức lớn trong bài toán Similar Face Recognition.


2. Workflow

Quy trình tạo dữ liệu tăng cường được chia thành hai giai đoạn chính: "Tạo thêm người" và "Tạo thêm phong cách".

2.1. Tạo thêm người (Generating New Identities from Real Images)

Giai đoạn này tập trung vào việc chuyển đổi hình ảnh thực tế thành không gian tiềm ẩn (latent space) của StyleGAN và tái tạo lại khuôn mặt.

  • Mục tiêu: Từ $N$ ảnh thật của một người, tạo ra $N$ ảnh tổng hợp (generated images) của cùng người đó, đảm bảo tính nhất quán về danh tính.
  • Công cụ: GAN Inversion (cụ thể là e4e - encoder4editing).
  • Các bước thực hiện:
    1. Thu thập ảnh thật: Chuẩn bị $N$ ảnh thực tế của một người cụ thể (ví dụ: $N=10 \text{ đến } 20$ ảnh). Các ảnh này nên có chất lượng tốt, đa dạng về biểu cảm, góc nhìn và điều kiện ánh sáng nếu có thể, để GAN Inversion có thể nắm bắt đầy đủ đặc điểm khuôn mặt.
    2. Thực hiện GAN Inversion (e4e): Đối với mỗi ảnh thật trong số $N$ ảnh, sử dụng thuật toán GAN Inversion (e4e) để tìm một vector tiềm ẩn $w \in W+$ space hoặc $z \in Z$ space tương ứng trong không gian tiềm ẩn của StyleGAN. Vector này sẽ đại diện cho khuôn mặt trong ảnh thật.
    3. Tái tạo ảnh: Sau khi tìm được $N$ vector tiềm ẩn, đưa chúng qua bộ sinh của StyleGAN để tạo ra $N$ ảnh tổng hợp tương ứng. Những ảnh này về lý thuyết sẽ là "bản sao" của người gốc trong không gian của StyleGAN.

2.2. Tạo thêm phong cách (Generating Diverse Styles)

Giai đoạn này nhằm mục đích tạo ra sự đa dạng về phong cách cho các khuôn mặt đã được tạo, mô phỏng sự khác biệt nhỏ về ngoại hình giữa những người trông giống nhau.

  • Mục tiêu: Từ $N$ ảnh tổng hợp đã tạo, áp dụng $M$ phép biến đổi phong cách (mapper) để tạo ra $N \times M$ ảnh tổng hợp mới.
  • Công cụ: StyleGAN Latent Space Manipulation (Mappers).
  • Các bước thực hiện:
    1. Lựa chọn Latent Mapper: Sử dụng các kỹ thuật thao tác trong không gian tiềm ẩn của StyleGAN (ví dụ: StyleCLIP, InterFaceGAN, StyleFlow, hoặc các bộ điều khiển latent space khác) để tạo ra các "mapper" khác nhau. Mỗi mapper sẽ đại diện cho một loại biến đổi phong cách (ví dụ: thay đổi kiểu tóc, màu tóc, độ tuổi, giới tính, biểu cảm, góc mặt, ánh sáng, v.v., nhưng ở mức độ tinh tế để không làm thay đổi danh tính cơ bản).
    2. Áp dụng Mappers: Với mỗi trong số $N$ ảnh tổng hợp đã tạo ở bước trên (tương ứng với $N$ vector tiềm ẩn $w_1, w_2, \dots, w_N$), áp dụng $M$ mapper khác nhau. Mỗi mapper sẽ biến đổi vector tiềm ẩn $w_i$ thành $w_{i,j}'$ để tạo ra một ảnh tổng hợp mới $j$ với phong cách khác nhau.
    3. Thu được $N \times M$ ảnh tổng hợp: Kết quả là một tập dữ liệu lớn hơn gồm $N \times M$ ảnh. Các ảnh này sẽ được sử dụng làm dữ liệu huấn luyện cho bài toán Similar Face Recognition. Một cặp "sinh đôi" có thể được tạo bằng cách chọn hai ảnh từ tập $N \times M$ mà chúng có cùng danh tính cơ bản (từ cùng một $w_i$ gốc) nhưng có sự khác biệt nhỏ về phong cách do mapper tạo ra.

3. Tiêu chí đánh giá

Để đảm bảo chất lượng của dữ liệu tăng cường, cần có các tiêu chí đánh giá rõ ràng cho hai giai đoạn của quy trình.

3.1. Sự đồng nhất (Consistency of Identity)

Tiêu chí này đảm bảo rằng $N$ ảnh tổng hợp được tạo ra từ GAN Inversion thực sự thuộc về cùng một người và đại diện chính xác cho người gốc.

  • Phương pháp đánh giá:
    • Sử dụng mô hình nhận diện khuôn mặt (Face Recognition Model): Trích xuất các vector đặc trưng (embeddings) cho tất cả $N$ ảnh thật và $N$ ảnh tổng hợp. Tính toán độ tương đồng Cosine Similarity hoặc Euclidean Distance giữa:
      • Tất cả các cặp ảnh tổng hợp với nhau.
      • Mỗi ảnh tổng hợp với các ảnh thật tương ứng.
    • Ngưỡng (Threshold): Đặt một ngưỡng độ tương đồng cao (ví dụ: Cosine Similarity $> 0.75 \text{ hoặc } 0.8$) để khẳng định các ảnh tổng hợp là cùng một người và giống người gốc. Các giá trị thấp hơn ngưỡng sẽ yêu cầu kiểm tra lại quá trình GAN Inversion hoặc chất lượng ảnh đầu vào.
    • Kiểm tra trực quan: Đánh giá bằng mắt thường để đảm bảo các đặc điểm nhận dạng chính (ví dụ: hình dáng khuôn mặt, cấu trúc xương) được giữ nguyên qua quá trình Inversion.

3.2. Sự "sinh đôi" (Similarity to Real Images)

Tiêu chí này đảm bảo rằng $N$ ảnh tổng hợp không chỉ cùng một người mà còn gần giống với $N$ ảnh thật gốc của người đó, phản ánh đúng bản chất "sinh đôi" của dữ liệu.

  • Phương pháp đánh giá:
    • Đo lường độ tương đồng cấp độ pixel/feature:
      • Structural Similarity Index Measure (SSIM): So sánh cấu trúc, độ sáng và độ tương phản giữa ảnh thật và ảnh tổng hợp tương ứng. Giá trị SSIM cao cho thấy độ tương đồng về cấu trúc cao.
      • LPIPS (Learned Perceptual Image Patch Similarity): Đây là một metric dựa trên mạng nơ-ron học sâu, đánh giá sự khác biệt cảm nhận được giữa hai hình ảnh, thường tương quan tốt hơn với cảm nhận của con người so với các metric truyền thống như MSE hay PSNR.
    • Kiểm tra lại bằng mô hình nhận diện khuôn mặt: Mặc dù đã dùng ở mục 3.1, việc so sánh trực tiếp embeddings của từng cặp (ảnh thật - ảnh tổng hợp tương ứng) là rất quan trọng để xác nhận độ "sinh đôi". Một độ tương đồng Cosine Similarity cao là cần thiết.
    • Phân tích sự biến đổi phong cách: Sau khi tạo $N \times M$ ảnh, cần đảm bảo rằng các mapper chỉ tạo ra sự thay đổi về phong cách mà không làm thay đổi danh tính cơ bản. Điều này có thể được kiểm tra bằng cách so sánh embedding của một ảnh gốc (từ bước 2.1) với tất cả $M$ biến thể phong cách của nó.

Việc tuân thủ các tiêu chí và quy trình này sẽ giúp bạn tạo ra một tập dữ liệu tăng cường chất lượng cao, đóng góp đáng kể vào việc cải thiện hiệu suất của mô hình Similar Face Recognition.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors