fbpx
Native X
ĐĂNG KÝ HỌC THỬ MIỄN PHÍ NGAY

Đầu độc dữ liệu ảnh hưởng đến Công nghệ AI ra sao? Giải pháp khắc phục

Đầu độc dữ liệu ảnh có thể ảnh hưởng đến hiệu suất và độ chính xác của các mô hình công nghệ AI. Một số giải pháp khắc phục vấn đề này bạn không nên bỏ qua.

Bộ dữ liệu hình thành cơ sở cho AI. Nó giúp công nghệ AI đưa ra quyết định và phân tích xu hướng, bởi vì chúng có sẵn nhiều điểm tham chiếu và suy luận. Khái niệm “Đầu độc dữ liệu” đang chạm vào những quyền lợi và đạo đức cơ bản của người sử dụng, đặc biệt là trong bối cảnh phát triển không ngừng của công nghệ. Hãy cùng NativeX tìm hiểu vấn đề này và cách mà con người đối phó với chúng.

NativeX – Học tiếng Anh online toàn diện “4 kỹ năng ngôn ngữ” cho người đi làm.

Với mô hình “Lớp Học Nén” độc quyền:

  • Tăng hơn 20 lần chạm “điểm kiến thức”, giúp hiểu sâu và nhớ lâu hơn gấp 5 lần.
  • Tăng khả năng tiếp thu và tập trung qua các bài học cô đọng 3 – 5 phút.
  • Rút ngắn gần 400 giờ học lý thuyết, tăng hơn 200 giờ thực hành.
  • Hơn 10.000 hoạt động cải thiện 4 kỹ năng ngoại ngữ theo giáo trình chuẩn Quốc tế từ National Geographic Learning và Macmillan Education.

ĐĂNG KÝ NATIVEX

Khái niệm đầu độc dữ liệu là gì?

“Đầu độc dữ liệu” (data poisoning) là một hình thức tấn công nhằm thay đổi hoặc nhiễm độc những dữ liệu mà công nghệ AI đã được huấn luyện. Mục đích của việc tấn công này là xáo trộn hành vi của mô hình khi xử lý dữ liệu mới. Quá trình đầu độc nhằm làm cho mô hình học quy tắc và phân loại sai những dữ liệu đã bị tấn công. Dẫn đến các kết quả không mong muốn khi công nghệ được áp dụng vào thực tế.

Khái niệm đầu độc dữ liệu là gì

Chẳng hạn như vấn đề liên quan đến quá trình đào tạo các mô hình học máy, có khả năng chuyển đổi văn bản thành hình ảnh thông qua việc sử dụng hàng triệu hoặc tỷ bộ dữ liệu. Một số công cụ, như của Adobe hoặc Getty, chỉ được huấn luyện bằng cách dùng những hình ảnh có quyền sở hữu hoặc có giấy phép sử dụng.

Tuy nhiên, một số công cụ khác đã được huấn luyện lấy hình ảnh không phân biệt, bao gồm những sản phẩm có quyền tác giả. Dẫn đến nhiều vụ việc vi phạm bản quyền, khiến nghệ sĩ cáo buộc các công ty công nghệ lớn đánh cắp và lợi dụng tác phẩm của họ.

Khái niệm “đầu độc” cũng ra đời từ đây. Những nhà nghiên cứu muốn bảo vệ quyền lợi cho các nghệ sĩ, đã phát triển ứng dụng “Nightshade” để chống lại việc lấy ảnh trái phép. Ứng dụng này làm thay đổi chi tiết nhỏ của hình ảnh, để gây khó khăn cho thị giác máy tính, nhưng vẫn giữ nguyên nét tổng thể.

Triệu chứng ngộ độc dữ liệu

Giống như ví dụ trước đó của chúng ta, một chiếc bóng bay có thể biến thành một quả trứng. Yêu cầu về một hình ảnh kiểu Monet có thể trả về một hình ảnh theo phong cách của Picasso.

Triệu chứng ngộ độc dữ liệu

Các lỗi trước đây của công nghệ AI như sự cố khi hiển thị bàn tay chẳng hạn, có thể tái diễn. Mô hình cũng có thể đưa ra những đặc điểm kỳ quặc, phi logic khác cho hình ảnh. ví dụ như: con chó 6 chân hoặc sofa biến dạng.

Số lượng hình ảnh “bị nhiễm độc” trong dữ liệu đào tạo càng cao, thì mức độ gián đoạn càng lớn. Do hoạt động bất thường của AI, thiệt hại từ những lỗi “ngộ độc” cũng ảnh hưởng đến các từ khóa liên quan trong câu hỏi.

Nhà phát triển của Nightshade hy vọng rằng ứng dụng này sẽ làm cho các công ty lớn tôn trọng bản quyền hơn, nhưng cũng tồn tại một khả năng, người dùng có thể lạm dụng và cố ý tải lên những hình ảnh “độc hại” để thử làm gián đoạn dịch vụ của họ.

Giải pháp khắc phục

Để xử lý vấn đề này, các bên liên quan đã đề xuất một loạt các giải pháp kỹ thuật và con người. Phương án rõ nhất là tăng cường quan tâm đối với nguồn dữ liệu đầu vào và cách chúng có thể được sử dụng. Làm như vậy sẽ khiến những dữ liệu thu thập được ít bừa bãi hơn.

Cách làm này đang thay đổi quan điểm trong giới khoa học công nghệ: Rằng dữ liệu được tìm thấy trên máy tính, có thể được sử dụng cho bất kỳ mục đích nào họ cho là phù hợp.

Giải pháp khắc phục

Các giải pháp công nghệ khác cũng bao gồm việc sử dụng “mô hình tổ hợp”, trong đó các mô hình được đào tạo trên nhiều tập con dữ liệu khác nhau và so sánh để xác định các điểm ngoại lệ cụ thể. Phương pháp này có thể được sử dụng để huấn luyện và phát hiện, loại bỏ các hình ảnh nghi ngờ bị “độc”.

Kiểm tra cũng là một phương án khác. Cách làm này bao gồm việc phát triển một “bộ thử nghiệm” (một tập dữ liệu nhỏ, được quản lý chặt chẽ và gắn nhãn rõ ràng). Quá trình này được thực hiện bằng cách: Tận dụng dữ liệu được giữ lại trong lúc đào tạo công nghệ AI. Sau đó, lấy tập dữ liệu này để kiểm tra độ chính xác của mô hình.

Các chiến lược chống lại công nghệ

Cái gọi là “phương pháp đối đầu” (những cách làm suy giảm, từ chối, đánh lừa hoặc thao túng hệ thống AI) bao gồm cả đầu độc dữ liệu, không có gì mới. Lịch sử cũng đã ghi nhận việc sử dụng makeup và trang phục để né tránh các hệ thống nhận diện khuôn mặt.

Các chiến lược chống lại công nghệ

Các hệ thống như Clearview AI, chứa một cơ sở dữ liệu lớn có thể tìm kiếm các khuôn mặt thu thập từ internet, được các cảnh sát và các cơ quan chính phủ trên toàn thế giới sử dụng. Năm 2021, chính phủ Australia xác định rằng Clearview AI đã xâm phạm quyền riêng tư của người dân Australia.

Để đối phó vấn đề hệ thống nhận diện khuôn mặt được sử dụng để xác định từng người cụ thể, những người biểu tình hợp pháp, các nghệ sĩ đã nghĩ ra kiểu trang điểm đối nghịch: đường lởm chởm và đường cong không đối xứng, nhằm ngăn hệ thống giám sát nhận định được họ. Có một liên kết rõ ràng giữa những trường hợp này và vấn đề của ô nhiễm dữ liệu, vì cả hai đều liên quan đến những câu hỏi lớn về quản lý công nghệ.

Nhiều nhà cung cấp sẽ coi việc nhiễm độc dữ liệu là một vấn đề phiền toái, cần được khắc phục bằng các giải pháp công nghệ. Tuy nhiên, sẽ tốt hơn nếu nhìn nhận ô nhiễm dữ liệu như một giải pháp sáng tạo, nhằm ngăn chặn hành vi xâm phạm các quyền đạo đức cơ bản của nghệ sĩ và người dùng. Qua những thông tin mà NativeX vừa chia sẻ, bạn đã có một cái nhìn khác hơn về Đầu độc dữ liệu của công nghệ AI.

NativeX – Học tiếng Anh online toàn diện “4 kỹ năng ngôn ngữ” cho người đi làm.

Với mô hình “Lớp Học Nén” độc quyền:

  • Tăng hơn 20 lần chạm “điểm kiến thức”, giúp hiểu sâu và nhớ lâu hơn gấp 5 lần.
  • Tăng khả năng tiếp thu và tập trung qua các bài học cô đọng 3 – 5 phút.
  • Rút ngắn gần 400 giờ học lý thuyết, tăng hơn 200 giờ thực hành.
  • Hơn 10.000 hoạt động cải thiện 4 kỹ năng ngoại ngữ theo giáo trình chuẩn Quốc tế từ National Geographic Learning và Macmillan Education.

ĐĂNG KÝ NATIVEX

Tác giả: NativeX

Blog học tiếng anh

TRẢI NGHIỆM NGAY LỚP HỌC NÉN NativeX ĐỘC QUYỀN

Hãy cùng trải nghiệm Lớp Học Nén NativeX độc quyền với phương pháp IN DẤU được phát triển dựa trên nguyên lý Tâm lý học ngôn ngữ giúp tiếp thu tiếng Anh tự nhiên và hiệu quả.

HỌC THỬ MIỄN PHÍ NGAY!