Probabilistic data structures and algorithms (PDSA)

Các cấu trúc dữ liệu và giải thuật dựa trên xác suất

Cấu trúc dữ liệu và giải thuật dựa trên xác suất

Trong thời đại bùng nổ về dữ liệu như hiện nay (Big Data), người ta liên tục xây dựng nhiều kỹ thuật mới nhằm xử lý hiệu quả lượng dữ liệu khổng lồ đó. Đằng sau những công nghệ mới, là những bước đi nền tảng vững chắc được xây dựng từ những cấu trúc dữ liệu và thuật toán dựa trên xác suất. Loạt bài viết này nhằm giới thiệu đến mọi người những kỹ thuật nền tảng để giải quyết các vấn đề liên quan đến Big Data

Big Data và 3 chữ V

Khi nhắc đến Big Data, người ta nói đến sự khổng lồ của dữ liệu. Nhưng khổng lồ là như thế nào?

Để có được định nghĩa rõ ràng, người ta giải thích sự khổng lồ của dữ liệu theo 3 chiều kích khác nhau:

  1. Volume:

    Chữ V đầu tiên này, đề cập đến khối lượng dữ liệu được lưu trữ trên các hệ thống hiện nay. Ví dụ như: 2 tỉ người dùng Facebook mỗi ngày đăng hàng tỉ bức ảnh, bài viết, video lên hệ thống.

  2. Velocity:

    Sự tăng trưởng của dữ liệu, nó nhấn mạnh về tốc độ gia tăng dữ liệu trong một hệ thống. Ví dụ như: Google phải xử lý 3.5 tỉ lượt tìm kiếm mỗi ngày.

  3. Varienty:

    Chữ V cuối cùng này thể hiện tính đa dạng của dữ liệu. Dữ liệu trên các hệ thống được biểu diễn ở nhiều hình thức khác nhau: văn bản, hình ảnh, âm thanh,...

3 chữ V thể hiện cho 3 đặc tính của Big Data. Mỗi một đặc tính sẽ có một loạt các vấn đề cần phải giải quyết để có thể xây dựng được hệ thống đáp ứng được lượng dữ liệu khổng lồ.

Vì thế các cấu trúc dữ liệu và giải thuật dựa trên xác suất ra đời nhằm giải quyết từng khía cạnh của Big Data

Các cấu trúc dữ liệu và thuật toán ứng với mỗi khía cạnh của Big Data [1]

Kết luận

Trong series bài viết này, chúng tôi sẽ giới thiệu và hướng dẫn cài đặt những thuật toán PDSA. Hy vọng, mang đến cho bạn nhiều kiến thức thú vị.

Nguồn

[1] Andrii Gakhov, Probabilistic data structures and algorithms for big data applications

Last updated

Was this helpful?