Hôm rồi buồn buồn đi đường sách chơi thì gặp cuốn sách "Big Data" của Lisa Arthur, khi nhìn thấy có gì đó khá quen và hào hứng, mua ngay. Sách tập trung vào giải quyết vấn đề tiếp thị trên búi dữ liệu khổng lồ. Nhưng trước tiên mình cần hiểu về Big Data, hôm nay rảnh hỏi bác Gồ mới hiêu hơn chút chút, mời cùng tìm hiểu khái niệm cơ bản về Big Data và làm sao để khai thác và ứng dụng nó trong công việc cũng như trong cuộc sống hàng ngày.
Tiếng Anh Big = lớn, Data = Dữ liệu =>
Big Data = dữ liệu lớn, cái này thì ai cũng biết rồi.
Khái niệm Big Data
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà thôi.
Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho Big Data. Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp loại.
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này.
Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước đây công việc này mất đến 10 năm để xử lí, còn bây giờ người ta chỉ cần một tuần là đã hoàn thành. Còn Trung tâm giả lập khí hậu của NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết và giả lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của người dùng cũng cấu thành một tập hợp Big Data lớn.
Thuật ngữ của Big Data
Nói đến Big Data người ta thường nói có 5 chữ V thể hiện đặc trưng của Big Data. 5V đó là:
Volume
Volume là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte.
Velocity
Velocity là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Một ví dụ đơn giản là trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.
Variety
Variety là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng phức tạp hơn.
Veracity
Veracity là tính xác thực của dữ liệu. Với xu hướng Social ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.
Value
Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của BigData cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có thể nói việc đầu tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData.
Tình hình Big Data hiện nay
Theo tài liệu của Intel vào tháng 9/2013, hiện nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với một đoạn video HD dài 13 năm. Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình.
Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng là 7,8TB, 18,5TB và 24,7TB.
Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên, YouTube hay Google thì phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.
Còn theo tập đoàn SAS, chúng ta có một vài số liệu thú vị về Big Data như sau:
Các hệ thống RFID (một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so với mã vạc truyền thống
Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản 5.000 giao dịch mỗi giây.
Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình mỗi ngày
Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi
Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
Ứng dụng Big Data trong cuộc sống
Tập đoàn SAS nói vấn đề thật sự không nằm ở việc bạn thu thập dữ liệu, thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại: cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn.
Nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt... Do đó, nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn.
Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm.
Người dùng cuối như mình và các bạn sẽ được hưởng lợi cũng từ việc tối ưu hóa như thế, chứ bản thân chúng ta thì khó mà tự mình phát triển hay mua các giải pháp để khai thác Big Data bởi giá thành của chúng quá đắt, có thể đến cả trăm nghìn đô. Ngoài ra, lượng dữ liệu mà chúng ta có được cũng khó có thể xem là “Big” nếu chỉ có vài Terabyte sinh ra trong một thời gian dài.
Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v... thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài.
Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới.
Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm.
Chỉ trích đối với Big Data
Có hai hướng chỉ trích chính đối với Big Data, một là về cách mà người ta sử dụng Big Data, cái còn lại thì liên quan đến việc tiến hành lấy thông tin từ Big Data mà thế giới đang làm.
A. Chỉ trích về Big Data
Chris Anderson, một nhà
khởi nghiệp và cũng là một người viết sách, cho rằng việc sử dụng Big Data luôn cần phải được ngữ cảnh hóa trong các bối cảnh về xã hội, kinh tế và chính trị. Ví dụ, ngay cả khi các công ty đã đầu tư hàng tỉ USD vào Big Data và lấy được thông tin về nhiều thứ nhưng chỉ có ít hơn 40% nhân viên thật sự có thể hiểu và tận dụng các thông tin này. Điều đó làm giảm hiệu quả của Big Data đi nhiều so với lúc đầu, dẫn đến lãng phí tài nguyên.
Ngoài ra, còn có chỉ trích rằng Big Data chỉ có thể miêu tả thế giới trong quá khứ bởi nó dựa trên các dữ liệu đã sinh ra từ trước, và nếu tốt lắm thì chỉ miêu tả được trong hiện thực. Việc sử dụng Big Data để nói về tương lai thì cần phải kết hợp thêm với các phương pháp mô hình, mô phỏng hay nghiên cứu về sự chuyển động của thế giới thì mới đưa ra dự đoán chính xác được.
Bên cạnh đó, người ta còn lo lắng về vấn đề quyền riêng tư của người dùng. Việc thu thập Big Data có thể sẽ đi kèm thông tin có khả năng định dạng người dùng mà không được sự đồng ý của họ, và điều đó vi phạm luật ở một số quốc gia. Nhiều chuyên gia từ nhiều lĩnh vực khác nhau hiện đang thúc đẩy việc bảo vệ quyền riêng tư khi sử dụng Big Data.
B. Chỉ trích về việc lấy thông tin từ Big Data
Nhà nghiên cứu Danah Boyd đã đưa ra quan ngại của mình rằng việc sử dụng Big Data trong việc chọn mẫu thống kê có thể gây ra sự chủ quan, và dù ít hay nhiều thì nó cũng có thể ảnh hưởn đến kết quả cuối cùng. Việc khai thác dữ liệu từ một số nguồn là Big Data, trong khi những nguồn khác không phải là “dữ liệu lớn” thì đặt ra những thách thức khi phân tích dữ liệu.
Tương lai của Big Data
Erik Swan, đồng sáng lập kiêm giám đốc công nghệ của công ty Spunk, dự đoán rằng sự thay đổi nhất trong Big Data chính là thái độ của mọi người đối với nó. Việc tiêu thụ một lượng dữ liệu lớn sẽ dần phổ biến hơn với mọi người, từ những người nông dân cho đến các anh kĩ sư. Mọi người sẽ mặc định sử dụng dữ liệu để phân tích mọi thứ trong vòng 10 năm tới. Tất nhiên là kĩ thuật và công nghệ cũng cần phải phát triển theo thì điều này mới có thể trở thành hiện thực.
Còn theo Ankur Jain, nhà sáng lập và CEO của Humin, ngữ cảnh phát sinh ra dữ liệu sẽ trở nên quan trọng hơn. “Chúng ta sẽ bắt đầu định tuyến dữ liệu vào các đối tượng, sự vật, sự việc trong đời thực và chuyện đó giúp chúng ta xử lí công việc tốt hơn”.
Trong khi đó, Daniel Kaufman, giám đốc đổi mới về thông tin của cơ quan nghiên cứu thuộc Bộ quốc phòng Mỹ thì cho rằng dữ liệu sinh học sẽ ngày càng được quan tâm hơn, và rồi người ta sẽ dùng dữ liệu này để đưa ra những lời khuyên có ảnh hưởng lớn đến lối sống và cuộc đời của con người. Ví dụ, bạn có nên thêm một dĩa cơm tấm sườn nữa không, hay là nên ăn thêm một dĩa cơm gà? Bộ quốc phòng Mỹ muốn sử dụng kiểu suy nghĩ như thế (thay cơm bằng pizza nhé) để áp dụng cho binh lính của mình và hiện họ đang thử nghiệm trên chuột.
Giám đốc Swan còn suy nghĩ thêm rằng các công ty chuyên cung cấp giải pháp Big Data sẽ không còn bán dữ liệu và phân tích cho từng doanh nghiệp hay công ty riêng lẻ để phục vụ cho những mục đích quá chuyên biệt. Thay vào đó, họ sẽ mở rộng nó và áp dụng Big Data nhằm giải quyết những vấn đề trong đời thường và trả lời cho các nhu cầu cơ bản của con người. Đó sẽ là sự thay đổi về tính ứng dụng của Big Data.
Trong tương lai, chúng ta sẽ còn tiếp tục chứng kiến sự tăng trưởng của Big Data. Hiện nay có thể bạn cũng đã nghe đến khái niệm Internet of Things, tức là mang Internet đến với mọi thứ trong đời sống hằng ngày. Dữ liệu từ Internet of Things thực chất cũng là được thu thập từ một mạng lưới rất nhiều các cảm biến và thiết bị điện tử, và nó cũng là một trong những nguồn của Big Data. Lượng dữ liệu khổng lồ này có thể cho các nhà nghiên cứu biết được hành vi tiêu dùng của khách hàng, từ đó tinh chỉnh những thiết bị Internet of Things cho phù hợp hơn, bắt chúng phục vụ đời sống hằng ngày của chúng ta một cách hiệu quả hơn. Nó cũng có thể được dùng cho việc sản xuất, từ đó giảm sự liên quan của con người. Như lời của Daniel Kaufman dự đoán thì “con người sẽ làm ít hơn” nhờ Big Data.
Làm sao để giải quyết bài toán Big Data?
Để có thể giải quyết bài toán Big Data, bạn phải có những kiến thức cơ bản về những lĩnh vực sau:
- Kiến thức về khoa học dữ liệu
- Kiến thức cơ bản toán học, thống kê và máy học
- Kiến thức về lập trình
- Kiến thức về cơ sở dữ liệu
- Ngoài ra bạn cần phải tìm hiểu thêm các kiến thức về toán học, thống kê và máy học nữa.
Kết luận: Big Data chứa trong nó rất nhiều thông tin hữu ích mà nếu các doanh nghiệp, tổ chức biết cách khai thác thì hoàn toàn có thể biến những thông tin đó trở thành những giá trị hiện thực, cắt giảm chi phí, đem lại nhiều lợi nhuận cho tổ chức, doanh nghiệp sở hữu chúng. Big Data còn là lĩnh vực mới mẻ, tuy nhiên tiềm năng khai thác của nó là rất lớn, chắc chắn sẽ là lĩnh vực phát triển bùng nổ trong tương lai gần.