Khoa học dữ liệu là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cấu trúc hay phi cấu trúc, là sự tiếp nối của một số lĩnh vực phân tích dữ liệu như khoa học thống kê, khai phá dữ liệu, tương tự như khám phá tri thức ở các cơ sở dữ liệu (KDD). (Wikipedia)
Tầm quan trọng của Khoa học dữ liệu
Năm 2012, kể từ khi tạp chí Harvard Business Review danh giá cho đăng bài viết "Nhà khoa học dữ liệu: nghề hấp dẫn nhất thế kỷ 21", truyền thông và công chúng ngày càng biết nhiều hơn tới cụm từ Data Science.
Theo một dự báo của McKinsey, một trong tứ đại trong làng quản lý và tham vấn, nhu cầu tuyển dụng đang tăng nhanh một cách chóng mặt. Ước tính ở Mỹ có thể tới gần con số 1.8 triệu vị trí đang cần tìm người trong ngành này. Ở Đông Nam Á, nhiều quốc gia cũng đang ráo riết phát triển nhiều chương trình thu hút nguồn nhân lực trình độ cao cùng với nhiều hoạt động xoay quanh khoa học dữ liệu. Điển hình như chính phủ Singapore đang thực hiện một chương trình nhằm kết nối những cộng đồng khoa học với một đề án nhằm xây dựng một thành phố thông minh hiện đại. Ở Indonesia nhiều hoạt động sôi nổi cũng đang diễn ra xung quanh nhằm truyền lửa và giáo dục cộng đồng đưa khoa học dữ liệu phát huy trong đời sống.
Tại Việt Nam, trên các website về tìm kiếm việc làm đã có những từ khoá như "data science" và "machine learning", đa phần đến từ các tập đoàn và start-up về công nghệ, kinh doanh bán lẻ, và nghiên cứu thị trường. Ngoài ra, còn phải kể đến những làn sóng mới của một lớp người Việt trẻ học tập, làm việc tại nước ngoài quay trở về Việt Nam cùng với những nhà đầu tư, doanh nhân chọn Việt Nam làm điểm đến khởi nghiệp. Tiêu biểu trong số đó phải kể đến một vài start-up như Misfit/ Fossil, Arimo, Gotit! hay Tenpoint7 chẳng hạn.
Khoa học dữ liệu là gì?
Hiện nay, vẫn còn nhiều tranh cãi về định nghĩa chính thức của ngành khoa học dữ liệu.
Theo Wikipedia thì Khoa học dữ liệu là một lĩnh vực liên ngành về các quá trình và các hệ thống rút trích tri thức hoặc hiểu biết từ dữ liệu ở các dạng khác nhau, kể ở dạng cấu trúc hay phi cấu trúc, là sự tiếp nối của một số lĩnh vực phân tích dữ liệu như khoa học thống kê, khai phá dữ liệu, tương tự như khám phá tri thức ở các cơ sở dữ liệu (KDD).
Nhìn vào ở một khía cạnh nào đó, ta có thể xem đây như một thể mới của một tập hợp gồm các ngành khác nhau trong sự vận động phát triển không ngừng của khoa học máy tính, mô phỏng, thống kê, phân tích và toán học. Trọng tâm của nó nằm ở việc áp dụng các phương pháp tự động hóa cho việc phân tích một lượng lớn dữ liệu và từ đó rút ra các kiến thức.
Điều này ta có thể quan sát ở hầu khắp nơi từ di truyền học đến vật lý cao năng lượng, khoa học dữ liệu giúp ta tìm ra những nhánh mới của khoa học, tạo ra sự ảnh hưởng sâu rộng đến toàn bộ nền khoa học tự nhiên, công nghệ kỹ thuật , cũng như khoa học xã hội và nhân văn.
Hầu như tất cả các ngành kinh tế hiện nay đều có thể truy cập vào trung tâm dữ liệu. Điều này hơn hẳn những gì bạn có thể tưởng tượng cách đây chỉ mười năm. Các doanh nghiệp hiện nay đang tích lũy những khối thông tin mới với một tốc độ vượt quá năng lực mà họ có thể rút chiết ra được giá trị. Vậy nên câu hỏi chính mà tất các các tổ chức đang đặt ra thu hút được sự quan tâm toàn bộ cộng đồng là làm thế nào để sử dụng được dữ liệu một cách hiệu quả, không chỉ là của riêng họ mà bao gồm mọi nguồn có liên quan.
Trong những năm tới, xu hướng này dự kiến sẽ tăng mạnh với sự đang lên của những thiết bị thông minh và thế giới mạng thông tin. Còn với nghiên cứu khoa học, chúng ta sẽ thấy một số lượng lớn các ngành mới được sinh ra đi kèm với từ "tính toán"(computational) hoặc "định lượng" (quantitative) ở phía trước. Trong công nghiệp, khoa học dữ liệu sẽ thay đổi tất cả các lĩnh vực từ y tế đến phương tiện truyền thông.
Mạng xã hội và dữ liệu người dùng
CEO của Facebook, Mark Zuckerberg thuyết trình tại hội nghị phát triển F8
Facebook, mạng xã hội lớn nhất hành tinh, một trong những cái tên được nhắc tới nhiều nhất trong giới trẻ hiện nay, là một trong những ứng dụng nổi tiếng của khoa học dữ liệu.
Tại hội nghị các nhà phát triển F8 đầu năm 2016, CEO Mark Zurkerberg cũng đã thông báo về một lộ trình mười năm tới. Trong đó, sẽ tạo ra một hệ sinh thái với những sản phẩm và công nghệ tiên tiến như trí tuệ nhân tạo (Artificial Intelligence). Tất cả đều dựa trên toàn bộ nguồn dữ liệu từ người dùng và các thuật toán máy học (Machine Learning Algorithms).
"Mỗi cú nhích chuột, mỗi cái like, mỗi bình luận và tất cả các kết nối đều được sử dụng để xây dựng một hồ sơ hoàn chỉnh cho mỗi người dùng."
Đằng sau những trải nghiệm kết nối và tương tác giữa bạn bè và người thân, đó là sự vận hành của các thuật toán đánh giá người dùng được xây dựng bởi những kỹ sư hàng đầu thế giới.
Tính tới tháng 8 năm 2016, tổng số lượng người dùng trên trang này cán đến mốc 1,750,000 người, gấp 5 lần dân số nước Mỹ, tương đương với 1/3 dân số thế giới và lớn hơn tổng số dân của châu Âu, châu Úc và Nam Mỹ cộng lại.
Và những nhà khoa học phân tích dữ liệu …
Theo thống kê của Glassdoor, một trong những trang web việc làm lớn nhất thế giới, ngành khoa học dữ liệu đứng đầu trong số 25 nghề nghiệp tốt nhất, đứng thứ 16 về mức lương với trung bình hơn $116,000 và có nhiều vị trí được tìm kiếm tuyển dụng nhất trong năm 2015 ở Hoa Kỳ
Trong một nghiên cứu của O'Reilly, một trong những nhà phát hành chuyên về mảng công nghệ và khoa học máy tính, có 4 dạng nhà khoa học dữ liệu tiêu biểu.
1. Doanh nhân (Data Businesspeople)
Quan tâm vào sản phẩm và phát triển lợi nhuận, họ là các nhà lãnh đạo, nhà quản lý và doanh nhân có sự am hiểu về mặt kỹ thuật. Đa phần đều có nền tảng giáo dục xuất phát bằng kỹ sư kết hợp với một MBA.
2. Nhà sáng tạo (Data Creatives)
Có nhiều biệt tài và kinh nghiệm với nhiều dạng dữ liệu và công cụ, những nhà sáng tạo thường ví von mình như là một nghệ sĩ hoặc tin tặc. Điểm nhấn thường thấy là sự xuất sắc sử dụng các công nghệ minh họa (Visualization Techonology) và mã nguồn mở.
3. Nhà phát triển (Data Developers)
Nhà phát triển dữ liệu thường tập trung vào việc viết phần mềm để làm phân tích, thống kê, và nhiệm vụ học máy, thường xuyên trong môi trường sản xuất. Họ thường có trình độ khoa học máy tính, và thường xuyên làm việc với cái gọi là "dữ liệu lớn" (Big Data).
4. Nhà nghiên cứu (Data Researchers)
Đó là những người áp dụng những
kỹ năng được đào tạo trong khoa học cùng với các công cụ và kỹ thuật, số liệu. Một số có bằng tiến sĩ, và các ứng dụng sáng tạo các công cụ toán học mang lại những hiểu biết và sản phẩm có giá trị.
Tìm một nhà khoa học dữ liệu đã khó. Tìm một người hiểu về khoa học dữ liệu lại càng khó hơn. Trên đây là miêu tả đôi nét về một vài kỹ năng quan trọng của một nhà khoa học phân tích dữ liệu đích thực. Nguồn: Marketing Distillery
Bên cạnh đó, để thực sự tỏa sáng trong nghề nghiệp này bạn sẽ cần trang bị thêm một lượng kiến thức chuyên môn ở một lĩnh vực ứng dụng của khoa học dữ liệu như là kinh doanh, marketing, trải nghiệm người dùng.
Dù vậy, điều quan trọng nhất đổi với nhà khoa học phân tích dữ liệu là khả năng suy luận và trí tò mò như một nhà khoa học thực thụ. Điều này thể hiện qua khả năng phát hiện ra những điều thú vị có khả năng đưa lại được giá trị sử dụng và kinh tế cùng với việc ứng dụng những mô hình máy học vào trong tập dữ liệu.
Ngoài ra, những nhà khoa học dữ liệu cũng có thể coi những nghệ sĩ với khả năng giao tiếp và thuyết trình xuất sắc. Ví dụ như truyền đạt được những vấn đề kỹ thuật phức tạp thành đơn giản, dễ hiểu tới những người làm ở những bộ phận khác như truyền thông và kinh doanh hay việc kết nối ý tưởng để tạo ra những minh họa tuyệt đẹp.
Để phát triển và theo kịp với thế giới, các nhà khoa học dữ liệu luôn phải tự tìm trau dồi và bổ sung kiến thức thường xuyên, đặc biệt trong xu thế phát triển hiện nay. Quả thật, có khá nhiều thách thức cho những ai muốn tham gia chinh phục con đường đầy gian nan này.
10 lời khuyên để trở thành nhà khoa học dữ liệu
Để các bạn có một vài định hướng cho mình, xin gửi các một số lời khuyên (bên cạnh việc nâng kiến thức chuyên ngành) trong rèn luyện để trở thành nhà khoa học kỹ thuật từ Giáo sư Jana Schaich Bor:
- Đặt câu hỏi, luôn tò mò và chấp nhận điều chưa biết
- Bắt đầu nghĩ về mọi thứ bạn thấy như là biến phụ thuộc và biến độc lập
- Tìm hiểu ưu điểm và nhược điểm của tính liên tục và rời rạc của một thuộc tính, đặc tính.
- Hãy luôn lắng nghe, và đóng góp ý kiến
- Luyện tập tính hoài nghi, tư duy phản biện đa chiều
- Hãy luôn tìm kiếm sự chi tiết, cụ thể
- Luôn yêu mến sự chính xác
- Phương pháp tốt nhất không nhất thiết là phổ biến nhất
- Hãy làm việc nhóm và hướng đến kết quả cuối cùng mà người yêu cầu mong muốn