Sự bùng nổ của dữ liệu đang tạo ra một nhu cầu lớn cho những hiểu biết về nó hiện nay. Hầu hết tổ chức, dù lớn hay nhỏ đều nhận ra họ cần phải hoạt động trong môi trường cạnh tranh dữ liệu ngày càng gay gắt. Trong các doanh nghiệp hiện nay, việc làm việc với những file dữ liệu với dung lượng hàng trăm MB trở lên, với hàng trăm nghìn cho tới rất nhiều triệu dòng, cột là chuyện khá phổ biến. Từ những file dữ liệu khổng lồ ấy, làm sao để lựa chọn phần dữ liệu có ích và mang lại giá trị cho người sử dụng để làm báo cáo hay làm nguồn để khai phá thông tin?
Kiến thức về Data Science (khoa học dữ liệu), vì thế đang nổi lên như một chức năng cần thiết trong hầu hết ngành nghề, lĩnh vực. Chuyên gia khoa học dữ liệu (Data Scientist) cũng trở thành một trong những ngành hot nhất hiện nay. Theo thống kê của Glassdoor, Data Scientist đứng đầu top 10 nghề nghiệp tốt nhất tại Mỹ trong những năm gần đây với mức lương 110.000 USD một năm.
Data Science là công việc hiểu dữ liệu (dưới dạng ký tự, hình ảnh, âm thanh) và lấy được thông tin trong đó. Đây cũng là các phương pháp tự động để phân tích dữ liệu lớn. Data Science có liên hệ chặt chẽ với data analysis và data mining. Nó bao gồm những phạm trù toán học, các thuật toán và mô hình. Đó còn là các công cụ, phương pháp, các tiến trình và hệ thống thông tin về dữ liệu.
Khoa học dữ liệu dựa chủ yếu vào kỹ năng toán học và thống kê. Toán học sử dụng các phương pháp số học xác định và lý luận để hình thành mô tả định lượng của thế giới, trong khi thống kê là một dạng khoa học bắt nguồn từ toán học, nhưng tập trung vào việc sử dụng phương pháp ngẫu nhiên - một cách tiếp cận dựa trên xác suất và lý luận quy nạp để tạo thành mô tả định lượng của thế giới.
Khoa học dữ liệu giúp người sử dụng hiểu rõ hơn về ý nghĩa của dữ liệu, để xác thực giả thuyết, mô phỏng các tình huống đã - đang xảy ra và để dự đoán các sự kiện trong tương lai.
Khoa học dữ liệu hướng đến việc thu thập, phân tích và áp dụng những thông tin về khách hàng, người tiêu dùng, mong muốn, nhu cầu, bối cảnh, hành vi. Nguồn dữ liệu có thể được thu thập bởi rất nhiều cách khác nhau như thông lấy trực tiếp hay gián tiếp thông qua Internet.
Ứng dụng của data science
Thời gian gần đây, Machine Learning (học máy) đang phát triển mạnh, nhằm huấn luyện máy móc tự học và giải quyết các vấn đề của con người. Nếu ví machine learning như một đứa trẻ đang lớn dần thì khoa học dữ liệu là thức ăn giúp đứa trẻ phát triển.
Mọi thứ đều phải dựa vào dữ liệu. Cuộc chiến của doanh nghiệp bây giờ không chỉ là cuộc cạnh tranh về kỹ thuật mà còn là về dữ liệu người dùng. Từ rất sớm, các viện nghiên cứu uy tín như MIT, KAIST hay các hãng công nghệ lớn như Google, Facebook, Naver, Kakao... đã bắt đầu theo dõi hành vi và thông tin sử dụng dữ liệu người dùng.
Số lượng user là một trong những chỉ số quan trọng tác động đến sự thành công của các dự án/ doanh nghiệp. Thông tin và hành vi người dùng sẽ được thu thập trực tiếp và tác động ngược lại chính những tính năng của ứng dụng cũng như những thông tin liên quan.
Ví dụ với ứng dụng trò chuyện KakaoTalk, hay trình duyệt tìm kiếm Naver - những dự án có tới vài chục triệu user. Khi nhập text đầu vào, người dùng thường không nhập đúng chính tả, hoặc bỏ hết dấu. Tính năng nhận, sửa lỗi chính tả KakaoTalk và Naver phải thống kê thật nhiều dữ liệu đầu vào, xác định rõ ý người dùng khi nhập dữ liệu và từ đó, trả ra kết quả gợi ý cụm từ tìm kiếm chính xác, bên cạnh những kết quả tìm kiếm có độ chính xác cao. Số lượng người dùng càng nhiều, lượng mẫu thử càng tăng thì tỷ lệ chính xác càng lớn. Từ đây, tính năng của ứng dụng ngày càng hoàn thiện, thu hút tiền từ nhiều nguồn khác nhau như dự án, quảng cáo sẽ không ngừng chảy về.
Một đột phá lớn gần đây trong ngành thiên văn, đó là tái lập hình ảnh lỗ đen nằm ở trung tâm thiên hà Messier 87 (M87) từ hàng tỷ tấm hình rời rạc chụp từ trái đất. Khối dữ liệu ảnh rất lớn hàng triệu GigaByte đã được xử lý và kết hợp nhằm đưa ra hình ảnh chính xác về lỗ đen từ chân trời sự kiện. Việc chụp ảnh này cho phép các nhà khoa học tiếp tục kiểm tra tính chính xác của Thuyết tương đối sau ghi nhận về sóng hấp dẫn cách đây 3 năm.
Hiện nay, Data Science được ứng dụng vào tất cả lĩnh vực trong đời sống, từ các vấn đề trong chính trị - quốc phòng - an ninh cho tới an sinh xã hội... Có thể kể đến các ảnh hưởng như:
Khoa học dữ liệu là nền tảng cho sự phát triển của các hệ hỗ trợ ra quyết định (decision support system). Chẳng hạn, ngay sau khi bạn vào trang web của các hãng hàng không, bạn sẽ thấy trên facebook và trình duyệt web của mình có rất nhiều gợi ý về các dịch vụ du lịch, nghỉ dưỡng. Khi Google đồng bộ lịch bay của bạn vào Google Calendar, bạn sẽ nhận được rất nhiều lời mời chào hấp dẫn từ những điểm đến của bạn.
Khóa học dữ liệu cũng góp phần thay đổi nhiều về mặt thống kê và hiển thị dữ liệu trong nhóm ngành tài chính – ngân hàng – bảo hiểm... thay vì những biểu đồ dữ liệu nhàm chán theo kiểu cổ điển, bạn có thể quan sát dữ liệu bằng rất nhiều kiểu đồ thị mới lạ và mang nhiều giá trị thông tin.
Khoa học dữ liệu còn làm tăng tính an toàn cho đời sống của người dân. Các camera công cộng sẽ hỗ trợ an ninh cho người dân tốt hơn khi khoa học dữ liệu và học máy, học sâu được áp dụng đồng thời trong lĩnh vực lưu trữ và xử lý ảnh. Khoa học dữ liệu là nền tảng để trí tuệ nhân tạo, học máy và học sâu khai phá và tìm ra những tri thức mới, giá trị mới cho loài người.
Những ví dụ trên chỉ là vài ứng dụng của Data science trong một vài lĩnh vực rất nhỏ. Dữ liệu được quản lý thông suốt và sử dụng hiệu quả sẽ là nền tảng phát triển cho mọi ngành khoa học cơ bản và ứng dụng.
"Thực tiễn là tiêu chuẩn của chân lý". Bất kể mô hình học máy và học sâu được tạo ra đẹp thế nào; tác giả thông minh ra sao; nếu nó không khớp với dữ liệu thực nghiệm, nó sai. Khoa học dữ liệu sẽ giúp các mô hình học máy và học sâu ngày càng có độ chính xác cao hơn, giúp loài người hiểu nhiều hơn về thế giới trong rất nhiều năm tới.