Các xu hướng cho Dữ liệu lớn (big data trends) 2015

Phân tích xu hướng cho đại dữ liệu (big data), Tableau Software đã đưa ra 7 trọng tâm cho năm 2015 mà tôi có thực hiện lược dịch và bổ sung như sau:

Các thuật ngữ và từ tạm dịch:

– Big data: Dữ liệu lớn / Đại dữ liệu.
– Cloud: Điện toán đám mây.
– Innovation: Sáng tân (sáng tạo & đổi mới).
– Data architecture: Kiến trúc dữ liệu.
– Data lake: Hồ dữ liệu.
– Massively parallel processing: Phương thức xử lý song song hàng loạt.
– Internet of Things: Vạn vật kết nối.
– Data warehouse: Hệ thống kho dữ liệu.
– Relational database management system (RDBMS): Hệ quản trị dữ liệu theo quan hệ.

Big data sử dụng điện toán đám mây.

Điện toán đám mây đã có mặt khắp mọi nơi. Đại dữ liệu góp phần vào tốc độ tăng trưởng của điện toán đám mây. Amazon Redshift (hệ thống kho dữ liệu của Amazon Web Services) và Google BigQuery (hệ dịch vụ phân tích dữ liệu cỡ lớn của Google) đang tăng trưởng nhanh chóng. Các công ty dữ liệu hàng đầu như Teradata cũng đang mở rộng thị trường.

Công cụ ETL (Extract-Transform-Load) cá thể hoá.
Mỗi phân tích viên thông thường mất 80% thời gian vào soạn dữ liệu (ETL: thu gom-chuyển đổi-cập nhật) và chỉ còn 20% thời gian cho phân tích, từ đó dẫn tới xu hướng phát triển các công cụ sàng lọc dữ liệu cá thể hoá theo nhu cầu của từng phân tích viên. Trifacta, Alteryx, Paxata hay Informatica Rev là các công cụ giúp cho công việc ETL dữ liệu trở nên dễ dàng hơn và không đòi hỏi quá cao về mặt công nghệ hay hạ tầng.

Sử dụng SQL hay NoSQL (hệ quản trị dữ liệu theo quan hệ hay không phụ thuộc quan hệ).
Câu trả lời còn bỏ ngỏ nhưng NoSQL đã trở thành hiện tượng khi cung cấp khả năng mở rộng, tính linh hoạt và tốc độ xử lý dữ liệu cỡ lớn. Các công ty MarkLogic, Casandra, Couchbase và MongoDB đang mang lại những sáng tân mới cho thị trường cơ sở dữ liệu SQL.

Hadoop trở thành một phần của tiêu chuẩn lưu trữ dữ liệu mới.
Dù nền tảng (framework) mã nguồn mở Hadoop (của Apache) có trở nên thống trị các kiến trúc dữ liệu hiện nay hay kết hợp với các dạng cơ sở dữ liệu khác thì không thể phủ nhận 1 thực tế là Hadoop đã và đang được nhiều vendor cung cấp dịch vụ lưu trữ dữ liệu tích hợp vào trong kiến trúc big data của mình. Một số các nhà cung cấp dữ liệu truyền thống bám lấy các các công ty đi đầu về Hadoop như Teradata, SAP và HP. Còn IBM thì tự ứng dụng Hadoop theo cách riêng của mình. Các hệ quản trị dữ liệu hỗ trợ hệ thống phân tán file Hadoop (HDFS) là Spark (của Apache) và Impala (của Cloudera) đang tiếp tục phát triển mạnh mẽ. Hadoop ngày càng đồng nghĩa với kiến trúc big data.

Khái niệm data lake.
Một khối lượng dữ liệu khổng lồ tồn tại ở dạng thô một cách tự nhiên được ví với một cái hồ đầy dữ liệu (data lake). Khái niệm này ẩn chứa câu trả lời đối với việc làm thế nào để lưu trữ, quản trị và sử dụng một cách hiệu quả những khối lượng dữ liệu khổng lồ liên tục được cập nhật. Google và Facebook đã phát triển các phương pháp hữu hiệu để khai thác data lake nhưng mới chỉ được coi là những nhà sơ khởi. Data lake là một khái niệm mới nảy sinh và chắc chắn sẽ còn có thêm nhiều bước tiến mới trong việc quản trị và bảo mật big data lake với những phương thức quản trị mới.

Hệ sinh thái đại dữ liệu.
Khi các cách thức thực hiện mới xuất hiện, một hệ sinh thái mới cũng xuất hiện theo. Big data cũng vậy, đã xuất hiện các cách thức mới về lưu trữ, sàng lọc, bổ sung dữ liệu, ứng dụng mạng xã hội, phân tích dữ liệu ở cấp độ cao nhất và hiển thị dữ liệu. Chúng ta sẽ còn được chứng kiến nhiều sự thay đổi kinh ngạc khác từ hệ sinh thái hiện hữu. Đặc biệt là các hệ dữ liệu theo phương thức xử lý song song hàng loạt MPP sẽ thay đổi vai trò và không còn chiếm ưu thế như trước nữa.

Sự phát triển của vạn vật kết nối IoT tạo ra những giải pháp dữ liệu mới.
Việc chuyển dữ liệu định kỳ hoặc liên tục từ chiếc xe bạn lái về máy chủ tại chính hãng không còn là chuyện viễn tưởng nữa. Vấn đề chỉ còn là xử lý big travel: kích thước, tốc độ, phương thức xử lý và kết quả đầu ra. Ford, GE hay Rolls Royce cùng rất nhiều hãng xe hơi khác đang đầu tư vào IoT. Điều tương tự cũng xuất hiện ở nhiều ngành khác, vốn là kịch bản tất yếu của khái niệm vạn vật kết nối.

Trịnh Minh Giang | 8/2015

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s