Kết nối dữ liệu
Bài hướng dẫn này giúp bạn đưa dữ liệu thương mại điện tử vào Dataverses để bắt đầu phân tích. Dù bạn muốn đồng bộ dữ liệu theo thời gian thực qua kết nối API trực tiếp hay tải lên tệp thủ công, Dataverses đều cung cấp luồng thao tác linh hoạt để bạn nhanh chóng khai thác dữ liệu.
Điều kiện sử dụng
Trước khi bắt đầu, bạn cần đảm bảo:
- Có tài khoản Dataverses với tính năng Thương mại điện tử được kích hoạt
- Được cấp quyền tạo kết nối cửa hàng hoặc tải dữ liệu lên
- Với tải lên tệp: có tệp dữ liệu đã xuất từ nền tảng thương mại điện tử của bạn
- Với tích hợp API: có quyền quản trị hoặc truy cập API trên nền tảng thương mại điện tử của bạn
Phương thức 1: Từ API
Dataverses tích hợp sẵn với các nền tảng thương mại điện tử phổ biến, cho phép đồng bộ dữ liệu tự động theo thời gian thực mà không cần xử lý tệp thủ công.
Các nền tảng được hỗ trợ
Dataverses hỗ trợ kết nối trực tiếp với các nền tảng sau:
| Nền tảng | Loại dữ liệu | Chế độ đồng bộ |
|---|---|---|
| Shopee | Đơn hàng, Sản phẩm, Khách hàng, Tài chính | Thời gian thực / Theo lịch |
| Lazada | Đơn hàng, Sản phẩm, Khách hàng, Tài chính | Thời gian thực / Theo lịch |
| Haravan | Đơn hàng, Sản phẩm, Khách hàng, Tồn kho | Thời gian thực / Theo lịch |
| Shopify | Đơn hàng, Sản phẩm, Khách hàng, Phân tích | Thời gian thực / Theo lịch |
| TikTok Shop | Đơn hàng, Sản phẩm, Khách hàng | Thời gian thực / Theo lịch |
Danh sách nền tảng được hỗ trợ được cập nhật thường xuyên. Liên hệ đội ngũ hỗ trợ nếu nền tảng của bạn chưa có trong danh sách.
Bước 1: Mở trang Liên kết cửa hàng
- Đăng nhập vào workspace Dataverses.
- Trên thanh điều hướng, chọn Thương mại điện tử > Liên kết cửa hàng.
- Nhấn Thêm kết nối mới.
Bước 2: Chọn nền tảng
- Chọn nền tảng thương mại điện tử trong danh sách các tích hợp được hỗ trợ.
- Nhấn Kết nối để bắt đầu quy trình xác thực.
Bước 3: Xác thực và cấp quyền
Mỗi nền tảng yêu cầu thông tin xác thực riêng để đảm bảo truy cập API an toàn:
- Shopee
- Lazada
- Haravan
- Nhập Shop ID và Partner ID.
- Cung cấp API Key (được tạo từ Shopee Open Platform).
- Chọn Khu vực (ví dụ: Việt Nam, Singapore, Philippines).
- Nhấn Xác thực để kiểm tra kết nối.
- Nhập Seller ID.
- Cung cấp App Key và App Secret.
- Chọn Quốc gia (ví dụ: Việt Nam, Thái Lan, Malaysia).
- Nhấn Xác thực để kiểm tra kết nối.
- Nhập Store Domain (ví dụ:
yourstore.myharavan.com). - Cung cấp API Key và API Password.
- Nhấn Xác thực để kiểm tra kết nối.
Để biết chi tiết cách lấy thông tin xác thực trên từng nền tảng, xem hướng dẫn Thiết lập Liên kết cửa hàng.
Bước 4: Cấu hình đồng bộ dữ liệu
Sau khi xác thực thành công, chọn dữ liệu cần đồng bộ:
-
Chọn các module dữ liệu muốn nhập:
- Đơn hàng
- Sản phẩm
- Khách hàng
- Tồn kho
- Tài chính / Giao dịch
-
Chọn tần suất đồng bộ:
- Thời gian thực: Đồng bộ tức thì cho phân tích trực tiếp
- Hàng giờ: Đồng bộ mỗi giờ
- Hàng ngày: Đồng bộ một lần mỗi ngày theo khung giờ đã đặt
-
Thiết lập phạm vi dữ liệu lịch sử (ví dụ: 30 ngày gần nhất, 90 ngày, hoặc toàn bộ lịch sử).
-
Nhấn Bắt đầu đồng bộ để khởi động quá trình nhập dữ liệu.
Bước 5: Kiểm tra dữ liệu
- Chuyển đến Thương mại điện tử > Quản lý dữ liệu.
- Kiểm tra xem các bảng đã đồng bộ có xuất hiện không (ví dụ:
shopee_orders,lazada_products). - Chạy truy vấn xem trước để xác minh độ chính xác của dữ liệu.
SELECT * FROM shopee_orders LIMIT 10;
Khi bật đồng bộ thời gian thực, mọi thay đổi trên cửa hàng (đơn hàng mới, cập nhật sản phẩm) sẽ phản ánh trong Dataverses chỉ sau vài phút, giúp bạn xây dựng dashboard và báo cáo trực tiếp.
Phương thức 2: Từ tệp tin dữ liệu
Bạn có thể tải các tệp tin dữ liệu với định dạng phổ biến như Excel, CSV, ... để bắt đầu làm việc trên Dataverses.
Xem video hướng dẫn tải tệp lên bên dưới:
Các định dạng tệp được hỗ trợ
| Định dạng | Phần mở rộng | Ghi chú |
|---|---|---|
| CSV | .csv | Khuyến nghị cho dữ liệu dạng bảng |
| Excel | .xlsx, .xls | Hỗ trợ tệp nhiều sheet |
| JSON | .json | Cho dữ liệu lồng hoặc có cấu trúc |
| Parquet | .parquet | Tối ưu cho tập dữ liệu lớn |
Bước 1: Chuẩn bị tệp
Đảm bảo tệp của bạn đáp ứng các yêu cầu sau:
- Dòng tiêu đề: Dòng đầu tiên phải chứa tên cột.
- Mã hóa: Sử dụng UTF-8 để đảm bảo tương thích tốt nhất.
- Kích thước tệp: Tối đa 500 MB mỗi tệp khi tải lên qua giao diện (các tệp lớn hơn nên dùng Volume).
- Tính nhất quán: Mỗi cột chỉ nên chứa một kiểu dữ liệu.
Ví dụ cấu trúc CSV:
order_id,product_name,quantity,price,order_date
ORD-001,Chuột không dây,2,25.99,2024-01-15
ORD-002,Bàn phím cơ,1,89.50,2024-01-16
ORD-003,Cáp USB-C,3,12.00,2024-01-16
Bước 2: Tải tệp lên
- Trên thanh điều hướng, nhấn Catalog để mở Catalog Explorer.
- Điều hướng đến catalog và schema đích.
- Nhấn Tạo và chọn Table.
- Trong hộp thoại Tạo bảng:
- Chọn Upload File làm nguồn dữ liệu.
- Nhấn Browse và chọn tệp từ máy tính.
- Nhập Tên bảng (ví dụ:
manual_orders). - Nhấn Tiếp theo.
Bước 3: Ánh xạ và xem trước cột
Dataverses tự động nhận diện tên cột và kiểu dữ liệu. Hãy kiểm tra lại:
-
Xác minh từng cột có Kiểu dữ liệu phù hợp:
STRINGcho văn bảnINThoặcBIGINTcho số nguyênDOUBLEhoặcDECIMALcho giá và tỷ lệ phần trămDATEhoặcTIMESTAMPcho ngày tháng
-
Điều chỉnh thủ công các ánh xạ chưa chính xác.
-
Xem trước 100 dòng đầu tiên để kiểm tra dữ liệu.
-
Nhấn Tạo bảng để hoàn tất nhập dữ liệu.
Nên dùng chữ thường, dạng snake_case cho tên cột để nhất quán với quy ước SQL (ví dụ: order_date thay vì Order Date). Dataverses tự động chuẩn hóa khoảng trắng và ký tự đặc biệt.
Bước 4: Tải lên qua Notebook (Thay thế)
Nếu cần biến đổi dữ liệu nâng cao trong quá trình tải lên, hãy dùng Notebook Dataverses:
- Python
- SQL
import pandas as pd
# Đọc tệp Excel
pdf = pd.read_excel("/path/to/your/orders.xlsx")
# Tùy chọn: biến đổi dữ liệu
pdf['order_date'] = pd.to_datetime(pdf['order_date'])
pdf['total_amount'] = pdf['quantity'] * pdf['price']
# Chuyển sang Spark DataFrame
df = spark.createDataFrame(pdf)
# Lưu vào Data Catalog
df.write.mode("overwrite").saveAsTable("<catalog>.<schema>.manual_orders")
print("Tạo bảng thành công!")
-- Tạo bảng từ CSV đã tải lên Volume
CREATE TABLE IF NOT EXISTS <catalog>.<schema>.manual_orders
USING CSV
OPTIONS (
path '/Volumes/<catalog>/<schema>/<volume>/orders.csv',
header 'true',
inferSchema 'true'
);
-- Kiểm tra nhập dữ liệu
SELECT * FROM <catalog>.<schema>.manual_orders LIMIT 10;
Chọn phương thức phù hợp
| Tiêu chí | Tích hợp API | Tải tệp lên |
|---|---|---|
| Độ mới dữ liệu | Thời gian thực hoặc theo lịch | Thủ công / Một lần |
| Công sức thiết lập | Cần thông tin xác thực API | Kéo thả đơn giản |
| Tự động hóa | Hoàn toàn tự động | Cần tải lên thủ công |
| Phù hợp cho | Vận hành cửa hàng liên tục | Phân tích lịch sử, nhập một lần |
| Hỗ trợ nguồn | Các nền tảng tích hợp sẵn | Mọi nguồn dữ liệu |
Nhiều người dùng bắt đầu bằng tải tệp để phân tích lịch sử, sau đó bổ sung tích hợp API để theo dõi trực tiếp liên tục.
Các bước tiếp theo
Sau khi dữ liệu đã được đưa vào Dataverses:
- Quản lý dữ liệu - Khám phá và quản lý dữ liệu đã nhập
- Liên kết cửa hàng - Thêm cửa hàng khác hoặc quản lý kết nối hiện có
- Dashboards - Xây dựng hình ảnh hóa và theo dõi chỉ số KPI
- Truy vấn và hình ảnh hóa dữ liệu - Học cách phân tích dữ liệu với notebook
Tài nguyên bổ sung
Tóm tắt: Bài hướng dẫn này đã trình bày hai phương thức chính để đưa dữ liệu thương mại điện tử vào Dataverses: tích hợp API gốc cho phân tích thời gian thực và tải tệp lên cho nhập dữ liệu thủ công. Hãy chọn phương thức phù hợp với quy trình làm việc của bạn và bắt đầu phân tích.