Μορφές δεδομένων που υποστηρίζονται από τη ευφυΐα σε πραγματικό χρόνο
Η πρόσληψη δεδομένων είναι η διαδικασία με την οποία τα δεδομένα προστίθενται σε έναν πίνακα και διατίθενται για το ερώτημα στην ευφυΐα σε πραγματικό χρόνο. Για όλες τις μεθόδους πρόσληψης, εκτός από την πρόσληψη από ερώτημα, τα δεδομένα πρέπει να είναι σε μία από τις υποστηριζόμενες μορφές. Ο παρακάτω πίνακας παραθέτει και περιγράφει τις μορφές που υποστηρίζει η Ευφυΐα σε πραγματικό χρόνο για την πρόσληψη δεδομένων.
Σημείωμα
Πριν από την πρόσληψη δεδομένων, βεβαιωθείτε ότι τα δεδομένα σας έχουν μορφοποιηθεί σωστά και ότι καθορίζουν τα αναμενόμενα πεδία. Συνιστούμε να χρησιμοποιήσετε την προτιμώμενη επικύρωση για να επιβεβαιώσετε ότι η μορφή είναι έγκυρη. Για παράδειγμα, μπορεί να βρείτε τις παρακάτω επικυρώσεις χρήσιμες για να ελέγξετε αρχεία CSV ή JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Για περισσότερες πληροφορίες σχετικά με τον λόγο αποτυχίας της πρόσληψης δεδομένων, ανατρέξτε στο θέμα Αποτυχίες πρόσληψης.
Μορφοποίηση | Επέκταση | Περιγραφή |
---|---|---|
ApacheAvro | .avro |
Μια μορφή AVRO με υποστήριξη για λογικούς τύπους. Υποστηρίζονται οι ακόλουθοι κωδικοποιητές συμπίεσης: null , deflate και snappy . Η υλοποίηση της apacheavro μορφής από τον αναγνώστη βασίζεται στην επίσημη βιβλιοθήκη Apache Avro. Για πληροφορίες σχετικά με την πρόσληψη αρχείων Avro καταγραφής συμβάντων, ανατρέξτε στο θέμα Αντιστοίχιση σχήματος για αρχεία Avro καταγραφής πλήμνων συμβάντων. |
Avro | .avro |
Μια υλοποίηση παλαιού τύπου για τη μορφή AVRO που βασίζεται σε βιβλιοθήκη .NET. Υποστηρίζονται οι ακόλουθοι κωδικοποιητές συμπίεσης: null , deflate (για snappy - χρήση ApacheAvro μορφής δεδομένων). |
CSV | .csv |
Ένα αρχείο κειμένου με τιμές διαχωρισμένες με κόμματα (, ). Ανατρέξτε στο θέμα RFC 4180: Κοινή μορφή και τύπος MIME για αρχεία τιμών διαχωρισμένων με κόμματα (CSV). |
JSON | .json |
Ένα αρχείο κειμένου με αντικείμενα JSON οριοθετημένα κατά \n ή \r\n . Ανατρέξτε στο θέμα Γραμμές JSON (JSONL). |
MultiJSON | .multijson |
Ένα αρχείο κειμένου με έναν πίνακα ομάδων ιδιοτήτων JSON (κάθε μία αντιπροσωπεύει μια εγγραφή) ή οποιονδήποτε αριθμό ομάδων ιδιοτήτων οριοθετημένων κατά κενό διάστημα, \n ή \r\n . Κάθε τσάντα ιδιότητας μπορεί να απλωθεί σε πολλές γραμμές. Αυτή η μορφή προτιμάται από JSON την , εκτός εάν τα δεδομένα είναι σάκοι χωρίς ιδιότητα. |
ORC | .orc |
Ένα αρχείο ORC. |
Παρκέ | .parquet |
Ένα αρχείο parquet. |
PSV | .psv |
Ένα αρχείο κειμένου με τιμές διαχωρισμένες με διοχετεύσεις (| ). |
ΑΚΑΤΈΡΓΑΣΤΟΣ | .raw |
Ένα αρχείο κειμένου του οποίου ολόκληρα τα περιεχόμενα είναι μια μοναδική τιμή συμβολοσειράς. |
SCsv | .scsv |
Ένα αρχείο κειμένου με τιμές διαχωρισμένες με ερωτηματικό (; ). |
SOHsv | .sohsv |
Ένα αρχείο κειμένου με τιμές διαχωρισμένες με SOH. (SoH είναι το σημείο κώδικα ASCII 1. Αυτή η μορφή χρησιμοποιείται από την Hive στο HDInsight.) |
TSV | .tsv |
Ένα αρχείο κειμένου με τιμές διαχωρισμένες με καρτέλες (\t ). |
TSVE | .tsv |
Ένα αρχείο κειμένου με τιμές διαχωρισμένες με καρτέλες (\t ). Ένας χαρακτήρας ανάστροφης κάθετος (\ ) χρησιμοποιείται για τη διαφυγή. |
TXT | .txt |
Ένα αρχείο κειμένου με γραμμές οριοθετημένες με \n . Παραλείπονται οι κενές γραμμές. |
W3CLOGFILE | .log |
Μορφή αρχείου καταγραφής Web τυποποιημένη από το W3C. |
Σημείωμα
- Η πρόσληψη δεδομένων από συστήματα αποθήκευσης δεδομένων που παρέχουν λειτουργικότητα ACID με βάση τα κανονικά αρχεία μορφής Parquet (π.χ. Apache Iceberg, Apache Hudi) δεν υποστηρίζεται.
- Το Avro χωρίς σχήμα δεν υποστηρίζεται
Υποστηριζόμενες μορφές συμπίεσης δεδομένων
Αντικείμενα blob και αρχεία μπορούν να συμπιεστούν μέσω οποιουδήποτε από τους παρακάτω αλγόριθμους συμπίεσης:
Συμπίεση | Επέκταση |
---|---|
GZip | .gz |
Τ.Κ. | .zip |
Υποδείξτε συμπίεση προσαρτώντας την επέκταση στο όνομα του αντικειμένου blob ή αρχείου.
Για παράδειγμα:
MyData.csv.zip
υποδεικνύει ένα αντικείμενο blob ή ένα αρχείο μορφοποιημένο ως CSV, συμπιεσμένο με ZIP (αρχειοθήκη ή ένα μόνο αρχείο)MyData.json.gz
υποδεικνύει ένα αντικείμενο blob ή ένα αρχείο μορφοποιημένο ως JSON, συμπιεσμένο με GZip.
Υποστηρίζονται επίσης ονόματα αντικειμένων blob ή αρχείων που δεν περιλαμβάνουν τις επεκτάσεις μορφοποίησης, αλλά μόνο συμπίεση (για παράδειγμα, MyData.zip
). Σε αυτήν την περίπτωση, η μορφή αρχείου πρέπει να καθοριστεί ως ιδιότητα πρόσληψης, επειδή δεν μπορεί να συναχθεί.
Σημείωμα
- Ορισμένες μορφές συμπίεσης παρακολουθούν την αρχική επέκταση αρχείου ως μέρος της συμπιεσμένης ροής. Αυτή η επέκταση γενικά παραβλέπεται για τον προσδιορισμό της μορφής αρχείου. Εάν η μορφή αρχείου δεν μπορεί να προσδιοριστεί από το (συμπιεσμένο) όνομα αντικειμένου blob ή αρχείου, πρέπει να καθοριστεί μέσω της
format
ιδιότητας πρόσληψης. - Δεν πρέπει να συγχέεται με τον εσωτερικό κωδικοποιητή συμπίεσης (επίπεδο τμήματος) που χρησιμοποιείται από
Parquet
AVRO
το καιORC
τις μορφές. Το όνομα εσωτερικής συμπίεσης προστίθεται συνήθως σε ένα όνομα αρχείου πριν από την επέκταση μορφής αρχείου, για παράδειγμα:file1.gz.parquet
,file1.snappy.avro
κ.λπ.