Κοινή χρήση μέσω


Μορφές δεδομένων που υποστηρίζονται από τη ευφυΐα σε πραγματικό χρόνο

Η πρόσληψη δεδομένων είναι η διαδικασία με την οποία τα δεδομένα προστίθενται σε έναν πίνακα και διατίθενται για το ερώτημα στην ευφυΐα σε πραγματικό χρόνο. Για όλες τις μεθόδους πρόσληψης, εκτός από την πρόσληψη από ερώτημα, τα δεδομένα πρέπει να είναι σε μία από τις υποστηριζόμενες μορφές. Ο παρακάτω πίνακας παραθέτει και περιγράφει τις μορφές που υποστηρίζει η Ευφυΐα σε πραγματικό χρόνο για την πρόσληψη δεδομένων.

Σημείωμα

Πριν από την πρόσληψη δεδομένων, βεβαιωθείτε ότι τα δεδομένα σας έχουν μορφοποιηθεί σωστά και ότι καθορίζουν τα αναμενόμενα πεδία. Συνιστούμε να χρησιμοποιήσετε την προτιμώμενη επικύρωση για να επιβεβαιώσετε ότι η μορφή είναι έγκυρη. Για παράδειγμα, μπορεί να βρείτε τις παρακάτω επικυρώσεις χρήσιμες για να ελέγξετε αρχεία CSV ή JSON:

Για περισσότερες πληροφορίες σχετικά με τον λόγο αποτυχίας της πρόσληψης δεδομένων, ανατρέξτε στο θέμα Αποτυχίες πρόσληψης.

Μορφοποίηση Επέκταση Περιγραφή
ApacheAvro .avro Μια μορφή AVRO με υποστήριξη για λογικούς τύπους. Υποστηρίζονται οι ακόλουθοι κωδικοποιητές συμπίεσης: null, deflateκαι snappy. Η υλοποίηση της apacheavro μορφής από τον αναγνώστη βασίζεται στην επίσημη βιβλιοθήκη Apache Avro. Για πληροφορίες σχετικά με την πρόσληψη αρχείων Avro καταγραφής συμβάντων, ανατρέξτε στο θέμα Αντιστοίχιση σχήματος για αρχεία Avro καταγραφής πλήμνων συμβάντων.
Avro .avro Μια υλοποίηση παλαιού τύπου για τη μορφή AVRO που βασίζεται σε βιβλιοθήκη .NET. Υποστηρίζονται οι ακόλουθοι κωδικοποιητές συμπίεσης: null, deflate (για snappy - χρήση ApacheAvro μορφής δεδομένων).
CSV .csv Ένα αρχείο κειμένου με τιμές διαχωρισμένες με κόμματα (,). Ανατρέξτε στο θέμα RFC 4180: Κοινή μορφή και τύπος MIME για αρχεία τιμών διαχωρισμένων με κόμματα (CSV).
JSON .json Ένα αρχείο κειμένου με αντικείμενα JSON οριοθετημένα κατά \n ή \r\n. Ανατρέξτε στο θέμα Γραμμές JSON (JSONL).
MultiJSON .multijson Ένα αρχείο κειμένου με έναν πίνακα ομάδων ιδιοτήτων JSON (κάθε μία αντιπροσωπεύει μια εγγραφή) ή οποιονδήποτε αριθμό ομάδων ιδιοτήτων οριοθετημένων κατά κενό διάστημα, \n ή \r\n. Κάθε τσάντα ιδιότητας μπορεί να απλωθεί σε πολλές γραμμές. Αυτή η μορφή προτιμάται από JSONτην , εκτός εάν τα δεδομένα είναι σάκοι χωρίς ιδιότητα.
ORC .orc Ένα αρχείο ORC.
Παρκέ .parquet Ένα αρχείο parquet.
PSV .psv Ένα αρχείο κειμένου με τιμές διαχωρισμένες με διοχετεύσεις (|).
ΑΚΑΤΈΡΓΑΣΤΟΣ .raw Ένα αρχείο κειμένου του οποίου ολόκληρα τα περιεχόμενα είναι μια μοναδική τιμή συμβολοσειράς.
SCsv .scsv Ένα αρχείο κειμένου με τιμές διαχωρισμένες με ερωτηματικό (;).
SOHsv .sohsv Ένα αρχείο κειμένου με τιμές διαχωρισμένες με SOH. (SoH είναι το σημείο κώδικα ASCII 1. Αυτή η μορφή χρησιμοποιείται από την Hive στο HDInsight.)
TSV .tsv Ένα αρχείο κειμένου με τιμές διαχωρισμένες με καρτέλες (\t).
TSVE .tsv Ένα αρχείο κειμένου με τιμές διαχωρισμένες με καρτέλες (\t). Ένας χαρακτήρας ανάστροφης κάθετος (\) χρησιμοποιείται για τη διαφυγή.
TXT .txt Ένα αρχείο κειμένου με γραμμές οριοθετημένες με \n. Παραλείπονται οι κενές γραμμές.
W3CLOGFILE .log Μορφή αρχείου καταγραφής Web τυποποιημένη από το W3C.

Σημείωμα

  • Η πρόσληψη δεδομένων από συστήματα αποθήκευσης δεδομένων που παρέχουν λειτουργικότητα ACID με βάση τα κανονικά αρχεία μορφής Parquet (π.χ. Apache Iceberg, Apache Hudi) δεν υποστηρίζεται.
  • Το Avro χωρίς σχήμα δεν υποστηρίζεται

Υποστηριζόμενες μορφές συμπίεσης δεδομένων

Αντικείμενα blob και αρχεία μπορούν να συμπιεστούν μέσω οποιουδήποτε από τους παρακάτω αλγόριθμους συμπίεσης:

Συμπίεση Επέκταση
GZip .gz
Τ.Κ. .zip

Υποδείξτε συμπίεση προσαρτώντας την επέκταση στο όνομα του αντικειμένου blob ή αρχείου.

Για παράδειγμα:

  • MyData.csv.zip υποδεικνύει ένα αντικείμενο blob ή ένα αρχείο μορφοποιημένο ως CSV, συμπιεσμένο με ZIP (αρχειοθήκη ή ένα μόνο αρχείο)
  • MyData.json.gz υποδεικνύει ένα αντικείμενο blob ή ένα αρχείο μορφοποιημένο ως JSON, συμπιεσμένο με GZip.

Υποστηρίζονται επίσης ονόματα αντικειμένων blob ή αρχείων που δεν περιλαμβάνουν τις επεκτάσεις μορφοποίησης, αλλά μόνο συμπίεση (για παράδειγμα, MyData.zip). Σε αυτήν την περίπτωση, η μορφή αρχείου πρέπει να καθοριστεί ως ιδιότητα πρόσληψης, επειδή δεν μπορεί να συναχθεί.

Σημείωμα

  • Ορισμένες μορφές συμπίεσης παρακολουθούν την αρχική επέκταση αρχείου ως μέρος της συμπιεσμένης ροής. Αυτή η επέκταση γενικά παραβλέπεται για τον προσδιορισμό της μορφής αρχείου. Εάν η μορφή αρχείου δεν μπορεί να προσδιοριστεί από το (συμπιεσμένο) όνομα αντικειμένου blob ή αρχείου, πρέπει να καθοριστεί μέσω της format ιδιότητας πρόσληψης.
  • Δεν πρέπει να συγχέεται με τον εσωτερικό κωδικοποιητή συμπίεσης (επίπεδο τμήματος) που χρησιμοποιείται από ParquetAVRO το και ORC τις μορφές. Το όνομα εσωτερικής συμπίεσης προστίθεται συνήθως σε ένα όνομα αρχείου πριν από την επέκταση μορφής αρχείου, για παράδειγμα: file1.gz.parquet, file1.snappy.avroκ.λπ.