ΕΡΓΑΛΕΙΑ ΤΟΥ UNIX ΓΙΑ ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΑΠΟ TEXT ΑΡΧΕΙΑ

Εργασία των φοιτητών Νίτσου Η. και Γραμματικού Κ.


To Unix προσφέρει ένα σύνολο από χρήσιμα εργαλεία για την εκτέλεση διάφορων ενεργειών σε text αρχεία, προκειμένου να οργανωθούν οι πληροφορίες που περιέχουν κατά τρόπο τέτοιο, που να βοηθά το χρήστη στην εξαγωγή πολύτιμων συμπερασμάτων. Παρακάτω αναφέρονται τα εργαλεία αυτά μαζί με μια σύντομη περιγραφή της λειτουργίας τους, καθώς και link για κάθε εργαλείο σε περισσότερες λεπτομέρειες και παραδείγματα. Στα παραδείγματα συχά χρησιμοποιούνται για την επίλυση κάποιων προβλημάτων, η μέθοδος της διασωλήνωσης (pipe, η οποία συμβολίζεται με το χαρακτήρα |) και η μέθοδος της ανακατεύθυνσης (redirection, η οποία συμβολίζεται με το χαρακτήρα >). Η μέθοδος της διασωλήνωσης επιτρέπει σε μια εντολή την επεξεργασία ενός αποτελέσματος, το οποίο προήλθε από προηγούμενη εντολή. Για παράδειγμα στην εντολή sort ... | grep ... , η sort επεξεργάζεται το αποτέλεσμα που προέκυψε από την εκτέλεση της grep σε κάποια αρχεία. Η μέθοδος της ανακατεύθυνσης επιτρέπει στο αποτέλεσμα να οδηγηθεί κάπου αλλου και όχι στο standard output.

Grep : Η εντολή grep χρησιμοποιείται για την αναζήτηση κειμένου σε αρχεία ή το standard input, αν δεν έχει δηλωθεί κάποιο αρχείο και εμφανίζει το αποτέλεσμα στο standard output, που συνήθως είναι η οθόνη, ή όπου αλλού υποδειχθεί με τη βοήθεια του redirection. Το κείμενο που αναζητάται μπορεί να είναι είτε μια ολόκληρη λέξη, είτε διάφοροι και διαφορετικοί συνδυασμοί γραμμάτων με τη βοήθεια των regular expressions.

Uniq : Η εντολή Uniq διαβάζει από ένα αρχείο κειμένου από το οποίο παίρνει τα δεδομένα, συγκρίνει διαδοχικές γραμμές, αφαιρεί τη δεύτερη και τις επόμενες επαναλήψεις μιας γραμμής και εμφανίζει το αποτέλεσμα στο standard output.

Cut : Η εντολή cut εντοπίζει τα πεδία που έχουν οριστεί σε κάθε γραμμή του αρχείου δεδομένων και εμφανίζει τους χαρακτήρες των πεδίων αυτών στο standard output.

Comm : Η εντολή comm διαβάζει από δύο αρχεία εισόδου και εμφανίζει στο αποτέλεσμα τρεις στήλες, δείχνοντας έτσι ποιες στήλες είναι κοινές για τα δύο αρχεία και ποιες μοναδικές σε κάθε αρχείο. Συγκεκριμένα η πιο αριστερή στήλη συμπεριλαμβάνει τις γραμμές που είναι μοναδικές στο πρώτο αρχείο, η μεσαία αυτές που είναι μοναδικές στο δεύτερο αρχείο και οι τρίτη τις κοινές των δύο αρχείων.

Join : Η Join διαβάζει από δύο αρχεία εισόδου και ενώνει τις γραμμές των δύο αρχείων, οι οποίες περιέχουν κοινά πεδία, εμφανίζοντας τα αποτελέσματα στο standard output.

Wc : Η wc μετρά και εμφανίζει ως αποτέλεσμα το πλήθος των γραμμών, των λέξεων και των χαρακτήρων ή των bytes για κάθε αρχείο, το οποίο δίνεται ως είσοδος, καθώς και συνολικά αποτελέσματα για όλα τα αρχεία.

Sort : Η εντολή sort ταξινομεί τις γραμμές των αρχείων εισόδου και τις εμφανίζει στο standard output.

Tr : Η εντολή tr αντιγράφει χαρακτήρες από το standard input στο standard output, με αντικατάσταση ή διαγραφή των χαρακτήρων που έχουν επιλεγεί.

Paste : Η εντολή paste ενώνει αντίστοιχες γραμμές σε διάφορα αρχεία ή συνεχόμενες γραμμές σε ένα αρχείο.

Rev : Αντιστρέφει ένα string δηλαδή το διαβάζει ανάποδα σε κάθε γραμμή του αρχείου εισόδου και γράφει το αποτέλεσμα στο standard output.

Sed : Το εργαλείο sed είναι ένας editor, που παίρνει δεδομένα από ένα ή περισσότερα text files, κάνει αλλαγές ανάλογα με τις εντολές που έχουν καθοριστεί κατά την εκτέλεση της εντολής και στέλνει τα αποτελέσματα στο standard output.

Awk και συνδυασμός των εργαλείων του Unix : Η εντολή awk εκτελεί προγράμματα της γλώσσας προγραμματισμού awk και αποτελεί ένα ισχυρό εργαλείο για την εκμετάλλευση των πληροφοριών που μπορούν να προέλθουν από διάφορα αρχεία κειμένου. Ένα πρόγραμμα awk είναι μια ακολουθία από ενέργειες πάνω σε καθαρό κείμενο. Η εντολή awk είναι πιο ισχυρή για την εκμετάλλευση text αρχείων σε σύγκριση με τη sed και την grep.