Analisi testuali

Definizione:

Il Text mining – in italiano, analisi testuale – designa l’insieme di tecniche che permettono l’estrazione automatica di informazioni a partire da un corpus di documenti testuali.

Utilizzo:

A un livello elementare, questi strumenti aiutano ad ottenere in maniera rapida un quadro generale sul contenuto di un testo o di un insieme di testi, o ad estrarre le principali parole chiave. Per farsi un’idea delle potenzialità del Text mining, si veda ad esempio Shakespeare Searched.

Nota per gli utilizzatori:
Seppure negli ultimi anni gli strumenti di Text mining si siano moltiplicati, la maggior parte di essi richiede ancora un investimento considerevole in termini di tempo per acquisire una certa dimestichezza. Esistono però anche strumenti di più facile impiego, disponibili direttamente in linea, che permettono di farsi un’idea delle potenzialità di questi strumenti, prima di approfondirne l’uso. Si veda anche la rubrica Nuvole di parole.

Google Ngram Viewer
Strumento semantico che permette di visualizzare in forma grafica la frequenza di apparizione di una parola all’interno del corpus di Google Books.

Textalyser
Classifica per frequenza di apparizione le parole o i gruppi di parole di un testo. Sono disponibili “stoplist” (ovvero delle liste di parole che vengono escluse dal conteggio perché non portatrici di valore semantico, come ad esempio gli articoli o le preposizioni) in inglese e francese.

Hyperpo
Permette di analizzare numerosi testi simultaneamente. Elenca anche i contesti di apparizione delle parole (strumento “KWIC”, Keyword in context). Disponibile in inglese e francese.

Tapor
Portale che raggruppa diversi strumenti di analisi del testo. Si veda anche il portale Tada (Text Analysis Developper Alliance) che fornisce dei tutorial.

Textable
Permette di creare visivamente catene di elaborazione dati testuali.

In italiano:

NelSenso
Fornisce una serie di strumenti in italiano per l’analisi testuale, tra cui IRizer, che consente l’estrazione automatica delle parole chiave, Summazer, che genera la sintesi di un testo, e Clustezer, in grado di classificare frasi o stringhe di testo.

GriseldaOnline
Questa sezione del sito di GriseldaOnline dedicato all'informatica umanistica presenta alcuni classici della letteratura italiana sottoposti a diversi procedimenti di analisi testuale.

Per approfondire:

Una lista di strumenti per l’analisi testuale.