Paquet MITIE pour R
Les fonctionnalités de MITIE peuvent être utilisées dans l'environnement de calcul statistique R.
Les utilisateurs de Linux peuvent télécharger (ou créer) le paquet source MITIE depuis le site de sourceforge, puis installer le paquet dans R à partir de la source.
Les utilisateurs de Windows doivent télécharger le paquet binaire pré-construit et l'installer via une interface utilisateur graphique R.
Création du paquet source
Le paquet source MITIE est disponible en téléchargement. Cependant, il peut être empaqueté en suivant les étapes suivantes.
En commençant dans le dossier MITIE de niveau supérieur, exécutez les commandes :
cd tools/R-binding ./copy_source.sh ./build_source_package.sh |
Cela créera un paquet source MITIE_{version}.tar.gz.
Installation du paquet source MITIE (Linux/Mac)
Remarque : ce qui suit nécessite l'installation des outils de développement R, par exemple le paquet r-base-dev sur Ubuntu.
Étape 1 : installer les dépendances MITIE.
MITIE dépend du paquet Rcpp pour intégrer C++ à R. Rcpp peut être installé à l'aide d'un gestionnaire de paquets GUI ou de la commande R :
install.packages("Rcpp") |
Étape 2 : créez ou téléchargez le dernier paquet source MITIE.
Étape 3 : à partir de la ligne de commande Linux, exécutez :
R CMD INSTALL MITIE_{version}.tar.gz |
Installation du paquet binaire MITIE (Windows)
Le paquet MITIE peut être installé à partir de la source sous Windows si Rtools est installé. Cependant, des binaires Windows précompilés sont également disponibles (et plus pratiques).
Étape 1 : Installer les dépendances MITIE.
MITIE dépend du paquet Rcpp pour intégrer C++ à R. Rcpp peut être installé à l'aide d'un gestionnaire de paquets GUI ou de la commande R :
install.packages("Rcpp") |
Étape 2 : téléchargez du site de sourceforge le dernier paquets binaire Windows, ayant été créé avec la version 3.1 de R.
Étape 3 : utilisez le gestionnaire de paquets de l'interface graphique pour installer le paquet à partir du fichier zip local. Par exemple, dans RGui, sélectionnez «Packages» / «Install package(s) from local zip files...» et accédez à MITIE_{version}.zip pour installer le package.
Utilisation de MITIE depuis R
MITIE nécessite des fichiers de modèles entraînés pour effectuer l'extraction d'entités nommées, l'extraction de relations binaires,... Des modèles pour l'anglais et l'espagnol sont actuellement disponibles : MITIE-models-v0.2.tar.bz2 et MITIE-models-v0.2-Spanish.zip.
La session R suivante montre comment effectuer l'extraction d'entités nommées.
library(MITIE) help(MITIE) # Load named entity extractor from disk # NOTE: models can be downloaded from http://sourceforge.net/projects/mitie/files/binaries/ # NOTE: change this path to point to where your model files are ner_model_path <- "C:/MITIE-models/english/ner_model.dat" ner <- NamedEntityExtractor$new(ner_model_path) # Print out what kind of tags this tagger can predict tag_names <- ner$get_possible_ner_tags() tag_names # [1] "PERSON" "LOCATION" "ORGANIZATION" "MISC" # Prepare some data tokens <- mitie_tokenize("Bill Gates was born in Seattle, Washington. Bill used to be the CEO of Microsoft.") tokens # [1] "Bill" "Gates" "was" "born" "in" # [6] "Seattle" "," "Washington" "." "Bill" # [11] "used" "to" "be" "the" "CEO" # [16] "of" "Microsoft" "." # Extract entities entities <- ner$extract_entities(tokens) for (i in 1:length(entities)) { entity = entities[[i]] position = paste("(", entity$start, ",", entity$end, ")", sep="") text = paste(tokens[entity$start:entity$end], collapse=" ") print(paste(text, "/", tag_names[entity$tag], "@", position)) } # [1] "Bill Gates / PERSON @ (1,2)" # [1] "Seattle / LOCATION @ (6,6)" # [1] "Washington / LOCATION @ (8,8)" # [1] "Bill / PERSON @ (10,10)" # [1] "Microsoft / ORGANIZATION @ (17,17)" |