Biblioguías UCM: HathiTrust Digital Library: guía básica: Algoritmos

Algoritmos

Los algoritmos HTRC son herramientas basadas en la web para realizar análisis de texto computacional para documentos presentes en la biblioteca digital HathiTrust. Los algoritmos permiten explorar analizar y visualizar worksets públicos o creados por el usuario.

Para ejecutar las siguientes herramientas debe estar validado en HTRC Analytics

Extracted Features Download Helper (v3.1)

Genera una secuencia de comandos que le permite descargar archivos de funciones extraídas de HTRC para el Workset que elija. El script es un archivo que contiene una lista de los comandos rsync para acceder a los documentos del Workset. Después de descargar el script de HTRC Analytics, se puede ejecutar localmente (desde su ordenador), que luego descargará los archivos de características extraídas a su ordenador a través de rsync.

InPhO Topic Model Explorer (v1.0b225)

El Explorador de temas de InPho entrena múltiples modelos de temas LDA y le permite exportar archivos que contienen las distribuciones palabra-tema y tema-documento, junto con una visualización interactiva. Para obtener una descripción completa y detallada, consulte la documentación. Se puede ejecutar en subproyectos de menos de 3000 volúmenes, siempre que el tamaño total del subproyecto sea inferior a 3 GB.

Named Entity Recognizer (v2.0)

Genere una lista de todos los nombres de personas y lugares, así como fechas, horas, porcentajes y términos económicos que se encuentran en un Workset. Puede elegir qué entidades desea extraer. Se puede ejecutar en subproyectos de menos de 3000 volúmenes, siempre que el tamaño total del subproyecto sea inferior a 3 GB.

Token Count and Tag Cloud Creator (v2.0)

Identifique los tokens (palabras) que ocurren con más frecuencia en un Workset y la cantidad de veces que aparecen. Cree una visualización de nube de etiquetas de las palabras que aparecen con más frecuencia en un Workset, donde el tamaño de la palabra se muestra en proporción a la cantidad de veces que aparece. Se puede ejecutar en subproyectos de menos de 3000 volúmenes, siempre que el tamaño total del subproyecto sea inferior a 3 GB.