Culturomics: análisis cultural cuantitativo a partir de libros digitales

Un conjunto de investigadores e ingenieros, de la Universidad de Harvard, del Instituto de Tecnología de Massachusetts, y de la Escuela de Medicina de Harvard, entre otros, junto con el Google Books Team, ha compilado una series de textos digitales a partir de aproximadamente el 4% de todos los libros jamás impresos.  Analizando todo este material, han investigado cuantitativamente las tendencias culturales.  En particular, han abordado el campo denominado “culturomics”, enfocándose en los fenómenos culturales y lingüisticos que se vieron reflejados en la lengua inglesa entre 1800 y 2000.  Su análisis, realizado a partir de más de 5 millones de libros escaneados para descifrar el “genoma” de la cultura humana al investigar las palabras usadas en cada época, les ha permitido mostrar cómo se pueden observar sucesos acaecidos en campos tan diversos como la lexicografía, la evolución gramatical, la memoria colectiva, la adopción de la tecnología, la fama, la censura, y la epidemiología.

Los investigadores Jean-Baptiste Michel y Erez Lieberman, de la Universidad de Harvard, dedicaron cuatro años a este experimento, y han publicado sus resultados en la revista Science.

Puesto que para cualquier mortal sería imposible leer todos los libros que hay en el mundo, el equipo trató de hacer una aproximación utilizando las nuevas tecnologías.  Para ello, contaron con la ayuda de Google, que como parte de un ambicioso proyecto de digitalización ha escaneado 15 millones de libros, de los que el equipo usó 5.2 millones.

Esto incluye 2 billones de palabras de 15 millones de libros, cerca de 12% de todos los libros publicados desde la Biblia de Gutenberg en 1450. En comparación con el genoma humano es un poema de solo 3 mil millones de letras“, publicó la revista Science.

Los investigadores construyeron una base de datos masiva en la que se presentaba un mapa del contexto y frecuencia de las palabras a través de la historia con la ayuda de Google. La idea es que se puedan hacer investigaciones cuantitativas y aplicar metodologías matemáticas utilizadas en estudios de biología evolutiva al lenguaje.

El artículo muestra numerosos ejemplos de los análisis realizados, y resulta sorprendente cómo pueden extraerse conclusiones a nivel cultural de los análisis numéricos del número de apariciones de una palabra en concreto, de su evolución temporal, de las frecuencias de aparición de las palabras, de la cobertura de vocabulario, etc.

Ver:

 

Leave a Reply

Your email address will not be published. Required fields are marked *