Googlear se matematiza

publicado el 16 de enero de 2011 en «Milenio Diario»
columna: «se descubrió que...»

 

Sería raro el usuario de computadora e internet que no haya googleado un tema o nombre. Lo que antes hacíamos buscando en el índice de la Británica que nos enviaba al tomo n de la Micropaedia y allí nos informaban que buscáramos en los tomos 20, 23, 28 y 29 de la Macropaedia, ahora una entrada a Google nos da la información básica y marca en azul entradas relacionadas: la biblioteca sin fin de Borges o su Jardín de los senderos que se bifurcan: puede uno perderse horas sin el riesgo de hacer torres con la valiosa Británica que luego podían derrumbarse y así perdíamos la página abierta.

Los matemáticos Jean-Baptiste Michel y Erez Lieberman emplearon "un corpus de textos digitalizados que contienen cerca de un 4 por ciento de todos los libros algunas vez impresos. Investigamos el vasto territorio de la ‘culturomics’ [neologismo acuñado con culture y economics]. Nos enfocamos en los fenómenos culturales y lingüísticos que se han reflejado en el idioma inglés entre los años 1800 y 2000."

Los libros digitalizados por escaneo fueron 5 millones 195 mil 769. Así procesados permitieron seguir la evolución de la gramática, lexicografía, memoria colectiva, adopción de tecnologías, censura y por supuesto epidemias. La investigación aparece en el último número de Science.

El resumen previo que ofrece John Bohannon da un ejemplo de cómo puede emplearse tan enorme cantidad de información. Michel y Lieberman, de Harvard, revisaron el período de censura nazi que comenzó con las festivas hogueras de libros y no terminó sino con la derrota del régimen de Hitler. Por supuesto, fueron pasto de las llamas entre cánticos y borracheras las obras de judíos: todo Marx, Einstein, Freud y otros cientos. Los matemáticos rastrearon, en esos millones de libros digitalizados, el surgimiento y desaparición de nombres, así identificaron a los censurados con renombre y autores cuya desaparición no fue registrada.

Por supuesto no leyeron esos millones de libros, hicieron un análisis cuantitativo de datos obtenidos de los libros Google, observa Bohannon. Anthony Grafton, historiador de Princeton señala que la técnica es "un nuevo punto de partida" para el análisis histórico: "Es asombroso que puedas obtener una imagen coherente de la censura en el ámbito público".

El corpus resultante fue de 500 mil millones de palabras en inglés, francés, español, alemán, chino, ruso y hebreo, en ese orden descendente según su número. Los libros más antiguos digitalizados fueron los del siglo XVI, el siglo en que la recién inventada imprenta puso al alcance de mucha gente libros antes manuscritos. Así renacieron el heliocentrismo de Aristarco, la geometría de Euclides, la medición del planeta por Eratóstenes y se difundieron los entonces nuevos estudios de Galileo y Kepler.

Las primeras décadas están representadas por unos pocos libros al año. Hacia 1800 hay 98 millones de palabras por año, casi 2 mil millones en 1900 y 11 mil millones en el año 2000. Esto me recuerda un título de Gabriel Zaid: Los demasiados libros.

Sin duda, ese corpus no puede ser leído por un ser humano. Así que el análisis debe hacerse con métodos computarizados. Por ejemplo: llamaron 1-gramo a la serie de caracteres no interrumpidas por un espacio. Luego vienen las secuencias de n-gramos que incluyen n secuencias ininterrumpidas, por ejemplo "the United States of America" es una secuencia 5-gramos.

Uno de los mayores retos fue extraer nombres de personas de entre esos 500 mil millones de palabras. Adrian Veres, uno de los co-autores, químico y físico de Harvard, ha estado empleando Wikipedia "para analizar la fama de científicos cuyos nombres aparecen en libros a través de los siglos. Comenzó por crear un algoritmo para explorar en Wikipedia palabras clave como biólogo, químico, físico, y otras que identifican a la gente en subgrupos como ecología, fisiología y genética.

Un buen ejemplo de cambio semántico a través de los años es que la frecuencia "Gran Guerra" alcanza su pico entre 1915 y 1941, cuando no hay sino una guerra mundial. Después de 1945 se incrementan las menciones de esa misma Gran Guerra ya como Primera Guerra Mundial, pues ya hay una Segunda.

Vea.

Si quiere sexo, no llore

Hace unos años, unos pescadores peruanos decidieron destrozar su valiosa red para liberar una ballena atrapada cuando la vieron "llorar" ante la decisión de matarla. Pero las lágrimas por emociones, poco estudiadas, se consideran exclusivas de los humanos.

Un equipo del Instituto Weizmann en Israel ha descubierto que son señales químicas. Las lágrimas donadas por mujeres fueron dadas a oler a hombres mientras veían imágenes femeninas. Después de esnifar lágrimas de mujer, los hombres redujeron el atractivo sexual de las imágenes y bajaron sus niveles de testosterona. Con resonancia magnética se encontró que la actividad cerebral en sustratos de excitación sexual había disminuido.

Vea.

 

la talacha fue realizada por: eltemibledani

0 animados a opinar:

 

 

ÍNDICE DEL BLOG

milenio diario

la crónica de hoy

la jornada

revistas

misceláneo

 

etiquetas:


pasaron por aquí


la plantilla de este blog es el "pizarrin" donde, durante sus ratos de ocio, eltemibledani hace sus pininos modificando el xhtml fuente.

páginas vistas

desquehacerados