Sistema de datos astrofísicos - Astrophysics Data System

Sistema de datos astrofísicos
ADS logo.png
Logotipo de los ADS
Productor Centro Harvard-Smithsonian de Astrofísica para la Administración Nacional de Aeronáutica y del Espacio (Estados Unidos)
Historia 1992 al presente
Acceso
Costo Libre
Cobertura
Disciplinas Astronomía y Física
Profundidad de registro Índice y resumen y texto completo
Cobertura geoespacial Mundial
Enlaces
Sitio web http://www.adsabs.harvard.edu/

El sistema de datos de Astrofísica ( ADS ) es una base de datos en línea de más de ocho millones de astronomía y física de los papeles de ambos revisados por pares fuentes y no revisados por pares. Los resúmenes están disponibles en línea gratis para casi todos los artículos, y los artículos escaneados completos están disponibles en formato de intercambio de gráficos (GIF) y formato de documento portátil (PDF) para artículos más antiguos. Fue desarrollado por la Administración Nacional de Aeronáutica y del Espacio (NASA) y es administrado por el Centro Harvard-Smithsonian de Astrofísica .

ADS es una poderosa herramienta de investigación y ha tenido un impacto significativo en la eficiencia de la investigación astronómica desde su lanzamiento en 1992. Las búsquedas de literatura que antes tomaban días o semanas ahora se pueden realizar en segundos a través del motor de búsqueda ADS, que es construido a medida para necesidades astronómicas. Los estudios han encontrado que el beneficio para la astronomía del ADS es equivalente a varios cientos de millones de dólares estadounidenses al año, y se estima que el sistema ha triplicado el número de lectores de revistas astronómicas.

El uso de ADS es casi universal entre los astrónomos de todo el mundo y, por lo tanto, las estadísticas de uso de ADS se pueden utilizar para analizar las tendencias globales en la investigación astronómica. Estos estudios han revelado que la cantidad de investigación que realiza un astrónomo está relacionada con el producto interno bruto (PIB) per cápita del país en el que se encuentra, y que el número de astrónomos en un país es proporcional al PIB. de ese país, por lo que la cantidad total de investigación realizada en un país es proporcional al cuadrado de su PIB dividido por su población.

Historia

Durante muchos años, un problema creciente en la investigación astronómica (como en otras disciplinas académicas) fue que el número de artículos publicados en las principales revistas astronómicas aumentaba constantemente, lo que significa que los astrónomos podían leer cada vez menos los últimos hallazgos de la investigación. Durante la década de 1980, los astrónomos vieron que las tecnologías nacientes que formaron la base de Internet podrían eventualmente usarse para construir un sistema electrónico de indexación de trabajos de investigación astronómica que permitiría a los astrónomos mantenerse al tanto de una gama mucho mayor de investigaciones.

La primera sugerencia de una base de datos de resúmenes de artículos de revistas se hizo en una conferencia sobre astronomía de grandes bases de datos celebrada en Garching bei München en 1987. El desarrollo inicial de un sistema electrónico para acceder a resúmenes astrofísicos tuvo lugar durante los dos años siguientes; en 1991 se discutieron cómo integrar ADS con la base de datos SIMBAD , que contiene todas las designaciones de catálogo disponibles para objetos fuera del sistema solar , para crear un sistema donde los astrónomos pudieran buscar todos los artículos escritos sobre un objeto dado.

Una versión inicial de ADS, con una base de datos que consta de 40 artículos, se creó como prueba de concepto en 1988, y la base de datos ADS se conectó con éxito con la base de datos SIMBAD en el verano de 1993. Los creadores creían que este era el primer uso de Internet para permitir la consulta simultánea de bases de datos científicas transatlánticas. Hasta 1994, el servicio estaba disponible a través de software de red propietario, pero se transfirió a la naciente World Wide Web a principios de ese año. El número de usuarios del servicio se cuadruplicó en las cinco semanas posteriores a la introducción del servicio basado en web ADS.

Al principio, los artículos de revistas disponibles a través de ADS eran mapas de bits escaneados creados a partir de las revistas en papel, pero a partir de 1995, Astrophysical Journal comenzó a publicar una edición en línea, seguida pronto por otras revistas principales como Astronomy and Astrophysics y Monthly. Avisos de la Royal Astronomical Society . ADS proporcionó enlaces a estas ediciones electrónicas desde su primera aparición. Desde aproximadamente 1995, el número de usuarios de ADS se ha duplicado aproximadamente cada dos años. ADS ahora tiene acuerdos con casi todas las revistas astronómicas, que suministran resúmenes. Los artículos escaneados de principios del siglo XIX están disponibles a través del servicio, que ahora contiene más de ocho millones de documentos. El servicio se distribuye en todo el mundo, con doce sitios espejo en doce países de los cinco continentes, con la base de datos sincronizada mediante actualizaciones semanales utilizando rsync , una utilidad de duplicación que permite actualizar solo las partes de la base de datos que han cambiado. Todas las actualizaciones se activan de forma centralizada, pero inician scripts en los sitios espejo que "extraen" datos actualizados de los principales servidores ADS.

Datos en el sistema

1284 artículos sobre M101 están disponibles a través de ADS, desde 1850.

Los artículos se indexan dentro de la base de datos por su registro bibliográfico, que contiene los detalles de la revista en la que se publicaron y varios metadatos asociados , como listas de autores, referencias y citas . Originalmente, estos datos se almacenaban en formato ASCII , pero eventualmente las limitaciones de esto alentaron a los encargados de la base de datos a migrar todos los registros a un formato XML (Lenguaje de marcado extensible) en 2000. Los registros bibliográficos ahora se almacenan como un elemento XML, con subelementos para los diversos metadatos.

Desde el advenimiento de las ediciones en línea de las revistas, los resúmenes se cargan en el ADS en la fecha de publicación de los artículos o antes, con el texto completo de la revista disponible para los suscriptores. Se han escaneado los artículos más antiguos y se ha creado un resumen utilizando un software de reconocimiento óptico de caracteres . Los artículos escaneados de antes de aproximadamente 1995 suelen estar disponibles de forma gratuita, previo acuerdo con los editores de revistas.

Los artículos escaneados se almacenan en formato TIFF , tanto en resolución media como alta . Los archivos TIFF se convierten bajo demanda en archivos GIF para verlos en pantalla y archivos PDF o PostScript para imprimir. Los archivos generados se almacenan en caché para eliminar las regeneraciones innecesariamente frecuentes de artículos populares. A partir de 2000, ADS contenía 250 GB de escaneos, que consistían en 1.128.955 páginas de artículos que comprenden 138.789 artículos. En 2005, había aumentado a 650 GB y se espera que aumente aún más, a unos 900 GB en 2007. No se ha publicado más información.

La base de datos contenía inicialmente solo referencias astronómicas, pero ahora ha crecido para incorporar tres bases de datos, que cubren referencias de astronomía (incluidas ciencias planetarias y física solar), referencias de física (incluidas instrumentación y geociencias), así como preimpresiones de artículos científicos de arXiv . La base de datos de astronomía es, con mucho, la más avanzada y su uso representa aproximadamente el 85% del uso total de ADS. Los artículos se asignan a las diferentes bases de datos según el tema en lugar de la revista en la que se publican, de modo que los artículos de cualquier revista pueden aparecer en las tres bases de datos de temas. La separación de las bases de datos permite personalizar la búsqueda en cada disciplina, de modo que a las palabras se les pueden asignar automáticamente diferentes funciones de ponderación en diferentes búsquedas de bases de datos, dependiendo de qué tan comunes sean en el campo relevante.

Los datos del archivo de preimpresiones se actualizan diariamente desde arXiv , el principal depósito de preprints de física y astronomía. El advenimiento de los servidores de preimpresión ha tenido, como ADS, un impacto significativo en la tasa de investigación astronómica, ya que los artículos a menudo se ponen a disposición de los servidores de preimpresión semanas o meses antes de que se publiquen en las revistas. La incorporación de preprints de arXiv en ADS significa que el motor de búsqueda puede devolver la investigación más actualizada disponible, con la salvedad de que los preprints pueden no haber sido revisados ​​por pares o corregidos según el estándar requerido para su publicación en las principales revistas. La base de datos de ADS vincula los preprints con los artículos publicados posteriormente siempre que sea posible, de modo que las búsquedas de citas y referencias devuelvan enlaces al artículo de la revista donde se citó el preprint.

Software y hardware

El software se ejecuta en un sistema que fue escrito específicamente para él, lo que permite una amplia personalización para necesidades astronómicas que no habría sido posible con un software de base de datos de propósito general . Los scripts están diseñados para ser tan independientes de la plataforma como sea posible, dada la necesidad de facilitar la duplicación en diferentes sistemas alrededor del mundo, aunque el uso creciente de Linux como el sistema operativo de elección dentro de la astronomía ha llevado a una optimización cada vez mayor de los scripts para su instalación en esa plataforma.

El servidor ADS principal se encuentra en el Centro Harvard-Smithsonian de Astrofísica en Cambridge, Massachusetts , y es un servidor Intel X86 dual de 64 bits con dos CPU de cuatro núcleos a 3,0 GHz y 32 GB de RAM , que ejecuta la distribución de Linux CentOS 5.4 . Los espejos se encuentran en Brasil, China, Chile, Francia, Alemania, India, Indonesia, Japón, Rusia, Corea del Sur, Reino Unido y Ucrania.

Indexación

Actualmente, ADS recibe resúmenes o tablas de contenido de casi doscientas fuentes de revistas. El servicio puede recibir datos referentes al mismo artículo de múltiples fuentes y crea una referencia bibliográfica basada en los datos más precisos de cada fuente. El uso común de TeX y LaTeX por casi todas las revistas científicas facilita enormemente la incorporación de datos bibliográficos en el sistema en un formato estandarizado, y la importación de artículos basados ​​en web codificados en HTML también es simple. ADS utiliza scripts de Perl para importar, procesar y estandarizar datos bibliográficos.

La tarea aparentemente mundana de convertir los nombres de los autores en un formato de apellido , inicial estándar es en realidad uno de los más difíciles de automatizar, debido a la amplia variedad de convenciones de nomenclatura en todo el mundo y a la posibilidad de que un nombre como Davis podría ser el primero. nombre , segundo nombre o apellido. La conversión precisa de nombres requiere un conocimiento detallado de los nombres de los autores activos en astronomía, y ADS mantiene una extensa base de datos de nombres de autores, que también se utiliza para buscar en la base de datos (ver más abajo).

En el caso de los artículos electrónicos, se puede extraer fácilmente una lista de las referencias que se dan al final del artículo. Para los artículos escaneados, la extracción de referencias se basa en OCR. La base de datos de referencia se puede "invertir" para enumerar las citas de cada artículo en la base de datos. Las listas de citas se han utilizado en el pasado para identificar artículos populares que faltan en la base de datos; la mayoría eran anteriores a 1975 y ahora se han añadido al sistema.

Cobertura

La base de datos contiene ahora más de ocho millones de artículos. En los casos de las principales revistas de astronomía ( Astrophysical Journal , Astronomical Journal , Astronomy and Astrophysics , Publications of the Astronomical Society of the Pacific y Monthly Notices of the Royal Astronomical Society ), la cobertura es completa, con todos los números indexados desde el número 1. al presente. Estas revistas representan aproximadamente dos tercios de los artículos en la base de datos, y el resto consiste en artículos publicados en más de 100 revistas de todo el mundo, así como en actas de congresos.

Si bien la base de datos contiene el contenido completo de todas las revistas principales y también de muchas menores, su cobertura de referencias y citas es mucho menos completa. Las referencias y citas de artículos en las principales revistas son bastante completas, pero referencias como "comunicación privada", "en prensa" o "en preparación" no pueden coincidir, y los errores de autor en las listas de referencias también introducen errores potenciales. Los artículos astronómicos pueden citar y ser citados por artículos en revistas que quedan fuera del alcance de ADS, como revistas de química , matemáticas o biología .

Buscador

Un ejemplo de una búsqueda compleja que combina consultas de objetos, títulos y abstractos con un filtro de fechas

Desde sus inicios, ADS ha desarrollado un motor de búsqueda muy complejo para consultar las bases de datos abstractas y de objetos. El motor de búsqueda está hecho a medida para buscar resúmenes astronómicos, y el motor y su interfaz de usuario asumen que el usuario está bien versado en astronomía y es capaz de interpretar los resultados de búsqueda que están diseñados para devolver más que los artículos más relevantes. Se pueden consultar en la base de datos los nombres de los autores, los nombres de los objetos astronómicos , las palabras del título y las palabras del texto del resumen, y los resultados se pueden filtrar de acuerdo con varios criterios. Funciona reuniendo primero sinónimos y simplificando los términos de búsqueda como se describe anteriormente, y luego generando un "archivo invertido", que es una lista de todos los documentos que coinciden con cada término de búsqueda. La lógica y los filtros seleccionados por el usuario se aplican luego a esta lista invertida para generar los resultados finales de la búsqueda.

Consultas de nombre de autor

El sistema indexa los nombres de los autores por apellido e iniciales, y tiene en cuenta las posibles variaciones en la ortografía de los nombres mediante una lista de variaciones. Esto es común en el caso de nombres que incluyen acentos como diéresis y transliteraciones del alfabeto árabe o cirílico . Un ejemplo de una entrada en la lista de sinónimos de autor es:

AFANASJEV, V
AFANAS'EV, V
AFANAS'IEV, V
AFANASEV, V
AFANASYEV, V
AFANS'IEV, V
AFANSEV, V

Búsquedas de nombre de objeto

La capacidad de buscar artículos sobre objetos astronómicos específicos es una de las herramientas más poderosas de ADS. El sistema utiliza datos del SIMBAD , la Base de datos extragaláctica de la NASA / IPAC , las Circulares de la Unión Astronómica Internacional y el Instituto Lunar y Planetario para identificar los artículos que se refieren a un objeto dado, y también puede buscar por posición del objeto, enumerando artículos que se refieren a objetos dentro de un Radio de 10 minutos de  arco de una ascensión recta y declinación determinadas . Estas bases de datos combinan las muchas designaciones de catálogo que puede tener un objeto, de modo que una búsqueda de las Pléyades también encontrará artículos que enumeran el famoso cúmulo abierto en Tauro bajo cualquiera de sus otras designaciones de catálogo o nombres populares, como M45, las Siete Hermanas o Melotte 22.

Búsquedas de títulos y resúmenes

El motor de búsqueda primero filtra los términos de búsqueda de varias formas. Una M seguida de un espacio o un guión tiene el espacio o el guión eliminado, de modo que la búsqueda de objetos del catálogo Messier se simplifica y una entrada del usuario de M45, M 45 o M-45 da como resultado la ejecución de la misma consulta; De manera similar, las designaciones de NGC y los términos de búsqueda comunes como Shoemaker Levy y T Tauri están despojados de espacios. Las palabras sin importancia como AT, OR y TO se eliminan, aunque en algunos casos se mantiene la distinción entre mayúsculas y minúsculas , de modo que mientras se ignora una nd, A nd se convierte en " Andromedae " y H er se convierte en " Herculis ", pero ella es ignorada.

Reemplazo de sinónimos

Una vez que se han procesado previamente los términos de búsqueda, se consulta la base de datos con el término de búsqueda revisado, así como sus sinónimos. Además de la simple sustitución de sinónimos , como la búsqueda de formas plurales y singulares , ADS también busca una gran cantidad de sinónimos específicamente astronómicos. Por ejemplo, espectrógrafo y espectroscopio tienen básicamente el mismo significado, y en un contexto astronómico metalicidad y abundancia también son sinónimos. La lista de sinónimos de ADS se creó manualmente, agrupando la lista de palabras en la base de datos de acuerdo con significados similares.

Además de los sinónimos del idioma inglés , ADS también busca traducciones al inglés de términos de búsqueda extranjeros y viceversa, de modo que una búsqueda de la palabra francesa soleil recupera referencias a Sun , y los artículos en idiomas distintos al inglés pueden ser devueltos por términos de búsqueda en inglés.

El reemplazo de sinónimos se puede deshabilitar si es necesario, de modo que se pueda buscar específicamente un término poco común que sea sinónimo de un término mucho más común (como ' línea de fecha ' en lugar de ' fecha ').

Lógica de selección

El motor de búsqueda permite la lógica de selección tanto dentro de los campos como entre campos. Los términos de búsqueda en cada campo se pueden combinar con OR, AND, lógica simple o lógica booleana , y el usuario puede especificar qué campos deben coincidir en los resultados de la búsqueda. Esto permite construir búsquedas complejas; por ejemplo, el usuario puede buscar artículos relacionados con NGC 6543 O NGC 7009 , con títulos de artículos que contengan (radio O velocidad) Y NO (abundancia O temperatura).

Filtrado de resultados

Los resultados de la búsqueda se pueden filtrar según una serie de criterios, incluida la especificación de un rango de años como '1945 a 1975', '2000 hasta la actualidad' o 'antes de 1900', y en qué tipo de revista aparece el artículo: no - Los artículos revisados ​​por pares, como las actas de congresos , pueden excluirse o buscarse específicamente, o se pueden incluir o excluir revistas específicas de la búsqueda.

Resultados de la búsqueda

La página de resultados de búsqueda de ADS - A, F, G, C, R, etc.son enlaces a datos asociados para cada resumen, como artículos de texto completo, citas, artículos también leídos, etc.

Aunque se concibió como un medio para acceder a resúmenes y artículos, ADS proporciona una cantidad sustancial de información auxiliar junto con los resultados de la búsqueda. Para cada resumen devuelto, se proporcionan enlaces a otros artículos en la base de datos a los que se hace referencia y que citan el artículo, y se proporciona un enlace a una preimpresión, cuando existe. El sistema también genera un enlace a los artículos "también leídos", es decir, aquellos a los que han accedido con más frecuencia quienes leen el artículo. De esta manera, un usuario de ADS puede determinar qué artículos son de mayor interés para los astrónomos interesados ​​en el tema de un artículo determinado.

También se devuelven enlaces a las bases de datos de nombres de objetos SIMBAD y / o la Base de datos extragaláctica de la NASA, a través de las cuales un usuario puede encontrar rápidamente datos de observación básicos sobre los objetos analizados en un documento y encontrar más documentos sobre esos objetos.

Impacto en la astronomía

ADS se utiliza casi universalmente como herramienta de investigación entre los astrónomos, y hay varios estudios que han estimado cuantitativamente cuánto más eficiente ADS ha hecho la astronomía; uno estimó que ADS aumentó la eficiencia de la investigación astronómica en 333 años de investigación equivalentes a tiempo completo por año, y otro encontró que en 2002 su efecto fue equivalente a 736 investigadores a tiempo completo, o toda la investigación astronómica realizada en Francia. ADS ha permitido que las búsquedas bibliográficas que antes hubieran tardado días o semanas en realizarse se completen en segundos, y se estima que ADS ha aumentado el número de lectores y el uso de la literatura astronómica en un factor de aproximadamente tres desde sus inicios.

En términos monetarios, este aumento de eficiencia representa una cantidad considerable. Hay alrededor de 12.000 investigadores astronómicos activos en todo el mundo, por lo que ADS es el equivalente a aproximadamente el 5% de la población activa de astrónomos. El presupuesto global de investigación astronómica se estima entre 4.000 y 5.000 millones de dólares estadounidenses, por lo que el valor de ADS para la astronomía sería de unos 200 a 250 millones de dólares anuales. Su presupuesto operativo es una pequeña fracción de esta cantidad.

La gran importancia de ADS para los astrónomos ha sido reconocida por las Naciones Unidas , la Asamblea General de la cual ha elogiado a ADS por su trabajo y éxito, destacando particularmente su importancia para los astrónomos en el mundo en desarrollo, en informes del Comité de las Naciones Unidas sobre el Pacífico. Usos del espacio exterior . Mientras tanto, un informe de 2002 de un comité visitante del Centro de Astrofísica dijo que el servicio había "revolucionado el uso de la literatura astronómica" y era "probablemente la contribución individual más valiosa a la investigación astronómica que el CfA ha hecho en su vida". ".

Estudios sociológicos utilizando ADS

Debido a que los astrónomos lo utilizan casi universalmente, ADS puede revelar mucho sobre cómo se distribuye la investigación astronómica en todo el mundo. La mayoría de los usuarios acceden al sistema desde institutos de educación superior, cuya dirección IP se puede utilizar fácilmente para determinar la ubicación geográfica del usuario. Los estudios revelan que los mayores usuarios per cápita de ADS son los astrónomos con sede en Francia y los Países Bajos , y mientras que los países más desarrollados (medidos por el PIB per cápita ) utilizan el sistema más que los países menos desarrollados; la relación entre el PIB per cápita y el uso de ADS no es lineal. El rango de uso de ADS per cápita excede con mucho el rango de PIB per cápita, y se ha encontrado que la investigación básica realizada en un país, medida por el uso de ADS, es proporcional al cuadrado del PIB del país dividido por su población.

Las estadísticas de uso de ADS también sugieren que los astrónomos de los países más desarrollados tienden a ser más productivos que los de los países menos desarrollados. La cantidad de investigación básica realizada es proporcional al número de astrónomos en un país multiplicado por el PIB per cápita. Las estadísticas también implican que los astrónomos de las culturas europeas llevan a cabo aproximadamente tres veces más investigaciones que los de las culturas asiáticas , lo que tal vez sugiera diferencias culturales en la importancia que se concede a la investigación astronómica.

ADS también se ha utilizado para mostrar que la fracción de artículos astronómicos de un solo autor ha disminuido sustancialmente desde 1975 y que los artículos astronómicos con más de 50 autores se han vuelto más comunes desde 1990.

Ver también

Referencias

enlaces externos