CiteSeer X -CiteSeerX


CiteSeer x
Tipo de sitio
Base de datos bibliográfica
Dueño Facultad de Ciencias de la Información y Tecnología de la Universidad Estatal de Pensilvania
URL citeseerx .ist .psu .edu Edita esto en Wikidata
Registro Opcional
Lanzado 2008 ; Hace 13 años / 1997 ; Hace 24 años ( 2008 ) ( 1997 )
Estado actual Activo
Licencia de contenido
Licencia Creative Commons BY-NC-SA

CiteSeer x (originalmente llamado CiteSeer ) es un motor de búsqueda público y una biblioteca digital para artículos científicos y académicos, principalmente en los campos de la informática y las ciencias de la información . CiteSeer se considera un antecesor de herramientas de búsqueda académica como Google Scholar y Microsoft Academic Search . Los archivos y motores similares a CiteSeer generalmente solo recopilan documentos de sitios web disponibles públicamente y no rastrean los sitios web de los editores. Por esta razón, los autores cuyos documentos están disponibles gratuitamente tienen más probabilidades de estar representados en el índice.

El objetivo de CiteSeer es mejorar la difusión y el acceso a la literatura académica y científica. Como servicio sin fines de lucro que puede ser utilizado libremente por cualquier persona, se ha considerado como parte del movimiento de acceso abierto que intenta cambiar las publicaciones académicas y científicas para permitir un mayor acceso a la literatura científica. CiteSeer proporcionó gratuitamente metadatos de Open Archives Initiative de todos los documentos indexados y vincula los documentos indexados cuando era posible a otras fuentes de metadatos como DBLP y el portal ACM . Para promover los datos abiertos , CiteSeer x comparte sus datos con fines no comerciales bajo una licencia Creative Commons.

CiteSeer cambió su nombre a ResearchIndex en un momento y luego lo volvió a cambiar.

Historia

CiteSeer y CiteSeer.IST

CiteSeer fue creado por los investigadores Lee Giles , Kurt Bollacker y Steve Lawrence en 1997 mientras estaban en el Instituto de Investigación NEC (ahora NEC Labs ), Princeton, Nueva Jersey , EE. UU. El objetivo de CiteSeer era rastrear y recopilar activamente documentos académicos y científicos en la web y utilizar la indexación de citas autónoma para permitir la consulta por cita o por documento, clasificándolos por impacto de cita . En un momento, se llamó ResearchIndex.

CiteSeer se hizo público en 1998 y tenía muchas funciones nuevas que no estaban disponibles en los motores de búsqueda académicos en ese momento. Estos incluyeron:

  • Autonomous Citation Indexing creó automáticamente un índice de citas que se puede utilizar para la búsqueda y evaluación de literatura.
  • Se calcularon estadísticas de citas y documentos relacionados para todos los artículos citados en la base de datos, no solo para los artículos indexados.
  • Enlace de referencias que permite navegar por la base de datos mediante enlaces de citas.
  • El contexto de la cita mostró el contexto de las citas a un artículo determinado, lo que le permitió al investigador ver rápida y fácilmente lo que otros investigadores tienen que decir sobre un artículo de interés.
  • Los documentos relacionados se mostraron utilizando citas y medidas basadas en palabras y se muestra una bibliografía activa y continuamente actualizada para cada documento.

A CiteSeer se le otorgó una patente de los Estados Unidos # 6289342, titulada "Indización autónoma de citas y búsqueda de literatura utilizando el contexto de citas ", el 11 de septiembre de 2001. La patente se presentó el 20 de mayo de 1998 y tiene prioridad hasta el 5 de enero de 1998. Una continuación La patente (Patente de EE. UU. # 6738780) se presentó el 16 de mayo de 2001 y se otorgó el 18 de mayo de 2004.

Después de NEC, en 2004 se alojó como CiteSeer.IST en la World Wide Web en la Facultad de Ciencias de la Información y Tecnología de la Universidad Estatal de Pensilvania y tenía más de 700.000 documentos. Para mejorar el acceso, el rendimiento y la investigación, se apoyaron versiones similares de CiteSeer en universidades como el Instituto de Tecnología de Massachusetts , la Universidad de Zúrich y la Universidad Nacional de Singapur . Sin embargo, estas versiones de CiteSeer resultaron difíciles de mantener y ya no están disponibles. Debido a que CiteSeer solo indexa artículos de libre acceso en la web y no tiene acceso a los metadatos del editor, devuelve menos recuentos de citas que los sitios, como Google Scholar , que tienen metadatos del editor.

CiteSeer no se había actualizado de forma exhaustiva desde 2005 debido a limitaciones en el diseño de su arquitectura. Tenía una muestra representativa de documentos de investigación en informática y ciencias de la información, pero tenía una cobertura limitada porque se limitaba a artículos que están disponibles públicamente, generalmente en la página de inicio de un autor, o los presentados por un autor. Para superar algunas de estas limitaciones, se diseñó una arquitectura modular y de código abierto para CiteSeer: CiteSeer x .

CiteSeer x

CiteSeer x reemplazó a CiteSeer y todas las consultas a CiteSeer fueron redirigidas. CiteSeer x es un motor de búsqueda público y una biblioteca digital y un repositorio de artículos científicos y académicos que se centra principalmente en la informática y las ciencias de la información . Sin embargo, recientemente CiteSeer x se ha expandido a otros dominios académicos como la economía, la física y otros. Lanzado en 2008, se basó libremente en el motor de búsqueda y la biblioteca digital CiteSeer anteriores y está construido con una nueva infraestructura de código abierto , SeerSuite, y nuevos algoritmos y sus implementaciones. Fue desarrollado por los investigadores Dr. Isaac Councill y el Dr. C. Lee Giles en la Facultad de Ciencias de la Información y Tecnología , Universidad del Estado de Pensilvania . Continúa respaldando los objetivos descritos por CiteSeer de rastrear y recopilar activamente documentos académicos y científicos en la web pública y utilizar una consulta de citas por citas y una clasificación de documentos según el impacto de las citas. Actualmente, Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen y Shuyi Zheng son o han estado activamente involucrado en su desarrollo. Recientemente, se introdujo una función de búsqueda de tablas. Ha sido financiado por la National Science Foundation , la NASA y Microsoft Research .

CiteSeer x sigue estando clasificado como uno de los principales repositorios del mundo y fue clasificado como el número 1 en julio de 2010. Actualmente tiene más de 6 millones de documentos con casi 6 millones de autores únicos y 120 millones de citas.

CiteSeer x también comparte su software, datos, bases de datos y metadatos con otros investigadores, actualmente por Amazon S3 y por rsync . Su nueva arquitectura y software modular de código abierto (disponible anteriormente en SourceForge pero ahora en GitHub ) se basa en Apache Solr y otras herramientas de Apache y de código abierto, lo que le permite ser un banco de pruebas para nuevos algoritmos en la recopilación, clasificación, indexación e información de documentos. extracción.

CiteSeer x almacena en caché algunos archivos PDF que ha escaneado. Como tal, cada página incluye un enlace DMCA que se puede utilizar para informar violaciones de derechos de autor.

Funciones actuales

Extracción de información automatizada

CiteSeer x utiliza herramientas de extracción de información automatizadas , generalmente construidas en métodos de aprendizaje automático como ParsCit, para extraer metadatos de documentos académicos como título, autores, resumen, citas, etc. Como tal, a veces hay errores en los autores y títulos. Otros motores de búsqueda académicos tienen errores similares.

Arrastre concentrado

CiteSeer x rastrea documentos académicos disponibles públicamente principalmente desde las páginas web de los autores y otros recursos abiertos, y no tiene acceso a los metadatos del editor. Como tal, los recuentos de citas en CiteSeer x suelen ser menores que los de Google Scholar y Microsoft Academic Search que tienen acceso a los metadatos del editor.

Uso

CiteSeer x tiene casi 1 millón de usuarios en todo el mundo basados ​​en direcciones IP únicas y tiene millones de visitas diarias. Las descargas anuales de documentos PDF fueron de casi 200 millones en 2015.

Datos

Los datos de CiteSeer x se comparten regularmente bajo una licencia Creative Commons BY-NC-SA con investigadores de todo el mundo y se han utilizado y se utilizan en muchos experimentos y concursos.

Gracias a su terminal OAI-PMH , CiteSeerX es un archivo abierto y su contenido se indexa como un repositorio institucional en motores de búsqueda académicos , por ejemplo, consumidores BASE y Unpaywall .

Otros motores de búsqueda basados ​​en SeerSuite

El modelo de CiteSeer se había ampliado para cubrir documentos académicos en los negocios con SmealSearch y en el comercio electrónico con eBizSearch . Sin embargo, estos no fueron mantenidos por sus patrocinadores. Una versión anterior de ambos se pudo encontrar una vez en BizSeer.IST pero ya no está en servicio.

Se han creado otros sistemas de búsqueda y repositorio similares a los de Seer para química, Chem X Seer y para arqueología, ArchSeer. Otro había sido creado para la búsqueda de archivos robots.txt, BotSeer . Todos estos se basan en la herramienta de código abierto SeerSuite , que utiliza el indexador de código abierto Lucene .

Ver también

Referencias

Otras lecturas

enlaces externos