Banco de datos de proteínas - Protein Data Bank

Banco de datos de proteínas
Wwpdb-logo.png
Contenido
Descripción
Contacto
Cita primaria PMID  30357364
Acceso
Formato de datos mmCIF , PDB
Sitio web

El Protein Data Bank ( PDB ) es una base de datos para los datos estructurales tridimensionales de grandes moléculas biológicas, como proteínas y ácidos nucleicos . Los datos, normalmente obtenidos por cristalografía de rayos X , espectroscopia de RMN o, cada vez más, microscopía crioelectrónica , y enviados por biólogos y bioquímicos de todo el mundo, son de libre acceso en Internet a través de los sitios web de sus organizaciones miembros (PDBe, PDBj, RCSB y BMRB). El PDB está supervisado por una organización llamada Worldwide Protein Data Bank , wwPDB.

El PDB es clave en áreas de biología estructural , como la genómica estructural . La mayoría de las revistas científicas importantes y algunas agencias de financiación ahora requieren que los científicos envíen sus datos de estructura al PDB. Muchas otras bases de datos utilizan estructuras de proteínas depositadas en el AP. Por ejemplo, SCOP y CATH clasifican las estructuras de proteínas, mientras que PDBsum proporciona una descripción gráfica de las entradas de PDB utilizando información de otras fuentes, como la ontología genética .

Historia

Dos fuerzas convergieron para iniciar el AP: una colección pequeña pero creciente de conjuntos de datos de estructura de proteínas determinados por difracción de rayos X; y la pantalla de gráficos moleculares recientemente disponible (1968), Brookhaven RAster Display (BRAD), para visualizar estas estructuras de proteínas en 3-D. En 1969, con el patrocinio de Walter Hamilton en el Laboratorio Nacional de Brookhaven , Edgar Meyer ( Texas A&M University ) comenzó a escribir software para almacenar archivos de coordenadas atómicas en un formato común para que estén disponibles para evaluación geométrica y gráfica. En 1971, uno de los programas de Meyer, SEARCH, permitió a los investigadores acceder de forma remota a la información de la base de datos para estudiar las estructuras de proteínas sin conexión. SEARCH fue fundamental para permitir la creación de redes, lo que marcó el comienzo funcional de la AP.

El Protein Data Bank se anunció en octubre de 1971 en Nature New Biology como una empresa conjunta entre Cambridge Crystallographic Data Center , Reino Unido y Brookhaven National Laboratory, EE. UU.

Tras la muerte de Hamilton en 1973, Tom Koeztle asumió la dirección de la AP durante los siguientes 20 años. En enero de 1994, Joel Sussman, del Instituto de Ciencias Weizmann de Israel, fue nombrado director del AP. En octubre de 1998, el AP fue transferido al Laboratorio de Investigación en Bioinformática Estructural (RCSB); la transferencia se completó en junio de 1999. La nueva directora fue Helen M. Berman de la Universidad de Rutgers (una de las instituciones administradoras de RCSB, la otra es el Centro de Supercomputación de San Diego en UC San Diego ). En 2003, con la formación de la wwPDB, la AP se convirtió en una organización internacional. Los miembros fundadores son PDBe (Europa), RCSB (EE. UU.) Y PDBj (Japón). El BMRB se unió en 2006. Cada uno de los cuatro miembros de wwPDB puede actuar como centro de depósito, procesamiento de datos y distribución de datos de PDB. El procesamiento de datos se refiere al hecho de que el personal de wwPDB revisa y anota cada entrada enviada. Luego, los datos se verifican automáticamente para verificar su plausibilidad (el código fuente de este software de validación se ha puesto a disposición del público sin cargo).

Contenido

Ejemplos de estructuras de proteínas del PDB (creadas con UCSF Chimera)
Tasa de determinación de la estructura proteica por método y año. MX = cristalografía macromolecular , 3DEM = microscopía electrónica 3D .

La base de datos de la AP se actualiza semanalmente ( UTC +0 el miércoles), junto con su lista de existencias. Al 1 de abril de 2020, el AP estaba compuesto por:


Método experimental
Proteinas Ácidos nucleicos
Complejos de proteínas / ácidos nucleicos
Otro Total
difracción de rayos X 135170 2097 6945 4 144216
RMN 11337 1325 264 8 12934
Microscopio de electrones 3475 35 1136 0 4646
Híbrido 155 5 3 1 164
Otro 286 4 6 13 309
Total: 150423 3466 8354 26 162269
134,146 estructuras en el PDB tienen un archivo de factor de estructura .
10,289 estructuras tienen un archivo de restricción de RMN.
4.814 estructuras en el PDB tienen un archivo de cambios químicos .
4.718 estructuras en el PDB tienen un archivo de mapa 3DEM depositado en EM Data Bank

La mayoría de las estructuras se determinan mediante difracción de rayos X, pero aproximadamente el 10% de las estructuras se determinan mediante RMN de proteínas . Cuando se usa la difracción de rayos X, se obtienen aproximaciones de las coordenadas de los átomos de la proteína, mientras que con la RMN se estima la distancia entre pares de átomos de la proteína. La conformación final de la proteína se obtiene a partir de RMN resolviendo un problema de geometría de distancia . Después de 2013, se determina un número creciente de proteínas mediante microscopía crioelectrónica . Al hacer clic en los números de la tabla externa vinculada, se muestran ejemplos de estructuras determinadas por ese método.

Para las estructuras PDB determinadas por difracción de rayos X que tienen un archivo de factor de estructura, se puede ver su mapa de densidad electrónica. Los datos de tales estructuras se almacenan en el "servidor de densidad de electrones".

Históricamente, la cantidad de estructuras en el AP ha crecido a una tasa aproximadamente exponencial, con 100 estructuras registradas en 1982, 1,000 estructuras en 1993, 10,000 en 1999 y 100,000 en 2014.

Formato de archivo

El formato de archivo utilizado inicialmente por la PDB se denominó formato de archivo PDB. El formato original estaba restringido por el ancho de las tarjetas perforadas de computadora a 80 caracteres por línea. Alrededor de 1996, se introdujo gradualmente el formato de "archivo de información cristalográfica macromolecular", mmCIF, que es una extensión del formato CIF . MmCIF se convirtió en el formato estándar para el archivo PDB en 2014. En 2019, la wwPDB anunció que las deposiciones para métodos cristalográficos sólo se aceptará en formato mmCIF.

En 2005 se describió una versión XML de PDB, denominada PDBML. Los archivos de estructura se pueden descargar en cualquiera de estos tres formatos, aunque un número cada vez mayor de estructuras no se ajusta al formato PDB heredado. Los archivos individuales se descargan fácilmente en paquetes de gráficos desde las URL de Internet :

  • Para archivos en formato PDB, utilice, por ejemplo, http://www.pdb.org/pdb/files/4hhb.pdb.gzohttp://pdbe.org/download/4hhb
  • Para archivos PDBML (XML), utilice, p. Ej., http://www.pdb.org/pdb/files/4hhb.xml.gzOhttp://pdbe.org/pdbml/4hhb

El " 4hhb" es el identificador de PDB. Cada estructura publicada en PDB recibe un identificador alfanumérico de cuatro caracteres, su ID de PDB. (Este no es un identificador único para biomoléculas, porque varias estructuras para la misma molécula, en diferentes entornos o conformaciones, pueden estar contenidas en PDB con diferentes ID de PDB).

Ver los datos

Los archivos de estructura se pueden ver utilizando uno de varios programas de computadora gratuitos y de código abierto , incluidos Jmol , Pymol , VMD y Rasmol . Otros programas shareware no gratuitos incluyen ICM-Browser, MDL Chime , UCSF Chimera , Swiss-PDB Viewer, StarBiochem (un visor molecular interactivo basado en Java con búsqueda integrada del banco de datos de proteínas), Sirius y VisProt3DS (una herramienta para la visualización de proteínas). en vista estereoscópica 3D en anaglifo y otros modos) y Discovery Studio . El sitio web de RCSB PDB contiene una lista extensa de programas de visualización de moléculas y complementos de navegador web, tanto gratuitos como comerciales.

Ver también

Referencias

enlaces externos