Herramienta de creación de perfiles de secuencia - Sequence profiling tool

Una herramienta de creación de perfiles de secuencia en bioinformática es un tipo de software que presenta información relacionada con una secuencia genética , nombre de gen o entrada de palabras clave. Dichas herramientas generalmente toman una consulta como ADN , ARN o secuencia de proteína o "palabra clave" y buscan en una o más bases de datos información relacionada con esa secuencia. Los resúmenes y los resultados agregados se proporcionan en un formato estandarizado que describe la información que, de otro modo, hubiera requerido visitas a muchos sitios más pequeños o búsquedas directas de literatura para compilar. Muchas herramientas de creación de perfiles de secuencia son portales de software o puertas de enlace que simplifican el proceso de búsqueda de información sobre una consulta en el gran y creciente número de bases de datos bioinformáticas. El acceso a este tipo de herramientas se basa en la web o en ejecutables descargables localmente.

Introducción y uso

La era de la " posgenómica " ha dado lugar a una variedad de herramientas y software basados ​​en la web para compilar, organizar y entregar grandes cantidades de información de secuencia primaria , así como estructuras de proteínas , anotaciones de genes, alineaciones de secuencias y otras bioinformáticas comunes. Tareas.

En general, existen tres tipos de bases de datos y proveedores de servicios. El primero incluye las populares bases de datos de dominio público o de acceso abierto respaldadas por fondos y subvenciones como NCBI , ExPASy , Ensembl y PDB . El segundo incluye bases de datos más pequeñas o más específicas organizadas y compiladas por grupos de investigación individuales. Los ejemplos incluyen Yeast Genome Database , base de datos de ARN . El tercero y último incluye bases de datos privadas corporativas o institucionales que requieren pago o afiliación institucional para acceder. Estos ejemplos son raros dada la globalización de las bases de datos públicas, a menos que el supuesto servicio esté "en desarrollo" o el punto final del análisis sea de valor comercial.

Los escenarios típicos de un enfoque de elaboración de perfiles se vuelven relevantes, particularmente, en los casos de los dos primeros grupos, donde los investigadores comúnmente desean combinar información derivada de varias fuentes sobre una sola consulta o secuencia objetivo. Por ejemplo, los usuarios pueden usar la herramienta de búsqueda y alineación de secuencias BLAST para identificar homólogos de su gen de interés en otras especies, y luego usar estos resultados para localizar una estructura de proteína resuelta para uno de los homólogos. Del mismo modo, es posible que también quieran saber la probable estructura secundaria del ARNm que codifica el gen de interés, o si una empresa vende una construcción de ADN que contiene el gen. Las herramientas de creación de perfiles de secuencia sirven para automatizar e integrar el proceso de búsqueda de información tan dispar al hacer que el proceso de búsqueda de varias bases de datos externas diferentes sea transparente para el usuario.

Muchas bases de datos públicas ya están ampliamente vinculadas para que la información complementaria de otra base de datos sea fácilmente accesible; por ejemplo, Genbank y el PDB están estrechamente entrelazados. Sin embargo, las herramientas especializadas organizadas y alojadas por grupos de investigación específicos pueden ser difíciles de integrar en este esfuerzo de vinculación porque tienen un enfoque limitado, se modifican con frecuencia o usan versiones personalizadas de formatos de archivo comunes. Las ventajas de las herramientas de creación de perfiles de secuencia incluyen la capacidad de utilizar varias de estas herramientas especializadas en una sola consulta y presentar el resultado con una interfaz común, la capacidad de dirigir el resultado de un conjunto de herramientas o búsquedas en la base de datos a la entrada de otro, y el capacidad para difundir las obligaciones de alojamiento y compilación a una red de grupos e instituciones de investigación en lugar de un único repositorio centralizado.

Perfiladores basados ​​en palabras clave

La mayoría de las herramientas de creación de perfiles disponibles en la web en la actualidad pertenecen a esta categoría. El usuario, al visitar el sitio / herramienta, ingresa cualquier información relevante como una palabra clave, por ejemplo, distrofia, diabetes, etc., o números de acceso a GenBank , ID de PDB. Todos los resultados relevantes de la búsqueda se presentan en un formato único para el enfoque principal de cada herramienta. Las herramientas de creación de perfiles basadas en búsquedas de palabras clave son esencialmente motores de búsqueda altamente especializados para el trabajo bioinformático, eliminando así un desorden de resultados irrelevantes o no académicos que podrían ocurrir con un motor de búsqueda tradicional como Google . La mayoría de las herramientas de creación de perfiles basadas en palabras clave permiten tipos flexibles de entrada de palabras clave, números de acceso de bases de datos indexadas y descriptores de palabras clave tradicionales.

Cada herramienta de elaboración de perfiles tiene su propio enfoque y área de interés. Por ejemplo, el motor de búsqueda del NCBI , Entrez, segrega sus resultados por categoría, de modo que los usuarios que buscan información sobre la estructura de las proteínas pueden filtrar secuencias sin la estructura correspondiente, mientras que los usuarios interesados ​​en leer la literatura sobre un tema pueden ver resúmenes de artículos publicados en revistas académicas. sin distraerse de los resultados de genes o secuencias. La base de datos de literatura de biociencias de PubMed es una herramienta popular para búsquedas de literatura, aunque este servicio es casi igual al Google Scholar más general .


Servicios de agregación de datos basados en palabras clave como los bioinformático Harvester realiza proporcionan informes de una variedad de servidores de terceros en un estado en que está formato por lo que los usuarios no tienen que visitar la página web o instalar el software para cada servicio componente individual. Esto es particularmente invaluable dada la rápida aparición de varios sitios que proporcionan diferentes herramientas de manipulación y análisis de secuencias. Otro portal web de agregación, la Base de datos de referencia de proteínas humanas ( Hprd ), contiene entradas anotadas y seleccionadas manualmente para proteínas humanas. La información proporcionada es, por tanto, selectiva y completa, y el formato de consulta es flexible e intuitivo. Las ventajas de desarrollar bases de datos seleccionadas manualmente incluyen la presentación de material revisado y el concepto de "autoridades moleculares" para asumir la responsabilidad de proteínas específicas. Sin embargo, las desventajas son que suelen ser más lentas para actualizar y es posible que no contengan datos muy nuevos o controvertidos.

Perfiladores basados ​​en datos de secuencia

Una herramienta típica de creación de perfiles de secuencia lleva esto más allá utilizando una secuencia de ADN, ARN o proteína real como entrada y permite al usuario visitar diferentes herramientas de análisis basadas en la web para obtener la información deseada. Dichas herramientas también se suministran comúnmente con equipos de laboratorio comerciales como secuenciadores de genes o, a veces, se venden como aplicaciones de software para biología molecular. En otro ejemplo de base de datos pública, el informe de búsqueda de secuencias BLAST de NCBI proporciona un enlace desde su informe de alineación a otra información relevante en sus propias bases de datos, si existe dicha información específica.

Por ejemplo, un registro recuperado que contiene una secuencia humana llevará un enlace separado que se conecta a su ubicación en un mapa del genoma humano; un registro que contiene una secuencia para la que se ha resuelto una estructura 3-D llevaría un enlace que lo conecta con su base de datos de estructura. Sequerome , una herramienta de servicio público, vincula todo el informe BLAST a muchos servidores / sitios de terceros que brindan servicios altamente específicos en manipulaciones de secuencias, como mapas de enzimas de restricción , análisis de marcos de lectura abiertos para secuencias de nucleótidos y predicción de estructuras secundarias . La herramienta ofrece la ventaja adicional de mantener un registro de investigación de las operaciones realizadas por el usuario, que luego se puede archivar cómodamente mediante la funcionalidad de "correo", "imprimir" o "guardar". Por lo tanto, una operación completa de investigación en una secuencia utilizando diferentes herramientas de investigación y, por lo tanto, llevando un proyecto hasta su finalización se puede completar dentro de una interfaz de navegador. En consecuencia, la generación futura de la secuencia de perfiles de herramientas incluiría capacidad de colaborar con los investigadores en línea a los registros de proyectos de acciones y herramientas de investigación, resultados de análisis de secuencias Anotar o análisis de laboratorio, personalizar y automatizar el procesamiento de conjuntos de datos de secuencias, etc. InstaSeq es una tecnología de Google herramienta de búsqueda que permite al usuario ingresar directamente una secuencia y buscar en toda la World Wide Web. Este motor de búsqueda único, que es el único de su tipo, contrasta con la búsqueda de bases de datos específicas, por ejemplo, GenBank .

Como resultado, el usuario puede terminar con un documento alojado de forma privada o una página de una base de datos menos conocida de casi cualquier parte del mundo. Aunque la presencia de perfiladores basados ​​en secuencias es muy escasa en el escenario actual, su función clave se hará evidente cuando sea necesario procesar grandes cantidades de datos de secuencia entre portales y dominios.

Crecimiento futuro y direcciones

La proliferación de herramientas bioinformáticas para el análisis genético ayuda a los investigadores a identificar y categorizar genes y conjuntos de genes de interés en su trabajo; sin embargo, la gran variedad de herramientas que realizan funciones agregadas y analíticas sustancialmente similares también puede confundir y frustrar a los nuevos usuarios. La descentralización alentada por las herramientas agregadas permite a los grupos de investigación individuales mantener servidores especializados dedicados a tipos específicos de análisis de datos con la expectativa de que su salida se recopile en un informe más amplio sobre un gen o proteína de interés para otros investigadores.

Los datos producidos por experimentos de microarrays, cribado de dos híbridos y otros experimentos biológicos de alto rendimiento son voluminosos y difíciles de analizar a mano; Los esfuerzos de las colaboraciones de genómica estructural que tienen como objetivo resolver rápidamente un gran número de estructuras de proteínas muy variadas también aumentan la necesidad de integración entre bases de datos y portales de secuencias y estructuras. Este ímpetu hacia el desarrollo de métodos de creación de perfiles de secuencias más completos y fáciles de usar hace que esta sea un área activa de investigación entre los investigadores de genómica actuales.

Ver también

Referencias