jueves, 2 de mayo de 2013

TRABAJO DE ARCHIVOS


Un archivo o fichero informático es un conjunto de bits almacenado en un dispositivo.
Un archivo es identificado por un nombre y la descripción de la carpeta o directorio que lo contiene. A los archivos informáticos se les llama así porque son los equivalentes digitales de los archivos escritos en libros, tarjetas, libretas, papel o microfichas del entorno de oficina tradicional. Los archivos informáticos facilitan una manera de organizar los recursos usados para almacenar permanentemente datos en un sistema informático virtual.
En informática, una extensión de archivo o extensión de fichero, es una cadena de caracteres anexada al nombre de un archivo, usualmente precedida por un punto. Su función principal es diferenciar el contenido del archivo de modo que el sistema operativo disponga el procedimiento necesario para ejecutarlo o interpretarlo, sin embargo, la extensión es solamente parte del nombre del archivo y no representa ningún tipo de obligación respecto a su contenido.
Algunos sistemas operativos, especialmente los herederos de DOS como Windows, utilizan las extensiones de archivo para reconocer su formato, incluyendo el de archivos ejecutables. Otros sistemas operativos, como los basados en Unix, utilizan las extensiones de archivo por simple convención, no necesariamente utilizándolas para determinar su tipo.
Siendo las extensiones de archivo legado del sistema DOS, muchas de sus actuales características fueron heredadas por limitaciones en dicho sistema. Los antiguos sistemasDOS limitaban la cantidad de caracteres de la extensión de archivo a tres, por lo que muchas extensiones convencionales poseen esa cantidad de caracteres. Además, los nombres de archivo en sistemas DOS son insensibles a las mayúsculas y minúsculas, por lo que la mayoría de las extensiones de archivo pueden ser escritos indiferentemente en minúsculas como en mayúsculas o una combinación de ambas.
Un mismo nombre básico puede, por la extensión, contener archivos de distinto propósito. Como en este ejemplo de DOS:

En todos estos casos las extensiones diferencian los nombres de los archivos a la vez que los identifican ante las aplicaciones que pueden manejarlos.
Un archivo de texto llano, texto simple, texto plano, texto sencillo o texto pelado (en inglés plain text) es un archivo informático compuesto únicamente por texto sin formato, sólo caracteres, lo que lo hace también legible por humanos. Estos caracteres se pueden codificar de distintos modos dependiendo de la lengua usada. Algunos de los sistemas de codificación más usados son: ASCIIISO-8859-1 o Latín-1 y UTF-8.
Carecen de información destinada a generar formatos (negritas, subrayado, cursivas, tamaño, etc.) y tipos de letra (por ejemplo, Arial, Times, Courier, etc.). El término texto llano proviene de una traducción literal del término inglés plain text, término que en lengua castellana significa texto simple o texto sencillo.
Las aplicaciones destinadas a la escritura y modificación de archivos de texto se llaman editores de texto.
Imagen ISO es un archivo donde se almacena una copia o imagen exacta de un sistema de ficheros, normalmente un disco óptico. Se rige por el estándar ISO 9660 que le da nombre. Algunos de los usos más comunes incluyen la distribución de sistemas operativos, tales como sistemas GNU/LinuxBSD o Live CDs
Dado que una unidad de disco, o de hecho cualquier memoria solo puede almacenar en los bits, la computadora debe tener alguna manera de convertir la pequeña información a ceros y unos y viceversa. Hay diferentes tipos de formatos para diferentes tipos de información. Sin embargo, dentro de cada tipo de formato, por ejemplo documentos de unprocesador de texto, habrá normalmente varios formatos diferentes, a veces en competencia.
Visión general
Lo que hace a un archivo distinto del otro son sus propiedades, cómo se almacenan los datos, sus capacidades de reproducción, y cómo puede utilizarse un archivo en un sistema de administración de archivos (etiquetado).
Funcionamiento
La manera general de almacenar audio digital es muestreando el voltaje de audio, que al reproducirlo, corresponde a un nivel de señal en un canal individual con una cierta resolución -el número de bits por muestreo - en intervalos regulares (creando la frecuencia de muestreo). Estos datos después pueden ser almacenados sin comprimir o comprimidos para reducir el tamaño del formato..
Tipos de formatos
Existen diferentes tipos de formato según la compresión del audio. Es importante saber distinguir entre formato de archivo y codec. El codec codifica y decodifica los datos del audio mientras estos datos son archivados en un archivo que tiene un formato de audio específico. La mayoría de los formatos de archivo de audio públicamente documentados pueden ser creados con uno de dos o más codificadores o codecs. Aunque la mayoría de formatos de archivo de audio solo soportan un tipo de datos (creado con un codec de audio) un contenedor de formato de multimedia como MKV o AVI puede soportar múltiples tipos de datos de audio y vídeo.
Hay tres grupos principales de formatos de archivo de audio:
·         Formatos de audio sin comprimir, como WAVAIFF o AU
·         Formatos sin pérdida (formato de audio comprimido sin perdida) como FLACMPEG-4 SLSMPEG-4 ALSMPEG-4 DSTWavPackShortenTTAATRAC, Apple Lossless yWMA Lossless
·         Formatos con pérdida (algoritmo de compresión con perdida) como MP3VorbisMusepackAACWMA y Opus
Formatos de audio sin comprimir
Hay un formato principal sin comprimir, PCM, que normalmente esta archivado como.wav en windows y.aiff en MAC. WAV y AIFF son formatos flexibles creados para almacenar varios combinaciones de frecuencia de muestreo o tasa de bits, esto los hacen adecuados para archivar grabaciones originales. Existe otro tipo de archivo llamado CDA (audio CD Track) que es un archivo pequeño que sirve como acceso directo a parte de los datos de un CD. El formato AIFF está basado en el formato IFF, mientras que el formato WAV está basado en el formato RIFF, que realmente son muy similares. BWF (Broadcast Wav Format)es el formato de audio estándar creado por la Unión Europea de Radiodifusión como sucesor a WAV y permite el almacenamiento de meta-datos en el archivo. Este formato es principalmente usado por muchos programas profesionales de edición de audio en las industrias de televisión y cine. Archivos BWF contienen una referencia de timestamp estandarizado que permite sincronizar fácilmente con un elemento de foto separado. Stand-alone, Grabadoras multi-pista de dispositivos de audio, Zaxcom, HHB USA, Fostex y Aaton utilizan BWF como su formato preferido.
En ciencias de la computación la compresión de datos es la reducción del volumen de datos tratables para representar una determinada información empleando una menor cantidad de espacio. Al acto de compresión de datos se denomina compresión, y al contrario descompresión.
El espacio que ocupa una información codificada (datos, señal digital, etc.) sin compresión es el cociente entre la frecuencia de muestreo y la resolución. Por tanto, cuantos másbits se empleen mayor será el tamaño del archivo. No obstante, la resolución viene impuesta por el sistema digital con que se trabaja y no se puede alterar el número de bits a voluntad; por ello, se utiliza la compresión, para transmitir la misma cantidad de información que ocuparía una gran resolución en un número inferior de bits.
La compresión es un caso particular de la codificación, cuya característica principal es que el código resultante tiene menor tamaño que el original.
La compresión de datos se basa fundamentalmente en buscar repeticiones en series de datos para después almacenar solo el dato junto al número de veces que se repite. Así, por ejemplo, si en un fichero aparece una secuencia como "AAAAAA", ocupando 6 bytes se podría almacenar simplemente "6A" que ocupa solo 2 bytes, en algoritmo RLE.
En realidad, el proceso es mucho más complejo, ya que raramente se consigue encontrar patrones de repetición tan exactos (salvo en algunas imágenes). Se utilizan algoritmos de compresión:
·         Por un lado, algunos buscan series largas que luego codifican en formas más breves.
·         Por otro lado, algunos algoritmos, como el algoritmo de Huffman, examinan los caracteres más repetidos para luego codificar de forma más corta los que más se repiten.
·         Otros, como el LZW, construyen un diccionario con los patrones encontrados, a los cuales se hace referencia de manera posterior.
·         La codificación de los bytes pares es otro sencillo algoritmo de compresión muy fácil de entender.
A la hora de hablar de compresión hay que tener presentes dos conceptos:
1.    Redundancia: Datos que son repetitivos o previsibles
2.    Entropía: La información nueva o esencial que se define como la diferencia entre la cantidad total de datos de un mensaje y su redundancia.
La información que transmiten los datos puede ser de tres tipos:
1.    Redundante: información repetitiva o predecible.
2.    Irrelevante: información que no podemos apreciar y cuya eliminación por tanto no afecta al contenido del mensaje. Por ejemplo, si las frecuencias que es capaz de captar el oído humano están entre 16/20 Hz y 16.000/20.000 Hz, serían irrelevantes aquellas frecuencias que estuvieran por debajo o por encima de estos valores.
3.    Básica: la relevante. La que no es ni redundante ni irrelevante. La que debe ser transmitida para que se pueda reconstruir la señal.
Teniendo en cuenta estos tres tipos de información, se establecen tres tipologías de compresión de la información:
1.    Sin pérdidas reales: es decir, transmitiendo toda la entropía del mensaje (toda la información básica e irrelevante, pero eliminando la redundante).
2.    Subjetivamente sin pérdidas: es decir, además de eliminar la información redundante se elimina también la irrelevante.
3.    Subjetivamente con pérdidas: se elimina cierta cantidad de información básica, por lo que el mensaje se reconstruirá con errores perceptibles pero tolerables (por ejemplo: la videoconferencia).

Los sistemas de archivos o ficheros (en inglés:filesystem), estructuran la información guardada en una unidad de almacenamiento (normalmente un disco duro de unacomputadora), que luego será representada ya sea textual o gráficamente utilizando un gestor de archivos. La mayoría de los sistemas operativos manejan su propio sistema de archivos.1
Lo habitual es utilizar dispositivos de almacenamiento de datos que permiten el acceso a los datos como una cadena de bloques de un mismo tamaño, a veces llamados sectores, usualmente de 512 bytes de longitud (También denominados clústers). El software del sistema de archivos es responsable de la organización de estos sectores en archivos y directorios y mantiene un registro de qué sectores pertenecen a qué archivos y cuáles no han sido utilizados. En la práctica, un sistema de archivos también puede ser utilizado para acceder a datos generados dinámicamente, como los recibidos a través de una conexión de red (sin la intervención de un dispositivo de almacenamiento).
Los sistemas de archivos tradicionales proveen métodos para crear, mover, renombrar y eliminar tanto archivos como directorios, pero carecen de métodos para crear, por ejemplo, enlaces adicionales a un directorio o archivo (enlace duro en Unix) o renombrar enlaces padres (".." en Unix).
El acceso seguro a sistemas de archivos básicos puede estar basado en los esquemas de lista de control de acceso o capacidades. Las listas de control de acceso hace décadas que demostraron ser inseguras, por lo que los sistemas operativos experimentales utilizan el acceso por capacidades. Los sistemas operativos comerciales aún funcionan con listas de control de acceso

No hay comentarios:

Publicar un comentario