Un archivo o fichero informático es un
conjunto de
bits almacenado
en un dispositivo.
Un archivo es identificado por un nombre y la descripción de
la carpeta o directorio que lo contiene. A los archivos informáticos se les
llama así porque son los equivalentes digitales de los archivos escritos en
libros, tarjetas, libretas,
papel o
microfichas del
entorno de oficina tradicional. Los archivos informáticos facilitan una manera
de organizar los recursos usados para almacenar permanentemente datos en un
sistema informático virtual.
En
informática,
una extensión de archivo o extensión de fichero, es una
cadena de caracteres anexada al nombre de
un
archivo, usualmente precedida por un punto. Su
función principal es diferenciar el contenido del archivo de modo que el
sistema
operativo disponga el procedimiento necesario para ejecutarlo o
interpretarlo, sin embargo, la extensión es solamente parte del nombre del
archivo y no representa ningún tipo de obligación respecto a su contenido.
Algunos
sistemas
operativos, especialmente los herederos de
DOS como
Windows, utilizan
las extensiones de archivo para reconocer su
formato, incluyendo el de
archivos ejecutables. Otros sistemas operativos,
como los basados en
Unix, utilizan las extensiones de archivo por simple convención,
no necesariamente utilizándolas para determinar su tipo.
Siendo las extensiones de archivo legado del sistema
DOS, muchas de sus
actuales características fueron heredadas por limitaciones en dicho sistema.
Los antiguos sistemas
DOS limitaban
la cantidad de caracteres de la extensión de archivo a tres, por lo que muchas
extensiones convencionales poseen esa cantidad de caracteres. Además, los
nombres de archivo en sistemas
DOS son insensibles a las mayúsculas y minúsculas, por lo
que la mayoría de las extensiones de archivo pueden ser escritos
indiferentemente en minúsculas como en mayúsculas o una combinación de ambas.
Un mismo nombre básico puede, por la extensión, contener
archivos de distinto propósito. Como en este ejemplo de
DOS:
En todos estos casos las extensiones diferencian los nombres de los archivos a
la vez que los identifican ante las aplicaciones que pueden manejarlos.
Un archivo de texto llano, texto simple, texto
plano, texto sencillo o texto pelado (en inglés plain
text) es un
archivo informático compuesto únicamente
por
texto sin
formato, sólo
caracteres, lo que lo hace también
legible por humanos. Estos caracteres se
pueden
codificar de distintos modos
dependiendo de la lengua usada. Algunos de los sistemas de codificación más
usados son:
ASCII,
ISO-8859-1 o
Latín-1 y
UTF-8.
Carecen de información destinada a generar formatos
(negritas, subrayado, cursivas, tamaño, etc.) y
tipos
de letra (por ejemplo, Arial, Times, Courier, etc.). El término texto
llano proviene de una traducción literal del término inglés plain text,
término que en lengua castellana significa texto simple o texto sencillo.
Las aplicaciones destinadas a la escritura y modificación de
archivos de texto se llaman
editores
de texto.
Dado que una
unidad
de disco, o de hecho cualquier
memoria solo puede almacenar en
los
bits, la
computadora debe tener alguna manera de convertir la pequeña
información a
ceros y unos y viceversa. Hay diferentes tipos de formatos para diferentes
tipos de información. Sin embargo, dentro de cada tipo de formato, por ejemplo
documentos de un
procesador de texto, habrá normalmente varios
formatos diferentes, a veces en competencia.
Visión general
Lo que hace a un archivo distinto del otro son sus
propiedades, cómo se almacenan los
datos, sus
capacidades de reproducción, y cómo puede utilizarse un archivo en un sistema
de administración de archivos (etiquetado).
Funcionamiento
La manera general de almacenar
audio
digital es muestreando el voltaje de audio, que al reproducirlo,
corresponde a un nivel de señal en un canal individual con una cierta
resolución -el número de bits por muestreo - en intervalos regulares (creando
la frecuencia de muestreo). Estos datos después pueden ser almacenados sin
comprimir o comprimidos para reducir el tamaño del formato..
Tipos de formatos
Existen diferentes tipos de formato según la compresión del
audio. Es importante saber distinguir entre formato de archivo y
codec. El codec codifica
y decodifica los datos del audio mientras estos datos son archivados en un
archivo que tiene un formato de audio específico. La mayoría de los formatos de
archivo de audio públicamente documentados pueden ser creados con uno de dos o
más codificadores o codecs. Aunque la mayoría de formatos de archivo de
audio solo soportan un tipo de datos (creado con un codec de audio)
un contenedor de formato de multimedia como
MKV o
AVI puede soportar
múltiples tipos de datos de audio y vídeo.
Hay tres grupos principales de formatos de archivo de audio:
· Formatos
de audio sin comprimir, como
WAV,
AIFF o
AU
Formatos de audio sin comprimir
Hay un formato principal sin comprimir, PCM, que normalmente
esta archivado como.wav en windows y.aiff en MAC. WAV y AIFF son formatos
flexibles creados para almacenar varios combinaciones de frecuencia de muestreo
o tasa de bits, esto los hacen adecuados para archivar grabaciones originales.
Existe otro tipo de archivo llamado CDA (audio CD Track) que es un archivo
pequeño que sirve como acceso directo a parte de los datos de un CD. El formato
AIFF está basado en el formato IFF, mientras que el formato WAV está basado en
el formato RIFF, que realmente son muy similares. BWF (Broadcast Wav Format)es
el formato de audio estándar creado por la Unión Europea de Radiodifusión como
sucesor a WAV y permite el almacenamiento de meta-datos en el archivo. Este
formato es principalmente usado por muchos programas profesionales de edición
de audio en las industrias de televisión y cine. Archivos BWF contienen una
referencia de
timestamp estandarizado que permite sincronizar
fácilmente con un elemento de foto separado. Stand-alone, Grabadoras
multi-pista de dispositivos de audio, Zaxcom, HHB USA, Fostex y Aaton utilizan
BWF como su formato preferido.
En
ciencias de la computación la compresión
de datos es la reducción del volumen de
datos tratables
para representar una determinada información empleando una menor cantidad de
espacio. Al acto de compresión de datos se denomina compresión, y al
contrario descompresión.
El espacio que ocupa una información codificada
(datos,
señal digital, etc.) sin compresión es el cociente
entre la
frecuencia de muestreo y la
resolución. Por tanto, cuantos más
bits se empleen
mayor será el tamaño del archivo. No obstante, la resolución viene impuesta por
el
sistema digital con que se trabaja y no se
puede alterar el número de bits a voluntad; por ello, se utiliza la compresión,
para transmitir la misma cantidad de información que ocuparía una gran
resolución en un número inferior de bits.
La compresión es un caso particular de la
codificación, cuya característica principal es
que el código resultante tiene menor tamaño que el original.
La compresión de datos se basa fundamentalmente en buscar
repeticiones en series de datos para después almacenar solo el dato junto al
número de veces que se repite. Así, por ejemplo, si en un fichero aparece una
secuencia como "AAAAAA", ocupando 6 bytes se podría almacenar
simplemente "6A" que ocupa solo 2 bytes, en
algoritmo RLE.
En realidad, el proceso es mucho más complejo, ya que
raramente se consigue encontrar patrones de repetición tan exactos (salvo en
algunas imágenes). Se utilizan
algoritmos de compresión:
· Por
un lado, algunos buscan series largas que luego codifican en formas más breves.
· Por
otro lado, algunos algoritmos, como el
algoritmo de Huffman, examinan los caracteres
más repetidos para luego codificar de forma más corta los que más se repiten.
· Otros,
como el
LZW,
construyen un diccionario con los patrones encontrados, a los cuales se hace
referencia de manera posterior.
A la hora de hablar de compresión hay que tener presentes
dos conceptos:
1.
Redundancia:
Datos que son repetitivos o previsibles
2.
Entropía: La información nueva o esencial
que se define como la diferencia entre la cantidad total de datos de un mensaje
y su redundancia.
La información que transmiten los datos puede ser de tres
tipos:
1. Redundante: información repetitiva
o predecible.
2. Irrelevante: información que no
podemos apreciar y cuya eliminación por tanto no afecta al contenido del
mensaje. Por ejemplo, si las frecuencias que es capaz de captar el oído humano
están entre 16/20 Hz y 16.000/20.000 Hz, serían irrelevantes aquellas
frecuencias que estuvieran por debajo o por encima de estos valores.
3. Básica: la relevante. La que no es
ni redundante ni irrelevante. La que debe ser transmitida para que se pueda
reconstruir la señal.
Teniendo en cuenta estos tres tipos de información, se
establecen tres tipologías de compresión de la información:
1. Sin pérdidas reales: es decir,
transmitiendo toda la entropía del mensaje (toda la información básica e
irrelevante, pero eliminando la redundante).
2. Subjetivamente sin pérdidas: es
decir, además de eliminar la información redundante se elimina también la
irrelevante.
3. Subjetivamente con pérdidas: se
elimina cierta cantidad de información básica, por lo que el mensaje se
reconstruirá con errores perceptibles pero tolerables (por ejemplo: la
videoconferencia).
Lo habitual es utilizar dispositivos de almacenamiento de
datos que permiten el acceso a los datos como una cadena de bloques de un mismo
tamaño, a veces llamados sectores, usualmente de 512
bytes de longitud
(También denominados clústers). El
software del
sistema de archivos es responsable de la organización de estos sectores en
archivos y directorios y mantiene un registro de qué sectores pertenecen a qué
archivos y cuáles no han sido utilizados. En la práctica, un sistema de
archivos también puede ser utilizado para acceder a datos generados
dinámicamente, como los recibidos a través de una conexión de
red (sin la intervención de un dispositivo
de almacenamiento).
Los sistemas de archivos tradicionales proveen métodos para
crear, mover, renombrar y eliminar tanto archivos como directorios, pero
carecen de métodos para crear, por ejemplo, enlaces adicionales a un directorio
o archivo (
enlace duro en Unix) o renombrar enlaces padres
(".." en Unix).
El acceso seguro a sistemas de archivos básicos puede estar
basado en los esquemas de
lista de control de acceso o
capacidades. Las listas de control de acceso hace décadas que demostraron ser
inseguras, por lo que los sistemas operativos experimentales utilizan el acceso
por capacidades. Los sistemas operativos comerciales aún funcionan con listas
de control de acceso